Scam detection with large language models : multimodal risk analysis of URLs and chat messages


Thèse ou mémoire / Thesis or Dissertation
En cours de chargement...
Vignette d'image

Date de publication

Autrices et auteurs

Contributrices et contributeurs

Direction de recherche

Publié dans

Date de la Conférence

Lieu de la Conférence

Éditeur

Cycle d'études

Maîtrise / Master's

Programme

Affiliation

Mots-clés

  • Scam Detection
  • Generative AI
  • Ingénierie sociale
  • Sensibilisation des utilisateurs
  • Large Language Models
  • Multimodal analysis
  • Social Engineering
  • User Awareness
  • Détection d’arnaques
  • IA générative
  • Modèles de langage de grande taille
  • Analyse multimodale

Organisme subventionnaire

Résumé

Depuis longtemps déjà, les arnaques sont devenues une partie inévitable dans la vie numérique, s’appuyant sur la manipulation émotionnelle et sur du contenu soigneusement élaboré pour tromper les utilisateurs. Les arnaques modernes se déploient souvent de manière graduelle, exploitant le texte, les images et les liens trompeurs pour tirer parti de vulnérabilités émotionnelles. Ce phénomène est amplifié par l’essor de l’intelligence artificielle générative (IA générative), qui permet aux acteurs malveillants de créer des attaques plus convaincantes à grande échelle avec peu d’efforts. Bien que l’IA générative contribue à aggraver la menace, elle ouvre également la voie à de nouvelles possibilités pour concevoir des systèmes capables de détecter ces arnaques et d’expliquer les signaux d’alerte en termes accessibles. Ce mémoire présente deux systèmes modulaires conçus pour identifier les arnaques en ligne. Le premier, nommé LinkLynx, analyse les sites Web suspects en évaluant la structure de l’URL, les métadonnées d’enregistrement du domaine, ainsi que le contenu de la page, incluant le texte et les captures d’écran. Le second système, SCOUT, vise à détecter les arnaques sur les plateformes de messagerie instantanée, en analysant les conversations textuelles, les images partagées et les liens intégrés. SCOUT intègre notamment les résultats de l’analyse de lien effectuée par LinkLynx afin de soutenir son évaluation. Les deux systèmes utilisent des modèles de langage de grande taille, non seulement pour attribuer un score de risques d’arnaques, mais aussi pour générer des explications concises et conviviales afin d’aider à la prise de décision. Un nouveau jeu de données, nommé DECEPT, est construit pour soutenir le développement et l’évaluation de ces systèmes. Il comprend des données multimodales provenant de sites Web frauduleux et légitimes, ainsi que des conversations réelles extraites d’Internet. Les systèmes proposés évaluent le risque d’arnaques à partir d’URLs ou de captures d’écran de conversations en temps réel. Le but étant d'aider les utilisateurs à comprendre comment la supercherie se déploie grâce à un raisonnement transparent et en soulignant les signes majeurs de manipulation. Ce mémoire s’inscrit dans des efforts plus larges visant à renforcer la résilience numérique et la sensibilisation aux arnaques, et a pour objectif non seulement d’identifier les menaces, mais aussi de protéger la dignité, la santé mentale et la confiance des utilisateurs dans un environnement numérique de plus en plus manipulateur.


Scams have long been a persistent part of digital life, relying on emotional manipulation and carefully constructed content to deceive users. Modern scams often unfold gradually, leveraging text, images, and deceptive links to exploit emotional vulnerabilities. Compounding this challenge is the rise of Generative Artificial Intelligence (GenAI), which enables adversaries to scale their operations and create more persuasive attacks with minimal effort. While GenAI contributes to the problem, it also opens new possibilities for building systems that detect scams and explain the warning signs in accessible terms. This work presents two modular systems aimed at identifying online scams. First, a system called LinkLynx is introduced to analyze suspicious websites by assessing their URL structure, domain registration metadata, and webpage content, including webpage text and screenshots. Then, a second system named SCOUT is proposed to detect scams in instant messaging platforms by analyzing chat conversations, shared images, and embedded links. Specifically, SCOUT integrates the URL analysis result of LinkLynx to support its assessment. Both systems use Large Language Models (LLMs) not only to assign scam risk scores, but also to generate concise, user-friendly explanations to support decision-making. A novel dataset, DECEPT, was constructed to support the development and evaluation of these systems. It contains multimodal data from both scam and legitimate websites, as well as real-world chat conversations collected from the Internet. The proposed systems assess scam risk in real time from a URL or chat screenshot, helping users recognize how deception unfolds through transparent reasoning and key manipulation cues. This thesis contributes to broader efforts in digital resilience and scam awareness, aiming not only to flag threats but also to protect users’ dignity, mental health, and trust in an increasingly manipulative digital environment.

Table des matières

Notes

Notes

Autre version linguistique

Ensemble de données lié

Approbation

Évaluation

Complété par

Référencé par

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.