La reconnaissance faciale par l’IA et par les humains : une étude comparative combinant réseaux de neurones artificiels et l'imagerie cérébrale


Thèse ou mémoire / Thesis or Dissertation

Date de publication

Autrices et auteurs

Identifiant ORCID de l’auteur

Contributrices et contributeurs

Direction de recherche

Publié dans

Date de la Conférence

Lieu de la Conférence

Éditeur

Cycle d'études

Maîtrise / Master's

Programme

Affiliation

Mots-clés

  • Réseaux neuronaux convolutifs (RCNs)
  • Convolutional Neural Networks (CNNs)
  • Face Recognition
  • Familiar and Unfamiliar Stimuli
  • Temporal Dynamics
  • Occipital and Fusiform Areas
  • Neural Mechanisms
  • Brain Models
  • Magnétoencéphalographie (MEG)
  • Reconnaissance des visages
  • Visage familiers et non familiers
  • Dynamique temporelle
  • Regions occipitale et fusiforme
  • Mécanismes neuronaux
  • Modèles cérébraux
  • Magnetoencephalography (MEG)

Organisme subventionnaire

Résumé

Au cours de la dernière décennie, la recherche à l’interface entre les neurosciences et l’intelligence artificielle (IA) a connu un essor remarquable, permettant de mieux avancer notre compréhension à la fois la cognition artificielle et la cognition naturelle. De plus en plus de travaux montrent que les réseaux neuronaux biologiques et artificiels, lorsqu’ils sont entraînés sur des tâches similaires, peuvent adopter des fonctions étonnamment proches. Dans le but de comprendre les mécanismes du cerveau, les réseaux neuronaux artificiels (RNAs), inspirés par son organisation et ses propriétés, sont proposés comme outils performants pour modéliser différents systèmes cérébraux. En particulier, les réseaux neuronaux convolutifs (RNCs) entraînés à la reconnaissance d’objets se sont révélés capables de reproduire la hiérarchie de traitement du système visuel humain et d’en approcher les représentations internes. Pour la perception des visages, les travaux en neurosciences suggèrent un système cérébral spécialisé, dont le traitement des visages familiers et non familiers demeure l’objet de débats : certaines recherches concluent à l’usage de mécanismes communs, d’autres mettent en avant des processus distincts. De multiples études ont comparé le comportement de modèles de vision artificielle à celui d’humains, notamment via l’IRMf, afin de déterminer la mesure dans laquelle ces modèles imitent la perception faciale humaine. Dans ce mémoire, nous introduisons d’abord les connaissances actuelles sur le système visuel et la reconnaissance des visages, puis nous présentons les grands principes de l’intelligence artificielle et quelques tentatives de modélisation de la perception faciale à l’aide de RNCs. Le cœur de ce travail propose une comparaison de sept architectures de RNCs avec des données de magnétoencéphalographie (MEG), afin d’explorer les signatures neuronales de la reconnaissance faciale et de la familiarité dans la dimension temporelle. Les réseaux ont été optimisés pour différentes tâches (reconnaissance de visages, d’objets, ou les deux), ce qui nous a permis d’étudier comment leurs représentations rendent compte, à divers degrés, du processus de perception des visages dans le cerveau. Nos résultats indiquent que FaceNet présente un alignement particulièrement fort avec les régions occipitales et fusiformes, toutes deux cruciales pour la perception faciale, même si certaines architectures profondes (par exemple ResNet) s’approchent aussi de ces dynamiques neuronales. Nous observons qu’au niveau occipital, la composante M170 liée à la familiarité se manifeste plus tôt pour les visages familiers (vers 160ms) et plus tardivement pour les visages non familiers (autour de 180ms), suggérant que l’inconnu requiert un encodage plus long. Nous observons également une forte similarité CNN–MEG dans les bandes de fréquences thêta et gamma, avec des pics plus précoces (M170–M200) pour les visages familiers et un décalage vers M400 pour les visages non familiers. La comparaison de plusieurs objectifs d'entraînement confirme que la tâche d'entraînement peut influer sur l'alignement temporel avec les données cérébrales. Enfin, la discussion aborde les limites potentielles des CNNs en tant que modèles du cerveau, tout en mettant en lumière leur intérêt pour la compréhension des mécanismes neuronaux sous-jacents à la reconnaissance faciale. Les connaissances tirées de cette étude pourraient guider la conception de modèles de perception des visages plus performants, tant en IA qu’en neurosciences computationnelles.


In the past decade, there has been a surge of research at the intersection of neuroscience and artificial intelligence (AI) aimed at advancing our understanding of both artificial and natural cognition. Growing evidence suggests that biological and artificial neural networks trained on similar tasks can exhibit striking functional parallels. Driven by the imperative to model the brain in order to decipher its underlying mechanisms, artificial neural networks (ANNs)—originally inspired by its architecture and functions—have been proposed as effective models of various brain systems. Convolutional Neural Networks (CNNs) trained on object recognition have demonstrated their ability to approximate the human visual system’s processing hierarchy and internal representations. In the context of face perception, neuroscience findings highlight a specialized neural system; yet whether familiar and unfamiliar faces are processed by the same mechanisms or via distinct pathways remains debated. Although numerous studies have compared AI-based face models to human behavior or fMRI data, questions persist about how closely these models capture the temporal dynamics of human face processing. This thesis first reviews current knowledge of the human visual system, focusing on the dedicated face recognition circuitry, and then introduces foundational concepts in AI, including the modeling of face perception with CNNs. The core work compares seven CNN architectures against source-localized magnetoencephalography (MEG) data to probe the neural signatures of face recognition and familiarity over time. These networks were optimized for different tasks—face recognition, object recognition, or both—allowing us to assess how task-specific representations capture the brain’s face processing in distinct ways. Our findings show that FaceNet aligns particularly well with occipital and fusiform regions implicated in face perception, while certain other deep architectures (e.g., ResNet) also achieve comparable levels of neural alignment. In the occipital region, the M170 component associated with familiarity occurs earlier (around 160ms) for familiar faces and later for unfamiliar ones (approximately 180ms), suggesting that novel identities demand more prolonged processing. We additionally observe strong CNN–MEG similarities in theta and gamma frequency bands, with earlier peaks (M170–M200) for familiar stimuli and a shift toward M400 for unfamiliar faces. Comparing multiple training objectives confirms the training task could have an impact on the temporal alignment with brain data. Finally, the discussion addresses potential limitations of CNNs as models of the brain, while highlighting their promise in shedding light on the neural mechanisms underlying face recognition. The insights gained from this work may guide the development of more robust models of face perception for both AI and computational neuroscience.

Table des matières

Notes

Notes

Autre version linguistique

Ensemble de données lié

Licence

Approbation

Évaluation

Complété par

Référencé par

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.