Modélisation de l'activité cérébrale mesurée par imagerie par résonance magnétique fonctionnelle dans une tâche de jeu vidéo par des modèles d'apprentissage profond


Thèse ou mémoire / Thesis or Dissertation

Date de publication

Autrices et auteurs

Identifiant ORCID de l’auteur

Contributrices et contributeurs

Publié dans

Date de la Conférence

Lieu de la Conférence

Éditeur

Cycle d'études

Doctorat / Doctoral

Programme

Affiliation

Mots-clés

  • imagerie cérébrale
  • IRMf
  • artificial neural networks
  • brain modeling
  • jeu vidéo
  • encodage cérébral
  • réseau de neurones artificiels
  • modélisation cérébrale
  • neuroimaging
  • fMRI
  • video game
  • brain encoding

Organisme subventionnaire

Résumé

Les réseaux de neurones artificiels peuvent modéliser l’activité cérébrale par un processus appelé encodage cérébral. Des stimuli bruts, tels que des ondes sonores ou des pixels d’images, sont initialement traités par un réseau de neurones artificiels qui est généralement pré-entraîné à effectuer une tâche complexe (par exemple annoter des images). Pour ce faire, le réseau génère des vecteurs d’activations qui représentent les caractéristiques abstraites des données d’entrées dans un espace de haute dimensions. Ces vecteurs d'activation sont ensuite utilisés pour prédire les signaux d’imagerie cérébrale – tels que l’imagerie par résonance magnétique fonctionnelle – évoqués chez les humains par les mêmes stimuli présentés au réseau de neurones. Alors que la plupart des études précédentes se sont appuyées sur des paradigmes de perception passive, l’utilisation de jeux vidéo pour les tâches d’encodage cérébral reste largement inexplorée. De tels environnements actifs et engageants peuvent se révéler informatifs sur les interactions complexes entre perceptions et actions dans le cerveau. Cette thèse vise à caractériser les ingrédients computationnels clefs pour produire des modèles d’encodage cérébral précis pour des tâches de jeu vidéo. Nous avons d'abord démontré l'impact important à la fois de la taille du jeu de données d'entraînement et de la taille du modèle sur la qualité de l'encodage cérébral, en nous concentrant sur les transformateurs vidéo autorégressifs entraînés à partir de zéro sur des jeux vidéo humains. Nous avons ensuite comparé des modèles entraînés avec différents objectifs : une tâche standard d'annotation d’image, une tâche non supervisée d’autorégression du flux visuel, un objectif d'apprentissage par renforcement (en maximisant la récompense collectée dans le jeu) et un objectif d'apprentissage par imitation. Bien que les expériences initiales aient suggéré un avantage pour les modèles de classification visuelle pré-entraînés, ces différents objectifs d'entraînement ont convergé vers des performances similaires lorsqu'on a contrôlé les entraînements pour homogénéiser les tailles des jeu de données et les tailles des modèles. Nous avons également testé comment ces modèles généralisaient à des niveaux de jeu qui étaient exclus du jeu de données d'entraînement (généralisation hors-distribution), ce qui a abouti à une précision globale beaucoup plus faible et à une meilleure discrimination entre les modèles – avec l’apprentissage par renforcement démontrant la meilleure performance de généralisation. Enfin, nous avons également constaté que les modèles d'encodage cérébral pourraient incorporer l'activité intrinsèque du cerveau (non évoquée par des stimuli externes) en utilisant des modèles de régression autorégressifs. Cependant, cette étude sur les modèles autorégressifs de l’activité cérébrale intrinsèque a été réalisée sur des données de visionnage passif de vidéos, et doit encore être étendue aux données de jeu vidéo. Dans l'ensemble, cette thèse aide à clarifier l'impact pratique de la taille des données d'entraînement, de l'architecture et de la taille du modèle, ainsi que de l’objectif d'entraînement sur la qualité des modèles d'encodage cérébral d’IRMf, montrant que tous ces choix peuvent avoir un impact marqué. Nos résultats démontrent également le rôle critique de la généralisation hors distribution pour arbitrer entre différents modèles, une considération qui a été largement ignorée dans la littérature sur l'encodage cérébral jusqu'à présent.


Artificial neural networks (ANNs) can model brain activity through a process known as brain encoding. Raw input stimuli, such as sound waves or image pixels, are initially fed into an ANN, which is typically pre-trained on a complex task (e.g., image annotation). The ANN processes the input to generate high-dimensional abstract features. These features are then used to predict brain imaging signals—such as functional magnetic resonance imaging (fMRI)—elicited in humans by the same inputs provided to the ANN. While most previous studies have relied on passive perception paradigms, the use of video games for brain encoding tasks remains largely unexplored. Such active, engaging environments can provide insights into the complex interplay between perception and action in the brain. This thesis aimed to characterize the key computational ingredients necessary for creating accurate brain encoding models for video game tasks. We first demonstrated the substantial impact of both the size of the training dataset and the size of the model on the quality of brain encoding, focussing on autoregressive video transformers trained from scratch on human video game play. We then compared models trained with different objectives: a standard object classification task, self-supervised vision auto-regression, reinforcement learning objective (maximizing the reward collected in the game) and an imitation learning objective. Although initial experiments suggested an advantage for pretrained vision classification models, these different training objectives converged on similar performance when controlling for dataset and model size. We also tested how these models generalized to game levels that were excluded from the training dataset (out-of-distribution generalization), which resulted in much lower accuracy overall and improved discrimination between models—with reinforcement learning achieving best performance. Finally, we also found that brain encoding models could incorporate the intrinsic activity of the brain—unrelated to external stimuli—using autoregressive regression models. However, this study of autoregressive models of intrinsic brain activity was done using passive video-watching tasks and still needs to be extended to videogames. Overall, this thesis helps to clarify the practical impact of the size of training data, the architecture and size of the model, as well the training loss on the quality of fMRI brain encoding models, showing that all of these choices can have a marked impact. Our findings also demonstrate the critical role of out-of-distribution generalization in adjudicating between different models, a consideration that has been largely ignored in the brain encoding literature to date.

Table des matières

Notes

Notes

Autre version linguistique

Ensemble de données lié

Licence

Approbation

Évaluation

Complété par

Référencé par

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.