Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires
URI permanent de cette collectionhttps://hdl.handle.net/1866/3001
Cette collection présente les thèses et mémoires des étudiant.e.s du Département d'informatique et de recherche opérationnelle de l'Université de Montréal.
1990 - : Couverture exhaustive (quelques titres manquants)
avant 1990 : Période non couverte ou couverture partielle
Pour plus d'information sur le dépôt des thèses et mémoires consulter le site Thèses et mémoires des bibliothèques
Site web du Département d'informatique et de recherche opérationnelle
Parcourir
Dépôts récents
Item Accès libre Identifying latent structures in dataLachapelle, Sébastien; Lacoste-Julien, Simon (2024-04)Le triomphe de l’apprentissage profond dans divers domaines tels que la classification d’images, la reconnaissance vocale, la génération de langage naturel et la génération d’images a été rendu possible par l’augmentation de la taille des ensembles de données, l’augmentation de la capacité de calcul, une communauté open source dynamique et des innovations architecturales qui, ensemble, ont permis d’entrainer des réseaux neuronaux de plus en plus expressifs. Bien que cette nouvelle approche ait abouti à des percées impressionnantes, elle a été accompagnée d’un manque d’interprétabilité des modèles et de garanties théoriques. Cette thèse tente de construire des modèles suffisamment restreints pour être interprétables et/ou analysables théoriquement tout en restant suffisamment expressifs pour être utiles dans des modalités difficiles telles que les images. La plupart des contributions se concentrent sur l’identifiabilité, la propriété qu’un modèle statistique possède lorsque ses paramètres sont déterminés par la distribution qu’ils représentent, à une classe d’équivalence près. Bien que l’identifiabilité soit centrale en inférence causale, en apprentissage de graphe causal et en analyse de composantes indépendante, cette propriété n’est pas aussi bien comprise dans le contexte de l’apprentissage profond. Cette thèse soutient que l’étude de l’identifiabilité en apprentissage automatique est utile pour mieux comprendre les modèles existants ainsi que pour en construire de nouveaux qui soient interprétables et pourvus de garanties de généralisation. Ce qui en découle sont de nouvelles garanties d’identifiabilité pour des modèles expressifs, pour l’apprentissage de graphe causal et de représentations. Les première et deuxième contributions (Chapitres 3 et 4) proposent de nouveaux algorithmes basés sur les gradients pour apprendre un graphe causal à partir de données observationnelles et interventionnelles, respectivement. Ces contributions ont étendu des approches contraintes continues des relations linéaires aux relations non linéaires et ont souligné l’avantage computationnel de ces approches lorsque l’ensemble de données est très grand. Les troisième, quatrième et cinquième contributions (Chapitres 5, 6 et 7) fournissent de nouvelles garanties d’identifiabilité pour le désentrelacement (disentanglement) dans l’apprentissage de représentations. Le Chapitre 5 montre que, dans un modèle spécifique à variables latentes, les facteurs latents réels peuvent être identifiés à une permutation et une bijection par élément près lorsque des variables auxiliaires observées et/ou des facteurs latents passés les affectent de manière parcimonieuse (sparse). Ces résultats ne font pas d’hypothèses paramétriques et caractérisent la structure du désentrelacement en fonction du graphe causal latent sous-jacent. Le Chapitre 6 introduit un problème d’optimisation bi-niveau pour l’apprentissage multi-tâches parcimonieux et prouve que, avec des tâches suffisamment parcimonieuses et diverses, la représentation apprise doit être désentrelacée. De plus, il fournit un argument formel montrant comment le désentrelacement est bénéfique dans un contexte d’apprentissage avec peu d’exemples (few-shot learning). Le Chapitre 7 étudie une classe simple de décodeurs que nous appelons "décodeurs additifs" pour lesquels nous pouvons prouver à la fois des garanties de désentrelacement et d’extrapolation. Les décodeurs additifs sont intéressants à étudier car ils ressemblent aux architectures utilisées dans l’apprentissage de représentations centrées sur les objets (object-centric representation learning) et constituent une étape vers la compréhension de la créativité et de l’extrapolation dans les modèles génératifs modernes. Le Chapitre 8 discute de trois interprétations de l’identifiabilité et unifie les contributions de cette thèse à l’aide d’un cadre simple en trois étapes mettant en évidence le rôle de l’identifiabilité pour obtenir des garanties de généralisations. Spécifiquement, quatres types de problème sont couverts: l’apprentissage de graphes causals, les décodeurs additifs pour l’extrapolation, l’apprentissage multi-tâches parcimonieux et l’apprentissage semi-supervisé par regroupement (clustering). Les relations entre ces problèmes sont rendues transparentes grâce au cadre de la théorie de la décision statistique.Item Accès libre Generative flow networks : theory and applications to structure learningDeleu, Tristan; Bengio, Yoshua (2024-08)Découvrir la structure d'un modèle causal seulement à partir de donnée souffre de problèmes d'identifiabilité. En général, plusieurs modèles équivalents peuvent tout aussi bien expliquer la donnée observée, même s'ils impliquent des conclusions causales complètement différentes. Ainsi, choisir un de ces éléments de manière arbitraire pourrait donner lieu à des décisions dangereuses si le modèle n'est pas aligné avec la manière dont le monde fonctionne réellement. Il est donc impératif de maintenir une notion d'incertitude épistémique sur les différents candidats pour limiter les risques posés par ces modèles non alignés, surtout lorsqu'il y a peu de donnée. En prenant une perspective bayésienne, cette incertitude peut être représentée par une distribution postérieure sur les modèles, conditionnée sur les observations. Mais comme c'est le cas pour beaucoup de problèmes en inférence bayésienne, la postérieure est typiquement impossible à calculer à cause du grand nombre de structures possibles, représentées par des graphes dirigés acycliques (DAGs). Des approximations sont donc nécessaires. Même s'il y a eu d'énormes avancées en modélisation générative ces dernières années, menées par la puissante combinaison de l'inférence variationelle et de l'apprentissage profond, la plupart de ces modèles sont particulièrement adaptés à des espaces continus. Par conséquent, cela les rend inapplicables pour des problèmes avec des objets discrets comme des graphes dirigés, avec des contraintes complexes d'acyclicité. Dans la première partie de cette thèse, nous introduisons les réseaux à flots génératifs (GFlowNets), une nouvelle classe de modèles probabilistes specialement créés pour representer des distributions sur des objets discrets et compositionnels comme des graphes. Les GFlowNets traitent la génération d'un échantillon comme un problème de décisions séquentielles, en le construisant morceau par morceau. Ces modèles décrivent des distributions définies à une constante de normalisation près en imposant la conservation de certains flots à travers un réseau. Nous mettrons l'accent sur les liens qui existent avec divers domaines de l'apprentissage statistique, comme l'inférence variationelle et l'apprentissage par renforcement, et nous discuterons d'extensions à des espaces généraux. Ensuite dans la deuxième partie de cette thèse, nous montrerons comment les GFlowNets sont capables d'approcher la distribution postérieure sur les structures de DAG des réseaux bayésiens, en fonction d'observations. Mais au delà de la structure seule, nous montrerons que les paramètres des distributions conditionelles peuvent également être intégrés dans l'approximations de la postérieure représentée par le GFlowNet, ce qui nous permet une plus grande flexibilité dans la manière dont les réseaux bayésiens sont définis.Item Accès libre Modélisation de l'activité cérébrale mesurée par imagerie par résonance magnétique fonctionnelle dans une tâche de jeu vidéo par des modèles d'apprentissage profondPaugam, François; Bellec, Pierre-Louis; Lajoie, Guillaume (2024-12)Les réseaux de neurones artificiels peuvent modéliser l’activité cérébrale par un processus appelé encodage cérébral. Des stimuli bruts, tels que des ondes sonores ou des pixels d’images, sont initialement traités par un réseau de neurones artificiels qui est généralement pré-entraîné à effectuer une tâche complexe (par exemple annoter des images). Pour ce faire, le réseau génère des vecteurs d’activations qui représentent les caractéristiques abstraites des données d’entrées dans un espace de haute dimensions. Ces vecteurs d'activation sont ensuite utilisés pour prédire les signaux d’imagerie cérébrale – tels que l’imagerie par résonance magnétique fonctionnelle – évoqués chez les humains par les mêmes stimuli présentés au réseau de neurones. Alors que la plupart des études précédentes se sont appuyées sur des paradigmes de perception passive, l’utilisation de jeux vidéo pour les tâches d’encodage cérébral reste largement inexplorée. De tels environnements actifs et engageants peuvent se révéler informatifs sur les interactions complexes entre perceptions et actions dans le cerveau. Cette thèse vise à caractériser les ingrédients computationnels clefs pour produire des modèles d’encodage cérébral précis pour des tâches de jeu vidéo. Nous avons d'abord démontré l'impact important à la fois de la taille du jeu de données d'entraînement et de la taille du modèle sur la qualité de l'encodage cérébral, en nous concentrant sur les transformateurs vidéo autorégressifs entraînés à partir de zéro sur des jeux vidéo humains. Nous avons ensuite comparé des modèles entraînés avec différents objectifs : une tâche standard d'annotation d’image, une tâche non supervisée d’autorégression du flux visuel, un objectif d'apprentissage par renforcement (en maximisant la récompense collectée dans le jeu) et un objectif d'apprentissage par imitation. Bien que les expériences initiales aient suggéré un avantage pour les modèles de classification visuelle pré-entraînés, ces différents objectifs d'entraînement ont convergé vers des performances similaires lorsqu'on a contrôlé les entraînements pour homogénéiser les tailles des jeu de données et les tailles des modèles. Nous avons également testé comment ces modèles généralisaient à des niveaux de jeu qui étaient exclus du jeu de données d'entraînement (généralisation hors-distribution), ce qui a abouti à une précision globale beaucoup plus faible et à une meilleure discrimination entre les modèles – avec l’apprentissage par renforcement démontrant la meilleure performance de généralisation. Enfin, nous avons également constaté que les modèles d'encodage cérébral pourraient incorporer l'activité intrinsèque du cerveau (non évoquée par des stimuli externes) en utilisant des modèles de régression autorégressifs. Cependant, cette étude sur les modèles autorégressifs de l’activité cérébrale intrinsèque a été réalisée sur des données de visionnage passif de vidéos, et doit encore être étendue aux données de jeu vidéo. Dans l'ensemble, cette thèse aide à clarifier l'impact pratique de la taille des données d'entraînement, de l'architecture et de la taille du modèle, ainsi que de l’objectif d'entraînement sur la qualité des modèles d'encodage cérébral d’IRMf, montrant que tous ces choix peuvent avoir un impact marqué. Nos résultats démontrent également le rôle critique de la généralisation hors distribution pour arbitrer entre différents modèles, une considération qui a été largement ignorée dans la littérature sur l'encodage cérébral jusqu'à présent.Item Embargo Multi-contrast image-to-image translation for axon and myelin segmentationKatoch, Nishka; Wolf, Guy; Cohen-Adad, Julien (2025-04)The analysis of segmented histological images plays a crucial role in the study of neurodegen- erative disorders such as Alzheimer’s disease and multiple scleorsis. Segmented histological data enables the precise identification and quantification of pathological features, facilitat- ing a deeper understanding of disease mechanisms and progression. These images, typically acquired through electron microscopy (EM), exhibit diverse modalities that reflect various properties of neurological tissue. A common challenge in developing segmentation models is the scarcity of data across these modalities. To address this, we propose an image translation method utilizing diffusion models. Our approach involves a framework where the source im- age is converted into a latent encoding, which is then decoded back into the source modality using guided diffusion models. Each model is trained independently on a specific modality, employing segmented images as labels integrated within the latent encodings. We evaluate the efficiency of our method by comparing its translations with those generated by genera- tive adversarial models and diffusion models. This approach aims to minimize the number of translation models required and ensures data privacy by operating on latent encodings.Item Accès libre Building intuitive reinforcement learning algorithmsD'Oro, Pierluca; Gendron-Bellemare, Marc; Bacon, Pierre-Luc (2024-10)La promesse de l’apprentissage par renforcement (RL) est de former des agents capables d’interagir avec potentiellement n’importe quel environnement. Pour tenir cette promesse, les algorithmes de RL doivent être intuitifs. Cette thèse présente des approches visant à rendre le RL à la fois efficace et intuitif pour les concepteurs d’agents. Comme travaux préparatoires, je présente d’abord plusieurs avancées dans la compréhension fondamentale des algorithmes modernes de RL. Premièrement, en dévoilant le biais de primauté, une tendance des agents RL profonds à ne pas apprendre à partir de flux d’expériences, en raison de la dynamique de l’entraînement des réseaux neuronaux, et en proposant un remède basé sur des réinitialisations périodiques. Ensuite, en étudiant les caractéristiques des paysages de retour générés par les algorithmes RL profonds et la performance des politiques qu’ils entraînent, à mesure que leurs paramètres évoluent. De plus, je présente une approche idéalisée de l’exploration appelée méta-programmation dynamique, validée dans le contexte de la programmation dynamique asynchrone. Je présente ensuite deux cadres RL intuitifs, dont le développement s’est appuyé sur les enseignements tirés des travaux préparatoires. Le premier, basé sur le ratio de relecture échelonné, est une approche remarquablement simple mais extrêmement efficace, permettant d’augmenter l’efficacité de l’échantillonnage des algorithmes de RL en équilibrant naturellement les ressources computationnelles et de données, grâce à l’utilisation de réinitialisations périodiques. Le second, nommé Motif, combine les grands modèles de langage (LLM) et le RL pour simplifier la motivation intrinsèque et la conception des récompenses, offrant une stratégie générale pour ancrer les LLM et distiller leur connaissance du sens commun dans des capacités de prise de décision séquentielle.Item Accès libre An investigation of weight perturbation for mitigating Spurious CorrelationsNobahari, Rozhin; Lacoste-Julien, Simon (2024-11)Les corrélations spurielles—des motifs non causaux présents dans les données—posent un défi significatif pour la généralisation et l'équité des systèmes d'apprentissage profond. Ces caractéristiques, bien qu'elles ne soient pas les caractéristiques principales d'intérêt, conduisent souvent à des prédictions biaisées. Ce biais défavorise particulièrement les groupes minoritaires ou des sous-ensembles des données où ces caractéristiques ne sont pas alignées avec les caractéristiques principales (exemples conflictuels). Atténuer ce problème est crucial pour assurer un déploiement robuste des modèles d'apprentissage automatique dans des environnements réels. Dans ce travail, nous confirmons d'abord la dépendance des modèles d'apprentissage profond aux corrélations spurielles. En outre, nous étudions l'effet de la perturbation des paramètres du modèle sur les exemples conflictuels. Grâce à des expériences sur deux ensembles de données de référence, nous démontrons l'impact prononcé des perturbations de poids sur les exemples conflictuels. Enfin, nous utilisons cette perspicacité pour concevoir une procédure d'entraînement qui guide le modèle vers l'apprentissage de caractéristiques plus robustes. Nous introduisons une nouvelle approche d'atténuation qui combine l'inférence basée sur la perturbation suivie d'un processus d'affinage. Notre méthode améliore notablement la précision du pire groupe avec une charge de calcul minimale, ce qui en fait une solution pratique pour améliorer la robustesse du modèle, en particulier dans les cas où l'attribut spécieux n'est pas disponible pendant l'entraînement ou la validation. Ces résultats soulignent le potentiel des perturbations de poids comme outil pour améliorer l'équité et la robustesse des modèles.Item Accès libre Data-driven large neighbourhood search for combinatorial optimization problemsRobinson La Rocca, Charly; Frejinger, Emma (2025-01)Les problèmes d'Optimisation Combinatoire (OC) sont omniprésents dans les domaines où une allocation de ressources discrètes est requise. Ces problèmes ont des implications tangibles, car des solutions de haute qualité peuvent considérablement améliorer l'efficacité opérationnelle, réduire les coûts et augmenter la rentabilité des organisations. Typiquement formulés comme des Programmes Mixtes en Nombres Entiers (PMNE), ces problèmes présentent un défi computationnel même pour les solveurs les plus avancés (état de l'art). Cette thèse étudie le développement d'heuristiques efficaces, en particulier pour les instances de grande taille où les méthodes traditionnelles peinent à trouver des solutions de haute qualité dans des délais raisonnables. L'Apprentissage Automatique (AA) représente une voie prometteuse pour améliorer les heuristiques à usage général en apprenant des stratégies à partir des données. Cette thèse contient trois articles qui examinent l'intégration des techniques d'AA dans le cadre de la Recherche à Grand Voisinage (RGV) en mettant l'accent sur l'efficacité computationnelle. Le premier article démontre comment les données collectées tôt dans l'arbre de recherche peuvent aider à prédire des solutions de haute qualité pour les PMNE avec des ensembles ordonnés spéciaux de type 1. Ce type de contrainte est typiquement utilisé pour modéliser des affectations dans les problèmes d'OC. Le deuxième article se concentre sur le problème de conception de réseau multi-produits avec coûts fixes et capacité limitée et sur l'intégration de méthodes d'apprentissage dans l'heuristique qui représente l'état de l'art. Le troisième article combine les connaissances acquises des deux premiers pour développer une RGV améliorée par AA pour des PMNE génériques. En proposant des approches efficientes et accessibles, cette thèse pose les bases pour l'intégration pratique de l'AA en OC. Les méthodes présentées visent à équilibrer l'efficacité computationnelle avec la qualité des solutions, et elles offrent des perspectives pragmatiques sur la façon dont les techniques basées sur les données peuvent améliorer les stratégies d'optimisation traditionnelles. Ce travail contribue à l'effort continu pour résoudre plus efficacement des problèmes d'optimisation complexes et concrets, ce qui peut conduire à des améliorations significatives dans diverses industries et applications.Item Accès libre La reconnaissance faciale par l’IA et par les humains : une étude comparative combinant réseaux de neurones artificiels et l'imagerie cérébraleAbdelhedi, Hamza; Jerbi, Karim; Bakhtiari, Shahab (2025-03)Au cours de la dernière décennie, la recherche à l’interface entre les neurosciences et l’intelligence artificielle (IA) a connu un essor remarquable, permettant de mieux avancer notre compréhension à la fois la cognition artificielle et la cognition naturelle. De plus en plus de travaux montrent que les réseaux neuronaux biologiques et artificiels, lorsqu’ils sont entraînés sur des tâches similaires, peuvent adopter des fonctions étonnamment proches. Dans le but de comprendre les mécanismes du cerveau, les réseaux neuronaux artificiels (RNAs), inspirés par son organisation et ses propriétés, sont proposés comme outils performants pour modéliser différents systèmes cérébraux. En particulier, les réseaux neuronaux convolutifs (RNCs) entraînés à la reconnaissance d’objets se sont révélés capables de reproduire la hiérarchie de traitement du système visuel humain et d’en approcher les représentations internes. Pour la perception des visages, les travaux en neurosciences suggèrent un système cérébral spécialisé, dont le traitement des visages familiers et non familiers demeure l’objet de débats : certaines recherches concluent à l’usage de mécanismes communs, d’autres mettent en avant des processus distincts. De multiples études ont comparé le comportement de modèles de vision artificielle à celui d’humains, notamment via l’IRMf, afin de déterminer la mesure dans laquelle ces modèles imitent la perception faciale humaine. Dans ce mémoire, nous introduisons d’abord les connaissances actuelles sur le système visuel et la reconnaissance des visages, puis nous présentons les grands principes de l’intelligence artificielle et quelques tentatives de modélisation de la perception faciale à l’aide de RNCs. Le cœur de ce travail propose une comparaison de sept architectures de RNCs avec des données de magnétoencéphalographie (MEG), afin d’explorer les signatures neuronales de la reconnaissance faciale et de la familiarité dans la dimension temporelle. Les réseaux ont été optimisés pour différentes tâches (reconnaissance de visages, d’objets, ou les deux), ce qui nous a permis d’étudier comment leurs représentations rendent compte, à divers degrés, du processus de perception des visages dans le cerveau. Nos résultats indiquent que FaceNet présente un alignement particulièrement fort avec les régions occipitales et fusiformes, toutes deux cruciales pour la perception faciale, même si certaines architectures profondes (par exemple ResNet) s’approchent aussi de ces dynamiques neuronales. Nous observons qu’au niveau occipital, la composante M170 liée à la familiarité se manifeste plus tôt pour les visages familiers (vers 160ms) et plus tardivement pour les visages non familiers (autour de 180ms), suggérant que l’inconnu requiert un encodage plus long. Nous observons également une forte similarité CNN–MEG dans les bandes de fréquences thêta et gamma, avec des pics plus précoces (M170–M200) pour les visages familiers et un décalage vers M400 pour les visages non familiers. La comparaison de plusieurs objectifs d'entraînement confirme que la tâche d'entraînement peut influer sur l'alignement temporel avec les données cérébrales. Enfin, la discussion aborde les limites potentielles des CNNs en tant que modèles du cerveau, tout en mettant en lumière leur intérêt pour la compréhension des mécanismes neuronaux sous-jacents à la reconnaissance faciale. Les connaissances tirées de cette étude pourraient guider la conception de modèles de perception des visages plus performants, tant en IA qu’en neurosciences computationnelles.Item Accès libre Technical methods for governing AI agentsChan, Alan; Le Roux, Nicolas; Krueger, David (2025-04)Une grande partie de la recherche en intelligence artificielle (IA) vise à construire des agents---des systèmes qui seraient capables d'atteindre des objectifs de manière autonome, sans instructions explicites pour comment agir. La possibilité de construire des agents d'usage général, en particulier ceux basés sur les ``modèles de fondation'', a suscité des inquiétudes croissantes quant à leurs risques. Ces risques pourraient inclure le mauvais usage, le dysfonctionnement, et des effets économiques ou politiques diffus, mais ils sont encore incertains. Il faut obtenir plus d'informations sur ces risques. Il faut également préparer à l'avance des interventions potentielles, car certaines d'entres elles pourraient prendre beaucoup de temps (par exemple, l'adoption de normes prend généralement des années). Cette thèse fait avancer ces deux tâches. Dans le premier article, nous caractérisons plus précisément les agents et décrivons des risques potentiels de tels systèmes. Dans le deuxième article, nous évaluons trois mesures techniques pour améliorer la visibilité sur l'utilisation des agents. Dans le dernier article, nous nous concentrons sur les identifiants, une mesure issue du deuxième article : nous proposons une spécification pour les identifiants et explorons une mise en œuvre potentielle. Nous espérons que nos méthodes aideront à gérer de manière responsable le développement et le déploiement des agents d'IA.Item Accès libre An exploration of approximation chainsMarwah, Ashutosh Satyajit; Dupont-Dupuis, Frédéric (2024-11)La théorie de l'information à coup unique vise à étudier les tâches de communication et de traitement de l'information pour des états et des processus généraux avec une structure minimale. Une telle généralité est cruciale pour analyser les tâches de communication avec des ressources limitées et la sécurité des protocoles cryptographiques. Dans le régime asymptotique pour les tâches d'information avec une structure i.i.d. (indépendante et identiquement distribuée), les taux sont typiquement caractérisés par l'entropie de von Neumann et ses dérivées. Dans le régime à coup unique, une multitude d'entropies différentes sont nécessaires à cette fin. L'une des plus importantes est la min-entropie lisse, qui caractérise les taux des protocoles cryptographiques. Contrairement à l'entropie de von Neumann, le comportement de la min-entropie lisse est souvent contre-intuitif. Les outils de décomposition de la min-entropie lisse sont également assez restrictifs, rendant difficile l'analyse des structures qui émergent naturellement en théorie de l'information. Une telle structure, que nous appelons une chaîne d'approximation, constitue le thème central de cette thèse. Pour un état $\rho_{A_1^n B}$, nous appelons une séquence d'états $(\sigma_{A_1^k B}^{(k)}){k=1}^n$ une chaîne d'approximation de $\rho$ si pour chaque $k$, $\rho{A_1^k B} \approx_\epsilon \sigma_{A_1^k B}^{(k)}$. Ces structures émergent fréquemment lors de l'incorporation d'approximations dans les identités entropiques, l'étude des imperfections et le développement de preuves de sécurité. Alors que l'entropie de von Neumann de $\rho$ peut être facilement exprimée en termes d'entropies des états de sa chaîne d'approximation, il n'est généralement pas possible de le faire avec la min-entropie lisse. Dans cette thèse, nous développons des techniques pour établir des bornes entropiques avec des chaînes d'approximation et les appliquons à des scénarios cryptographiques. Notre travail commence par considérer l'un des cas les plus simples d'une telle chaîne, où les registres de $\rho$ sont presque indépendants les uns des autres, et culmine avec l'établissement d'une règle de chaînage universelle pour la min-entropie lisse, qui permet de borner celle-ci en termes des entropies des états d'une chaîne d'approximation. De plus, nous prouvons deux versions approximatives du théorème d'accumulation d'entropie (EAT), qui est un outil important pour borner la min-entropie lisse d'un état produit par un processus séquentiel. La première utilise des approximations des canaux utilisés dans le processus EAT, tandis que la seconde, appelée EAT approximatif non-structuré, relâche significativement la structure séquentielle requise sur l'état. Nous mettons en valeur ces outils en les utilisant pour résoudre deux problèmes cryptographiques importants. Tout d'abord, nous prouvons la sécurité de la distribution quantique de clés (QKD) avec des corrélations à la source, qui sont des corrélations indésirables entre les rounds du protocole survenant en raison des imperfections de la source. Ces corrélations ont été un défi persistant pour la QKD. Nous fournissons une méthode simple et générale pour réduire la sécurité d'un protocole QKD avec ces corrélations à un protocole sans ces dernières. Notre deuxième application majeure est la preuve de la sécurité de la distribution quantique de clés device-independent (DIQKD) parallèle. En adaptant les techniques de répétition parallèle des jeux non-locaux, nous construisons une chaîne d'approximation structurée pour la sortie du protocole. L'application du EAT approximatif non-structuré à cette chaîne fournit alors une preuve de sécurité pour le protocole.Item Accès libre Towards human-AI co-creation for Hindustani music : modeling and interactionShikarpur, Nithya; Huang, Anna (2024-08)La musique hindoustani est une tradition musicale orale improvisée du nord de l'Inde. L'interaction musicale joue un rôle crucial dans cette forme, se produisant entre l'élève et l'enseignant dans la pédagogie, et entre les artistes interprètes sur scène dans la performance. Dans ce travail, nous visons à étudier la portée et la faisabilité de l'interaction homme-IA guidée par cette forme de musique. À cette fin, nous réalisons deux études : premièrement, le développement d'un modèle génératif pour les contours vocaux hindoustani, et deuxièmement, une étude des attentes, des réactions et des préférences de trois musiciens hindoustani en exercice via une étude préliminaire des utilisateurs. À cette fin, (1) notre modèle proposé, GaMaDHaNi, est une hiérarchie modulaire à deux niveaux, composée d'un modèle génératif sur les contours de hauteur et d'un modèle de contour de hauteur vers synthèse audio. Nous adoptons une représentation intermédiaire de contour de hauteur finement quantifiée pour capturer les mouvements de hauteur fins et continus dans les données. Grâce à un test d'écoute et à une analyse qualitative, nous comparons notre approche aux modèles audio non hiérarchiques et aux modèles hiérarchiques qui utilisent une représentation intermédiaire auto-supervisée. (2) Nous menons ensuite une étude auprès des utilisateurs pour explorer le potentiel d'interaction entre les musiciens et le modèle. Nous notons que leurs défis sont le manque de restrictions dans les résultats du modèle et une incohérence de ces résultats. Nous situons ces défis dans le contexte de la musique hindoustani et cherchons à suggérer des orientations futures pour la conception du modèle afin de combler ces lacunes.Item Accès libre A study of the role of entanglement in quantum kernel modelsChikhar, Omar; Rabusseau, Guillaume; Kourtis, Stefanos (2025-03)Cette thèse explore le domaine émergent des méthodes de noyaux quantiques, une classe prometteuse d'algorithmes d'apprentissage automatique quantique qui utilise des circuits quantiques comme fonction de noyau. Les noyaux quantiques intègrent implicitement les données dans un espace de Hilbert de haute dimension, appelé Quantum Feature Map. Les noyaux quantiques ont montré un avantage par rapport à leurs équivalents classiques dans l'identification des phases quantiques dans les systèmes à plusieurs corps , ont été utilisés pour prédire les énergies d'état fondamental de petites molécules, et pour la détection d'anomalies dans les ensembles de données financières. Nous concentrons notre recherche sur le rôle de l'intrication dans l'apprentissage et la performance des modèles de noyaux quantiques. En générant des ensembles de données synthétiques avec des niveaux d'intrication contrôlés, nous investiguons systématiquement la relation entre l'intrication et les capacités de classification des noyaux quantiques. Nos résultats révèlent que certaines configurations d'intrication améliorent significativement la capacité du noyau à capturer les motifs de données étiquetés par un noyau quantique. Nous avons expérimenté diverses routines d'optimisation pour entraîner les noyaux quantiques, en considérant l'intrication comme un hyperparamètre, similaire à la variance dans les modèles classiques. Nos résultats montrent des schémas typiques de surapprentissage lorsque le niveau d'intrication dans le classificateur augmente, et nous relions ce phénomène au concept de average entanglement entropy.Item Accès libre Learning equivalence hash functionsDuchesneau, Mathieu; Tapp, Alain (2025-03)Imaginez héberger une plateforme où les utilisateurs partagent du contenu original, tel que des images, de la musique ou des vidéos. Pour garantir l’intégrité, vous avez besoin d’un algorithme capable de détecter la réinsertion de contenu existant. Cependant, étant donné l’échelle massive des ajouts quotidiens, comparer directement chaque nouvelle publication avec des milliards d’éléments existants est impossible en pratique. Pour les réinsertions exactes, les tables de hachage sont la solution la plus efficace, permettant une détection des doublons en temps constant. Cependant, si la plateforme doit également repérer des réinsertions avec des modifications légères, cette solution ne fonctionne pas. Même une modification minime, comme l’altération d’un seul pixel, entraînera une valeur de hachage différente, associant ainsi le contenu original et modifié à des adresses distinctes dans la table, ce qui empêchera la plateforme de détecter le contenu altéré. De plus, un utilisateur malveillant pourrait effectuer des transformations plus complexes, telles que l’ajustement de la teinte, de la luminosité et de la saturation, ou introduire de légères distorsions ou rotations à l’image. Les approches actuelles pour traiter ce type de problème proviennent de la littérature sur les algorithmes de plus proches voisins approximatifs, où les techniques les plus prometteuses sont basées sur des arbres et des graphes. Cependant, bien qu’efficaces, ces techniques ne peuvent égaler l’efficience d’une simple consultation de table de hachage. Au cœur de ce travail, cette thèse introduit et explore les fonctions d'équihachage, une variante des fonctions de hachage conçue pour associer des instances «équivalentes» à la même empreinte (une chaîne binaire de longueur fixe). Dans notre exemple, une fonction d'équihachage appropriée attribuerait la même empreinte à la fois au contenu original et au contenu modifié, permettant une détection efficace des variations tout en conservant la simplicité et la rapidité de la table de hachage. Les fonctions d'équihachage étendent l'applicabilité de nombreux algorithmes basés sur le hachage. Dans notre exemple, elles élargissent le champ d’application de la recherche dans la table de hachage. Au-delà de cela, elles peuvent également étendre l'applicabilité des algorithmes basés sur les ensembles. Par exemple, étant donné une fonction d'équihachage qui associe tous les portraits d'une même personne à la même empreinte et une collection de portraits, on pourrait déterminer en temps constant si une personne figure dans la collection ou bien compter le nombre d'individus distincts dans celle-ci en temps linéaire. La plupart des exemples les plus intéressants nécessitent l'apprentissage profond pour entraîner la fonction d'équihachage appropriée. Idéalement, ces fonctions produiraient des empreintes identiques pour des instances équivalentes et des empreintes distinctes pour des instances non équivalentes. Cependant, les fonctions d'équihachage apprises ne sont pas idéales, et une partie importante de cette thèse traite des défis liés à leur entaînement, leur évaluation et l'amélioration de leurs performances. Deux métriques clés sont le taux de collision pertinente (Relevant-Collision Rate (RCR)), qui mesure la probabilité que des instances équivalentes partagent la même empreinte, et le taux de collision non pertinente (Irrelevant-Collision Rate (ICR)), qui mesure la probabilité que des instances non équivalentes partagent la même empreinte. Lorsqu'il s'agit de bases de données massives, l’ICR doit être exceptionnellement bas. Sinon, de nombreuses instances non équivalentes partageront la même empreinte, créant toutes sortes de problèmes. Atteindre un ICR faible présente deux défis: estimer avec précision un taux de collision aussi bas et entraîner efficacement des modèles capables de respecter ce critère strict. Pour répondre au premier défi, nous proposons l’intervalle de confiance de Chebyshev, qui tire parti du paradoxe des anniversaires pour estimer efficacement l’ICR. Pour le second défi, nous introduisons l'hypothèse de «challenge-starvation». Cette hypothèse identifie une limitation potentielle dans toutes les approches d'apprentissage contrastif existantes qui pourrait nuire à leur capacité d'obtenir un ICR bas. Pour contourner ce problème, nous présentons la fonction de perte de Shannon-Hamming, une stratégie d'entraînement novatrice qui se concentre exclusivement sur les signaux positifs. Notre fonction de perte améliore l'ICR d'un ordre de grandeur par rapport à ses prédécesseurs contrastifs. De plus, une fonction d'équihachage apprise devrait idéalement présenter un RCR élevé. Cependant, étant donné que la descente de gradient est incompatible avec la nature discrète de l'empreinte et que nous devons équilibrer le RCR avec un ICR exceptionnellement bas, les modèles attribueront parfois des empreintes distinctes à des instances équivalentes. Pour pallier cela, nous proposons l'algorithme de sondage multiple priorisé (prioritized multi-probing) qui exploite l'incertitude du modèle pour générer plusieurs empreintes pour chaque instance. Cette technique peut être utilisée pour améliorer le taux de détection des réinsertions de contenues modifiés dans notre exemple précédent. Nos expériences avec une base de données d'un milliard d'images démontrent la viabilité et le potentiel de notre projet de recherche.Item Accès libre Towards efficient and effective preference alignment for large language modelsThakkar, Megh Vipul; Anbil Parthipan, Sarath Chandar (2024-12)Les grands modèles linguistiques (LLM) sont devenus omniprésents en tant qu'assistants quotidiens des humains, utilisés pour la compréhension des connaissances, la programmation, la traduction et l'écriture créative. Les LLM sont pré-entraînés sur des quantités massives de textes disponibles sur le web ouvert, généralement de l'ordre de trillions de tokens, et sont ensuite instruction-tuned, c'est-à-dire formés dans des contextes supervisés sur des données de réponse à des instructions. Toutefois, ces étapes n'enseignent pas au modèle les « préférences » humaines, en lui fournissant des caractéristiques telles que l'honnêteté, l'innocuité et la sécurité. Des méthodes telles que l'apprentissage par renforcement à partir du feedback humain (RLHF) visent à affiner les LLM sur des données spécifiquement annotées pour prendre en compte ces préférences avec des objectifs spécialisés. Des modèles spécifiques à une tâche, à un domaine, à une langue et à une culture étant en cours d'élaboration en vue d'une utilisation généralisée, il est essentiel de les rendre sûrs et inoffensifs en les alignant sur les préférences humaines avant leur adoption. Cependant, la manière la plus efficace de procéder à l'apprentissage de l'alignement des modèles n'est pas claire, compte tenu du grand nombre de méthodes, d'ensembles de données et de modèles pré-entraînés disponibles. En outre, l'ajustement complet des LLM pour l'alignement est souvent coûteux et exigeant en termes de ressources. Par conséquent, l'élaboration de méthodes d'entraînement efficaces qui peuvent conduire à des performances comparables en termes d'alignement sur les préférences humaines est une question de recherche ouverte. Motivés par cela, nous effectuons une plongée profonde dans l'analyse de l'effet de divers facteurs cruciaux en termes de jeu de données, de modèle et de méthode d'apprentissage sur la performance d'alignement en aval des LLMs lorsqu'ils sont entraînés dans des paramètres efficaces. Nous évaluons de nombreux modèles largement utilisés entraînés avec des méthodes d'alignement couramment utilisées sur des ensembles de données de référence et fournissons des recettes pour aligner les LLM de manière efficace et efficiente. Nous présentons ensuite la fusion de modèles comme une alternative intéressante à l'entraînement à l'alignement, en montrant son potentiel pour rendre les modèles experts plus sûrs avec une perte minimale de leur utilité dans le domaine. Grâce à nos travaux, nous espérons motiver les chercheurs du monde universitaire et de l'industrie à intégrer l'alignement des préférences d'une manière efficace et efficiente afin de garantir que les modèles sont sûrs et inoffensifs pour une utilisation généralisée.Item Accès libre Embedding cultural diversity in prototype-based recommender systemsMoradi, Armin; Farnadi, Golnoosh (2024-12)Les systèmes de recommandation (SysRec) sont devenus une composante essentielle des plateformes numériques modernes, influençant l'expérience utilisateur en fournissant du contenu personnalisé. Cependant, ces systèmes présentent souvent une tendance à privilégier les éléments populaires, ce qui entraîne une sous-représentation des produits issus de cultures minoritaires. Ce biais, connu sous le nom de biais de popularité, favorise de manière disproportionnée les groupes culturels dominants, réduisant ainsi la visibilité et les opportunités des cultures sous-représentées. Cette thèse commence par une analyse des différents types de biais pouvant affecter les systèmes de recommandation conversationnels (SRC). Nous concentrons ensuite notre étude sur les systèmes de recommandation — un élément central des SRC — et abordons la problématique spécifique du biais de popularité. Pour améliorer l’équité sans compromettre la précision des recommandations, nous proposons un modèle de factorisation matricielle basé sur des prototypes, appelé ProtoMF. Ce modèle intègre deux innovations principales : (1) le K-filtrage des prototypes, qui affine les représentations des éléments en sélectionnant les prototypes les plus pertinents, et (2) la régularisation de la distribution des prototypes, qui favorise une répartition équilibrée des prototypes dans l’espace d’incorporation. En utilisant le pays d’origine des articles comme proxy pour l’identité culturelle, notre approche vise à atténuer les préjudices allocationnels qui touchent les groupes culturels sous-représentés. Nous évaluons notre méthode sur plusieurs ensembles de données, démontrant qu’elle réduit significativement le rang moyen des éléments de longue traîne et sous-représentés, tout en maintenant des performances élevées en termes de taux de réussite@10. De plus, notre méthode améliore l’explicabilité des recommandations, offrant ainsi une meilleure transparence sur le processus de recommandation. Ce travail contribue au domaine des systèmes de recommandation en approfondissant la compréhension de l’équité et de la diversité, en particulier dans le contexte des recommandations de contenu culturel.Item Accès libre Modélisation et analyse des données pour la simulation ferroviaire et la prévision des horaires en temps réelCôté, Hugo; L'Écuyer, Pierre (2025-03)La SNCF est une société d'État qui gère toute l'infrastructure ferroviaire en France et y opère presque tous les trains. L'exploitation ferroviaire à cette échelle est la cible d'aléas variés et en grand nombre, il est donc important d'anticiper l'évolution du système en temps réel pour offrir de l'information aux voyageurs et aux régulateurs et pour évaluer différents scénarios de gestion de trafic. Il est également important de modéliser fidèlement son comportement pour comparer différentes variantes de la grille horaire. Les présents travaux de recherche portent sur : la géolocalisation des trains; le décalage d'horloge des enregistrements d'évènements de conduite ATESS; les erreurs d’estimation des horaires réalisés des trains; l'évaluation de la qualité des prédictions déterministes et des prévisions statistiques des prochains horaires de trains; et l'amélioration de ces prédictions en ciblant les aspects importants affectant leur qualité.Item Accès libre CyberPRIcards : un jeu sérieux pour la sensibilisation à la vie privée et l’intimité numériqueCarrascal, Rafael; Aïmeur, Esma (2025-03)L’évolution des technologies de l’information a créé un écosystème numérique où la présence en ligne est devenue indispensable, s’entremêlant naturellement avec la vie physique des individus. Cette transformation numérique implique la gestion d’informations publiques et privées, exposant souvent les utilisateurs à des risques importants. Malgré les avancées en cybersécurité, le facteur humain demeure le maillon faible, accentuant les vulnérabilités par l’auto-divulgation, les configurations inadéquates et les pratiques non sécurisées. Avec l’omniprésence des réseaux sociaux, des appareils mobiles et des services en ligne—touchant des activités personnelles, professionnelles et de loisirs—la quête de la vie privée est devenue un défi majeur. Bien que diverses solutions, notamment des cadres juridiques, des innovations technologiques et des initiatives éducatives, aient été développées pour répondre à ces défis, la majorité cible les entreprises ou les professionnels de la cybersécurité. Peu d’attention est accordée à la sensibilisation des utilisateurs réguliers. Pour combler cette lacune, ce travail propose la conception et développement de Cyber PRIcards, un jeu sérieux destiné à sensibiliser les utilisateurs non spécialistes sur les risques liés à la vie privée et les contre-mesures. En intégrant les principes de la gamification et de l’apprentissage par le jeu, le jeu proposé utilise un système engageant basé sur des cartes pour représenter les concepts clés, tester les connaissances par la classification et encourager un apprentissage pratique à travers des mécaniques dynamiques. Structuré autour de trois modes —présentation, classement et combinaisons (sets)— le jeu expose les utilisateurs aux concepts de la vie privée de manière active, répétée et engageante. Cette approche vise non seulement à sensibiliser, mais aussi à doter les utilisateurs d’outils pratiques, de comportements sécurisés et de stratégies pour protéger leur vie privée en ligne. Ce travail contribue au domaine, comblant l’écart entre la connaissance théorique et une sensibilisation actionnable. Les résultats démontrent l’efficacité des mécaniques ludiques pour sensibiliser les utilisateurs, ce qui souligne le potentiel des jeux sérieux pour répondre aux défis croissants de la sécurité numérique et de la vie privée en ligne.Item Accès libre Nouvelle contraction algébrique appliquée au problème de tarification de réseauHébert-Doutreloux, Julien; Carvalho, Margarida; Frejinger, Emma (2025-03-13)Le problème de tarification de réseau est un problème classique d’optimisation combinatoire dans un graphe. Dans celui-ci, un fournisseur cherche à maximiser le profit tiré d’un sous-ensemble d’arcs qu’il contrôle aux dépens d’usagers cherchant à minimiser leur coût de passage. La littérature sur ce programme biniveaux présente des reformulations et des techniques de prétraitement, mais les techniques de réduction de graphe sont rares. Dans ce travail, nous proposons une nouvelle réduction de graphe et l’appliquons à ce problème. D’une part, nous formalisons algébriquement la réduction de graphe basée sur la fusion d’arcs et d’autre part, nous l’appliquons au processus de résolution du problème de tarification. Au vu de la grande dispersion des résultats, il est vraisemblable qu’il n’existe aucune garantie théorique. Pourtant, il y a de nombreux cas où la réduction est bénéfique. Ces transformations sont issues d’un échantillonnage dont le procédé est lié à la détermination des cliques maximum, c’est-à-dire les plus grands ensembles de sommets deux à deux adjacents. Un algorithme simple pour déterminer les cliques maximum ayant des résultats préliminaires prometteurs est présenté. Les résultats préliminaires d’application de la transformation de graphe indiquent que des gains de temps substantiels sont possibles, mais qu’une connaissance préalable du réseau est nécessaire à l’obtention de bonnes réductions. Bref, ce mémoire présente une nouvelle transformation de graphe, en fait la formalisation algébrique puis en fait l’application sur un problème biniveaux.Item Accès libre Deep learning applications to climate change mitigationSchmidt, Victor; Bengio, Yoshua (2024-04)Les changements climatiques sont un défi mondial imminent, dont les conséquences sont déjà observées. On sait que ces effets s’intensifieront, entraînant une augmentation de la fréquence et de la gravité des événements météorologiques extrêmes, une perturbation substantielle de la production alimentaire et le déplacement de dizaines de millions de personnes en raison de vagues de chaleur mortelles et de sécheresses. La question est donc : que peut-on y faire ? Dans cette thèse, nous faisons des changements climatiques notre objet central et explorons les voies par lesquelles la recherche en apprentissage profond peut contribuer à son atténuation. Un obstacle connu à des politiques climatiques ambitieuses est le manque de soutien et de demande populaires. Cela peut être attribué, en partie, aux causes et conséquences extrêmement complexes et imbriquées des changements climatiques. Une mauvaise conception courante est qu'ils affecteront principalement d’autres personnes que soi-même, des personnes éloignées dans le temps ou l’espace. Pour y remédier, la recherche a montré que présenter aux gens des \textit{images} authentiques, locales et pertinentes d'un concept les aide à mieux comprendre et appréhender ce qui est en jeu. Dans notre première contribution, nous explorons donc comment les récentes avancées en apprentissage profond pour la vision par ordinateur et les réseaux antagonistes génératifs peuvent être utilisées pour générer des images \textit{personnalisées} représentant les impacts du changement climatique. Notre objectif avec \textit{ClimateGAN} est de visualiser à quoi pourrait ressembler une inondation d’un mètre à n’importe quelle adresse, indépendamment de son risque réel d’inondation sous l’effet des changements climatiques. Cette approche vise à susciter l’empathie en rendant les impacts abstraits du changement climatique plus tangibles et personnalisés. En utilisant une image de Google Street View et en la traitant avec \textit{ClimateGAN}, nous générons des images d’inondation physiquement plausibles et visuellement réalistes basées sur l’adaptation de domaine à partir d’un environnement simulé, la prédiction de profondeur et la segmentation sémantique. Ce modèle a été déployé sur un site web dans le but de sensibiliser et d’engager l’action en faveur des changements climatiques. En plus d’aider les gens à mieux visualiser à quoi pourrait ressembler un avenir climatique hors de contrôle, nous étudions également dans cette thèse comment l’apprentissage profond peut améliorer les technologies existantes. Un domaine majeur de recherche dans cette direction est la recherche de nouveaux matériaux. Dans cette thèse, nous explorons plus particulièrement la prédiction des propriétés des matériaux comme moyen d’accélérer la découverte d'électro-catalyseurs, une famille de matériaux impliqués dans le stockage d’énergie à base d’hydrogène. Nous présentons deux contributions, \textit{PhAST} et \textit{FAENet}, qui se concentrent sur l’amélioration du compromis performance/scalabilité dans les réseaux de neurones géométriques de graphe (GNN). Avec \textit{PhAST}, nous introduisons un ensemble de méthodes pour adapter la procédure GNN classique--de la création du graphe d’entrée aux prédictions d’énergie et de forces de sortie--à la tâche spécifique de prédire l’énergie d’un système atomique adsorbant-catalyseur relaxé. Nous démontrons comment, en plus d’améliorer les performances, ces modifications améliorent l’efficacité et permettent un entraînement compétitif des GNN dans des environnements CPU. Dans \textit{FAENet}, nous présentons un nouveau GNN efficace pour les prédictions équivariantes E(3). En particulier, nous transposons la charge de l’équivarience sur la représentation des données afin de réduire les contraintes sur le modèle lui-même. Cette approche nous permet d’introduire une nouvelle architecture légère et expressive visant à faire des prédictions meilleures et plus rapides de diverses propriétés des matériaux. Enfin, nous examinons de manière critique notre propre domaine et discutons des impacts environnementaux associés aux technologies de l’IA. Nous nous penchons sur la façon dont les praticiens peuvent estimer leurs émissions de carbone, quelles mesures ils peuvent prendre aujourd’hui pour les réduire, et quelles autres étapes sont nécessaires pour des déclarations et responsabilités environnementales plus précises.Item Accès libre Learning under constraintsMisra, Diganta; Rish, Irina (2025-03)Dans le vaste domaine de l’Intelligence Artificielle (IA) aujourd’hui, la poursuite pour des modèles extensibles de base pour des tâches subséquentes continue de se démarquer. Ces modèles de base ont montré des capacités presque surhumaines, stimulant les avancées dans diverses industries et élargissant les frontières de l’exploration scientifique et de la recherche. Cependant, l’extension rapide et presque exponentielle des réseaux neurones modernes les rend difficiles à appliquer dans des domaines et des contextes avec des contraintes pratiques et des ressources limitées. Bien que ces modèles de très grande taille excellent dans diverses applications et évaluation de tâches subséquentes, ils deviennent non-utilisables dans des domaines disposant de ressources limitées en capacité de mémoire, de calcul ou de données pour l’entraînement. Plusieurs études ont exploré et proposé des méthodologies efficaces telles que la sparsification, la quantification et les techniques de prompt pour déployer ces modèles et évaluer leur impact sur diverses tâches. Toutefois, un aspect qui est resté insaisissable dans les recherches précédentes est l’intégration de multiples contraintes au sein d’un même cadre. Cette thèse fait des progrès significatifs pour combler le fossé dans notre compréhension de la manière de construire des régimes d’entraînement efficaces sous de multiples contraintes, comme la parcimonie et la limitation du budget de données, au sein d’un même cadre. Elle analyse également les méthodes existantes et explore comment elles peuvent être adaptées à ces environnements contraints. Nous commençons ainsi par étudier les effets de l’élagage des réseaux neuronaux denses dans un cadre d’apprentissage à tout moment. Nous démontrons comment l’élagage progressif, visant à atteindre une sparsification cible, peut être avantageux par rapport aux performances des modèles entièrement denses et des modèles moins denses en une seule fois. Ensuite, nous explorons l’apprentissage par transfert efficace via des techniques de prompt, en examinant comment la compression des modèles affecte diverses méthodes de prompt dans différentes tâches subséquentes. Nous offrons une nouvelle perspective montrant que la compression a tendance à impacter négativement les capacités de transfert en aval du modèle, en particulier dans les méthodes de prompt visuels dans des conditions de faible quantité de données. Pour conclure, nous proposons un nouveau cadre d’élagage de réseau, D2-Sparse, conçu pour des environnements d’entraînement avec des budgets de données extrêmement limités, inspiré de l’approche d’apprentissage complémentaire du système cognitif humain.