Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires
URI permanent de cette collectionhttps://hdl.handle.net/1866/3001
Cette collection présente les thèses et mémoires des étudiant.e.s du Département d'informatique et de recherche opérationnelle de l'Université de Montréal.
1990 - : Couverture exhaustive (quelques titres manquants)
avant 1990 : Période non couverte ou couverture partielle
Pour plus d'information sur le dépôt des thèses et mémoires consulter le site Thèses et mémoires des bibliothèques
Site web du Département d'informatique et de recherche opérationnelle
Parcourir
Dépôts récents
Item Accès libre Deep learning applications to climate change mitigationSchmidt, Victor; Bengio, Yoshua (2024-04)Les changements climatiques sont un défi mondial imminent, dont les conséquences sont déjà observées. On sait que ces effets s’intensifieront, entraînant une augmentation de la fréquence et de la gravité des événements météorologiques extrêmes, une perturbation substantielle de la production alimentaire et le déplacement de dizaines de millions de personnes en raison de vagues de chaleur mortelles et de sécheresses. La question est donc : que peut-on y faire ? Dans cette thèse, nous faisons des changements climatiques notre objet central et explorons les voies par lesquelles la recherche en apprentissage profond peut contribuer à son atténuation. Un obstacle connu à des politiques climatiques ambitieuses est le manque de soutien et de demande populaires. Cela peut être attribué, en partie, aux causes et conséquences extrêmement complexes et imbriquées des changements climatiques. Une mauvaise conception courante est qu'ils affecteront principalement d’autres personnes que soi-même, des personnes éloignées dans le temps ou l’espace. Pour y remédier, la recherche a montré que présenter aux gens des \textit{images} authentiques, locales et pertinentes d'un concept les aide à mieux comprendre et appréhender ce qui est en jeu. Dans notre première contribution, nous explorons donc comment les récentes avancées en apprentissage profond pour la vision par ordinateur et les réseaux antagonistes génératifs peuvent être utilisées pour générer des images \textit{personnalisées} représentant les impacts du changement climatique. Notre objectif avec \textit{ClimateGAN} est de visualiser à quoi pourrait ressembler une inondation d’un mètre à n’importe quelle adresse, indépendamment de son risque réel d’inondation sous l’effet des changements climatiques. Cette approche vise à susciter l’empathie en rendant les impacts abstraits du changement climatique plus tangibles et personnalisés. En utilisant une image de Google Street View et en la traitant avec \textit{ClimateGAN}, nous générons des images d’inondation physiquement plausibles et visuellement réalistes basées sur l’adaptation de domaine à partir d’un environnement simulé, la prédiction de profondeur et la segmentation sémantique. Ce modèle a été déployé sur un site web dans le but de sensibiliser et d’engager l’action en faveur des changements climatiques. En plus d’aider les gens à mieux visualiser à quoi pourrait ressembler un avenir climatique hors de contrôle, nous étudions également dans cette thèse comment l’apprentissage profond peut améliorer les technologies existantes. Un domaine majeur de recherche dans cette direction est la recherche de nouveaux matériaux. Dans cette thèse, nous explorons plus particulièrement la prédiction des propriétés des matériaux comme moyen d’accélérer la découverte d'électro-catalyseurs, une famille de matériaux impliqués dans le stockage d’énergie à base d’hydrogène. Nous présentons deux contributions, \textit{PhAST} et \textit{FAENet}, qui se concentrent sur l’amélioration du compromis performance/scalabilité dans les réseaux de neurones géométriques de graphe (GNN). Avec \textit{PhAST}, nous introduisons un ensemble de méthodes pour adapter la procédure GNN classique--de la création du graphe d’entrée aux prédictions d’énergie et de forces de sortie--à la tâche spécifique de prédire l’énergie d’un système atomique adsorbant-catalyseur relaxé. Nous démontrons comment, en plus d’améliorer les performances, ces modifications améliorent l’efficacité et permettent un entraînement compétitif des GNN dans des environnements CPU. Dans \textit{FAENet}, nous présentons un nouveau GNN efficace pour les prédictions équivariantes E(3). En particulier, nous transposons la charge de l’équivarience sur la représentation des données afin de réduire les contraintes sur le modèle lui-même. Cette approche nous permet d’introduire une nouvelle architecture légère et expressive visant à faire des prédictions meilleures et plus rapides de diverses propriétés des matériaux. Enfin, nous examinons de manière critique notre propre domaine et discutons des impacts environnementaux associés aux technologies de l’IA. Nous nous penchons sur la façon dont les praticiens peuvent estimer leurs émissions de carbone, quelles mesures ils peuvent prendre aujourd’hui pour les réduire, et quelles autres étapes sont nécessaires pour des déclarations et responsabilités environnementales plus précises.Item Accès libre Learning under constraintsMisra, Diganta; Rish, Irina (2025-03)Dans le vaste domaine de l’Intelligence Artificielle (IA) aujourd’hui, la poursuite pour des modèles extensibles de base pour des tâches subséquentes continue de se démarquer. Ces modèles de base ont montré des capacités presque surhumaines, stimulant les avancées dans diverses industries et élargissant les frontières de l’exploration scientifique et de la recherche. Cependant, l’extension rapide et presque exponentielle des réseaux neurones modernes les rend difficiles à appliquer dans des domaines et des contextes avec des contraintes pratiques et des ressources limitées. Bien que ces modèles de très grande taille excellent dans diverses applications et évaluation de tâches subséquentes, ils deviennent non-utilisables dans des domaines disposant de ressources limitées en capacité de mémoire, de calcul ou de données pour l’entraînement. Plusieurs études ont exploré et proposé des méthodologies efficaces telles que la sparsification, la quantification et les techniques de prompt pour déployer ces modèles et évaluer leur impact sur diverses tâches. Toutefois, un aspect qui est resté insaisissable dans les recherches précédentes est l’intégration de multiples contraintes au sein d’un même cadre. Cette thèse fait des progrès significatifs pour combler le fossé dans notre compréhension de la manière de construire des régimes d’entraînement efficaces sous de multiples contraintes, comme la parcimonie et la limitation du budget de données, au sein d’un même cadre. Elle analyse également les méthodes existantes et explore comment elles peuvent être adaptées à ces environnements contraints. Nous commençons ainsi par étudier les effets de l’élagage des réseaux neuronaux denses dans un cadre d’apprentissage à tout moment. Nous démontrons comment l’élagage progressif, visant à atteindre une sparsification cible, peut être avantageux par rapport aux performances des modèles entièrement denses et des modèles moins denses en une seule fois. Ensuite, nous explorons l’apprentissage par transfert efficace via des techniques de prompt, en examinant comment la compression des modèles affecte diverses méthodes de prompt dans différentes tâches subséquentes. Nous offrons une nouvelle perspective montrant que la compression a tendance à impacter négativement les capacités de transfert en aval du modèle, en particulier dans les méthodes de prompt visuels dans des conditions de faible quantité de données. Pour conclure, nous proposons un nouveau cadre d’élagage de réseau, D2-Sparse, conçu pour des environnements d’entraînement avec des budgets de données extrêmement limités, inspiré de l’approche d’apprentissage complémentaire du système cognitif humain.Item Accès libre Strategic capacity planning and pricing : a choice-based approachPinzon Ulloa, David Leonardo; Frejinger, Emma (2025-03)Cette thèse étudie les problèmes de décision stratégiques abordés par un fournisseur de services logistiques (FSL) souhaitant optimiser ses profits ou ses pertes, lorsque l'information dont il dispose à propos de la demande de ses clients pour de nouveaux services est incomplète. Nous adoptons l'hypothèse que la demande est issue de la maximisation d'utilité par les clients. Puisque la connaissance des préférences des clients par le FSL est incertaine, celles-ci sont décrites au moyen de modèles d'utilité aléatoires. La thèse est constituée de trois articles dans lesquels les problèmes traités par le FSL sont exprimés sous forme de programmes stochastiques bi-niveaux où le FSL est le leader et les clients sont les suiveurs. Les articles proposent des reformulations à un seul niveau fondées sur les propriétés duales des solutions optimales et faisant usage de la méthode d'approximation par moyenne échantillonnale pour le calcul des utilités espérées. Ces reformulations sous-tendent la construction, d'une part, de méthodes de résolution asymptotiquement exactes dont la vitesse est supérieure à celle des méthodes de pointe actuelles et, d'autre part, de méthodes heuristiques dont la vitesse et l'exactitude sont élevées. Cette thèse est basée sur trois articles. Dans le premier article, le FSL offre aux expéditeurs des combinaisons de prix et de niveau de service de sorte à maximiser l'espérance des profits résultant de la fourniture des combinaisons sélectionnées par les expéditeurs, à l'inclusion des coûts associés à l'installation des lieux de service. Le programme du niveau inférieur concerne dans ce cas la sélection des combinaisons de prix et de service par les expéditeurs. Dans le second article, le FSL désire minimiser l'espérance du total de ses coûts de livraison et de fonctionnement en offrant à ses clients de substituer la visite de points de cueillette et livraison à la livraison à domicile. Le programme du niveau inférieur concerne dans ce cas la sélection des points de cueillette et livraison ou de la livraison à domicile par les clients. Le troisième article introduit un procédé d'agrégation des scénarios dans la reformulation développée dans le premier article, permettant ainsi d'accroître la vitesse de calcul de plusieurs ordres de grandeur. En résumé, cette thèse fait avancer l'état de l'art sur les formulations stochastiques bi-niveaux pour les problèmes de localisation et de tarification. Ces problèmes sont difficiles à résoudre en raison des objectifs de maximisation du profit, des structures de coût complexes et des contraintes de capacité. D’un point de vue applicatif, la thèse fournit des perspectives managériales essentielles pour les fournisseurs logistiques.Item Accès libre Machine learning accelerated stochastic optimization and applications to railway operationsLarsen, Eric; Frejinger, Emma (2025-03)Nous proposons des innovations méthodologiques combinant l’apprentissage automatique (AA) et la recherche opérationnelle (RO) où des prédicteurs issus de l’AA supervisé sont entraînés hors-ligne et introduits dans des algorithmes de RO pour accélérer les calculs en-ligne. La synergie entre RO et AA est particulièrement avantageuse pour la programmation stochastique. Nous concentrant sur les problèmes de décision à deux étapes, nous vérifions que des prédictions de la solution de deuxième étape (DE) améliorent considérablement le compromis entre exactitude et vitesse des calculs. Nous éprouvons nos propositions sur des applications réalistes et des problèmes standardisés. La thèse comprend cinq articles: The Load Planning Problem for Double-stack Intermodal Trains traite en contexte réaliste le problème opérationnel déterministe de chargement optimal (PCO) de conteneurs sur des wagons doublement étagés. Il établit en outre les bases des applications de l’AA à la RO examinées dans les deux articles suivants où l’apprentissage se fonde sur des paires entrée-sortie joignant une instance déterministe du PCO à sa solution exacte. Predicting Tactical Solutions to Operational Planning Problems Under Imperfect Information emploie l’AA hors-ligne pour accélérer la programmation stochastique à deux étapes lorsque DE est difficile. Les prédictions d’AA de la solution espérée de DE, conditionnelles aux variables de première étape (PE), obvient à la génération de scénarios et au calcul de solutions en DE. Elles produisent des solutions globales avec plus d’exactitude et de vitesse en-ligne que les méthodes alternatives. Une application à une version tactique du PCO est présentée. A Language Processing Algorithm for Predicting Tactical Solutions to an Operational Planning Problem Under Uncertainty démontre l’usage d’un algorithme de traduction neural pour générer des prédictions rapides et fidèles de solutions détaillées d’un problème stochastique de décision. Il décrit comment établir les vocabulaires et les syntaxes, introduire des contraintes portant sur la relation d’entrée-sortie ou sur les sorties. Il définit une mesure de discordance et un prédicteur de référence. Une application au PCO est présentée. Fast Continuous and Integer L-shaped Heuristics Through Supervised Learning présente une matheuristique résolvant un programme stochastique linéaire à deux étapes avec variables mixtes. Il démontre comment la substitution de solutions d’AA au sous-problème de Benders pour le calcul de coupes d’optimalité L-shaped entières et continues permet un compromis avantageux entre exactitude et temps de calcul en-ligne. Les temps sont indépendants du nombre de scénarios et le prédicteur d’AA est valide pour des familles de problèmes paramétrées. Une application à des familles dérivées de problèmes stochastiques standard de localisation de serveurs et de sac-à-dos multiple est présentée. Pseudo-random Instance Generators in C++ for Deterministic and Stochastic Multi-commodity Network Design Problems présente des générateurs simulant une large gamme de problèmes de conception de réseau déterministes et stochastiques avec multiples classes d’objets, capacités et coûts fixes. Il vise à faciliter l’évaluation et la comparaison de méthodes de solution exactes et heuristiques, notamment usant de l’AA, et à favoriser la reproductibilité et la comparabilité de résultats publiés.Item Accès libre Enhancing risk-based authentication with federated learning : introducing the F-RBA frameworkFereidouni, Hamidreza; Hafid, Abdelhakim (2024-12)Digital ecosystems increasingly require adaptive and privacy-preserving authentication to defend against advanced cyber threats. While conventional static mechanisms and modern passwordless solutions can be bypassed by malware, session hijacking, or credential compromise, Risk-Based Authentication (RBA) addresses these gaps by dynamically adjusting verification levels based on real-time contextual and behavioral cues, such as device type, user location, IP reputation, keystroke dynamics, and touch patterns. This thesis introduces a Federated Risk-based Authentication (F-RBA) framework that decentralizes RBA's risk evaluation engine and data processing. Conventional centralized RBA systems require raw user data to be transmitted and stored in authentication servers, creating significant privacy risks and potential single points of failure. Rather than sending raw user data to a centralized server, each device locally trains an autoencoder-based risk evaluation model and contributes only aggregated weight updates to a global model. To handle heterogeneous and non-Independent and Identically Distributed (non-IID) data, we adopt two strategies: first, a similarity-based feature engineering method converts diverse user data (e.g., IP addresses, timestamps, and device attributes) into uniform, normalized scores according to the user's history; second, we employ FedProx at the algorithmic level to achieve faster convergence and stability in the federated setting. These measures not only strengthen overall model performance, but also keep user data under local control, significantly reducing privacy risks. Key contributions include a federated learning pipeline for on-device risk evaluation, a comprehensive feature engineering approach to handle heterogeneous login contexts, and a cold-start solution that leverages a shared global model to protect new users who have limited history. Empirical results from a multi-user dataset confirm that F-RBA outperforms typical unsupervised anomaly detection models in detecting suspicious logins while maintaining a relatively lightweight user experience. The decentralized design enables seamless cross-device synchronization of comprehensive user profiles without sacrificing data privacy.Item Accès libre Towards efficient large language models : training low-bitwidth variants and low-rank decomposition of pretrained modelsVaidhya, Tejas; Rish, Irina (2024-12)Au cours de la dernière décennie, les progrès de l’intelligence artificielle (IA) ont été largement motivés par l’apprentissage profond et la mise à l’échelle des architectures de réseaux neuronaux. Si l’augmentation de l’échelle des modèles (à la fois en termes de nombre de paramètres et de taille des ensembles de données d’entraînement) a conduit à des améliorations significatives des capacités de l’IA, elle a également introduit des défis, notamment lors du déploiement de ces modèles dans des scénarios du monde réel. Cette thèse aborde ces défis en explorant des méthodes permettant de réduire la taille du modèle ou le nombre de paramètres sans perte de performances, réduisant ainsi les coûts de calcul et l’utilisation de la mémoire pendant le déploiement. La recherche étudie spécifiquement le pré-entraînement de modèles de langage à grande largeur de bit (LLM) extrêmement faible et la décomposition de bas rang des LLM pré-entraînés, démontrant des stratégies possibles pour préserver les niveaux de performances deces systèmes tout en réduisant considérablement les coûts de calcul et de mémoire pendant inférence. La première étude démontre la faisabilitéde former à partir dezéro des LLM ternaires qui atteignent la parité de performances avec les réseaux FP16 (float16) à des échelles dépassant 3 milliards de paramètres, offrant une alternative plus efficace en termes de taille de bits. La deuxième étude explore la décomposition efficace des LLM pré-entraînés en matrices de poids de bas rang, réduisant considérablement le nombre de paramètres pour le déploiement. Nos résultats révèlent que la stratégie ci-dessus pour compresser les modèles peut offrir des performances comparables, voire améliorées, tout en utilisant beaucoup moins de bits ou de paramètres lors de l’inférence. Cette recherche souligne le potentiel d’amélioration de l’efficacité du système d’IA, contribuant ainsi au développement de technologies d’IA plus abordables, accessibles et durables.Item Accès libre Dichotomy(?) of fairness and efficiencySukumaran, Rohan; Farnadi, Golnoosh (2024-12)La montée en popularité des modèles fondamentaux à grande échelle a révolutionné l'intelligence artificielle. Toutefois, en raison des contraintes computationnelles et de stockage, cela présente des défis significatifs pour leur déploiement sur des appareils aux ressources restreintes. Des techniques telles que ajustement économe en paramètres (PEFT), illustré par l'adaptation de rang faible (LoRA), et des méthodes de compression de modèles comme l’élagage ont émergé pour résoudre ces problèmes. Cependant, leur impact sur l'équité demeure insuffisamment étudié et pourrait potentiellement aggraver les biais envers certains groupes de la population sous-représentés. Cette thèse examine les implications en matière d'équité des méthodes PEFT et de l'élagage et introduit des solutions pour atténuer efficacement les biais associés. Premièrement, nous proposons \textbf{FairLoRA}, une nouvelle adaptation de LoRA consciente de l'équité qui réduit les disparités de performance entre les sous-groupes de données en minimisant la variance de la perte par classe. Notre évaluation systématique sur divers modèles de vision—incluant ViT, DINO et CLIP—et jeux de données démontre que FairLoRA atteint des résultats en matière d'équité comparables à un ajustement fin complet avec régularisation d'équité, sans nécessiter des rangs LoRA plus élevés. Deuxièmement, nous abordons l'impact disparate de l'élagage en formulant une approche d'optimisation contrainte qui limite directement les changements de précision entre les modèles denses et sparsifiés pour chaque sous-groupe. Cette méthode fournit un critère interprétable pour des niveaux de disparité acceptables et s'adapte efficacement aux grands modèles et à de nombreux sous-groupes protégés. Une contribution clé de ce travail est l'identification des défis de généralisation dans les interventions d'équité; nous sommes parmi les premiers à observer que les améliorations en matière d'équité sur les données d'entraînement peuvent ne pas toujours se transférer aux données non vues. En soulignant cette limitation, notre travail souligne la nécessité de recherches supplémentaires pour développer des stratégies robustes d'atténuation des biais. Dans l'ensemble, cette thèse fait progresser le déploiement de modèles d'apprentissage automatique efficaces et équitables en proposant des méthodes pratiques pour atténuer les problèmes d'équité dans le PEFT et l’élagage, garantissant que les gains en performance ne se font pas au détriment de l'équité.Item Accès libre Détection universelle des images synthétiques générées par les modèles de diffusionBourega, Khadidja Yasmine; Aïmeur, Esma (2024-09)L’émergence des modèles d'intelligence artificielle générative, en particulier les modèles de diffusion appliqués à la génération d'images synthétiques, a redéfini notre conception de l'authenticité visuelle. Cette révolution technologique, accessible au grand public, soulève des questions cruciales quant à la fiabilité de l'information visuelle et à la confiance du public envers les contenus numériques. En effet, ces technologies, si elles permettent d'élargir les horizons créatifs, favorisent également la désinformation, notamment via les réseaux sociaux, où des images synthétiques peuvent influencer les opinions publiques. Les modèles actuels de détection d'images synthétiques se révèlent insuffisants pour faire face à la croissance rapide des nouveaux modèles de diffusion. Leur incapacité à généraliser aux modèles de diffusion non rencontrés lors de l'entraînement représente un défi majeur, car de nouveaux modèles de diffusion sont continuellement publiés. Il est crucial de développer des modèles de détection capables de s'adapter efficacement aux modèles de diffusion jamais vus. C'est dans ce contexte que notre recherche se concentre sur la généralisation et l'amélioration de la détection des images synthétiques générées par ces modèles de diffusion en constante évolution. Nos contributions sont multiples. En premier lieu, nous avons conçu une base de données unique, IMA-SYN, qui rassemble 11 modèles de diffusion de pointe, tels que GLIDE, DALL-E 2 et Stable Diffusion 3, pour un total de plus d'un million d'images synthétiques. Il s'agit de la base de données la plus vaste à ce jour, intégrant les modèles de génération d'images les plus récents. Une autre contribution majeure de cette recherche réside dans la détection des images synthétiques générées par ces modèles de diffusion. En recourant à une fusion de plusieurs modèles de détection telles que ResNet, DenseNet, DeiT et BEiT, nous avons pu combiner leurs forces, ce qui a conduit à une amélioration significative des performances en termes de taux de bonne classification (TBC). Les résultats obtenus démontrent l'efficacité de cette approche, non seulement pour la détection d'images synthétiques, mais également pour la généralisation à des modèles de diffusion non vus, en entraînant ces modèles de détection sur seulement des images générées par 2 modèles de diffusion, nous avons réussi à généraliser à tous les autres modèles de diffusion. Cette recherche aborde également la tâche de l'attribution des images synthétiques à leur modèle de diffusion d'origine. Ce point est essentiel pour identifier le modèle responsable de la création d'une image synthétique, et permet de responsabiliser les développeurs en cas d'abus, afin qu'ils puissent renforcer la sécurité de leurs modèles génératifs. Les techniques d'explicabilité jouent également un rôle central dans cette recherche. Elles permettent de mieux comprendre le processus décisionnel des modèles de détection. Les explications visuelles fournies par LIME (Local Interpretable Model-Agnostic Explanations) mettent en lumière les régions spécifiques de l'image qui influencent la prédiction, qu'elle soit positive ou négative. En parallèle, les explications textuelles générées par GPT-4 Vision améliorent l'interprétabilité des résultats, facilitant ainsi la compréhension des décisions prises par les modèles de détection. Enfin, une analyse de la robustesse des modèles de détection a été effectuée afin d'évaluer leur comportement face à des attaques adverses et des perturbations. Les résultats montrent l'impact de ces perturbations sur la précision des modèles et fournissent des perspectives pour améliorer leur résilience.Item Accès libre Geometric-aware models for protein designWang, Chuanrui; Tang, Jian (2024-06)La compréhension des protéines est fondamentale pour l’avancement de la bio-informatique, avec des implications significatives pour la découverte de médicaments, la recherche sur les maladies et d’autres applications biologiques et médicales. Cette thèse examine le processus complexe de modélisation et de conception des séquences et structures de protéines à travers le prisme de l’apprentissage automatique géométrique, en mettant un accent particulier sur l’apprentissage de représentations conjointes, la co-conception de protéines et l’évaluation comparative des méthodes de conception. Nous commençons par une introduction à la portée et aux contributions de la recherche, établissant les bases des chapitres suivants. La thèse aborde également les connaissances fondamentales sur les protéines, discutant de leurs modalités, représentations et des concepts critiques d’invariance et d’équivariance géométriques dans les structures protéiques. L’accent se déplace ensuite vers l’apprentissage de représentations conjointes, où l’intégration de modèles de langage protéique (PLM) et d’encodeurs de structure sensibles à la géométrie est explorée pour améliorer la compréhension et la prédiction des fonctions protéiques. Cette section met en lumière la fusion de l’ESM-2 avec divers encodeurs de structure et introduit de nouvelles stratégies de fusion qui démontrent les avantages mutuels de combiner les informations de séquence et de structure pendant la pré-formation. Ces méthodes atteignent des résultats de pointe dans des tâches telles que l’annotation des numéros de la Commission des Enzymes et des termes de l’ontologie des gènes, montrant le potentiel des approches holistiques dans l’apprentissage des représentations protéiques. Ensuite, la thèse examine la co-conception de séquences et de structures de protéines, en se concentrant sur des modèles sensibles à la géométrie tels que l’encodeur de contexte sensible à la trigonométrie et le décodeur conjoint séquence-structure. Diverses expériences, y compris la co-conception des régions CDR des anticorps et la conception de séquences à squelette fixe, démontrent l’efficacité des méthodes proposées dans des applications pratiques. La recherche souligne l’importance de considérer à la fois la séquence et la structure pour une conception optimale des protéines, soutenue par des études de cas détaillées et des études d’ablation. Le dernier chapitre évalue différentes méthodes de conception de séquences protéiques, comparant la performance des méthodes de conception basées sur la structure existantes et proposant de nouveaux benchmarks pour la recherche future. Cette évaluation exhaustive fournit des insights sur les forces et les limitations des approches actuelles, guidant les avancées futures dans le domaine. En résumé, cette thèse contribue au domaine de la découverte des protéines en introduisant des techniques innovantes d’apprentissage automatique pour l’apprentissage de représentations conjointes et la co-conception, étayées par un benchmarking approfondi. Elle explique également les défis actuels auxquels sont confrontés les chercheurs dans le domaine de la découverte des protéines. Les résultats ont des implications larges pour la compréhen- sion des protéines, ouvrant la voie à des méthodes de conception plus efficaces et efficientes en bioinformatique.Item Accès libre Modelling and evolving design-time uncertaintySahyouni, Charbel; Famelis, Michalis (2024-10)Dans le domaine du développement logiciel, les ensembles de modèles connexes jouent un rôle essentiel tout au long du cycle de vie du logiciel. Ils servent de moyen pour capturer un large éventail d’informations qui ont une importance pour les parties prenantes impliquées dans les projets logiciels. Comme différents domaines d’application rencontrent diverses sources et types d’incertitude, des langages de modélisation spécialisés ont été développés pour répondre à la représentation de l’incertitude spécifique au domaine. Cette représentation prend en compte les particularités et les exigences uniques de chaque domaine. Elle modélise et gère les incertitudes de manière plus précise et pertinente. Cependant, un écart existe dans le paysage actuel des outils de modélisation. Il n’existe aucun outil qui permet aux modélisateurs de représenter l’incertitude qu’ils possèdent sur les décisions influençant la conception de leurs modèles. De plus, ces outils ne fournissent pas de mécanisme pour comprendre comment ces décisions impactent d’autres types d’incertitude dans des modèles connexes. Cette thèse propose le développement d’un outil complet conçu pour combler cet écart, ainsi que l’introduction d’une nouvelle méthodologie qui relie les modèles d’objectifs aux modèles partiels. L’outil proposé vise à permettre aux modélisateurs de représenter et de gérer l’incertitude associée aux décisions de conception et de comprendre leur impact sur les modèles connexes, ainsi que de connaître leur impact sur d’autres parties prenantes. La recherche consistera à créer une méthodologie pour visualiser l’incertitude dans les modèles d’objectifs ainsi que pour relier ces modèles d’objectifs aux modèles partiels, puis la recherche impliquera la conception et la mise en œuvre de l’outil que nous appellerons le cTool, suivie par l’évaluation. Cet outil est conçu pour aider les parties prenantes à aborder l’incertitude dans la conception de logiciels, ce qui conduit à une prise de décision plus éclairée et à une amélioration de la qualité du logiciel.Item Accès libre Generative models : from data generation to representation learningZhang, Ruixiang; Paull, Liam; Bengio, Yoshua (2023-08)La modélisation générative est un domaine en pleine expansion dans l'apprentissage automatique, avec des modèles démontrant des capacités impressionnantes pour la synthèse de données en haute dimension à travers diverses modalités, y compris les images, le texte et l'audio. Cependant, des défis significatifs subsistent pour améliorer la qualité des échantillons et la contrôlabilité des modèles, ainsi que pour développer des méthodes plus principiées et efficaces pour apprendre des représentations de caractéristiques structurées avec des modèles génératifs. Cette thèse conduit une enquête complète en deux parties sur les frontières de la modélisation générative, en mettant l'accent sur l'amélioration de la qualité des échantillons et la manœuvrabilité, ainsi que sur l'apprentissage de représentations latentes de haute qualité. La première partie de la thèse propose de nouvelles techniques pour améliorer la qualité des échantillons et permettre un contrôle fin des modèles génératifs. Premièrement, une nouvelle perspective est introduite pour reformuler les réseaux antagonistes génératifs pré-entraînés comme des modèles basés sur l'énergie, permettant un échantillonnage plus efficace en exploitant à la fois le générateur et le discriminateur. Deuxièmement, un cadre théorique basé sur l'information est développé pour incorporer des biais inductifs explicites dans les modèles à variables latentes grâce aux réseaux bayésiens et à la théorie du goulot d'étranglement multivarié. Cela fournit une vision unifiée pour l'apprentissage de représentations structurées adaptées à différentes applications comme la modélisation multi-modale et l'équité algorithmique. La deuxième partie de la thèse se concentre sur l'apprentissage et l'extraction de caractéristiques de haute qualité des modèles génératifs de manière entièrement non supervisée. Premièrement, une approche basée sur l'énergie est présentée pour l'apprentissage non supervisé de représentations de scènes centrées sur l'objet avec une invariance de permutation. La compositionnalité de la fonction d'énergie permet également une manipulation contrôlable de la scène. Deuxièmement, des noyaux de Fisher neuronaux sont proposés pour extraire des représentations compactes et utiles des modèles génératifs pré-entraînés. Il est démontré que les approximations de rang faible du noyau de Fisher fournissent une technique d'extraction de représentation unifiée compétitive par rapport aux références courantes. Ensemble, ces contributions font progresser la modélisation générative et l'apprentissage de représentations sur des fronts complémentaires. Elles améliorent la qualité des échantillons et la manœuvrabilité grâce à de nouveaux objectifs d'entraînement et des techniques d'inférence. Elles permettent également d'extraire des caractéristiques latentes structurées des modèles génératifs en utilisant des perspectives théoriques basées sur l'information et le noyau neuronal. La thèse offre une enquête complète sur les défis interconnectés de la synthèse de données et de l'apprentissage de représentation pour les modèles génératifs modernes.Item Accès libre Towards maintainable machine learning development through continual and modular learningOstapenko, Oleksiy; Charlin, Laurent (2024-11)As machine learning models grow in size and complexity, their maintainability becomes a critical concern, especially when they are increasingly deployed in dynamic, real-world environments. This thesis addresses the challenges of efficient knowledge retention, integration, and transfer in multitask learning and continuous multitask learning, focusing on improving the maintainability of machine learning systems. At the core of this work is the exploration of modular methods and the strategic use of foundation models (FMs) to facilitate continuous learning (CL) and efficient model management. This thesis first examines how modularity can be exploited to enable continuous learning. The first paper “Continuous Learning via Local Module Composition” introduces the Local Modular Components (LMC) approach, which innovatively uses module-specific local routing to achieve automatic task inference, mitigate forgetting, and enable the fusion of independently trained LMCs. The principle of the local routing component has been extended and refined in subsequent research. The second paper, “Continuous Learning with Foundation Models: An Empirical Study of Latent Replay,” questions the need for complicated continuous learning methods in the era of foundation models. It explores the potential of realizing continuous learning using the encoded features of pre-trained foundation models. This latent continuous learning approach demonstrates that, depending on the characteristics of the tasks and data, latent replay can effectively and efficiently match the performance of traditional end-to-end continuous learning, especially when the alignment between the pre-training and downstream data distributions improves. The third paper, “Towards Modular LLMs by Building and Reusing a Library of LoRAs,” delves into the practical implementation of a hybrid approach combining modularity and foundation models. This work proposes the creation of a library of LoRA adapters, allowing the reuse and combination of these experts in different tasks, facilitated by novel routing techniques called Arrow. This thesis contributes to the field by demonstrating how modularity and foundation models can work together to create adaptive, efficient, and maintainable machine learning systems. It also outlines future directions, emphasizing the need to minimize model retraining through modular architectures and addressing open challenges in managing modular systems.Item Accès libre Self-play for human-agent communicationGupta, Abhinav; Pal, Christopher (2024-11)Les systèmes multi-agents fournissent un cadre pour jouer avec une population d’agents afin de simuler un comportement humain dans des environnements artificiels. Ils nous permettent de former des agents artificiels en utilisant le jeu en autonomie afin qu’ils puissent développer des stratégies pour résoudre des problèmes tout en collaborant/en rivalisant avec d’autres agents dans un environnement. La communication multi-agent imite cette configuration où les agents sont formés pour développer des langages émergents qui sont ensuite utilisés pour résoudre des tâches coopératives (ou mixtes). L’objectif final est de combler le fossé entre ces langages émergents et le langage naturel pour une communication efficace avec les humains. Ce travail vise à augmenter les agents artificiels avec la capacité d’utiliser et de comprendre le langage naturel. À cette fin, je présente quelques articles qui explorent différentes facettes de ce problème de recherche. J’étudie et propose des algorithmes qui montrent comment les populations et le jeu autonome peuvent aider à l’apprentissage de diverses stratégies qui peuvent faciliter la communication homme-agent.Item Accès libre The equivalence of contrastive learning and graph convolution in collaborative filteringWu, Yihong; Nie, Jian-Yun (2024-09)Ces dernières années, les systèmes de recommandation ont gagné en importance dans le paysage informationnel en plein essor. Au cœur de ces systèmes se trouve l’algorithme de filtrage collaboratif (FC). Le graph convolutionnelle et l'apprentissage contrastif sont récemment utilisées comme des techniques importantes dans le cadre de FC. Bien que de nombreux modèles existants en FC intègrent ces méthodes dans leur conception, il semble y avoir une analyse approfondie limitée concernant les principes fondamentaux sous-jacents. Ce mémoire vise à apporter une analyse sur ces techniques afin de mieux comprendre les effets de ces deux techniques pour le FC. Nous allons relier le graph convolutionel, un élément essentiel des modèles basés sur des graphes, avec l'apprentissage contrastif à travers un cadre théorique. En examinant la dynamique d'apprentissage et l'équilibre de la fonction de perte contrastive, nous proposons une nouvelle perspective pour comprendre l'apprentissage contrastif via les principes de la théorie des graphes, à savoir le filtre passe-bas, soulignant sa capacité à capturer une connectivité d'ordre élevé. En nous appuyant sur cette analyse, nous montrons en outre que les couches de convolution de graphes souvent utilisées dans les modèles basés sur des graphes ne sont pas essentielles pour la modélisation de connectivité d'ordre élevé et au contraire, pourraient contribuer à augmenter le risque de lissage excessif. À partir de nos résultats, nous introduisons le filtrage collaboratif contrastif simple (SCCF), un algorithme simple et efficace basé sur la factorisation matricielle et une fonction de perte contrastive modifiée. L'efficacité de l'algorithme est démontrée par des expériences approfondies sur quatre ensembles de données publiques. La contribution principale de ce mémoire réside en l'établissement pour la première fois d'une connexion entre les modèles basés sur des graphes et l'apprentissage contrastif pour le FC. Ceci offre une explication pourquoi l'ajout des couches de convolution dans les modèles de graph n'était pas performant dû aux effets de surlissage. Il offre une nouvelle compréhension du FC, qui permettra de construire de nouveaux modèles de FC plus performants dans le futur.Item Accès libre Enhancing agent learning through world dynamics modelingSun, Zhiyuan; Liu, Bang (2024-08)Le développement rapide de l’intelligence artificielle (IA), allant des modèles comme BERT aux modèles de fondation à grande échelle, illustre la croissance exponentielle de la taille et des capacités des modèles, stimulée par les avancées en puissance de calcul et la disponibilité des données. Les modèles de fondation, qui tirent parti de l’apprentissage auto-supervisé sur d’énormes ensembles de données non étiquetées, ont montré une polyvalence remarquable dans une large gamme de tâches, du traitement du langage à la représentation des connaissances. Cependant, leur dépendance à des données de grande envergure, principalement issues d’Internet, introduit un « écart de connaissances »—un décalage entre les connaissances généralisées acquises pendant l’entraînement et les connaissances spécialisées nécessaires pour des domaines spécifiques. Cet écart est principalement causé par des informations insuffisantes, trompeuses ou superficielles disponibles lors de l’entraînement, ce qui peut mener à des sorties peu fiables, surtout dans des contextes de données rares ou de mauvaise qualité. Pour relever ce défi, nous introduisons le cadre Discover, Verify, and Evolve (DiVE). DiVE est conçu pour améliorer la compréhension des modèles de fondation en les dotant de connaissances profondes et adaptées aux tâches en aval. Le cadre fonctionne en trois étapes : ∙ Découvrir l’information : Extraire des informations pertinentes et utiles pour pallier le manque de données qui limite la compréhension des modèles dans des domaines spécialisés. ∙ Vérifier l’information : Valider les informations recueillies afin de filtrer les inexactitudes et les biais, garantissant ainsi que seules des connaissances fiables sont retenues. ∙ Faire évoluer l’information : Affiner et développer les informations vérifiées pour obtenir des connaissances plus approfondies, améliorant ainsi la capacité du modèle à traiter des requêtes complexes et à performer avec précision dans des tâches spécialisées. En s’attaquant aux causes profondes de l’écart de connaissances, DiVE aide les modèles de fondation à passer d’une compréhension générale à une expertise spécialisée, comblant le fossé entre formation et application. Cette approche améliore la précision des modèles à travers les domaines et renforce leurs capacités de prise de décision. Dans cette thèse, nous démontrons l’efficacité de DiVE à travers des évaluations empiriques, soulignant son potentiel à améliorer l’adaptabilité et la robustesse des modèles de fondation dans des scénarios réels.Item Accès libre Performative prediction : expanding theoretical horizonsMofakhami, Mehrnaz; Gidel, Gauthier; Mitliagkas, Ioannis (2024-07)Cette thèse aborde certaines des limitations du cadre de la prédiction performative, qui consiste à apprendre des modèles influençant les données qu’ils sont censés prédire. Je propose des solutions pour repousser les limites de ce cadre, en explorant et en identifiant de nouveaux domaines où son application peut être étendue. La thèse est structurée en trois chapitres, comme décrit ci-après. Le Chapitre 1 offre un aperçu complet du cadre de la prédiction performative, y compris une vue d’ensemble détaillée de la notation préliminaire (Section 1.1) et des concepts nécessaires à la compréhension du cadre, y compris les concepts de solution (Section 1.2) et l’algorithme de Minimisation de Risque Répété (Section 1.3). La notation de ce chapitre est tirée de l’article original sur la prédiction performative afin de garantir une compréhension fondamentale. De plus, la Section 1.4 introduit la relation entre la prédiction performative et les inégalités variationnelles, qui seront abordées plus en détail au Chapitre 3. Le Chapitre 2 présente la contribution principale de cette thèse, en analysant le cadre de la prédiction performative en présence de réseaux neuronaux avec une fonction de perte non convexe. L’accent est mis sur la recherche de classificateurs performativement stables, c’est-à-dire optimaux pour la distribution de données qu’ils induisent. Ce chapitre introduit de nouvelles hypothèses et des garanties de convergence significativement plus fortes pour la méthode RRM (Section 2.3). Ces garanties sont les premières à démontrer l’applicabilité de RRM aux réseaux neuronaux, qui sont difficiles à analyser en raison de leur non-convexité. En guise d’illustration, nous introduisons une procédure de rééchantillonnage qui modélise des changements de distribution réalistes et montrons qu’elle satisfait nos hypothèses (Section 2.4). Nous étayons notre théorie en montrant qu’il est possible d’apprendre des classificateurs performativement stables avec des réseaux neuronaux faisant des prédictions sur des données réelles qui changent selon notre procédure proposée (Section 2.5). Ce travail représente une étape cruciale pour combler le fossé entre la prédiction performative théorique et les applications pratiques. Le Chapitre 3 conclut la thèse en résumant les principales conclusions et contributions et en esquissant de futures directions de recherches. Notamment, il explore l’utilisation des inégalités variationnelles pour aborder et surmonter une limitation significative des travaux antérieurs qui régissent la force des effets performatifs. Cette recherche vise à étendre l’analyse à des scénarios avec des effets performatifs importants et à élargir l’applicabilité du cadre, ouvrant la voie à des solutions plus complètes dans la prédiction performative.Item Embargo Exploring multivariate adaptations of the Lag-Llama univariate time series forecasting approachKhorasani, Arian; Rish, Irina (2024-09)The focus of this study explores the adaptations of the Lag-Llama univariate time series forecasting approach [8] to handle multivariate time series, named LSTM2Lag-Llama. This extension is motivated by the increasing necessity to deal with datasets containing many variables of interest, particularly in the healthcare sector. A novel approach is introduced that harnesses the capabilities of the Long Short-Term Memory (LSTM) model. The baseline LSTM model takes multivariate input data and has been used widely to capture long-range dependencies within time series data. These features make it an ideal candidate for our task of expanding the Lag-Llama model to handle multivariate time series. The research process involves a detailed and systematic LSTM2Lag-Llama model to accommodate multiple input and output variables. This adaptation process is not a straightforward task. It requires careful consideration of the model architecture, loss function, and training methodologies. The performance of the LSTM2Lag-Llama model is then evaluated using a real-world dataset on early sepsis predictions. This dataset presents a challenging yet practical scenario for time series forecasting, making it an ideal testbed for our LSTM2Lag-Llama model. The results of this research demonstrate the feasibility and effectiveness of the proposed approach, representing a significant step towards exploring multivariate adaptations of the Lag-Llama model. The LSTM2Lag-Llama model not only handles multivariate data but also leverages the LSTM model’s ability to capture multivariate relationships in its hidden states. While the study does not directly implement the model in a practical healthcare setting, it underscores the potential of such advancements in time series forecasting techniques. This research represents a significant contribution to the field of time series forecasting in healthcare. It opens up new avenues for future research and has the potential to significantly impact the way healthcare professionals use time series data for prediction and decision-making.Item Accès libre Learning optimizers for communication-efficient distributed learningJoseph, Charles-Étienne; Belilovsky, Eugene (2024-07)Ce mémoire propose d'utiliser des optimiseurs appris, soit une approche tirée du méta-apprentissage, pour améliorer l'optimisation distribuée. Nous présentons deux architectures d'optimiseurs appris et nous montrons qu'elles sont plus performantes que les référentiels de l'état de l'art tout en généralisant aux ensembles de données et aux architectures inconnues. Nous établissons ainsi l'optimisation apprise comme une direction prometteuse pour l'apprentissage distribué efficace en termes de communication. Nous explorons également l'application des optimiseurs appris à l'apprentissage fédéré, une technique visant à la vie privée où les données restent sur les appareils individuels. Nos résultats démontrent que les optimiseurs appris obtiennent de bonnes performances dans des contextes d'apprentissage fédéré, entre autres avec une distribution hétérogène des données entre les clients. Enfin, ce mémoire étudie la combinaison des optimiseurs appris avec la parcimonification des gradients, une technique qui réduit la communication en ne transmettant qu'un sous-ensemble de gradients. Nos résultats montrent que les optimiseurs appris peuvent effectivement tirer parti de la parcimonie pour améliorer l'efficacité de la communication. Dans l'ensemble, ce mémoire démontre l'efficacité des optimiseurs appris pour l'apprentissage distribué efficace en termes de communication. Nous ouvrons également la voie à une exploration plus poussée de la combinaison des optimiseurs appris avec d'autres techniques visant l'efficacité en termes de communication.Item Accès libre Intrinsic exploration for reinforcement learning beyond rewardsCreus-Castanyer, Roger; Berseth, Glen (2024-07)Dans l'apprentissage par renforcement, une fonction de récompense guide le comportement de l'agent vers des objectifs spécifiques. Cependant, dans des environnements complexes, ces récompenses extrinsèques ne suffisent souvent pas, car leur conception nécessite beaucoup de travail humain. Cette thèse explore les récompenses intrinsèques comme une alternative, en mettant en avant leur potentiel pour permettre aux agents d'apprendre de manière autonome et d'explorer sans supervision. Tout d'abord, nous identifions un problème majeur avec de nombreuses récompenses intrinsèques : leur nature non-stationnaire, qui complique l'optimisation. Pour résoudre ce problème, nous proposons des objectifs stationnaires pour l'exploration (SOFE), qui transforment les récompenses non-stationnaires en récompenses stationnaires grâce à des représentations d'état augmentées. Cette approche améliore les performances de différentes méthodes de récompenses intrinsèques dans divers environnements. Ensuite, nous introduisons S-Adapt, une nouvelle méthode de motivation intrinsèque adaptative basée sur le contrôle de l'entropie. Ce mécanisme, conçu comme un problème de bandit à plusieurs bras, permet aux agents de développer des comportements émergents dans divers environnements sans avoir besoin de récompenses extrinsèques. Enfin, nous présentons RLeXplore, un cadre complet qui normalise l'implémentation de huit méthodes de récompense intrinsèque de pointe. Ce cadre vise à résoudre les incohérences dans l'optimisation et les détails de mise en œuvre des récompenses intrinsèques, accélérant ainsi la recherche dans le domaine du RL à motivation intrinsèque. Ces contributions avancent notre compréhension et l'application de la motivation intrinsèque dans des environnements virtuels, montrant sa capacité à développer des comportements d'agent plus autonomes dans une variété de situations complexesItem Accès libre Domain adaptation in reinforcement learning via causal representation learningCôté-Turcotte, Léa; Bacon, Pierre-Luc (2024-07)Les progrès récents en apprentissage par renforcement ont été substantiels, mais ils dépendent souvent de l'accès à l'état. Un état est un ensemble d'informations qui fournit une description concise et complète de l'environnement, englobant tous les détails pertinents nécessaires pour que l'agent puisse prendre des décisions éclairées. Cependant, de telles données détaillées sont rarement disponibles dans les situations réelles. Les images offrent une forme de données plus réaliste et accessible, mais leur complexité pose d'importants défis dans le développement de politiques robustes et efficaces. Les méthodes d'apprentissage de représentation se sont révélées prometteuses pour améliorer l'efficacité des politiques basées sur les données de pixels. Néanmoins, les politiques peinent toujours à généraliser à de nouveaux domaines, rendant l'application de l'apprentissage par renforcement basé sur les pixels impraticable pour des scénarios du monde réel. Cela souligne le besoin urgent de s'attaquer à l'adaptation de domaine dans l'apprentissage par renforcement basé sur les pixels. Cette thèse examine le potentiel de l'apprentissage de représentation causale pour améliorer l'adaptation de domaine dans l'apprentissage par renforcement. L'idée sous-jacente est que pour que les agents s'adaptent efficacement à de nouveaux domaines, ils doivent être capables d'extraire des informations de haut niveau à partir de données brutes et de comprendre les dynamiques causales qui régulent l'environnement. Pour étudier cela, nous évaluons quatre algorithmes distincts d'apprentissage de représentation causale, chacun conçu pour capturer un niveau de structure plus détaillé dans l'espace latent, évaluant leur impact sur la performance d'adaptation de domaine. Le processus implique d'abord d'apprendre une représentation causale puis de former l'agent d'apprentissage par renforcement sur cette représentation. La performance d'adaptation de domaine de ces agents est évaluée dans deux environnements de conduite autonome : CarRacing et CARLA. Nos résultats soutiennent que l'apprentissage d'une représentation latente améliore nettement l'efficacité et la robustesse dans l'apprentissage par renforcement basé sur les pixels. De plus, ils indiquent qu'apprendre une structure causale dans l'espace latent contribue à une meilleure performance d'adaptation de domaine. Cependant, la promesse de la représentation causale pour améliorer l'adaptation de domaine est tempérée par leurs demandes computationnelles substantielles. De plus, lorsque des observations de plusieurs domaines sont disponibles, cette approche ne dépasse pas l'efficacité des méthodes plus simples. Nous avons également trouvé que les agents entraînés sur des représentations qui conservent toutes les informations de l'espace latent ont tendance à surpasser les autres, suggérant que les représentations dissociées sont préférables aux représentations invariantes.