Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires
URI permanent de cette collectionhttps://hdl.handle.net/1866/3001
Cette collection présente les thèses et mémoires des étudiant.e.s du Département d'informatique et de recherche opérationnelle de l'Université de Montréal.
1990 - : Couverture exhaustive (quelques titres manquants)
avant 1990 : Période non couverte ou couverture partielle
Pour plus d'information sur le dépôt des thèses et mémoires consulter le site Thèses et mémoires des bibliothèques
Site web du Département d'informatique et de recherche opérationnelle
Parcourir
Dépôts récents
Item Accès libre A study of the role of entanglement in quantum kernel modelsChikhar, Omar; Rabusseau, Guillaume; Kourtis, Stefanos (2025-03)Cette thèse explore le domaine émergent des méthodes de noyaux quantiques, une classe prometteuse d'algorithmes d'apprentissage automatique quantique qui utilise des circuits quantiques comme fonction de noyau. Les noyaux quantiques intègrent implicitement les données dans un espace de Hilbert de haute dimension, appelé Quantum Feature Map. Les noyaux quantiques ont montré un avantage par rapport à leurs équivalents classiques dans l'identification des phases quantiques dans les systèmes à plusieurs corps , ont été utilisés pour prédire les énergies d'état fondamental de petites molécules, et pour la détection d'anomalies dans les ensembles de données financières. Nous concentrons notre recherche sur le rôle de l'intrication dans l'apprentissage et la performance des modèles de noyaux quantiques. En générant des ensembles de données synthétiques avec des niveaux d'intrication contrôlés, nous investiguons systématiquement la relation entre l'intrication et les capacités de classification des noyaux quantiques. Nos résultats révèlent que certaines configurations d'intrication améliorent significativement la capacité du noyau à capturer les motifs de données étiquetés par un noyau quantique. Nous avons expérimenté diverses routines d'optimisation pour entraîner les noyaux quantiques, en considérant l'intrication comme un hyperparamètre, similaire à la variance dans les modèles classiques. Nos résultats montrent des schémas typiques de surapprentissage lorsque le niveau d'intrication dans le classificateur augmente, et nous relions ce phénomène au concept de average entanglement entropy.Item Accès libre Learning equivalence hash functionsDuchesneau, Mathieu; Tapp, Alain (2025-03)Imaginez héberger une plateforme où les utilisateurs partagent du contenu original, tel que des images, de la musique ou des vidéos. Pour garantir l’intégrité, vous avez besoin d’un algorithme capable de détecter la réinsertion de contenu existant. Cependant, étant donné l’échelle massive des ajouts quotidiens, comparer directement chaque nouvelle publication avec des milliards d’éléments existants est impossible en pratique. Pour les réinsertions exactes, les tables de hachage sont la solution la plus efficace, permettant une détection des doublons en temps constant. Cependant, si la plateforme doit également repérer des réinsertions avec des modifications légères, cette solution ne fonctionne pas. Même une modification minime, comme l’altération d’un seul pixel, entraînera une valeur de hachage différente, associant ainsi le contenu original et modifié à des adresses distinctes dans la table, ce qui empêchera la plateforme de détecter le contenu altéré. De plus, un utilisateur malveillant pourrait effectuer des transformations plus complexes, telles que l’ajustement de la teinte, de la luminosité et de la saturation, ou introduire de légères distorsions ou rotations à l’image. Les approches actuelles pour traiter ce type de problème proviennent de la littérature sur les algorithmes de plus proches voisins approximatifs, où les techniques les plus prometteuses sont basées sur des arbres et des graphes. Cependant, bien qu’efficaces, ces techniques ne peuvent égaler l’efficience d’une simple consultation de table de hachage. Au cœur de ce travail, cette thèse introduit et explore les fonctions d'équihachage, une variante des fonctions de hachage conçue pour associer des instances «équivalentes» à la même empreinte (une chaîne binaire de longueur fixe). Dans notre exemple, une fonction d'équihachage appropriée attribuerait la même empreinte à la fois au contenu original et au contenu modifié, permettant une détection efficace des variations tout en conservant la simplicité et la rapidité de la table de hachage. Les fonctions d'équihachage étendent l'applicabilité de nombreux algorithmes basés sur le hachage. Dans notre exemple, elles élargissent le champ d’application de la recherche dans la table de hachage. Au-delà de cela, elles peuvent également étendre l'applicabilité des algorithmes basés sur les ensembles. Par exemple, étant donné une fonction d'équihachage qui associe tous les portraits d'une même personne à la même empreinte et une collection de portraits, on pourrait déterminer en temps constant si une personne figure dans la collection ou bien compter le nombre d'individus distincts dans celle-ci en temps linéaire. La plupart des exemples les plus intéressants nécessitent l'apprentissage profond pour entraîner la fonction d'équihachage appropriée. Idéalement, ces fonctions produiraient des empreintes identiques pour des instances équivalentes et des empreintes distinctes pour des instances non équivalentes. Cependant, les fonctions d'équihachage apprises ne sont pas idéales, et une partie importante de cette thèse traite des défis liés à leur entaînement, leur évaluation et l'amélioration de leurs performances. Deux métriques clés sont le taux de collision pertinente (Relevant-Collision Rate (RCR)), qui mesure la probabilité que des instances équivalentes partagent la même empreinte, et le taux de collision non pertinente (Irrelevant-Collision Rate (ICR)), qui mesure la probabilité que des instances non équivalentes partagent la même empreinte. Lorsqu'il s'agit de bases de données massives, l’ICR doit être exceptionnellement bas. Sinon, de nombreuses instances non équivalentes partageront la même empreinte, créant toutes sortes de problèmes. Atteindre un ICR faible présente deux défis: estimer avec précision un taux de collision aussi bas et entraîner efficacement des modèles capables de respecter ce critère strict. Pour répondre au premier défi, nous proposons l’intervalle de confiance de Chebyshev, qui tire parti du paradoxe des anniversaires pour estimer efficacement l’ICR. Pour le second défi, nous introduisons l'hypothèse de «challenge-starvation». Cette hypothèse identifie une limitation potentielle dans toutes les approches d'apprentissage contrastif existantes qui pourrait nuire à leur capacité d'obtenir un ICR bas. Pour contourner ce problème, nous présentons la fonction de perte de Shannon-Hamming, une stratégie d'entraînement novatrice qui se concentre exclusivement sur les signaux positifs. Notre fonction de perte améliore l'ICR d'un ordre de grandeur par rapport à ses prédécesseurs contrastifs. De plus, une fonction d'équihachage apprise devrait idéalement présenter un RCR élevé. Cependant, étant donné que la descente de gradient est incompatible avec la nature discrète de l'empreinte et que nous devons équilibrer le RCR avec un ICR exceptionnellement bas, les modèles attribueront parfois des empreintes distinctes à des instances équivalentes. Pour pallier cela, nous proposons l'algorithme de sondage multiple priorisé (prioritized multi-probing) qui exploite l'incertitude du modèle pour générer plusieurs empreintes pour chaque instance. Cette technique peut être utilisée pour améliorer le taux de détection des réinsertions de contenues modifiés dans notre exemple précédent. Nos expériences avec une base de données d'un milliard d'images démontrent la viabilité et le potentiel de notre projet de recherche.Item Accès libre Towards efficient and effective preference alignment for large language modelsThakkar, Megh Vipul; Anbil Parthipan, Sarath Chandar (2024-12)Les grands modèles linguistiques (LLM) sont devenus omniprésents en tant qu'assistants quotidiens des humains, utilisés pour la compréhension des connaissances, la programmation, la traduction et l'écriture créative. Les LLM sont pré-entraînés sur des quantités massives de textes disponibles sur le web ouvert, généralement de l'ordre de trillions de tokens, et sont ensuite instruction-tuned, c'est-à-dire formés dans des contextes supervisés sur des données de réponse à des instructions. Toutefois, ces étapes n'enseignent pas au modèle les « préférences » humaines, en lui fournissant des caractéristiques telles que l'honnêteté, l'innocuité et la sécurité. Des méthodes telles que l'apprentissage par renforcement à partir du feedback humain (RLHF) visent à affiner les LLM sur des données spécifiquement annotées pour prendre en compte ces préférences avec des objectifs spécialisés. Des modèles spécifiques à une tâche, à un domaine, à une langue et à une culture étant en cours d'élaboration en vue d'une utilisation généralisée, il est essentiel de les rendre sûrs et inoffensifs en les alignant sur les préférences humaines avant leur adoption. Cependant, la manière la plus efficace de procéder à l'apprentissage de l'alignement des modèles n'est pas claire, compte tenu du grand nombre de méthodes, d'ensembles de données et de modèles pré-entraînés disponibles. En outre, l'ajustement complet des LLM pour l'alignement est souvent coûteux et exigeant en termes de ressources. Par conséquent, l'élaboration de méthodes d'entraînement efficaces qui peuvent conduire à des performances comparables en termes d'alignement sur les préférences humaines est une question de recherche ouverte. Motivés par cela, nous effectuons une plongée profonde dans l'analyse de l'effet de divers facteurs cruciaux en termes de jeu de données, de modèle et de méthode d'apprentissage sur la performance d'alignement en aval des LLMs lorsqu'ils sont entraînés dans des paramètres efficaces. Nous évaluons de nombreux modèles largement utilisés entraînés avec des méthodes d'alignement couramment utilisées sur des ensembles de données de référence et fournissons des recettes pour aligner les LLM de manière efficace et efficiente. Nous présentons ensuite la fusion de modèles comme une alternative intéressante à l'entraînement à l'alignement, en montrant son potentiel pour rendre les modèles experts plus sûrs avec une perte minimale de leur utilité dans le domaine. Grâce à nos travaux, nous espérons motiver les chercheurs du monde universitaire et de l'industrie à intégrer l'alignement des préférences d'une manière efficace et efficiente afin de garantir que les modèles sont sûrs et inoffensifs pour une utilisation généralisée.Item Accès libre Embedding cultural diversity in prototype-based recommender systemsMoradi, Armin; Farnadi, Golnoosh (2024-12)Les systèmes de recommandation (SysRec) sont devenus une composante essentielle des plateformes numériques modernes, influençant l'expérience utilisateur en fournissant du contenu personnalisé. Cependant, ces systèmes présentent souvent une tendance à privilégier les éléments populaires, ce qui entraîne une sous-représentation des produits issus de cultures minoritaires. Ce biais, connu sous le nom de biais de popularité, favorise de manière disproportionnée les groupes culturels dominants, réduisant ainsi la visibilité et les opportunités des cultures sous-représentées. Cette thèse commence par une analyse des différents types de biais pouvant affecter les systèmes de recommandation conversationnels (SRC). Nous concentrons ensuite notre étude sur les systèmes de recommandation — un élément central des SRC — et abordons la problématique spécifique du biais de popularité. Pour améliorer l’équité sans compromettre la précision des recommandations, nous proposons un modèle de factorisation matricielle basé sur des prototypes, appelé ProtoMF. Ce modèle intègre deux innovations principales : (1) le K-filtrage des prototypes, qui affine les représentations des éléments en sélectionnant les prototypes les plus pertinents, et (2) la régularisation de la distribution des prototypes, qui favorise une répartition équilibrée des prototypes dans l’espace d’incorporation. En utilisant le pays d’origine des articles comme proxy pour l’identité culturelle, notre approche vise à atténuer les préjudices allocationnels qui touchent les groupes culturels sous-représentés. Nous évaluons notre méthode sur plusieurs ensembles de données, démontrant qu’elle réduit significativement le rang moyen des éléments de longue traîne et sous-représentés, tout en maintenant des performances élevées en termes de taux de réussite@10. De plus, notre méthode améliore l’explicabilité des recommandations, offrant ainsi une meilleure transparence sur le processus de recommandation. Ce travail contribue au domaine des systèmes de recommandation en approfondissant la compréhension de l’équité et de la diversité, en particulier dans le contexte des recommandations de contenu culturel.Item Accès libre Modélisation et analyse des données pour la simulation ferroviaire et la prévision des horaires en temps réelCôté, Hugo; L'Écuyer, Pierre (2025-03)La SNCF est une société d'État qui gère toute l'infrastructure ferroviaire en France et y opère presque tous les trains. L'exploitation ferroviaire à cette échelle est la cible d'aléas variés et en grand nombre, il est donc important d'anticiper l'évolution du système en temps réel pour offrir de l'information aux voyageurs et aux régulateurs et pour évaluer différents scénarios de gestion de trafic. Il est également important de modéliser fidèlement son comportement pour comparer différentes variantes de la grille horaire. Les présents travaux de recherche portent sur : la géolocalisation des trains; le décalage d'horloge des enregistrements d'évènements de conduite ATESS; les erreurs d’estimation des horaires réalisés des trains; l'évaluation de la qualité des prédictions déterministes et des prévisions statistiques des prochains horaires de trains; et l'amélioration de ces prédictions en ciblant les aspects importants affectant leur qualité.Item Accès libre CyberPRIcards : un jeu sérieux pour la sensibilisation à la vie privée et l’intimité numériqueCarrascal, Rafael; Aïmeur, Esma (2025-03)L’évolution des technologies de l’information a créé un écosystème numérique où la présence en ligne est devenue indispensable, s’entremêlant naturellement avec la vie physique des individus. Cette transformation numérique implique la gestion d’informations publiques et privées, exposant souvent les utilisateurs à des risques importants. Malgré les avancées en cybersécurité, le facteur humain demeure le maillon faible, accentuant les vulnérabilités par l’auto-divulgation, les configurations inadéquates et les pratiques non sécurisées. Avec l’omniprésence des réseaux sociaux, des appareils mobiles et des services en ligne—touchant des activités personnelles, professionnelles et de loisirs—la quête de la vie privée est devenue un défi majeur. Bien que diverses solutions, notamment des cadres juridiques, des innovations technologiques et des initiatives éducatives, aient été développées pour répondre à ces défis, la majorité cible les entreprises ou les professionnels de la cybersécurité. Peu d’attention est accordée à la sensibilisation des utilisateurs réguliers. Pour combler cette lacune, ce travail propose la conception et développement de Cyber PRIcards, un jeu sérieux destiné à sensibiliser les utilisateurs non spécialistes sur les risques liés à la vie privée et les contre-mesures. En intégrant les principes de la gamification et de l’apprentissage par le jeu, le jeu proposé utilise un système engageant basé sur des cartes pour représenter les concepts clés, tester les connaissances par la classification et encourager un apprentissage pratique à travers des mécaniques dynamiques. Structuré autour de trois modes —présentation, classement et combinaisons (sets)— le jeu expose les utilisateurs aux concepts de la vie privée de manière active, répétée et engageante. Cette approche vise non seulement à sensibiliser, mais aussi à doter les utilisateurs d’outils pratiques, de comportements sécurisés et de stratégies pour protéger leur vie privée en ligne. Ce travail contribue au domaine, comblant l’écart entre la connaissance théorique et une sensibilisation actionnable. Les résultats démontrent l’efficacité des mécaniques ludiques pour sensibiliser les utilisateurs, ce qui souligne le potentiel des jeux sérieux pour répondre aux défis croissants de la sécurité numérique et de la vie privée en ligne.Item Accès libre Nouvelle contraction algébrique appliquée au problème de tarification de réseauHébert-Doutreloux, Julien; Carvalho, Margarida; Frejinger, Emma (2025-03-13)Le problème de tarification de réseau est un problème classique d’optimisation combinatoire dans un graphe. Dans celui-ci, un fournisseur cherche à maximiser le profit tiré d’un sous-ensemble d’arcs qu’il contrôle aux dépens d’usagers cherchant à minimiser leur coût de passage. La littérature sur ce programme biniveaux présente des reformulations et des techniques de prétraitement, mais les techniques de réduction de graphe sont rares. Dans ce travail, nous proposons une nouvelle réduction de graphe et l’appliquons à ce problème. D’une part, nous formalisons algébriquement la réduction de graphe basée sur la fusion d’arcs et d’autre part, nous l’appliquons au processus de résolution du problème de tarification. Au vu de la grande dispersion des résultats, il est vraisemblable qu’il n’existe aucune garantie théorique. Pourtant, il y a de nombreux cas où la réduction est bénéfique. Ces transformations sont issues d’un échantillonnage dont le procédé est lié à la détermination des cliques maximum, c’est-à-dire les plus grands ensembles de sommets deux à deux adjacents. Un algorithme simple pour déterminer les cliques maximum ayant des résultats préliminaires prometteurs est présenté. Les résultats préliminaires d’application de la transformation de graphe indiquent que des gains de temps substantiels sont possibles, mais qu’une connaissance préalable du réseau est nécessaire à l’obtention de bonnes réductions. Bref, ce mémoire présente une nouvelle transformation de graphe, en fait la formalisation algébrique puis en fait l’application sur un problème biniveaux.Item Accès libre Deep learning applications to climate change mitigationSchmidt, Victor; Bengio, Yoshua (2024-04)Les changements climatiques sont un défi mondial imminent, dont les conséquences sont déjà observées. On sait que ces effets s’intensifieront, entraînant une augmentation de la fréquence et de la gravité des événements météorologiques extrêmes, une perturbation substantielle de la production alimentaire et le déplacement de dizaines de millions de personnes en raison de vagues de chaleur mortelles et de sécheresses. La question est donc : que peut-on y faire ? Dans cette thèse, nous faisons des changements climatiques notre objet central et explorons les voies par lesquelles la recherche en apprentissage profond peut contribuer à son atténuation. Un obstacle connu à des politiques climatiques ambitieuses est le manque de soutien et de demande populaires. Cela peut être attribué, en partie, aux causes et conséquences extrêmement complexes et imbriquées des changements climatiques. Une mauvaise conception courante est qu'ils affecteront principalement d’autres personnes que soi-même, des personnes éloignées dans le temps ou l’espace. Pour y remédier, la recherche a montré que présenter aux gens des \textit{images} authentiques, locales et pertinentes d'un concept les aide à mieux comprendre et appréhender ce qui est en jeu. Dans notre première contribution, nous explorons donc comment les récentes avancées en apprentissage profond pour la vision par ordinateur et les réseaux antagonistes génératifs peuvent être utilisées pour générer des images \textit{personnalisées} représentant les impacts du changement climatique. Notre objectif avec \textit{ClimateGAN} est de visualiser à quoi pourrait ressembler une inondation d’un mètre à n’importe quelle adresse, indépendamment de son risque réel d’inondation sous l’effet des changements climatiques. Cette approche vise à susciter l’empathie en rendant les impacts abstraits du changement climatique plus tangibles et personnalisés. En utilisant une image de Google Street View et en la traitant avec \textit{ClimateGAN}, nous générons des images d’inondation physiquement plausibles et visuellement réalistes basées sur l’adaptation de domaine à partir d’un environnement simulé, la prédiction de profondeur et la segmentation sémantique. Ce modèle a été déployé sur un site web dans le but de sensibiliser et d’engager l’action en faveur des changements climatiques. En plus d’aider les gens à mieux visualiser à quoi pourrait ressembler un avenir climatique hors de contrôle, nous étudions également dans cette thèse comment l’apprentissage profond peut améliorer les technologies existantes. Un domaine majeur de recherche dans cette direction est la recherche de nouveaux matériaux. Dans cette thèse, nous explorons plus particulièrement la prédiction des propriétés des matériaux comme moyen d’accélérer la découverte d'électro-catalyseurs, une famille de matériaux impliqués dans le stockage d’énergie à base d’hydrogène. Nous présentons deux contributions, \textit{PhAST} et \textit{FAENet}, qui se concentrent sur l’amélioration du compromis performance/scalabilité dans les réseaux de neurones géométriques de graphe (GNN). Avec \textit{PhAST}, nous introduisons un ensemble de méthodes pour adapter la procédure GNN classique--de la création du graphe d’entrée aux prédictions d’énergie et de forces de sortie--à la tâche spécifique de prédire l’énergie d’un système atomique adsorbant-catalyseur relaxé. Nous démontrons comment, en plus d’améliorer les performances, ces modifications améliorent l’efficacité et permettent un entraînement compétitif des GNN dans des environnements CPU. Dans \textit{FAENet}, nous présentons un nouveau GNN efficace pour les prédictions équivariantes E(3). En particulier, nous transposons la charge de l’équivarience sur la représentation des données afin de réduire les contraintes sur le modèle lui-même. Cette approche nous permet d’introduire une nouvelle architecture légère et expressive visant à faire des prédictions meilleures et plus rapides de diverses propriétés des matériaux. Enfin, nous examinons de manière critique notre propre domaine et discutons des impacts environnementaux associés aux technologies de l’IA. Nous nous penchons sur la façon dont les praticiens peuvent estimer leurs émissions de carbone, quelles mesures ils peuvent prendre aujourd’hui pour les réduire, et quelles autres étapes sont nécessaires pour des déclarations et responsabilités environnementales plus précises.Item Accès libre Learning under constraintsMisra, Diganta; Rish, Irina (2025-03)Dans le vaste domaine de l’Intelligence Artificielle (IA) aujourd’hui, la poursuite pour des modèles extensibles de base pour des tâches subséquentes continue de se démarquer. Ces modèles de base ont montré des capacités presque surhumaines, stimulant les avancées dans diverses industries et élargissant les frontières de l’exploration scientifique et de la recherche. Cependant, l’extension rapide et presque exponentielle des réseaux neurones modernes les rend difficiles à appliquer dans des domaines et des contextes avec des contraintes pratiques et des ressources limitées. Bien que ces modèles de très grande taille excellent dans diverses applications et évaluation de tâches subséquentes, ils deviennent non-utilisables dans des domaines disposant de ressources limitées en capacité de mémoire, de calcul ou de données pour l’entraînement. Plusieurs études ont exploré et proposé des méthodologies efficaces telles que la sparsification, la quantification et les techniques de prompt pour déployer ces modèles et évaluer leur impact sur diverses tâches. Toutefois, un aspect qui est resté insaisissable dans les recherches précédentes est l’intégration de multiples contraintes au sein d’un même cadre. Cette thèse fait des progrès significatifs pour combler le fossé dans notre compréhension de la manière de construire des régimes d’entraînement efficaces sous de multiples contraintes, comme la parcimonie et la limitation du budget de données, au sein d’un même cadre. Elle analyse également les méthodes existantes et explore comment elles peuvent être adaptées à ces environnements contraints. Nous commençons ainsi par étudier les effets de l’élagage des réseaux neuronaux denses dans un cadre d’apprentissage à tout moment. Nous démontrons comment l’élagage progressif, visant à atteindre une sparsification cible, peut être avantageux par rapport aux performances des modèles entièrement denses et des modèles moins denses en une seule fois. Ensuite, nous explorons l’apprentissage par transfert efficace via des techniques de prompt, en examinant comment la compression des modèles affecte diverses méthodes de prompt dans différentes tâches subséquentes. Nous offrons une nouvelle perspective montrant que la compression a tendance à impacter négativement les capacités de transfert en aval du modèle, en particulier dans les méthodes de prompt visuels dans des conditions de faible quantité de données. Pour conclure, nous proposons un nouveau cadre d’élagage de réseau, D2-Sparse, conçu pour des environnements d’entraînement avec des budgets de données extrêmement limités, inspiré de l’approche d’apprentissage complémentaire du système cognitif humain.Item Accès libre Strategic capacity planning and pricing : a choice-based approachPinzon Ulloa, David Leonardo; Frejinger, Emma (2025-03)Cette thèse étudie les problèmes de décision stratégiques abordés par un fournisseur de services logistiques (FSL) souhaitant optimiser ses profits ou ses pertes, lorsque l'information dont il dispose à propos de la demande de ses clients pour de nouveaux services est incomplète. Nous adoptons l'hypothèse que la demande est issue de la maximisation d'utilité par les clients. Puisque la connaissance des préférences des clients par le FSL est incertaine, celles-ci sont décrites au moyen de modèles d'utilité aléatoires. La thèse est constituée de trois articles dans lesquels les problèmes traités par le FSL sont exprimés sous forme de programmes stochastiques bi-niveaux où le FSL est le leader et les clients sont les suiveurs. Les articles proposent des reformulations à un seul niveau fondées sur les propriétés duales des solutions optimales et faisant usage de la méthode d'approximation par moyenne échantillonnale pour le calcul des utilités espérées. Ces reformulations sous-tendent la construction, d'une part, de méthodes de résolution asymptotiquement exactes dont la vitesse est supérieure à celle des méthodes de pointe actuelles et, d'autre part, de méthodes heuristiques dont la vitesse et l'exactitude sont élevées. Cette thèse est basée sur trois articles. Dans le premier article, le FSL offre aux expéditeurs des combinaisons de prix et de niveau de service de sorte à maximiser l'espérance des profits résultant de la fourniture des combinaisons sélectionnées par les expéditeurs, à l'inclusion des coûts associés à l'installation des lieux de service. Le programme du niveau inférieur concerne dans ce cas la sélection des combinaisons de prix et de service par les expéditeurs. Dans le second article, le FSL désire minimiser l'espérance du total de ses coûts de livraison et de fonctionnement en offrant à ses clients de substituer la visite de points de cueillette et livraison à la livraison à domicile. Le programme du niveau inférieur concerne dans ce cas la sélection des points de cueillette et livraison ou de la livraison à domicile par les clients. Le troisième article introduit un procédé d'agrégation des scénarios dans la reformulation développée dans le premier article, permettant ainsi d'accroître la vitesse de calcul de plusieurs ordres de grandeur. En résumé, cette thèse fait avancer l'état de l'art sur les formulations stochastiques bi-niveaux pour les problèmes de localisation et de tarification. Ces problèmes sont difficiles à résoudre en raison des objectifs de maximisation du profit, des structures de coût complexes et des contraintes de capacité. D’un point de vue applicatif, la thèse fournit des perspectives managériales essentielles pour les fournisseurs logistiques.Item Accès libre Machine learning accelerated stochastic optimization and applications to railway operationsLarsen, Eric; Frejinger, Emma (2025-03)Nous proposons des innovations méthodologiques combinant l’apprentissage automatique (AA) et la recherche opérationnelle (RO) où des prédicteurs issus de l’AA supervisé sont entraînés hors-ligne et introduits dans des algorithmes de RO pour accélérer les calculs en-ligne. La synergie entre RO et AA est particulièrement avantageuse pour la programmation stochastique. Nous concentrant sur les problèmes de décision à deux étapes, nous vérifions que des prédictions de la solution de deuxième étape (DE) améliorent considérablement le compromis entre exactitude et vitesse des calculs. Nous éprouvons nos propositions sur des applications réalistes et des problèmes standardisés. La thèse comprend cinq articles: The Load Planning Problem for Double-stack Intermodal Trains traite en contexte réaliste le problème opérationnel déterministe de chargement optimal (PCO) de conteneurs sur des wagons doublement étagés. Il établit en outre les bases des applications de l’AA à la RO examinées dans les deux articles suivants où l’apprentissage se fonde sur des paires entrée-sortie joignant une instance déterministe du PCO à sa solution exacte. Predicting Tactical Solutions to Operational Planning Problems Under Imperfect Information emploie l’AA hors-ligne pour accélérer la programmation stochastique à deux étapes lorsque DE est difficile. Les prédictions d’AA de la solution espérée de DE, conditionnelles aux variables de première étape (PE), obvient à la génération de scénarios et au calcul de solutions en DE. Elles produisent des solutions globales avec plus d’exactitude et de vitesse en-ligne que les méthodes alternatives. Une application à une version tactique du PCO est présentée. A Language Processing Algorithm for Predicting Tactical Solutions to an Operational Planning Problem Under Uncertainty démontre l’usage d’un algorithme de traduction neural pour générer des prédictions rapides et fidèles de solutions détaillées d’un problème stochastique de décision. Il décrit comment établir les vocabulaires et les syntaxes, introduire des contraintes portant sur la relation d’entrée-sortie ou sur les sorties. Il définit une mesure de discordance et un prédicteur de référence. Une application au PCO est présentée. Fast Continuous and Integer L-shaped Heuristics Through Supervised Learning présente une matheuristique résolvant un programme stochastique linéaire à deux étapes avec variables mixtes. Il démontre comment la substitution de solutions d’AA au sous-problème de Benders pour le calcul de coupes d’optimalité L-shaped entières et continues permet un compromis avantageux entre exactitude et temps de calcul en-ligne. Les temps sont indépendants du nombre de scénarios et le prédicteur d’AA est valide pour des familles de problèmes paramétrées. Une application à des familles dérivées de problèmes stochastiques standard de localisation de serveurs et de sac-à-dos multiple est présentée. Pseudo-random Instance Generators in C++ for Deterministic and Stochastic Multi-commodity Network Design Problems présente des générateurs simulant une large gamme de problèmes de conception de réseau déterministes et stochastiques avec multiples classes d’objets, capacités et coûts fixes. Il vise à faciliter l’évaluation et la comparaison de méthodes de solution exactes et heuristiques, notamment usant de l’AA, et à favoriser la reproductibilité et la comparabilité de résultats publiés.Item Accès libre Enhancing risk-based authentication with federated learning : introducing the F-RBA frameworkFereidouni, Hamidreza; Hafid, Abdelhakim (2024-12)Digital ecosystems increasingly require adaptive and privacy-preserving authentication to defend against advanced cyber threats. While conventional static mechanisms and modern passwordless solutions can be bypassed by malware, session hijacking, or credential compromise, Risk-Based Authentication (RBA) addresses these gaps by dynamically adjusting verification levels based on real-time contextual and behavioral cues, such as device type, user location, IP reputation, keystroke dynamics, and touch patterns. This thesis introduces a Federated Risk-based Authentication (F-RBA) framework that decentralizes RBA's risk evaluation engine and data processing. Conventional centralized RBA systems require raw user data to be transmitted and stored in authentication servers, creating significant privacy risks and potential single points of failure. Rather than sending raw user data to a centralized server, each device locally trains an autoencoder-based risk evaluation model and contributes only aggregated weight updates to a global model. To handle heterogeneous and non-Independent and Identically Distributed (non-IID) data, we adopt two strategies: first, a similarity-based feature engineering method converts diverse user data (e.g., IP addresses, timestamps, and device attributes) into uniform, normalized scores according to the user's history; second, we employ FedProx at the algorithmic level to achieve faster convergence and stability in the federated setting. These measures not only strengthen overall model performance, but also keep user data under local control, significantly reducing privacy risks. Key contributions include a federated learning pipeline for on-device risk evaluation, a comprehensive feature engineering approach to handle heterogeneous login contexts, and a cold-start solution that leverages a shared global model to protect new users who have limited history. Empirical results from a multi-user dataset confirm that F-RBA outperforms typical unsupervised anomaly detection models in detecting suspicious logins while maintaining a relatively lightweight user experience. The decentralized design enables seamless cross-device synchronization of comprehensive user profiles without sacrificing data privacy.Item Accès libre Towards efficient large language models : training low-bitwidth variants and low-rank decomposition of pretrained modelsVaidhya, Tejas; Rish, Irina (2024-12)Au cours de la dernière décennie, les progrès de l’intelligence artificielle (IA) ont été largement motivés par l’apprentissage profond et la mise à l’échelle des architectures de réseaux neuronaux. Si l’augmentation de l’échelle des modèles (à la fois en termes de nombre de paramètres et de taille des ensembles de données d’entraînement) a conduit à des améliorations significatives des capacités de l’IA, elle a également introduit des défis, notamment lors du déploiement de ces modèles dans des scénarios du monde réel. Cette thèse aborde ces défis en explorant des méthodes permettant de réduire la taille du modèle ou le nombre de paramètres sans perte de performances, réduisant ainsi les coûts de calcul et l’utilisation de la mémoire pendant le déploiement. La recherche étudie spécifiquement le pré-entraînement de modèles de langage à grande largeur de bit (LLM) extrêmement faible et la décomposition de bas rang des LLM pré-entraînés, démontrant des stratégies possibles pour préserver les niveaux de performances deces systèmes tout en réduisant considérablement les coûts de calcul et de mémoire pendant inférence. La première étude démontre la faisabilitéde former à partir dezéro des LLM ternaires qui atteignent la parité de performances avec les réseaux FP16 (float16) à des échelles dépassant 3 milliards de paramètres, offrant une alternative plus efficace en termes de taille de bits. La deuxième étude explore la décomposition efficace des LLM pré-entraînés en matrices de poids de bas rang, réduisant considérablement le nombre de paramètres pour le déploiement. Nos résultats révèlent que la stratégie ci-dessus pour compresser les modèles peut offrir des performances comparables, voire améliorées, tout en utilisant beaucoup moins de bits ou de paramètres lors de l’inférence. Cette recherche souligne le potentiel d’amélioration de l’efficacité du système d’IA, contribuant ainsi au développement de technologies d’IA plus abordables, accessibles et durables.Item Accès libre Dichotomy(?) of fairness and efficiencySukumaran, Rohan; Farnadi, Golnoosh (2024-12)La montée en popularité des modèles fondamentaux à grande échelle a révolutionné l'intelligence artificielle. Toutefois, en raison des contraintes computationnelles et de stockage, cela présente des défis significatifs pour leur déploiement sur des appareils aux ressources restreintes. Des techniques telles que ajustement économe en paramètres (PEFT), illustré par l'adaptation de rang faible (LoRA), et des méthodes de compression de modèles comme l’élagage ont émergé pour résoudre ces problèmes. Cependant, leur impact sur l'équité demeure insuffisamment étudié et pourrait potentiellement aggraver les biais envers certains groupes de la population sous-représentés. Cette thèse examine les implications en matière d'équité des méthodes PEFT et de l'élagage et introduit des solutions pour atténuer efficacement les biais associés. Premièrement, nous proposons \textbf{FairLoRA}, une nouvelle adaptation de LoRA consciente de l'équité qui réduit les disparités de performance entre les sous-groupes de données en minimisant la variance de la perte par classe. Notre évaluation systématique sur divers modèles de vision—incluant ViT, DINO et CLIP—et jeux de données démontre que FairLoRA atteint des résultats en matière d'équité comparables à un ajustement fin complet avec régularisation d'équité, sans nécessiter des rangs LoRA plus élevés. Deuxièmement, nous abordons l'impact disparate de l'élagage en formulant une approche d'optimisation contrainte qui limite directement les changements de précision entre les modèles denses et sparsifiés pour chaque sous-groupe. Cette méthode fournit un critère interprétable pour des niveaux de disparité acceptables et s'adapte efficacement aux grands modèles et à de nombreux sous-groupes protégés. Une contribution clé de ce travail est l'identification des défis de généralisation dans les interventions d'équité; nous sommes parmi les premiers à observer que les améliorations en matière d'équité sur les données d'entraînement peuvent ne pas toujours se transférer aux données non vues. En soulignant cette limitation, notre travail souligne la nécessité de recherches supplémentaires pour développer des stratégies robustes d'atténuation des biais. Dans l'ensemble, cette thèse fait progresser le déploiement de modèles d'apprentissage automatique efficaces et équitables en proposant des méthodes pratiques pour atténuer les problèmes d'équité dans le PEFT et l’élagage, garantissant que les gains en performance ne se font pas au détriment de l'équité.Item Accès libre Détection universelle des images synthétiques générées par les modèles de diffusionBourega, Khadidja Yasmine; Aïmeur, Esma (2024-09)L’émergence des modèles d'intelligence artificielle générative, en particulier les modèles de diffusion appliqués à la génération d'images synthétiques, a redéfini notre conception de l'authenticité visuelle. Cette révolution technologique, accessible au grand public, soulève des questions cruciales quant à la fiabilité de l'information visuelle et à la confiance du public envers les contenus numériques. En effet, ces technologies, si elles permettent d'élargir les horizons créatifs, favorisent également la désinformation, notamment via les réseaux sociaux, où des images synthétiques peuvent influencer les opinions publiques. Les modèles actuels de détection d'images synthétiques se révèlent insuffisants pour faire face à la croissance rapide des nouveaux modèles de diffusion. Leur incapacité à généraliser aux modèles de diffusion non rencontrés lors de l'entraînement représente un défi majeur, car de nouveaux modèles de diffusion sont continuellement publiés. Il est crucial de développer des modèles de détection capables de s'adapter efficacement aux modèles de diffusion jamais vus. C'est dans ce contexte que notre recherche se concentre sur la généralisation et l'amélioration de la détection des images synthétiques générées par ces modèles de diffusion en constante évolution. Nos contributions sont multiples. En premier lieu, nous avons conçu une base de données unique, IMA-SYN, qui rassemble 11 modèles de diffusion de pointe, tels que GLIDE, DALL-E 2 et Stable Diffusion 3, pour un total de plus d'un million d'images synthétiques. Il s'agit de la base de données la plus vaste à ce jour, intégrant les modèles de génération d'images les plus récents. Une autre contribution majeure de cette recherche réside dans la détection des images synthétiques générées par ces modèles de diffusion. En recourant à une fusion de plusieurs modèles de détection telles que ResNet, DenseNet, DeiT et BEiT, nous avons pu combiner leurs forces, ce qui a conduit à une amélioration significative des performances en termes de taux de bonne classification (TBC). Les résultats obtenus démontrent l'efficacité de cette approche, non seulement pour la détection d'images synthétiques, mais également pour la généralisation à des modèles de diffusion non vus, en entraînant ces modèles de détection sur seulement des images générées par 2 modèles de diffusion, nous avons réussi à généraliser à tous les autres modèles de diffusion. Cette recherche aborde également la tâche de l'attribution des images synthétiques à leur modèle de diffusion d'origine. Ce point est essentiel pour identifier le modèle responsable de la création d'une image synthétique, et permet de responsabiliser les développeurs en cas d'abus, afin qu'ils puissent renforcer la sécurité de leurs modèles génératifs. Les techniques d'explicabilité jouent également un rôle central dans cette recherche. Elles permettent de mieux comprendre le processus décisionnel des modèles de détection. Les explications visuelles fournies par LIME (Local Interpretable Model-Agnostic Explanations) mettent en lumière les régions spécifiques de l'image qui influencent la prédiction, qu'elle soit positive ou négative. En parallèle, les explications textuelles générées par GPT-4 Vision améliorent l'interprétabilité des résultats, facilitant ainsi la compréhension des décisions prises par les modèles de détection. Enfin, une analyse de la robustesse des modèles de détection a été effectuée afin d'évaluer leur comportement face à des attaques adverses et des perturbations. Les résultats montrent l'impact de ces perturbations sur la précision des modèles et fournissent des perspectives pour améliorer leur résilience.Item Accès libre Geometric-aware models for protein designWang, Chuanrui; Tang, Jian (2024-06)La compréhension des protéines est fondamentale pour l’avancement de la bio-informatique, avec des implications significatives pour la découverte de médicaments, la recherche sur les maladies et d’autres applications biologiques et médicales. Cette thèse examine le processus complexe de modélisation et de conception des séquences et structures de protéines à travers le prisme de l’apprentissage automatique géométrique, en mettant un accent particulier sur l’apprentissage de représentations conjointes, la co-conception de protéines et l’évaluation comparative des méthodes de conception. Nous commençons par une introduction à la portée et aux contributions de la recherche, établissant les bases des chapitres suivants. La thèse aborde également les connaissances fondamentales sur les protéines, discutant de leurs modalités, représentations et des concepts critiques d’invariance et d’équivariance géométriques dans les structures protéiques. L’accent se déplace ensuite vers l’apprentissage de représentations conjointes, où l’intégration de modèles de langage protéique (PLM) et d’encodeurs de structure sensibles à la géométrie est explorée pour améliorer la compréhension et la prédiction des fonctions protéiques. Cette section met en lumière la fusion de l’ESM-2 avec divers encodeurs de structure et introduit de nouvelles stratégies de fusion qui démontrent les avantages mutuels de combiner les informations de séquence et de structure pendant la pré-formation. Ces méthodes atteignent des résultats de pointe dans des tâches telles que l’annotation des numéros de la Commission des Enzymes et des termes de l’ontologie des gènes, montrant le potentiel des approches holistiques dans l’apprentissage des représentations protéiques. Ensuite, la thèse examine la co-conception de séquences et de structures de protéines, en se concentrant sur des modèles sensibles à la géométrie tels que l’encodeur de contexte sensible à la trigonométrie et le décodeur conjoint séquence-structure. Diverses expériences, y compris la co-conception des régions CDR des anticorps et la conception de séquences à squelette fixe, démontrent l’efficacité des méthodes proposées dans des applications pratiques. La recherche souligne l’importance de considérer à la fois la séquence et la structure pour une conception optimale des protéines, soutenue par des études de cas détaillées et des études d’ablation. Le dernier chapitre évalue différentes méthodes de conception de séquences protéiques, comparant la performance des méthodes de conception basées sur la structure existantes et proposant de nouveaux benchmarks pour la recherche future. Cette évaluation exhaustive fournit des insights sur les forces et les limitations des approches actuelles, guidant les avancées futures dans le domaine. En résumé, cette thèse contribue au domaine de la découverte des protéines en introduisant des techniques innovantes d’apprentissage automatique pour l’apprentissage de représentations conjointes et la co-conception, étayées par un benchmarking approfondi. Elle explique également les défis actuels auxquels sont confrontés les chercheurs dans le domaine de la découverte des protéines. Les résultats ont des implications larges pour la compréhen- sion des protéines, ouvrant la voie à des méthodes de conception plus efficaces et efficientes en bioinformatique.Item Accès libre Modelling and evolving design-time uncertaintySahyouni, Charbel; Famelis, Michalis (2024-10)Dans le domaine du développement logiciel, les ensembles de modèles connexes jouent un rôle essentiel tout au long du cycle de vie du logiciel. Ils servent de moyen pour capturer un large éventail d’informations qui ont une importance pour les parties prenantes impliquées dans les projets logiciels. Comme différents domaines d’application rencontrent diverses sources et types d’incertitude, des langages de modélisation spécialisés ont été développés pour répondre à la représentation de l’incertitude spécifique au domaine. Cette représentation prend en compte les particularités et les exigences uniques de chaque domaine. Elle modélise et gère les incertitudes de manière plus précise et pertinente. Cependant, un écart existe dans le paysage actuel des outils de modélisation. Il n’existe aucun outil qui permet aux modélisateurs de représenter l’incertitude qu’ils possèdent sur les décisions influençant la conception de leurs modèles. De plus, ces outils ne fournissent pas de mécanisme pour comprendre comment ces décisions impactent d’autres types d’incertitude dans des modèles connexes. Cette thèse propose le développement d’un outil complet conçu pour combler cet écart, ainsi que l’introduction d’une nouvelle méthodologie qui relie les modèles d’objectifs aux modèles partiels. L’outil proposé vise à permettre aux modélisateurs de représenter et de gérer l’incertitude associée aux décisions de conception et de comprendre leur impact sur les modèles connexes, ainsi que de connaître leur impact sur d’autres parties prenantes. La recherche consistera à créer une méthodologie pour visualiser l’incertitude dans les modèles d’objectifs ainsi que pour relier ces modèles d’objectifs aux modèles partiels, puis la recherche impliquera la conception et la mise en œuvre de l’outil que nous appellerons le cTool, suivie par l’évaluation. Cet outil est conçu pour aider les parties prenantes à aborder l’incertitude dans la conception de logiciels, ce qui conduit à une prise de décision plus éclairée et à une amélioration de la qualité du logiciel.Item Accès libre Generative models : from data generation to representation learningZhang, Ruixiang; Paull, Liam; Bengio, Yoshua (2023-08)La modélisation générative est un domaine en pleine expansion dans l'apprentissage automatique, avec des modèles démontrant des capacités impressionnantes pour la synthèse de données en haute dimension à travers diverses modalités, y compris les images, le texte et l'audio. Cependant, des défis significatifs subsistent pour améliorer la qualité des échantillons et la contrôlabilité des modèles, ainsi que pour développer des méthodes plus principiées et efficaces pour apprendre des représentations de caractéristiques structurées avec des modèles génératifs. Cette thèse conduit une enquête complète en deux parties sur les frontières de la modélisation générative, en mettant l'accent sur l'amélioration de la qualité des échantillons et la manœuvrabilité, ainsi que sur l'apprentissage de représentations latentes de haute qualité. La première partie de la thèse propose de nouvelles techniques pour améliorer la qualité des échantillons et permettre un contrôle fin des modèles génératifs. Premièrement, une nouvelle perspective est introduite pour reformuler les réseaux antagonistes génératifs pré-entraînés comme des modèles basés sur l'énergie, permettant un échantillonnage plus efficace en exploitant à la fois le générateur et le discriminateur. Deuxièmement, un cadre théorique basé sur l'information est développé pour incorporer des biais inductifs explicites dans les modèles à variables latentes grâce aux réseaux bayésiens et à la théorie du goulot d'étranglement multivarié. Cela fournit une vision unifiée pour l'apprentissage de représentations structurées adaptées à différentes applications comme la modélisation multi-modale et l'équité algorithmique. La deuxième partie de la thèse se concentre sur l'apprentissage et l'extraction de caractéristiques de haute qualité des modèles génératifs de manière entièrement non supervisée. Premièrement, une approche basée sur l'énergie est présentée pour l'apprentissage non supervisé de représentations de scènes centrées sur l'objet avec une invariance de permutation. La compositionnalité de la fonction d'énergie permet également une manipulation contrôlable de la scène. Deuxièmement, des noyaux de Fisher neuronaux sont proposés pour extraire des représentations compactes et utiles des modèles génératifs pré-entraînés. Il est démontré que les approximations de rang faible du noyau de Fisher fournissent une technique d'extraction de représentation unifiée compétitive par rapport aux références courantes. Ensemble, ces contributions font progresser la modélisation générative et l'apprentissage de représentations sur des fronts complémentaires. Elles améliorent la qualité des échantillons et la manœuvrabilité grâce à de nouveaux objectifs d'entraînement et des techniques d'inférence. Elles permettent également d'extraire des caractéristiques latentes structurées des modèles génératifs en utilisant des perspectives théoriques basées sur l'information et le noyau neuronal. La thèse offre une enquête complète sur les défis interconnectés de la synthèse de données et de l'apprentissage de représentation pour les modèles génératifs modernes.Item Accès libre Towards maintainable machine learning development through continual and modular learningOstapenko, Oleksiy; Charlin, Laurent (2024-11)As machine learning models grow in size and complexity, their maintainability becomes a critical concern, especially when they are increasingly deployed in dynamic, real-world environments. This thesis addresses the challenges of efficient knowledge retention, integration, and transfer in multitask learning and continuous multitask learning, focusing on improving the maintainability of machine learning systems. At the core of this work is the exploration of modular methods and the strategic use of foundation models (FMs) to facilitate continuous learning (CL) and efficient model management. This thesis first examines how modularity can be exploited to enable continuous learning. The first paper “Continuous Learning via Local Module Composition” introduces the Local Modular Components (LMC) approach, which innovatively uses module-specific local routing to achieve automatic task inference, mitigate forgetting, and enable the fusion of independently trained LMCs. The principle of the local routing component has been extended and refined in subsequent research. The second paper, “Continuous Learning with Foundation Models: An Empirical Study of Latent Replay,” questions the need for complicated continuous learning methods in the era of foundation models. It explores the potential of realizing continuous learning using the encoded features of pre-trained foundation models. This latent continuous learning approach demonstrates that, depending on the characteristics of the tasks and data, latent replay can effectively and efficiently match the performance of traditional end-to-end continuous learning, especially when the alignment between the pre-training and downstream data distributions improves. The third paper, “Towards Modular LLMs by Building and Reusing a Library of LoRAs,” delves into the practical implementation of a hybrid approach combining modularity and foundation models. This work proposes the creation of a library of LoRA adapters, allowing the reuse and combination of these experts in different tasks, facilitated by novel routing techniques called Arrow. This thesis contributes to the field by demonstrating how modularity and foundation models can work together to create adaptive, efficient, and maintainable machine learning systems. It also outlines future directions, emphasizing the need to minimize model retraining through modular architectures and addressing open challenges in managing modular systems.Item Accès libre Self-play for human-agent communicationGupta, Abhinav; Pal, Christopher (2024-11)Les systèmes multi-agents fournissent un cadre pour jouer avec une population d’agents afin de simuler un comportement humain dans des environnements artificiels. Ils nous permettent de former des agents artificiels en utilisant le jeu en autonomie afin qu’ils puissent développer des stratégies pour résoudre des problèmes tout en collaborant/en rivalisant avec d’autres agents dans un environnement. La communication multi-agent imite cette configuration où les agents sont formés pour développer des langages émergents qui sont ensuite utilisés pour résoudre des tâches coopératives (ou mixtes). L’objectif final est de combler le fossé entre ces langages émergents et le langage naturel pour une communication efficace avec les humains. Ce travail vise à augmenter les agents artificiels avec la capacité d’utiliser et de comprendre le langage naturel. À cette fin, je présente quelques articles qui explorent différentes facettes de ce problème de recherche. J’étudie et propose des algorithmes qui montrent comment les populations et le jeu autonome peuvent aider à l’apprentissage de diverses stratégies qui peuvent faciliter la communication homme-agent.