Learning under constraints
Thèse ou mémoire / Thesis or Dissertation
Date de publication
Autrices et auteurs
Identifiant ORCID de l’auteur
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Maîtrise / Master's
Programme
Affiliation
Mots-clés
- Deep Learning
- Sparsity
- Apprentissage en continu
- Continual Learning
- Compression
- Prompting
- Transfer learning
- Apprentissage profond
- Sparsification
- Techniques de prompt
- Transfert d’apprentissage
Organisme subventionnaire
Résumé
Résumé
Dans le vaste domaine de l’Intelligence Artificielle (IA) aujourd’hui, la poursuite pour des modèles extensibles de base pour des tâches subséquentes continue de se démarquer. Ces modèles de base ont montré des capacités presque surhumaines, stimulant les avancées dans diverses industries et élargissant les frontières de l’exploration scientifique et de la recherche.
Cependant, l’extension rapide et presque exponentielle des réseaux neurones modernes les rend difficiles à appliquer dans des domaines et des contextes avec des contraintes pratiques et des ressources limitées. Bien que ces modèles de très grande taille excellent dans diverses applications et évaluation de tâches subséquentes, ils deviennent non-utilisables dans des domaines disposant de ressources limitées en capacité de mémoire, de calcul ou de données pour l’entraînement. Plusieurs études ont exploré et proposé des méthodologies efficaces telles que la sparsification, la quantification et les techniques de prompt pour déployer ces modèles et évaluer leur impact sur diverses tâches. Toutefois, un aspect qui est resté insaisissable dans les recherches précédentes est l’intégration de multiples contraintes au sein d’un même cadre.
Cette thèse fait des progrès significatifs pour combler le fossé dans notre compréhension de la manière de construire des régimes d’entraînement efficaces sous de multiples contraintes, comme la parcimonie et la limitation du budget de données, au sein d’un même cadre. Elle analyse également les méthodes existantes et explore comment elles peuvent être adaptées à ces environnements contraints. Nous commençons ainsi par étudier les effets de l’élagage des réseaux neuronaux denses dans un cadre d’apprentissage à tout moment. Nous démontrons comment l’élagage progressif, visant à atteindre une sparsification cible, peut être avantageux par rapport aux performances des modèles entièrement denses et des modèles moins denses en une seule fois. Ensuite, nous explorons l’apprentissage par transfert efficace via des techniques de prompt, en examinant comment la compression des modèles affecte diverses méthodes de prompt dans différentes tâches subséquentes. Nous offrons une nouvelle perspective montrant que la compression a tendance à impacter négativement les capacités de transfert en aval du modèle, en particulier dans les méthodes de prompt visuels dans des conditions de faible quantité de données. Pour conclure, nous proposons un nouveau cadre d’élagage de réseau, D2-Sparse, conçu pour des environnements d’entraînement avec des budgets de données extrêmement limités, inspiré de l’approche d’apprentissage complémentaire du système cognitif humain.
In the vast field of Artificial Intelligence (AI) today, the pursuit of scaling foundation models for efficient downstream tasks continues to stand out. These foundation models have exhibited nearly superhuman capabilities, driving advancements across various industries and expanding the frontiers of scientific exploration and research. However, the rapid and near-exponential scaling of modern neural networks has made them challenging to apply in domains and settings with practical constraints and limited resources. Although these super-large models perform exceptionally well on various downstream applications and benchmarks, they become impractical in domains with limited memory, compute resources, or data budgets for training. Several studies have explored and proposed efficient methodologies such as sparsification, quantization, and prompting techniques to deploy these models and assess their impact on various tasks. However, an aspect that has remained elusive in previous research is the integration of multiple constraints within a single framework. This thesis makes significant strides in bridging the gap in our understanding of how to construct efficient training regimes under multiple constraints, such as sparsity and limited data budgets, within a single framework. It also analyzes existing methods and explores how they can be adapted to these constrained settings. Therefore, we first investigate the effects of pruning dense neural networks within an anytime learning setup. We demonstrate how progressive pruning, aimed at achieving a target sparsity, can be advantageous compared to the performance of fully dense models and one-shot pruned models. Next, we explore efficient transfer learning through prompting techniques, examining how model compression affects various prompting methods across different downstream tasks. We offer a novel insight that compression tends to negatively impact the model's downstream transfer capabilities, particularly in visual prompting methods under low-data conditions. To conclude, we propose a novel network pruning framework, D2-Sparse, designed for extremely low-data-budget training settings, inspired by the human cognitive system's complementary learning approach.
In the vast field of Artificial Intelligence (AI) today, the pursuit of scaling foundation models for efficient downstream tasks continues to stand out. These foundation models have exhibited nearly superhuman capabilities, driving advancements across various industries and expanding the frontiers of scientific exploration and research. However, the rapid and near-exponential scaling of modern neural networks has made them challenging to apply in domains and settings with practical constraints and limited resources. Although these super-large models perform exceptionally well on various downstream applications and benchmarks, they become impractical in domains with limited memory, compute resources, or data budgets for training. Several studies have explored and proposed efficient methodologies such as sparsification, quantization, and prompting techniques to deploy these models and assess their impact on various tasks. However, an aspect that has remained elusive in previous research is the integration of multiple constraints within a single framework. This thesis makes significant strides in bridging the gap in our understanding of how to construct efficient training regimes under multiple constraints, such as sparsity and limited data budgets, within a single framework. It also analyzes existing methods and explores how they can be adapted to these constrained settings. Therefore, we first investigate the effects of pruning dense neural networks within an anytime learning setup. We demonstrate how progressive pruning, aimed at achieving a target sparsity, can be advantageous compared to the performance of fully dense models and one-shot pruned models. Next, we explore efficient transfer learning through prompting techniques, examining how model compression affects various prompting methods across different downstream tasks. We offer a novel insight that compression tends to negatively impact the model's downstream transfer capabilities, particularly in visual prompting methods under low-data conditions. To conclude, we propose a novel network pruning framework, D2-Sparse, designed for extremely low-data-budget training settings, inspired by the human cognitive system's complementary learning approach.
Table des matières
Notes
Notes
Autre version linguistique
Ensemble de données lié
Licence
Approbation
Évaluation
Complété par
Référencé par
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.