Towards systematic generalization through meta-learning modular architectures and improving generative flow networks
Date de publication
Autrices et auteurs
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Programme
Affiliation
Mots-clés
- Deep Learning
- Natural Language Processing
- Apprentissage des représentations
- Généralisation systématique
- Architectures modulaires
- Méta-apprentissage
- Modèles génératifs
- Réseaux de flot génératifs
- Representation Learning
- Systematic Generalization
- Modular Architectures
- Meta-Learning
- Generative Models
- Generative Flow Networks
- Apprentissage en profondeur
- Traitement du langage naturel
Organisme subventionnaire
Résumé
Cette thèse explore tout d’abord les capacités de généralisation des systèmes d’apprentissage profond actuels lorsque des changements épars et systématiques sont apportés à la distribution sous-jacente. La factorisation d’une distribution en mécanismes indépendants permet de démêler les différentes parties de la connaissance de sorte que si des changements sont apportés à une partie de la distribution, seul un (petit) sous-ensemble de mécanismes devra être modifié. Dans le même temps, certaines parties du monde peuvent évoluer plus lentement que d’autres parties qui changent rapidement, comme l’évolution lente par rapport à l’actualisation plus rapide des connaissances tout au long de la vie d’un organisme. Sur cette base, la première partie de la thèse explore la factorisation des connaissances en mécanismes indépendants et leur apprentissage à différentes échelles de temps pour permettre un apprentissage efficace, une adaptation plus rapide aux changements et une meilleure généralisation. La seconde moitié de la thèse étend et améliore les objectifs d’entraînement et les capacités d’exploration des modèles génératifs récemment introduits appelés Generative Flow Networks, ou GFlowNets, qui peuvent apprendre et échantillonner à partir d’une distribution cible spécifiée par une fonction de récompense non normalisée. Un GFlowNet génère un objet structurée, de manière constructive et séquentielle, un pas de temps à la fois. Contrairement aux méthodes de chaînes de Markov Monte-Carlo, les GFlowNets sont basés sur l’apprentissage d’un modèle paramétrique pour apprendre et échantillonner à partir d’une distribution d’énergie cible, et ont donc la capacité de bénéficier de l’apprentissage de la structure de la récompense cible ou de la distribution d’énergie. Dans cette thèse, un objectif d’entraînement généralisé est proposé pour les GFlowNets, l’objectif SubTrajectory Balance ou SubTB(λ). Cet objectif généralise les objectifs d’entraînement précédents pour les GFlowNets et offre de meilleures propriétés d’apprentissage et de généralisation. Afin d’améliorer encore le compromis exploration-exploitation dans les GFlowNets, une architecture de réseau double, appelée Sibling Augmented Generated Flow Networks (SA-GFN), est proposée pour dissocier la politique d’exploration de la politique de comportement des GFlowNets afin d’obtenir une exploration stable et de meilleure qualité.
This thesis first explores the generalization capabilities of the current deep learning systems when sparse and systematic changes are made to the underlying distribution. Factorizing a distribution into independent mechanisms allows disentangling different parts of the knowledge such that if changes are made to one part of the distribution, only a (small) subset of mechanisms might need to change. At the same time, some parts of the world might change more slowly as compared to some of the other quickly changing parts, such as slowly changing evolution vs more quickly updating knowledge across the lifespan of an organism. Based on these, the first part of the thesis explores factorizing knowledge into independent mechanisms, and using meta-learning to learn them at different timescales to allow efficient learning, quicker adaptation to changes and better generalization. The second half of the thesis extends and improves the training objectives and exploration capabilities of the recently introduced generative models called Generative Flow Networks, or GFlowNets, that can learn and sample from a target distribution specified by an unnormalized reward function to build an object in a sequential manner, one time step at a time. Unlike MCMC methods, GFlowNets are based on training a parametric model to learn and sample from a target energy distribution, and hence have the capability to benefit by learning the structure in the target reward or energy distribution. In this thesis, a generalized training objective for GFlowNets, called SubTrajectory Balance or SubTB(λ) objective is proposed. This objective generalizes the previous GFlowNet training objectives and provides better sample efficiency and better learning properties. In order to further improve the exploration-exploitation trade-off in GFlowNets, a dual network architecture, called Sibling Augmented Generated Flow Networks, or SA-GFN, is proposed that disentangles the exploration policy from the behavior policy of GFlowNets to achieve a stable and a better exploration.