Neural architectures for compositional generalisation
Date
Authors
Contributor(s)
Advisor(s)
Published in
Conference Date
Conference Place
Publisher
Degree Level
Discipline
Affiliation
Keywords
- deep learning
- natural language processing
- compositional generalisation
- computational linguistics
- apprentissage profond
- traitement du langage naturel
- généralisation compositionnelle
- linguistique computationnelle
Funding organization(s)
Abstract
Dans cette thèse, nous explorons des architectures de modèles neuronaux visant à traiter les problèmes de généralisation compositionnelle, en incorporant des notions de linguistique formelle dans la conception de ces architectures. Nous présentons cinq articles dans le cadre de cet objectif. (1) Ordered Neurons (Shen et al., 2019), une variante du LSTM introduisant un biais inductif syntaxique. (2) Ordered Memory (Shen et al., 2019), surmontant certaines limitations des Ordered Neurons et effectuant un codage structuré en arborescence avec un modèle neuronal augmenté par pile. (3) Arbres connexionnistes (Tan et al., 2020), un homologue de décodage de la mémoire ordonnée, avec une perte de programmation dynamique spécialement conçue pour la formation de structures arborescentes non supervisées. (4) Flux tronqués (Tan et al., 2022), une déquantification sans support complet sur l’espace réel. L’utilisation de l’échantillonnage par rejet permet d’améliorer les tâches de génération sous contrainte. (5) Transformateurs universels clairsemés (Tan et al., 2023), améliorant les transformateurs universels à l’aide de mélanges clairsemés d’experts (SMoE). Ces articles proposent différentes architectures permettant d’améliorer les performances sur les tâches de généralisation compositionnelle. Enfin, nous discutons de l’avenir de la généralisation compositionnelle à l’ère des grands modèles de langage, et des problèmes de généralisation compositionnelle qui peuvent encore se produire.
In this thesis, we explore neural model architectures that aim to deal with composi- tional generalisation problems, by incorporating notions from formal linguistics into neural architecture design. We present 5 papers with this goal in mind: (1) Ordered Neurons (Shen et al., 2019), a variant of the LSTM to introduce a syntactic inductive bias. (2) Ordered Memory (Shen et al., 2019), overcomes some limitations of Ordered Neurons, but performs tree-structured encoding with a stack-augmented neural model. (3) Connectionist Trees (Tan et al., 2020) a decoding counterpart to Ordered Memory, with a specifically designed dynamic programming loss for training tree-structures unsupervised (4)Truncated Flows (Tan et al., 2022), a dequantisation without full support over the real space. Using rejection sampling to sample from this space allows for improvements in constrained generation tasks. (5) Sparse Universal Transformers (Tan et al., 2023) We scale up Universal Transofrmers using Sparse Mixture-of-Experts (SMoEs). These papers propose different architectures that allow for better performance on compositional generalisation tasks. Finally, we discuss what lies ahead in compositional generalisation in the era of large language models, and where compositional generalisation problems may still arise.