Identifying latent structures in data


Thèse ou mémoire / Thesis or Dissertation

Date de publication

Autrices et auteurs

Contributrices et contributeurs

Direction de recherche

Publié dans

Date de la Conférence

Lieu de la Conférence

Éditeur

Cycle d'études

Doctorat / Doctoral

Programme

Affiliation

Mots-clés

  • nonlinear independent component analysis
  • Identifiability
  • Analyse de composantes indépendentes non linéaire
  • Apprentissage de représentations causales
  • Apprentissage de représentations identifiable
  • Extrapolation
  • Généralisation compositionelle
  • Apprentissage représentations centrées sur les objets
  • causal discovery
  • causal representation learning
  • identifiable representation learning
  • extrapolation
  • compositional generalization
  • object-centric representation learning
  • Identifiabilité
  • Apprentissage de graphes causals

Organisme subventionnaire

Résumé

Le triomphe de l’apprentissage profond dans divers domaines tels que la classification d’images, la reconnaissance vocale, la génération de langage naturel et la génération d’images a été rendu possible par l’augmentation de la taille des ensembles de données, l’augmentation de la capacité de calcul, une communauté open source dynamique et des innovations architecturales qui, ensemble, ont permis d’entrainer des réseaux neuronaux de plus en plus expressifs. Bien que cette nouvelle approche ait abouti à des percées impressionnantes, elle a été accompagnée d’un manque d’interprétabilité des modèles et de garanties théoriques. Cette thèse tente de construire des modèles suffisamment restreints pour être interprétables et/ou analysables théoriquement tout en restant suffisamment expressifs pour être utiles dans des modalités difficiles telles que les images. La plupart des contributions se concentrent sur l’identifiabilité, la propriété qu’un modèle statistique possède lorsque ses paramètres sont déterminés par la distribution qu’ils représentent, à une classe d’équivalence près. Bien que l’identifiabilité soit centrale en inférence causale, en apprentissage de graphe causal et en analyse de composantes indépendante, cette propriété n’est pas aussi bien comprise dans le contexte de l’apprentissage profond. Cette thèse soutient que l’étude de l’identifiabilité en apprentissage automatique est utile pour mieux comprendre les modèles existants ainsi que pour en construire de nouveaux qui soient interprétables et pourvus de garanties de généralisation. Ce qui en découle sont de nouvelles garanties d’identifiabilité pour des modèles expressifs, pour l’apprentissage de graphe causal et de représentations. Les première et deuxième contributions (Chapitres 3 et 4) proposent de nouveaux algorithmes basés sur les gradients pour apprendre un graphe causal à partir de données observationnelles et interventionnelles, respectivement. Ces contributions ont étendu des approches contraintes continues des relations linéaires aux relations non linéaires et ont souligné l’avantage computationnel de ces approches lorsque l’ensemble de données est très grand. Les troisième, quatrième et cinquième contributions (Chapitres 5, 6 et 7) fournissent de nouvelles garanties d’identifiabilité pour le désentrelacement (disentanglement) dans l’apprentissage de représentations. Le Chapitre 5 montre que, dans un modèle spécifique à variables latentes, les facteurs latents réels peuvent être identifiés à une permutation et une bijection par élément près lorsque des variables auxiliaires observées et/ou des facteurs latents passés les affectent de manière parcimonieuse (sparse). Ces résultats ne font pas d’hypothèses paramétriques et caractérisent la structure du désentrelacement en fonction du graphe causal latent sous-jacent. Le Chapitre 6 introduit un problème d’optimisation bi-niveau pour l’apprentissage multi-tâches parcimonieux et prouve que, avec des tâches suffisamment parcimonieuses et diverses, la représentation apprise doit être désentrelacée. De plus, il fournit un argument formel montrant comment le désentrelacement est bénéfique dans un contexte d’apprentissage avec peu d’exemples (few-shot learning). Le Chapitre 7 étudie une classe simple de décodeurs que nous appelons "décodeurs additifs" pour lesquels nous pouvons prouver à la fois des garanties de désentrelacement et d’extrapolation. Les décodeurs additifs sont intéressants à étudier car ils ressemblent aux architectures utilisées dans l’apprentissage de représentations centrées sur les objets (object-centric representation learning) et constituent une étape vers la compréhension de la créativité et de l’extrapolation dans les modèles génératifs modernes. Le Chapitre 8 discute de trois interprétations de l’identifiabilité et unifie les contributions de cette thèse à l’aide d’un cadre simple en trois étapes mettant en évidence le rôle de l’identifiabilité pour obtenir des garanties de généralisations. Spécifiquement, quatres types de problème sont couverts: l’apprentissage de graphes causals, les décodeurs additifs pour l’extrapolation, l’apprentissage multi-tâches parcimonieux et l’apprentissage semi-supervisé par regroupement (clustering). Les relations entre ces problèmes sont rendues transparentes grâce au cadre de la théorie de la décision statistique.


The triumph of deep learning in diverse settings such as image classification, speech recognition, natural language generation and image generation was driven mainly by increasingly large datasets, cheap compute, architectural innovations and a vibrant open-source community which together enabled training increasingly expressive neural networks. While this new approach yielded stunning breakthroughs, it came at the cost of model interpretability and theoretical guarantees. This thesis is an attempt at building models that are restricted enough to be interpretable and analyzed theoretically while remaining sufficiently expressive to be useful in high-dimensional data modalities. The focus of most contributions is on identifiability, the property a statistical model has when its parameters can be recovered from the distribution it entails, up to some equivalence class. While identifiability is central to causal inference, causal discovery and independent component analysis, its understanding in the context of deep learning is underdeveloped. This thesis argues that studying identifiability in deep learning and machine learning more broadly is useful to gain insights into existing models as well as to build new ones that are interpretable and amenable to generalization guarantees. What comes out are novel identifiability guarantees for expressive models, for both causal discovery and representation learning. The first and second contributions (Chapters 3 & 4) propose novel gradient-based algorithms to learn a causal graph from observational and interventional data, respectively. These contributions extended continuous constrained approaches from linear to nonlinear relationships and highlighted the computational advantage of gradient-based approaches for large datasets. The third, fourth and fifth contributions (Chapters 5, 6 & 7) provide novel identifiability guarantees for disentanglement in representation learning. Chapter 5 shows that, in a specific deep latent variable model, the ground-truth latent factors can be identified up to a permutation and an element-wise bijection when an observed auxiliary variable and/or past latent factors sparsely affect them. The result does not make parametric assumptions and characterizes the entanglement structure as a function of the ground-truth latent causal graph. Chapter 6 introduces a bilevel optimization problem to perform sparse multi-task learning and proves that, given sufficiently sparse and diverse tasks, the learned representation must be disentangled. Furthermore, it provides a formal argument for why disentanglement is beneficial in a few-shot learning setting. Chapter 7 studies a simple class of decoders we call “additive decoders” for which we can prove both disentanglement and extrapolation guarantees. Additive decoders are interesting to study since they resemble architectures used in object-centric representation learning and form a step toward understanding creativity and extrapolation in modern generative models. Chapter 8 discusses three interpretations of identifiability and unifies the contributions of this thesis under a simple three-steps framework highlighting the role of identifiability to obtain generalization guarantees. Specifically, four problem settings are covered: causal discovery, additive decoders for extrapolation, sparse multi-task learning and semi-supervised learning via clustering. The connections between all settings are made more transparent by framing them within statistical decision theory.

Table des matières

Notes

Notes

Autre version linguistique

Ensemble de données lié

Licence

Approbation

Évaluation

Complété par

Référencé par

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.