Generative flow networks : theory and applications to structure learning
Date de publication
Autrices et auteurs
Identifiant ORCID de l’auteur
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Programme
Affiliation
Mots-clés
- Generative flow networks
- Bayesian inference
- Apprentissage par renforcement
- Inférence variationelle
- Structure learning
- Bayesian networks
- Reinforcement learning
- Variational inference
- Réseaux à flots génératifs
- Inférence bayésienne
- Apprentissage de structure
- Réseaux bayésiens
Organisme subventionnaire
Résumé
Découvrir la structure d'un modèle causal seulement à partir de donnée souffre de problèmes d'identifiabilité. En général, plusieurs modèles équivalents peuvent tout aussi bien expliquer la donnée observée, même s'ils impliquent des conclusions causales complètement différentes. Ainsi, choisir un de ces éléments de manière arbitraire pourrait donner lieu à des décisions dangereuses si le modèle n'est pas aligné avec la manière dont le monde fonctionne réellement. Il est donc impératif de maintenir une notion d'incertitude épistémique sur les différents candidats pour limiter les risques posés par ces modèles non alignés, surtout lorsqu'il y a peu de donnée. En prenant une perspective bayésienne, cette incertitude peut être représentée par une distribution postérieure sur les modèles, conditionnée sur les observations. Mais comme c'est le cas pour beaucoup de problèmes en inférence bayésienne, la postérieure est typiquement impossible à calculer à cause du grand nombre de structures possibles, représentées par des graphes dirigés acycliques (DAGs). Des approximations sont donc nécessaires. Même s'il y a eu d'énormes avancées en modélisation générative ces dernières années, menées par la puissante combinaison de l'inférence variationelle et de l'apprentissage profond, la plupart de ces modèles sont particulièrement adaptés à des espaces continus. Par conséquent, cela les rend inapplicables pour des problèmes avec des objets discrets comme des graphes dirigés, avec des contraintes complexes d'acyclicité. Dans la première partie de cette thèse, nous introduisons les réseaux à flots génératifs (GFlowNets), une nouvelle classe de modèles probabilistes specialement créés pour representer des distributions sur des objets discrets et compositionnels comme des graphes. Les GFlowNets traitent la génération d'un échantillon comme un problème de décisions séquentielles, en le construisant morceau par morceau. Ces modèles décrivent des distributions définies à une constante de normalisation près en imposant la conservation de certains flots à travers un réseau. Nous mettrons l'accent sur les liens qui existent avec divers domaines de l'apprentissage statistique, comme l'inférence variationelle et l'apprentissage par renforcement, et nous discuterons d'extensions à des espaces généraux. Ensuite dans la deuxième partie de cette thèse, nous montrerons comment les GFlowNets sont capables d'approcher la distribution postérieure sur les structures de DAG des réseaux bayésiens, en fonction d'observations. Mais au delà de la structure seule, nous montrerons que les paramètres des distributions conditionelles peuvent également être intégrés dans l'approximations de la postérieure représentée par le GFlowNet, ce qui nous permet une plus grande flexibilité dans la manière dont les réseaux bayésiens sont définis.
Discovering the structure of a causal model purely from data is plagued with problems of identifiability. In general, without any assumptions about data generation, multiple equivalent models may explain observations equally well even if they could entail widely different causal conclusions. As a consequence, choosing an arbitrary element among them could result in unsafe decisions if it is not aligned with how the world truly works. It is therefore imperative to maintain a notion of epistemic uncertainty about our possible candidates to mitigate the risks posed by these misaligned models, especially when the data is limited. Taking a Bayesian perspective, this uncertainty can be captured through the posterior distribution over models given data. As is the case with many problems in Bayesian inference though, the posterior is typically intractable due to the vast number of possible structures, represented as directed acyclic graphs (DAGs). Hence, approximations are necessary. Although there have been significant advances in generative modeling over the past decade, spearheaded by the powerful combination of amortized variational inference and deep learning, most of these models focus on continuous spaces, making them unsuitable for problems involving discrete objects like directed graphs, with highly complex acyclicity constraints. In the first part of this thesis, we introduce generative flow networks (GFlowNet), a novel class of probabilistic models specifically designed for distributions over discrete and compositional objects such as graphs. GFlowNets treat generation as a sequential decision making problem, constructing samples piece by piece. These models describe distributions defined up to a normalization constant by enforcing the conservation of certain flows through a network. We will highlight how they are rooted in various domains of machine learning and statistics, including variational inference and reinforcement learning, and discuss extensions to general spaces. Then in the second part of this thesis, we demonstrate how GFlowNets can approximate the posterior distribution over the DAG structures of Bayesian networks given data. Beyond structure alone, we show that the parameters of the conditional distributions can also be integrated in the posterior approximated by the GFlowNet, allowing for flexible representations of Bayesian networks.