Understanding our 3D world via generative modeling


Thèse ou mémoire / Thesis or Dissertation

Date de publication

Autrices et auteurs

Contributrices et contributeurs

Direction de recherche

Publié dans

Date de la Conférence

Lieu de la Conférence

Éditeur

Cycle d'études

Doctorat / Doctoral

Programme

Affiliation

Mots-clés

  • Deep Learning
  • Generative Models
  • Diffusion Models
  • Apprentissage profond
  • Modèles génératifs
  • Vision par ordinateur
  • Vision 3D
  • Graphisme informatique
  • Traitement de la géométrie
  • Maillages 3D
  • Rendu différentiable
  • Rendu inverse
  • Computer Vision
  • Causalité
  • Modèles de diffusion
  • 3D Vision
  • Computer Graphics
  • Geometry Processing
  • 3D Meshes
  • Differentiable Rendering
  • Inverse Rendering
  • Causality

Organisme subventionnaire

Résumé

We humans live in a 3D world, and thus a model that understands humans and works with humans is deemed capable of understanding the world in 3D. While there are aspects of 3D understanding that one may measure, it is the capability of replicating the underlying physical laws and generating a realistic 3D world that unambiguously indicate that a model truly understand our 3D world. In this dissertation, we present attempts in leveraging generative modeling of two fundamental components in the 3D world: geometry and rendering. For geometry, we demonstrate that with appropriate representation designs, one may enable generative models to efficiently learn and effectively model distributions of 3D meshes, the most common representation of 3D shapes in modern graphics pipelines. In particular, we present MeshDiffusion, the first diffusion model for 3D watertight meshes, and G-Shell, a representation that enables us to build the first diffusion model for 3D non watertight meshes. For rendering, we consider the role of causality in forward rendering process and demonstrate that with proper causality-inspired design, we may achieve better performance in inverse rendering. Together, this dissertation contributes to the understanding of the potentials of representation and inductive bias design in generative modeling of our 3D world.


Nous, les humains, vivons dans un monde en 3D, et donc un modèle qui comprend les humains et travaille avec eux est jugé capable de comprendre le monde en 3D. Bien qu'il existe des aspects de la compréhension en 3D que l'on peut mesurer, c'est la capacité à reproduire les lois physiques sous-jacentes et à générer un monde 3D réaliste qui indique sans ambiguïté qu'un modèle comprend véritablement notre monde en 3D. Dans cette dissertation, nous présentons des tentatives d'utilisation de la modélisation générative de deux composantes fondamentales du monde en 3D : la géométrie et le rendu. Pour la géométrie, nous démontrons qu'avec des conceptions de représentation appropriées, on peut permettre aux modèles génératifs d'apprendre efficacement et de modéliser de manière efficace les distributions de maillages 3D, la représentation la plus courante des formes 3D dans les pipelines graphiques modernes. En particulier, nous présentons MeshDiffusion, le premier modèle de diffusion pour les maillages 3D étanches, et G-Shell, une représentation qui nous permet de construire le premier modèle de diffusion pour les maillages 3D non étanches. Pour le rendu, nous considérons le rôle de la causalité dans le processus de rendu direct et démontrons qu'avec une conception inspirée par la causalité, nous pouvons obtenir de meilleures performances dans le rendu inverse. Ensemble, cette dissertation contribue à la compréhension des potentiels de la conception des représentations et des biais inductifs dans la modélisation générative de notre monde en 3D.

Table des matières

Notes

Notes

Autre version linguistique

Ensemble de données lié

Licence

Approbation

Évaluation

Complété par

Référencé par

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.