AI for molecule discovery with multi-modal knowledge


Thèse ou mémoire / Thesis or Dissertation
En cours de chargement...
Vignette d'image

Date de publication

Autrices et auteurs

Contributrices et contributeurs

Direction de recherche

Publié dans

Date de la Conférence

Lieu de la Conférence

Éditeur

Cycle d'études

Doctorat / Doctoral

Programme

Affiliation

Mots-clés

  • Découverte de molécules
  • Topologie en 2D
  • 2D topology
  • 3D geometry
  • Textual annotation
  • Biological knowledge graph
  • Géométrie en 3D
  • Annotation textuelle
  • Graphe de connaissances biologiques
  • Multimodal
  • Pré-entraînement
  • Pretraining
  • Multi-modal
  • Molecule discovery

Organisme subventionnaire

Résumé

Artificial intelligence for drug discovery has been revoking an increasing interest in the machine learning and chemistry & biology communities. During my 3-year Ph.D. research, I have devoted myself to studying the multi-modal modeling of molecules, including but not limited to molecule 2D topological representation, 3D geometric representation, self-supervised learning, multi-task learning, (controllable) structured generation, and physics-informed dynamic system.

Additionally, in the past six months, with the success of ChatGPT and GPT-4, more efforts have been put into the large language model (AKA foundation model). This aligns well with my research direction, which aims to combine multiple modalities to enable quick adaptation to various task-specific molecule tasks, such as zero-shot molecule optimization and zero-shot property prediction.

In this thesis, I would like to provide a new perspective on molecule discovery. Specifically, I will showcase how the integration of multiple modalities and advanced representation learning techniques can improve the performance and capability of AI systems in molecule discovery, targeting more realistic and challenging problems. My research seeks to contribute to the development of a novel foundation model for effective and efficient drug discovery.


L’intelligence artificielle pour la découverte de médicaments a suscité un intérêt croissant pour les communautés de l’apprentissage automatique et de la chimie et de la biologie. Au cours de mes 3 ans de doctorat. recherche, je me suis consacré à l’étude de la modélisation multimodale des molécules, y compris, mais sans s’y limiter, la représentation topologique 2D des molécules, la représentation géométrique 3D, l’apprentissage auto-supervisé, l’apprentissage multi-tâches, la génération structurée (contrôlable) et la dynamique d’apprentissage. Au cours des six derniers mois (de novembre 2022 à avril 2023), avec le succès de ChatGPT et GPT-4, davantage d’efforts ont été déployés dans le grand modèle de langue (modèle de base AKA). Cela correspond parfaitement à ma direction de recherche, qui vise à combiner plusieurs modalités de molécules pour permettre une adaptation rapide à diverses tâches en aval spécifiques à une tâche. Dans cette thèse, je voudrais fournir une telle perspective pour la découverte de molécules. Plus précisément, je montrerai comment l’intégration de plusieurs modalités peut améliorer les performances des systèmes d’IA dans la découverte de molécules. Ma recherche vise à contribuer au développement d’un nouveau modèle de base pour la découverte efficace et efficiente de médicaments.

Table des matières

Notes

Notes

Autre version linguistique

Ensemble de données lié

Approbation

Évaluation

Complété par

Référencé par

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.