AI for molecule discovery with multi-modal knowledge
Date de publication
Autrices et auteurs
ORCID
0000-0003-2030-2367Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Programme
Affiliation
Mots-clés
- Découverte de molécules
- Topologie en 2D
- 2D topology
- 3D geometry
- Textual annotation
- Biological knowledge graph
- Géométrie en 3D
- Annotation textuelle
- Graphe de connaissances biologiques
- Multimodal
- Pré-entraînement
- Pretraining
- Multi-modal
- Molecule discovery
Organisme subventionnaire
Résumé
Artificial intelligence for drug discovery has been revoking an increasing interest in the machine learning and chemistry & biology communities. During my 3-year Ph.D. research, I have devoted myself to studying the multi-modal modeling of molecules, including but not limited to molecule 2D topological representation, 3D geometric representation, self-supervised learning, multi-task learning, (controllable) structured generation, and physics-informed dynamic system.
Additionally, in the past six months, with the success of ChatGPT and GPT-4, more efforts have been put into the large language model (AKA foundation model). This aligns well with my research direction, which aims to combine multiple modalities to enable quick adaptation to various task-specific molecule tasks, such as zero-shot molecule optimization and zero-shot property prediction.
In this thesis, I would like to provide a new perspective on molecule discovery. Specifically, I will showcase how the integration of multiple modalities and advanced representation learning techniques can improve the performance and capability of AI systems in molecule discovery, targeting more realistic and challenging problems. My research seeks to contribute to the development of a novel foundation model for effective and efficient drug discovery.
L’intelligence artificielle pour la découverte de médicaments a suscité un intérêt croissant pour les communautés de l’apprentissage automatique et de la chimie et de la biologie. Au cours de mes 3 ans de doctorat. recherche, je me suis consacré à l’étude de la modélisation multimodale des molécules, y compris, mais sans s’y limiter, la représentation topologique 2D des molécules, la représentation géométrique 3D, l’apprentissage auto-supervisé, l’apprentissage multi-tâches, la génération structurée (contrôlable) et la dynamique d’apprentissage. Au cours des six derniers mois (de novembre 2022 à avril 2023), avec le succès de ChatGPT et GPT-4, davantage d’efforts ont été déployés dans le grand modèle de langue (modèle de base AKA). Cela correspond parfaitement à ma direction de recherche, qui vise à combiner plusieurs modalités de molécules pour permettre une adaptation rapide à diverses tâches en aval spécifiques à une tâche. Dans cette thèse, je voudrais fournir une telle perspective pour la découverte de molécules. Plus précisément, je montrerai comment l’intégration de plusieurs modalités peut améliorer les performances des systèmes d’IA dans la découverte de molécules. Ma recherche vise à contribuer au développement d’un nouveau modèle de base pour la découverte efficace et efficiente de médicaments.