Geometric-aware models for protein design


Thèse ou mémoire / Thesis or Dissertation

Date de publication

Autrices et auteurs

Identifiant ORCID de l’auteur

Contributrices et contributeurs

Direction de recherche

Publié dans

Date de la Conférence

Lieu de la Conférence

Éditeur

Cycle d'études

Maîtrise / Master's

Programme

Affiliation

Mots-clés

  • Graph Neural Networks
  • Apprentissage des Représentations des Protéines
  • Bioinformatique
  • Modèles de Langage de Protéines
  • Réseaux de Neurones Graphiques
  • Modèles Sensibles à la Géométrie
  • Protein Representation Learning
  • Machine Learning
  • Bioinformatics
  • Protein Language Models
  • Geometric-Aware Models
  • Apprentissage des Représentations des Protéines
  • Conception de Protéines
  • Apprentissage Automatique

Organisme subventionnaire

Résumé

Résumé

La compréhension des protéines est fondamentale pour l’avancement de la bio-informatique, avec des implications significatives pour la découverte de médicaments, la recherche sur les maladies et d’autres applications biologiques et médicales. Cette thèse examine le processus complexe de modélisation et de conception des séquences et structures de protéines à travers le prisme de l’apprentissage automatique géométrique, en mettant un accent particulier sur l’apprentissage de représentations conjointes, la co-conception de protéines et l’évaluation comparative des méthodes de conception. Nous commençons par une introduction à la portée et aux contributions de la recherche, établissant les bases des chapitres suivants. La thèse aborde également les connaissances fondamentales sur les protéines, discutant de leurs modalités, représentations et des concepts critiques d’invariance et d’équivariance géométriques dans les structures protéiques. L’accent se déplace ensuite vers l’apprentissage de représentations conjointes, où l’intégration de modèles de langage protéique (PLM) et d’encodeurs de structure sensibles à la géométrie est explorée pour améliorer la compréhension et la prédiction des fonctions protéiques. Cette section met en lumière la fusion de l’ESM-2 avec divers encodeurs de structure et introduit de nouvelles stratégies de fusion qui démontrent les avantages mutuels de combiner les informations de séquence et de structure pendant la pré-formation. Ces méthodes atteignent des résultats de pointe dans des tâches telles que l’annotation des numéros de la Commission des Enzymes et des termes de l’ontologie des gènes, montrant le potentiel des approches holistiques dans l’apprentissage des représentations protéiques. Ensuite, la thèse examine la co-conception de séquences et de structures de protéines, en se concentrant sur des modèles sensibles à la géométrie tels que l’encodeur de contexte sensible à la trigonométrie et le décodeur conjoint séquence-structure. Diverses expériences, y compris la co-conception des régions CDR des anticorps et la conception de séquences à squelette fixe, démontrent l’efficacité des méthodes proposées dans des applications pratiques. La recherche souligne l’importance de considérer à la fois la séquence et la structure pour une conception optimale des protéines, soutenue par des études de cas détaillées et des études d’ablation. Le dernier chapitre évalue différentes méthodes de conception de séquences protéiques, comparant la performance des méthodes de conception basées sur la structure existantes et proposant de nouveaux benchmarks pour la recherche future. Cette évaluation exhaustive fournit des insights sur les forces et les limitations des approches actuelles, guidant les avancées futures dans le domaine. En résumé, cette thèse contribue au domaine de la découverte des protéines en introduisant des techniques innovantes d’apprentissage automatique pour l’apprentissage de représentations conjointes et la co-conception, étayées par un benchmarking approfondi. Elle explique également les défis actuels auxquels sont confrontés les chercheurs dans le domaine de la découverte des protéines. Les résultats ont des implications larges pour la compréhen- sion des protéines, ouvrant la voie à des méthodes de conception plus efficaces et efficientes en bioinformatique.
The understanding of proteins is fundamental in advancing bioinformatics, with significant implications for drug discovery, disease research, and other biological and medical applica- tions. This thesis explores the complex process of modeling and designing protein sequences and structures through the lens of geometric machine learning, with a particular emphasis on joint representation learning, protein co-design, and the benchmarking of design methods. We first provide an introduction to the scope and contributions of the research, laying the foundation for the ensuing chapters. The thesis also delves into the fundamental knowledge of proteins, discussing their modalities, representations, and the critical concepts of geometric invariance and equivariance in protein structures. The focuses then shift to joint representation learning, where the integration of protein language models (PLMs) and geometric-aware structure encoders is explored to enhance the understanding and prediction of protein functions. This section highlights the fusion of ESM- 2 with various structure encoders and introduces novel fusion strategies that demonstrate the mutual benefits of combining sequence and structure information during pre-training. These methods achieve state-of-the-art results in tasks such as Enzyme Commission number and Gene Ontology term annotation, showcasing the potential of holistic approaches in protein representation learning. Next, the thesis examines the co-design of protein sequences and structures, with a focus on geometric-aware models such as the trigonometry-aware context encoder and joint sequence-structure decoder. Various experiments, including antibody CDR region co-design and fixed backbone sequence design, demonstrate the efficacy of the proposed methods in practical applications. The research underscores the significance of considering both sequence and structure for optimal protein design, supported by detailed case studies and ablation studies. The final chapter benchmarks different protein sequence design methods, comparing the performance of existing structure-based design methods and proposing new benchmarks for future research. This comprehensive evaluation provides insights into the strengths and limitations of current approaches, guiding future advancements in the field. In summary, this thesis contributes to the field of protein discovery by introducing in- novative geometric-aware machine learning techniques for joint representation learning and co-design, supported by extensive benchmarking. It further sets the stage by explaining the current challenges faced by researchers in the protein discovery domain. The findings have broad implications for understanding proteins, paving the way for more effective and efficient design methods in bioinformatics.

Table des matières

Notes

Notes

Autre version linguistique

Ensemble de données lié

Licence

Approbation

Évaluation

Complété par

Référencé par

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.