De la génomique à la métabolomique pour la médecine de précision via des approches statistiques et d'apprentissage automatique


Thèse ou mémoire / Thesis or Dissertation

Date de publication

Autrices et auteurs

Identifiant ORCID de l’auteur

Contributrices et contributeurs

Publié dans

Date de la Conférence

Lieu de la Conférence

Éditeur

Cycle d'études

Doctorat / Doctoral

Affiliation

Mots-clés

  • Omiques
  • Génomique
  • Metabolomics
  • Statistical approaches
  • Machine learning
  • Precision medicine
  • Métabolomique
  • GWAS
  • mGWAS
  • Approches statistiques
  • Apprentissage automatique
  • Médecine de précision
  • Genomics
  • Genomics

Organisme subventionnaire

Résumé

Les progrès récents en biotechnologie permettent la génération d’une quantité immense de données moléculaires à haut-débit, particulièrement dans les sciences "omiques". L'explosion de données qui en découle constitue une opportunité croissante d'utiliser les données génomiques et métabolomiques propres à un individu afin d'améliorer la médecine de précision dans les contextes pathologiques, la compréhension des mécanismes biologiques de manière systémique. Cependant, l'analyse de ces données massives et hautement complexes exige des algorithmes plus sensibles, performants et robustes afin d’être analysées adéquatement. Cette thèse se concentrera sur le développement et l’application de méthodes analytiques pour les données omiques, principalement les données génomiques et métabolomiques. Les données de métabolomiques nécessitent le développement de méthodologies analytiques comparativement aux autres sciences omiques plus matures. Cette quantité limitée de méthodes limite leur interprétation mais aussi leur intégration avec les autres données omiques. Ainsi, nos objectifs spécifiques sont : (1) tester et étendre une méthodologie bio-informatique novatrice basée sur les voies métaboliques pour annoter des paires gène-métabolite afin d'améliorer l'interprétation des associations gène-métabolite, en particulier pour les résultats des études d’associations pangénomique de métabolites (mGWAS), (2) identifier des marqueurs métaboliques associées à l'insuffisance cardiaque (IC) en utilisant des données de métabolomique grâce aux approches d’apprentissage automatique (AA) explicables. Ces projets de recherche seront structurés en deux sections distinctes. La première étude, exposée dans le chapitre 3, portera sur l'analyse des études d’associations pangénomique de métabolites et plus précisément l'élaboration d'une méthode bio-informatique pour annoter ce type de données qui génère des paires gènes-métabolites. Cette méthode vise à améliorer l'interprétation des associations entre gènes et métabolites via la métrique de distance réac- tionnelle la plus courte (SRD, pour hortest reactional distance en anglais), principalement en lien avec les résultats d'études d’associations pangénomique de métabolites, mais peut être étendue à tout type de paires gène-métabolite issues de différentes sources. Nos résultats montrent que la métrique SRD permet une annotation objective et quantitative des paires gène-métabolite sur la base de leur topologie biologique, à savoir leur positionnement au sein des voies métaboliques, au-delà de l'utilisation de seuils de signification statistique conservateurs. Cette métrique de distance peut être utilisée comme une solution simple au problème de la hiérarchisation d'un sous-ensemble de gènes et/ou métabolites en fournissant une liste de candidats et leurs valeurs SRD, comme annotation pour les paires strictement associées, comme une solution pour éviter l'élimination d'associations intéressantes avec des valeurs-p suggestives, mais aussi comme solution pour l'amélioration de la qualité des ressources publiquement disponibles. En d'autres termes, la métrique SRD peut augmenter le taux de découverte de toutes les études passées et futures impliquant des paires gène-métabolite. La seconde étude, décrite dans le chapitre 4, se concentrera sur le développement de modèles d'apprentissage automatique et l'application de méthodes dérivées pour démontrer l'utilité et les bénéfices d'une pipeline traitant les données de métabolomique pour la compréhension d'un phénotype physiopathologique. Nos résultats réaffirment des signatures métaboliques connues pour leur association avec l'IC, tels que le glucose et le cholestérol, au côté de la découverte de l'acide lignocérique (C24:0) résultant comme un discriminant majeur pour les modèles de classification. De plus, notre étude met en évidence l'utilité de l'analyse d'interaction de variables pour la détermination d'un réseau d'interactions de métabolites essentielles pour une prédiction précise de l'IC. Les résultats démontrent l'efficacité de nos approches dans l'identification de nouveaux biomarqueurs potentiels et de leurs interactions, et la puissance de l’AA et de l'explicabilité dans l'avancement de la médecine de précision. Cette étude permet de mieux comprendre l'IC et d'évaluer le potentiel de cette pipeline bio-informatique pour identifier de nouveaux marqueurs associés à l'IC via des données de métabolomique. Dans ces deux projets, nous avons développé et démontré l'applicabilité de méthodes analytiques permettant le traitement de données omiques, principalement les données de génomiques et de métabolomiques. À l'aide de ces études, constituant des preuves de concept, et à leurs résultats, nous pouvons envisager l'extension de ces méthodes à des jeux de données de plus grande taille. Ces méthodes peuvent également être appliquées à des contextes étudiant des phénotypes alternatifs afin d'approfondir leurs interprétations biologiques et d'améliorer les aspects méthodologiques adéquats, aboutissant ainsi une robustesse statistique plus importante. Globalement, ces résultats contribuent aux traitements des données omiques via des approches statistiques et d'apprentissage automatique pour l'amélioration de la médecine de précision.


Recent advancements in biotechnology enable the generation of an immense quantity of high-throughput molecular data, particularly in the "omics" sciences. This data explosion represents an increasing opportunity to use individual-specific genomic and metabolomic data to enhance precision medicine in pathological contexts and to systematically understand biological mechanisms. However, analyzing these massive and highly complex datasets requires more sensitive, efficient, and robust algorithms to be adequately processed. This thesis will focus on the development and application of analytical methods for omics data, primarily genomics and metabolomics data. These metabolomics data require the development of analytical methodologies compared to other more mature omics sciences. The limited number of methods available restricts both their interpretation and their integration with other omics data. Therefore, our specific objectives are: (1) to test and extend an innovative bioinformatics methodology based on metabolic pathways to annotate gene-metabolite pairs, thereby improving the interpretation of gene-metabolite associations, particularly for results from metabolite genome-wide association study (mGWAS), and (2) to identify metabolic markers associated with heart failure (HF) using metabolomic data through explainable machine learning (ML) approaches. This research thesis will be structured into two distinct sections. The first study, presented in Chapter 3, will focus on the analysis of metabolite genome-wide association study data and, more specifically, the development of a bioinformatics method to annotate this type of data that generates gene-metabolite pairs. This method aims to enhance the interpretation of associations between genes and metabolites via the shortest reactional distance (SRD), primarily in relation to metabolite genome-wide association study results, but it can also be extended to any type of gene-metabolite pairs from various sources. Our results show that the SRD metric allows for objective and quantitative annotation of gene-metabolite pairs based on their biological topology, namely their positioning within metabolic pathways, beyond the use of conservative statistical significance thresholds. This distance metric can be used as a simple solution to the problem of prioritizing a subset of genes and/or metabolites by providing a list of candidates and their SRD values, as annotation for strictly associated pairs, as a solution to avoid the removal of insightful associations with suggestive p-values, and as a means to improve the quality of publicly available resources. In other words, the SRD metric can increase the discovery rate of all past and future studies involving gene-metabolite pairs. The second study, described in Chapter 4, will focus on the development of ML models and the application of derived methods to demonstrate the utility and benefits of a pipeline processing metabolomic data for understanding a pathophysiological phenotype. Our results reaffirm known metabolic signatures associated with HF, such as glucose and cholesterol, alongside the discovery of lignoceric acid (C24:0) as a major discriminator for classification models. Additionally, our study highlights the utility of interaction analysis of variables to determine a network of essential metabolite interactions for accurate prediction of HF. The results demonstrate the effectiveness of our approaches in identifying new potential biomarkers and their interactions, and the power of ML and explainability in advancing precision healthcare solutions. This study improves the understanding of HF and evaluates the potential of this bioinformatics pipeline to identify new markers associated with HF through metabolomic data. In these two projects, we have developed and demonstrated the applicability of analytical methods for processing omics data, mainly genomics and metabolomics data. With the help of these proof-of-concept studies and their results, we can envisage the extension of these methods to larger datasets. These methods can also be applied to contexts studying alternative phenotypes, in order to deepen biological interpretations and improve the relevant methodological aspects, leading to greater statistical robustness. Overall, these results contribute to the processing of omics data through statistical and machine learning approaches to improve precision medicine.

Table des matières

Notes

Notes

Autre version linguistique

Ensemble de données lié

Licence

Approbation

Évaluation

Complété par

Référencé par

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.