From natural language and graph processing to novel biomarker discoveries : cross-domain application of type 2 diabetes meta-genetic and multi-omics mining
Date de publication
Autrices et auteurs
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Programme
Affiliation
Mots-clés
- Diabète de type 2
- Epistasie
- Epistasis
- Single-nucleotide polymorphism
- Haplotype block
- Hierarchical Transformer
- Multi-omics
- Lipidomics
- Proteomics
- Similarity Network Fusion
- Polymorphisme d'un seul nucléotide
- Bloc d'haplotypes
- Transformateur hiérarchique
- Multi-omique
- Lipidomique
- Protéomique
- Réseau de similarité Fusion
- Type 2 diabetes
Organisme subventionnaire
Résumé
L'imbrication des mécanismes génétiques, moléculaires, du mode de vie et des facteurs environnementaux contribue à la complexité de maladies telles que le diabète de type 2 (DT2). De nombreuses approches ont été utilisées pour démêler cette complexité et identifier de nouveaux marqueurs associés à la maladie. En outre, avec les progrès rapides des technologies de séquençage à haut débit et des algorithmes d'apprentissage automatique au cours des dernières années, une nouvelle frontière de possibilités est apparue pour les chercheurs. Dans ce projet, nous présentons deux méthodes basées sur l'apprentissage automatique qui visent à découvrir de nouveaux marqueurs génétiques et multi-omiques associés au DT2. L'épistasie est le phénomène par lequel une variante génétique empêche une autre variante provenant d'un locus différent de manifester ses effets. L'étude de la structure et de l'évolution des maladies complexes montre que l'épistasie et les interactions génétiques sont un résultat inévitable du processus d'évolution, quelle que soit la manière dont on l'appréhende. Toutefois, la question de savoir comment combiner au mieux la représentation de la structure des gènes et la modélisation des interactions dans un modèle de bout en bout pour la recherche d'épistasie reste ouverte. Nous proposons ici une nouvelle méthode de détection des épistasmes, le transformateur hiérarchique HB-LT (Haplotype Block Long Short-Term Memory Hierarchical Transformer). Le HB-LT utilise des blocs d'haplotypes pré-parés comme entrée et emploie deux couches de mécanismes d'attention multi-têtes pour modéliser efficacement les signaux d'interaction associés au phénotype à la fois dans et entre les blocs d'haplotypes. Il démontre des améliorations substantielles par rapport aux méthodes traditionnelles de recherche exhaustive et aux réseaux neuronaux évolutifs entièrement connectés. Le regroupement des SNP en blocs d'haplotypes réduit la dimensionnalité et l'espace de recherche des signaux d'épistasie. En outre, en capturant les effets combinés des SNP voisins plutôt qu'en traitant chaque SNP individuellement, la méthode HB-LT est plus susceptible d'expliquer une plus grande variance phénotypique. Les informations génétiques germinales fournissent des données stables à long terme qui ne sont pas affectées par des facteurs externes. En revanche, les données omiques telles que la lipidomique, la métabolomique et la protéomique sont plus dynamiques et fluctuent en fonction des changements physiologiques à court et à moyen terme, des stimuli externes et des influences environnementales. Chaque couche omique peut être analysée individuellement pour identifier les biomarqueurs associés aux maladies. En revanche, le profilage multi-omique, qui implique la mesure, l'intégration et l'analyse complètes d'ensembles de données moléculaires à travers plusieurs couches omiques dans un ensemble d'échantillons, est devenu un autre fortin de premier plan pour de nombreux chercheurs. En capturant des signaux provenant de couches omiques complémentaires, le profilage multi-omique permet d'explorer l'interaction complexe entre plusieurs couches de molécules biologiques et d'identifier des biomarqueurs au niveau du système. Ici, 180 lipides plasmatiques circulants et 1 195 protéines plasmatiques circulantes provenant de 1 134 individus de deux cohortes T2D indépendantes, Hoorn Diabetes Care System (DCS) et Genetics of Diabetes Audit and Research in Tayside Scotland (GoDARTS), ont été soumis à une méthode de profilage multi-omique, Similarity Network Fusion (SNF). Dans les deux cohortes, on peut observer deux sous-groupes de DT2 distincts sur le plan moléculaire. Ces deux sous-groupes présentent des différences en termes de détérioration de la glycémie, de sensibilité à l'insuline et de sécrétion. Les signatures moléculaires clés qui distinguent les sous-groupes comprennent les triacylglycérols, la sphingomyéline, le testican-1 et le récepteur de l'interleukine-18. Ces signatures, qui couvrent plusieurs couches omiques, pourraient permettre de mieux comprendre les mécanismes sous-jacents du DT2 et s'avérer prometteuses en tant que nouveaux marqueurs pronostiques de la maladie.
The intertwined mechanisms among genetic, molecular, lifestyle, and environmental factors contribute to the complexity of diseases such as type 2 diabetes (T2D). Numerous approaches have been employed to unravel this complexity and identify new disease-associated markers. Moreover, with the rapid advancement of high-throughput sequencing technologies and machine learning algorithms in recent years, a new frontier of possibilities has emerged for researchers. In this project, we present two machine learning-based methods aimed at attempting to uncover novel genetic and multi-omics markers associated with T2D. Epistasis refers to the phenomenon where one genetic variant affects another variant from a different locus from manifesting its effects. Studying the structure and evolution of complex diseases, it can be realised that epistasis and genetic interactions are an unavoidable outcome of the evolutionary process, regardless of how it is understood. However, how we can best combine gene structure representation and interaction modelling into an end-to-end model for epistasis searching is still an open question. Here, we propose a novel epistasis detection method, the Haplotype Block Long Short-Term Memory Hierarchical Transformer (HB-LT). HB-LT uses pre-parsed haplotype blocks as input and employs two layers of multi-head attention mechanisms to effectively model phenotype-associated interaction signals both within and across haplotype blocks. It demonstrates substantial improvements over traditional exhaustive search methods and scalable fully connected neural networks. Grouping SNPs into haplotype blocks reduces dimensionality and narrows the search space for epistasis signals. Additionally, by capturing the combined effects of neighboring SNPs rather than treating each SNP individually, HB-LT is more likely to explain greater phenotypic variance. Germline genetic information provides long-term, stable data that remains largely unaffected by external factors. In contrast, omics such as lipidomics, metabolomics, and proteomics are more dynamic, fluctuating in response to short- and medium-term physiological changes, external stimuli, and environmental influences. Each omic layer can be individually analysed to identify biomarkers associated with diseases. In contrast, multi-omics profiling, which involves the comprehensive measurement, integration, and analysis of molecular datasets across multiple omics layers within a set of samples has become another prominent fortiner for many researchers. By capturing signals from complementary omics layers, multi-omics profiling enables the exploration of the complex interplay between multiple layers of biological molecules and identifies system-level biomarkers. Here, 180 circulating plasma lipids and 1,195 circulating plasma proteins from 1,134 individuals across two independent T2D cohorts, Hoorn Diabetes Care System (DCS) and Genetics of Diabetes Audit and Research in Tayside Scotland (GoDARTS) were subjected to a multi-omics profiling method, Similarity Network Fusion (SNF). In both cohorts, two molecular distinct T2D subgroups can be observed. These two subgroups exhibited differences in glycaemic deterioration, insulin sensitivity, and secretion. Key molecular signatures distinguishing the subgroups included triacylglycerols, sphingomyelin, testican-1, and interleukin-18 receptor. These signatures, spanning multiple omic layers, may provide insights into the underlying mechanisms of T2D and hold promise as novel prognostic markers for the disease.