Transcriptomique par k-mers par l'adaptation des représentations vecto rielles factorisées et l'identification de contextes génomiques
Thèse ou mémoire / Thesis or Dissertation
Date de publication
Autrices et auteurs
Identifiant ORCID de l’auteur
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Maîtrise / Master's
Programme
Affiliation
Mots-clés
- Transcriptomique sans référence
- RNA-Seq
- High dimensionality
- K-mers
- Apprentissage automatique
- Réseau de neurones
- Représentation vectorielle factorisée
- Haute dimensionalité
- Reference-free transcriptomics
- Machine learning
- Factorized embeddings
Organisme subventionnaire
Résumé
Résumé
L'essor continu de la transcriptomique et des technologies de séquençage a conduit à la création de nombreux pipelines d'analyse des données transcriptomiques. Cependant, ces méthodes reposent sur l'alignement des séquences à un génome de référence pour générer un profil transcriptomique. Cet alignement introduit des biais et ne capture pas toujours les événements génomiques rares potentiellement significatifs, comme les fusions de gènes. Pour surmonter cette limitation, il est nécessaire de produire des profils transcriptomiques sans référence. Cela permettrait de représenter la transcriptomique d'un échantillon directement à partir des lectures de séquençage, sans dépendre des annotations géniques, tout en gardant la capacité prédictive d’un profil transcriptomique “classique” sur les phénotypes dépendant de la transcriptomique. Cependant, cette approche pose un problème de grande dimensionnalité, car elle implique de travailler directement avec les lectures brutes de séquençage en abandonnant la notion de gêne pour nous guider. Dans ce mémoire, je présente d'abord le développement d'une structure capable de représenter plusieurs centaines d'échantillons de RNA-seq en mémoire. Ensuite, je propose une méthode utilisant des réseaux de neurones pour réduire la dimensionnalité des données, tout en conservant l'information transcriptomique. Ce réseau est entraîné à partir des kmers issus des lectures de séquençage et sa tâche est de prédire l'abondance des k-mers dans chaque échantillon. Cela permet de générer un espace à faible dimension (une représentation vectorielle, ou “embedding”) représentatif des profils transcriptomiques, sans alignement à une référence. Ces représentations de faible dimensionalité devrait pouvoir être utilisées pour faire toute sorte de prédictions possible avec un profil transcriptomique (classifications de type de cancers, de type de tissue…). Je présente aussi un outil développé parallèlement faisant usage des tables de k-mers pour de trouver, sans référence, les séquences flanquantes d’un peptide d’intérêt à partir des k-mers d’expériences de séquençage, permettant ainsi de trouver les séquences flanquantes de peptides non-canoniques.
The continuous rise of transcriptomics and sequencing technologies has led to the development of numerous pipelines for transcriptomic data analysis. However, these methods all rely on aligning sequences to a reference genome to generate a transcriptomic profile. This alignment introduces biases and often fails to capture rare but potentially phenotypically significant genomic events, such as gene fusions. To overcome this limitation, it is necessary to produce reference-free transcriptomic profiles. This would allow for the representation of an RNA sample directly from sequencing reads, without relying on gene annotations, while retaining the predictive capability of a “classical” transcriptomic profile for phenotypes dependent on transcriptomic information. However, this approach presents a challenge of high dimensionality, as it involves working directly with raw sequencing reads, abandoning the concept of genes as a guide. In this memoire, I first present the development of a structure capable of representing hundreds of RNA-seq samples in memory. I then propose a method that uses neural networks to reduce the dimensionality of the data while preserving the transcriptomic information. This network is trained exclusively on k-mers derived from sequencing reads, and its task is to predict the abundance of k-mers in each sample. This generates a low-dimensional space (called an embedding) that is representative of transcriptomic profiles used during training, without the need for reference alignment. These low dimensionality embeddings should be able to be use to make all sort of transcriptomics related predictions (cancer type or tissue type classification…). I also present a jointly developed tool that leverages our optimization work on k-mer tables to rapidly and reference-free identify the flanking sequences of a peptide of interest from k-mers derived from sequencing experiments, thereby enabling the discovery of flanking sequences for non-canonical peptides (such as peptides from immunopeptidomics).
The continuous rise of transcriptomics and sequencing technologies has led to the development of numerous pipelines for transcriptomic data analysis. However, these methods all rely on aligning sequences to a reference genome to generate a transcriptomic profile. This alignment introduces biases and often fails to capture rare but potentially phenotypically significant genomic events, such as gene fusions. To overcome this limitation, it is necessary to produce reference-free transcriptomic profiles. This would allow for the representation of an RNA sample directly from sequencing reads, without relying on gene annotations, while retaining the predictive capability of a “classical” transcriptomic profile for phenotypes dependent on transcriptomic information. However, this approach presents a challenge of high dimensionality, as it involves working directly with raw sequencing reads, abandoning the concept of genes as a guide. In this memoire, I first present the development of a structure capable of representing hundreds of RNA-seq samples in memory. I then propose a method that uses neural networks to reduce the dimensionality of the data while preserving the transcriptomic information. This network is trained exclusively on k-mers derived from sequencing reads, and its task is to predict the abundance of k-mers in each sample. This generates a low-dimensional space (called an embedding) that is representative of transcriptomic profiles used during training, without the need for reference alignment. These low dimensionality embeddings should be able to be use to make all sort of transcriptomics related predictions (cancer type or tissue type classification…). I also present a jointly developed tool that leverages our optimization work on k-mer tables to rapidly and reference-free identify the flanking sequences of a peptide of interest from k-mers derived from sequencing experiments, thereby enabling the discovery of flanking sequences for non-canonical peptides (such as peptides from immunopeptidomics).
Table des matières
Notes
Notes
Autre version linguistique
Ensemble de données lié
Licence
Collections
Approbation
Évaluation
Complété par
Référencé par
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.