Repository logo

Transcriptomique par k-mers par l'adaptation des représentations vecto rielles factorisées et l'identification de contextes génomiques


Thèse ou mémoire / Thesis or Dissertation
Loading...
Thumbnail Image

Contributor(s)

Published in

Conference Date

Conference Place

Publisher

Degree Level

Maîtrise / Master's

Affiliation

Keywords

  • Transcriptomique sans référence
  • RNA-Seq
  • High dimensionality
  • K-mers
  • Apprentissage automatique
  • Réseau de neurones
  • Représentation vectorielle factorisée
  • Haute dimensionalité
  • Reference-free transcriptomics
  • Machine learning
  • Factorized embeddings

Funding organization(s)

Abstract

L'essor continu de la transcriptomique et des technologies de séquençage a conduit à la création de nombreux pipelines d'analyse des données transcriptomiques. Cependant, ces méthodes reposent sur l'alignement des séquences à un génome de référence pour générer un profil transcriptomique. Cet alignement introduit des biais et ne capture pas toujours les événements génomiques rares potentiellement significatifs, comme les fusions de gènes. Pour surmonter cette limitation, il est nécessaire de produire des profils transcriptomiques sans référence. Cela permettrait de représenter la transcriptomique d'un échantillon directement à partir des lectures de séquençage, sans dépendre des annotations géniques, tout en gardant la capacité prédictive d’un profil transcriptomique “classique” sur les phénotypes dépendant de la transcriptomique. Cependant, cette approche pose un problème de grande dimensionnalité, car elle implique de travailler directement avec les lectures brutes de séquençage en abandonnant la notion de gêne pour nous guider. Dans ce mémoire, je présente d'abord le développement d'une structure capable de représenter plusieurs centaines d'échantillons de RNA-seq en mémoire. Ensuite, je propose une méthode utilisant des réseaux de neurones pour réduire la dimensionnalité des données, tout en conservant l'information transcriptomique. Ce réseau est entraîné à partir des kmers issus des lectures de séquençage et sa tâche est de prédire l'abondance des k-mers dans chaque échantillon. Cela permet de générer un espace à faible dimension (une représentation vectorielle, ou “embedding”) représentatif des profils transcriptomiques, sans alignement à une référence. Ces représentations de faible dimensionalité devrait pouvoir être utilisées pour faire toute sorte de prédictions possible avec un profil transcriptomique (classifications de type de cancers, de type de tissue…). Je présente aussi un outil développé parallèlement faisant usage des tables de k-mers pour de trouver, sans référence, les séquences flanquantes d’un peptide d’intérêt à partir des k-mers d’expériences de séquençage, permettant ainsi de trouver les séquences flanquantes de peptides non-canoniques.


The continuous rise of transcriptomics and sequencing technologies has led to the development of numerous pipelines for transcriptomic data analysis. However, these methods all rely on aligning sequences to a reference genome to generate a transcriptomic profile. This alignment introduces biases and often fails to capture rare but potentially phenotypically significant genomic events, such as gene fusions. To overcome this limitation, it is necessary to produce reference-free transcriptomic profiles. This would allow for the representation of an RNA sample directly from sequencing reads, without relying on gene annotations, while retaining the predictive capability of a “classical” transcriptomic profile for phenotypes dependent on transcriptomic information. However, this approach presents a challenge of high dimensionality, as it involves working directly with raw sequencing reads, abandoning the concept of genes as a guide. In this memoire, I first present the development of a structure capable of representing hundreds of RNA-seq samples in memory. I then propose a method that uses neural networks to reduce the dimensionality of the data while preserving the transcriptomic information. This network is trained exclusively on k-mers derived from sequencing reads, and its task is to predict the abundance of k-mers in each sample. This generates a low-dimensional space (called an embedding) that is representative of transcriptomic profiles used during training, without the need for reference alignment. These low dimensionality embeddings should be able to be use to make all sort of transcriptomics related predictions (cancer type or tissue type classification…). I also present a jointly developed tool that leverages our optimization work on k-mer tables to rapidly and reference-free identify the flanking sequences of a peptide of interest from k-mers derived from sequencing experiments, thereby enabling the discovery of flanking sequences for non-canonical peptides (such as peptides from immunopeptidomics).

Table of contents

Notes

Notes

Other language versions

Endorsement

Review

Supplemented By

Referenced By

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). Unless the document is published under a Creative Commons licence, it may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.