Étude des signatures géniques dans un contexte d’expériences de RNA- Seq


Thèse ou mémoire / Thesis or Dissertation

Date de publication

Autrices et auteurs

Identifiant ORCID de l’auteur

Contributrices et contributeurs

Publié dans

Date de la Conférence

Lieu de la Conférence

Éditeur

Cycle d'études

Maîtrise / Master's

Affiliation

Mots-clés

  • Apprentissage machine
  • Réduction de dimensionnalité
  • Transcriptome
  • RNA-Seq
  • Machine learning
  • Artificial neural networks
  • Dimensionnality reduction

Organisme subventionnaire

Résumé

Résumé

Le principal intérêt des expériences de séquençage d’ARN (RNA-Seq) est qu’elles consti- tuent une vue d’ensemble sur les procédés géniques intrinsèques de la cellule. L’état malade différe de l’état sain de par son usage génique et de nombreux efforts ont été canalisés dans les dernières années en bioinformatique, pour affiner ces signatures gé- niques, notamment dans la classification de leucémies et le typage de cancers du sein. Tous ces modèles voient, cependant, leur performance détériorée par un grand nombre de dimensions d’entrée et la plupart des auteurs choisissent d’imposer un seuil d’exclusion de gènes. J’ai voulu déterminer la nature d’une signature génique et sa taille optimale, en nombre de gènes. Pour déterminer la taille d’une signature génique j’ai appliqué des algorithmes de co-partitionnements à un sous-ensemble de données transcriptomiques afin d’en extraire la signature génique. Mes résultats indiquent que la signature génique ne peut être extraite en entier et l’utilisation de seuils d’exclusions de gènes est le prin- cipal problème. J’ai exploré une méthode d’extraction de la signature génique avec un réseau de neurones artificiels (ANN) en calculant le plus petit ajustement en expression génique nécessaire pour passer d’un phénotype à un autre. La signature génique extraite indique que presque la totalité des gènes sont affectés pour un phénotype donné. Consé- quemment, il est inapproprié de considérer des méthodes avec seuil d’exclusion de gènes et je propose que les signatures géniques sont des phénomènes omnigéniques. Afin de pallier à l’inconvénient dû à la nécessité d’inclure tous les gènes dans l’analyse, j’ai élaboré une méthode d’apprentissage machine par ANN qui gère simultanément deux espaces : l’espace des gènes et l’espace des échantillons. Les coordonnées des gènes et des échantillons dans leur espaces respectifs sont arrangés de manière à ce qu’ils pré- disent l’expression génique. Ma contribution est donc un modèle qui apprend de manière simultanée les interactions entre les gènes et les interactions entre les échantillons. Ma méthode permet également d’inclure dans l’analyse de jeux de données partiellement manquantes, faisant le lien vers l’intégration de données et l’analyses d’échantillons de séquençage de cellule unique (scRNA-Seq).
The main appeal of RNA sequencing experiments is that they offer a general view of all cell’s intrinsic genetic processes. Diseased state differs from healthy by it’s gene usage and many efforts have been channeled in bioinformatics these last few years to purify these gene signatures, in particular in the classification of leukemia and breast cancer subtyping. However, these models see their performance hindered by a large size of input dimensions and most authors chose to impose a threshold of gene exclusion. I wanted to determine what is a gene signature and how many genes it truly contains. To determine it’s size, I applied co-clustering algorithms to a subset of transcriptomic data, to extract it’s gene signature. My results indicate that the gene signature cannot be extracted entirely and the use of exclusion thresholds is the main problem. I then explored a gene signature extraction method using an artificial neural net (ANN), by calculating the smallest adjustment in gene expression necessary to go from one phe- notypic class to another. The extracted gene signature indicated that almost all genes are affected for the given phenotype. Consequently, it seems inappropriate to consider threshold-based methods and I, therefore, propose that gene signatures are omnigenic phenomena. To level the disadvantage of having to include all genes in gene expres- sion analyses, I designed a ANN method that simultaneously manages two spaces: the gene and the sample space. The coordinates for genes and samples in their respective space are arranged to predict the gene expression. My contribution is a model that learns simultaneously about genes and samples. My method allows the analysis of datasets with missing data, making the integration of heterogenous data integration as well as the analysis of single-cell RNA-Seq experiments.

Table des matières

Notes

Notes

Autre version linguistique

Ensemble de données lié

Licence

Approbation

Évaluation

Complété par

Référencé par

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.