Paramétrisation des modèles de survie & des réductions dimensionnelles par apprentissage profond sur des transcriptomes de cancer
Date de publication
Autrices et auteurs
Identifiant ORCID de l’auteur
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Programme
Affiliation
Mots-clés
- Séquençage d’ARN
- Apprentissage automatique
- GPUs
- Réductions dimensionnelles
- Analyses de survie
- Cancer
- Processeurs graphiques
- RNA sequencing
- Machine learning
- Dimensionality reductions
- Survival analyses
Organisme subventionnaire
Résumé
Les analyses de survies jouent un rôle important pour la recherche des traitements des cancers. Les cancers sont porteurs de nombreuses mutations et de réarrangements chromosomiques, tandis que les variants génétiques et démographiques décrivent les facteurs génétiques propres à l’individu. Les profils d’expression des gènes d’un cancer quantifiés via la méthode de séquençage d’ARN mesurent l’effet des variants génétiques propres au cancer et partiellement à l’individu. Le but de cette thèse est de mesurer l’impact des réductions dimensionnelles pour les analyses de survie, de développer une méthode de réduction dimensionnelle pour les données transcriptomiques et d’explorer des méthodes d’apprentissage profond utilisant les réductions dimensionnelles qui améliorent la performance des analyses de survie. Deux objectifs sousjacents se retrouvent également entremêlés aux travaux présentés ici : trouver les apports des réseaux de neurones artificiels profonds à la prédiction de survie en cancer, s’ils existent et identifier l’impact des hyperparamètres nécessaires pour obtenir les modèles optimaux. Nos résultats démontrent comment une signature génique publiée a une capacité prédictive de la survie en LMA avec le modèle de survie standard par indice de concordance équivalente que l’ACP, une méthode de réduction dimensionnelle informée. Ensuite, on montre une adaptation à une méthode publiée qui est nécessaire pour atteindre la convergence d’un réseau de neurones profonds. Enfin, on décrit la différence de performance entre le modèle de survie standard et le modèle utilisant ce modèle par indice de concordance. En utilisant tout le profil, il ne semble pas y avoir de différence, mais des réductions dimensionnelles informées à basse dimension semble favoriser les réseaux profonds. Dans le quatrième chapitre de la thèse, les développements d’une méthode de réduction dimensionnelle des Factorized embeddings ont permis d’améliorer ses temps de calcul et démontré de nouveau que les FE peuvent être comme technique de visualisation 2D. Nous avons également permis aux FE entrainés de faire l’inférence de nouveaux points et démontré que ceux-ci peuvent être utilisés comme méthode de réduction dimensionnelle pour la prédiction d’une tâche auxiliaire et nous l’avons comparé à des approches standards. De plus, nous avons cartographié certains liens entre les hyperparamètres de la L2 et de la taille des embeddings des gènes et la topologie de l’espace de l’embedding des échantillons en 2D. Enfin, nous avons identifié les limitations actuelles du modèle qui nous orientent les recherches futures en vue d’améliorer les performances de l’algorithme. Le cinquième chapitre présente des approches qui combinent les réductions dimensionnelles et l’apprentissage profond afin d’améliorer les prédictions de survie. Deux types d’approches sont explorées, l’une faisant l’entrainement d’un réseau de survie et l’optimisation d’un réseau de réduction dimensionnelle de manière découplée et l’autre faisant l’entrainement des deux réseaux simultanément. Dans le premier cas en apprentissage découplé, un réseau de réduction dimensionnelle est entrainé dans un premier temps, puis le réseau de survie profond est entrainé sur la projection des données dans l’espace réduit. Dans le deuxième cas, l’entrainement des deux parties du réseau est effectué simultanément durant l’optimisation. Pour cette section, on étudie deux approches contrastantes : l’apprentissage multi-tâche utilisant les auto-encodeurs variationnels et un réseau de Cox profond et l’autre utilisant l’apprentissage par transfert. Enfin on y analyse que réseaux de survie ne profitent pas de modèles profonds à l’heure actuelle. Leur nombre limité d’échantillons dans les jeux de données et leur trop grande dimensionalité en serait la raison principale. Les réductions dimensionnelles qui ont été explorées dans cette thèse offrent des perspectives d’amélioration intéressantes, mais méritent d’être explorées davantage pour offrir des améliorations significatives.
Survival analyses play an important role in cancer treatment research. Cancers carry numerous mutations and chromosomal rearrangements, while genetic and demographic variants describe individual-specific genetic factors. The acquisition of gene expression profiles of cancer through RNA sequencing allows the quantification of the direct effect of the individual's and cancer's genetic variants. The aim of this thesis is to measure the impact of dimensionality reduction for survival analyses, to develop a dimensionality reduction method for transcriptomic data, and to explore deep learning methods using dimensionality reductions that improve the performance of survival analyses. Two underlying objectives are intertwined with the work presented here: identifying the contributions of deep artificial neural networks to cancer survival prediction, if any, and determining the impact of hyperparameters necessary to obtain optimal models. Our results demonstrate how a published gene signature has a predictive ability for survival in AML with a standard survival model by concordance index equivalent to PCA, an informed dimensionality reduction method. We then show an adaptation to a published method necessary to achieve the convergence of a deep neural network. Finally, we describe the performance difference between the standard survival model and the model using this concordance index model. By using the entire profile, there doesn't seem to be a difference, but informed low-dimensional reductions seem to favor deep networks. In the fourth chapter, the development of a dimensionality reduction method with Factorized Embeddings improved its computation time and demonstrated again that FE can be used as a 2D visualization technique. We also allowed trained FEs to infer new points and demonstrated that these can be used as a dimensionality reduction method for predicting an auxiliary task, and compared it to standard approaches. Additionally, we mapped certain links between the L2 hyperparameters and gene embedding size and the topology of the 2D embedding space of samples. Finally, we identified the current limitations of the model, guiding future research to improve the algorithm's performance. The fifth chapter presents approaches that combine dimensionality reduction and deep learning to improve survival predictions. Two types of approaches are explored: one training a survival network and optimizing a dimensionality reduction network in a decoupled manner, and the other training both networks simultaneously. In the first case of decoupled learning, a dimensionality reduction network is trained first, then the deep survival network is trained on the data projection in the reduced space. In the second case, both parts of the network are trained simultaneously during optimization. In this section, we study two contrasting approaches: multitask learning using variational autoencoders and a deep Cox network, and another using transfer learning. Finally, it is analyzed that survival networks do not currently benefit from deep models. Their limited number of samples in the datasets and excessive dimensionality would be the main reasons. The dimensionality reductions explored in this thesis offer interesting improvement perspectives but deserve further exploration to provide significant improvements.