Classification transcriptomique par apprentissage automatique de la leucémie myéloïde aiguë


Thèse ou mémoire / Thesis or Dissertation

Date de publication

Autrices et auteurs

Identifiant ORCID de l’auteur

Contributrices et contributeurs

Publié dans

Date de la Conférence

Lieu de la Conférence

Éditeur

Cycle d'études

Maîtrise / Master's

Affiliation

Mots-clés

  • leucémie myéloïde aiguë
  • diagnostic
  • classification
  • transcriptome
  • apprentissage automatique
  • SVM
  • réseaux de neurones
  • acute myeloid leukemia
  • machine learning
  • neural networks

Organisme subventionnaire

Résumé

Résumé

La leucémie myéloïde aiguë (LMA) est un type de cancer caractérisé par une surabondance de cellules souches ou progénitrices myéloïdes anormalement différenciées. Plusieurs anomalies cytogénétiques et mutationnelles peuvent expliquer ce phénomène. Cependant, les cas de LMA pédiatriques ne sont généralement pas dus aux mêmes anomalies que les cas adultes. Il est primordial de relever ces anomalies génétiques, car elles définissent en grande partie le diagnostic de la maladie, et elles sont également intrinsèquement liées au pronostic et à la thérapie. Un moyen de distinguer ces différents sous-types est grâce à leur profil transcriptomique, car il permet notamment de détecter les gènes de fusion exprimés de façon aberrante. L’utilisation de l’apprentissage automatique dans ce contexte est également pertinente, car en traitant un grand nombre de données, des motifs d’expression génique propres à chaque sous-type peuvent être trouvés et appris pour classifier les LMA en sous-groupes moléculaires. De ce fait, nous avons développé un classificateur moléculaire de la LMA basé sur les profils transcriptomiques. Plusieurs algorithmes de classification ont été testés, dont les réseaux de neurones, mais le plus performant était le Support Vector Machine (SVM) lorsqu’il apprenait à partir des gènes codants. Son score F1 final est de 0,799. Le classificateur est particulièrement efficace pour les sous-types de LMA définis par des anomalies génétiques mutuellement exclusives, telles que les gènes de fusion PML-RARA, RUNX1-RUNX1T1, CBFB-MYH11, DEK-NUP214, les translocations de KMT2A et les mutations de NPM1, ainsi que pour les sous-types pour lesquels nous avions beaucoup d’échantillons. Ainsi, nous avons développé un outil d’aide au diagnostic de la LMA pour les cliniciens.
Acute myeloid leukemia (AML) is a type of cancer characterized by an overabundance of abnormally differentiated myeloid stem or progenitor cells. Several cytogenetic and mutational abnormalities may explain this phenomenon. However, cases of pediatric AML are generally not due to the same abnormalities as adult cases. It is vital to identify these genetic abnormalities, as they largely define the diagnosis of the disease, and are also intrinsically linked to prognosis and therapy. One way of distinguishing between these different subtypes is through their transcriptomic profile, which can detect aberrantly expressed fusion genes. The use of machine learning in this context is also relevant, as by processing large numbers of data, subtype-specific gene expression patterns can be found and learned to classify AMLs into molecular subgroups. As a result, we developed a molecular classifier for AML based on transcriptomic profiles. Several classification algorithms were tested, including neural networks, but the best performing was the Support Vector Machine (SVM) when learning from coding genes. Its final F1 score was 0.799. The classifier is particularly effective for AML subtypes defined by mutually exclusive genetic abnormalities, such as PML-RARA fusion genes, RUNX1-RUNX1T1, CBFB-MYH11, DEK-NUP214, KMT2A translocations and NPM1 mutations, as well as for subtypes for which we had many samples. We have thus developed a tool to help clinicians diagnose AML.

Table des matières

Notes

Notes

Autre version linguistique

Ensemble de données lié

Licence

Approbation

Évaluation

Complété par

Référencé par

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.