An approach to improved microbial eukaryotic genome annotation
Thèse ou mémoire / Thesis or Dissertation
Date de publication
Autrices et auteurs
Identifiant ORCID de l’auteur
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Maîtrise / Master's
Programme
Affiliation
Mots-clés
- Génome Nucléaire
- Annotation Structurale
- Structural Annotation
- Microbial Eukaryote
- Protists
- Fungi
- Eucaryote Microbien
- Protistes
- Champignons
- Saccharomyces
- Neurospora
- Ustilago
- Plasmodium
- Nuclear Genome
Organisme subventionnaire
Résumé
Résumé
Les nouvelles technologies de séquençage d’ADN ont accélérées la vitesse à laquelle les
données génomiques sont générées. Par contre, une fois séquencées et assemblées, un défi
continu est l'annotation structurelle précise de ces nouvelles séquences génomiques. Par le
séquençage et l'assemblage du transcriptome (RNA-Seq) du même organisme, la précision de
l'annotation génomique peut être améliorée, car les lectures de RNA-Seq et les transcrits
assemblés fournissent des informations précises sur la structure des gènes. Plusieurs pipelines
bio-informatiques actuelles incorporent des informations provenant du RNA-Seq ainsi que des
données de similarité des séquences protéiques, pour automatiser l'annotation structurelle d’un
génome de manière que la qualité se rapproche à celle de l'annotation par des experts. Les
pipelines suivent généralement un flux de travail similaire. D'abord, les régions répétitives sont
identifiées afin d'éviter de fausser les alignements de séquences et les prédictions de gènes.
Deuxièmement, une base de données est construite contenant les données expérimentales telles
que l’alignement des lectures de séquences, des transcrits et des protéines, ce qui informe les
prédictions de gènes basées sur les Modèles de Markov Cachés généralisés. La dernière étape
est de consolider les alignements de séquences et les prédictions de gènes dans un consensus de
haute qualité. Or, les pipelines existants sont complexes et donc susceptibles aux biais et aux
erreurs, ce qui peut empoisonner les prédictions de gènes et la construction de modèles
consensus. Nous avons développé une approche améliorée pour l'annotation des génomes
eucaryotes microbiens. Notre approche comprend deux aspects principaux. Le premier est axé
sur la création d'un ensemble d'évidences extrinsèques le plus complet et diversifié afin de mieux
informer les prédictions de gènes. Le deuxième porte sur la construction du consensus du modèle
de gènes en utilisant les évidences extrinsèques et les prédictions par MMC, tel que l'influence
de leurs biais potentiel soit réduite. La comparaison de notre nouvel outil avec trois pipelines
populaires démontre des gains significatifs de sensibilité et de spécificité des modèles de gènes,
de transcrits, d'exons et d'introns dans l’annotation structural de génomes d’eucaryotes
microbiens.
New sequencing technologies have considerably accelerated the rate at which genomic data is being generated. One ongoing challenge is the accurate structural annotation of those novel genomes once sequenced and assembled, in particular if the organism does not have close relatives with well-annotated genomes. Whole-transcriptome sequencing (RNA-Seq) and assembly—both of which share similarities to whole-genome sequencing and assembly, respectively—have been shown to dramatically increase the accuracy of gene annotation. Read coverage, inferred splice junctions and assembled transcripts can provide valuable information about gene structure. Several annotation pipelines have been developed to automate structural annotation by incorporating information from RNA-Seq, as well as protein sequence similarity data, with the goal of reaching the accuracy of an expert curator. Annotation pipelines follow a similar workflow. The first step is to identify repetitive regions to prevent misinformed sequence alignments and gene predictions. The next step is to construct a database of evidence from experimental data such as RNA-Seq mapping and assembly, and protein sequence alignments, which are used to inform the generalised Hidden Markov Models of gene prediction software. The final step is to consolidate sequence alignments and gene predictions into a high-confidence consensus set. Thus, automated pipelines are complex, and therefore susceptible to incomplete and erroneous use of information, which can poison gene predictions and consensus model building. Here, we present an improved approach to microbial eukaryotic genome annotation. Its conception was based on identifying and mitigating potential sources of error and bias that are present in available pipelines. Our approach has two main aspects. The first is to create a more complete and diverse set of extrinsic evidence to better inform gene predictions. The second is to use extrinsic evidence in tandem with predictions such that the influence of their respective biases in the consensus gene models is reduced. We benchmarked our new tool against three known pipelines, showing significant gains in gene, transcript, exon and intron sensitivity and specificity in the genome annotation of microbial eukaryotes.
New sequencing technologies have considerably accelerated the rate at which genomic data is being generated. One ongoing challenge is the accurate structural annotation of those novel genomes once sequenced and assembled, in particular if the organism does not have close relatives with well-annotated genomes. Whole-transcriptome sequencing (RNA-Seq) and assembly—both of which share similarities to whole-genome sequencing and assembly, respectively—have been shown to dramatically increase the accuracy of gene annotation. Read coverage, inferred splice junctions and assembled transcripts can provide valuable information about gene structure. Several annotation pipelines have been developed to automate structural annotation by incorporating information from RNA-Seq, as well as protein sequence similarity data, with the goal of reaching the accuracy of an expert curator. Annotation pipelines follow a similar workflow. The first step is to identify repetitive regions to prevent misinformed sequence alignments and gene predictions. The next step is to construct a database of evidence from experimental data such as RNA-Seq mapping and assembly, and protein sequence alignments, which are used to inform the generalised Hidden Markov Models of gene prediction software. The final step is to consolidate sequence alignments and gene predictions into a high-confidence consensus set. Thus, automated pipelines are complex, and therefore susceptible to incomplete and erroneous use of information, which can poison gene predictions and consensus model building. Here, we present an improved approach to microbial eukaryotic genome annotation. Its conception was based on identifying and mitigating potential sources of error and bias that are present in available pipelines. Our approach has two main aspects. The first is to create a more complete and diverse set of extrinsic evidence to better inform gene predictions. The second is to use extrinsic evidence in tandem with predictions such that the influence of their respective biases in the consensus gene models is reduced. We benchmarked our new tool against three known pipelines, showing significant gains in gene, transcript, exon and intron sensitivity and specificity in the genome annotation of microbial eukaryotes.
Table des matières
Notes
Notes
Autre version linguistique
Ensemble de données lié
Licence
Approbation
Évaluation
Complété par
Référencé par
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.