Big Data approaches to viral genomics and evolutionary dynamics of SARS-CoV-2
Date de publication
Autrices et auteurs
ORCID
0000-0001-5280-5220Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Programme
Affiliation
Mots-clés
- SARS-CoV-2
- Évolution intra-hôte
- Génomique à grande échelle
- Dynamiques de mutation
- Adaptation virale
- Intra-host Evolution
- Bid Data Genomics
- Mutation Dynamics
- Viral Adaptation
Organisme subventionnaire
Résumé
Grâce aux avancées des technologies de séquençage à haut débit, les ensembles de données génomiques deviennent de plus en plus volumineux et complexes, ce qui les rend difficiles à analyser. Par exemple, le SARS-CoV-2 a été séquencé à une échelle sans précédent, générant une immense quantité de données génomiques sur la population virale. Le SARS-CoV-2 a évolué en plusieurs variants préoccupants en accumulant des mutations bénéfiques non seulement au niveau de la population lors de la transmission (inter-hôte), mais également au niveau de l’hôte pendant l’infection (intra-hôte). Les variantes de nucléotides uniques intra- hôtes (iSNVs) désignent des variations génétiques qui apparaissent durant la phase intra-hôte, résultant de mutations dans le génome viral. Dans cette thèse, je propose que l’utilisation des approches bioinformatiques appliquées aux données massives dans un contexte de pandémie peut, en temps opportun, révéler des informations essentielles sur les dynamiques évolutives du virus, tant à l’intérieur des hôtes qu’entre eux. Mon objectif est de concevoir et de mettre en œuvre des workflows bioinformatiques capables de traiter et d’analyser efficacement le volume sans précédent de données génomiques sur le SARS-CoV-2 générées pendant la pandémie de COVID-19. Je présente deux workflows de traitement de données génomiques développés pour affiner et harmoniser les données sur le SARS-CoV-2 provenant de centres de séquençage à travers le monde. Le premier curé des séquences consensus de haute qualité issues de GISAID ; le second identifie et analyse les variantes émergentes intra-hôtes (iSNVs) à partir des librairies de séquences de la NCBI. J’illustre l’utilité analytique de ces ensembles de données harmonisés au niveau mondial en analysant les résultats obtenus. Mes analyses ont montré que (a) les méthodes de génétique des populations complètent les approches phylogénétiques pour identifier les dynamiques évolutives globales du virus ; (b) les iSNVs émergents intra- hôtes influencent les dynamiques évolutives du SARS-CoV-2 ; et (c) bien que la majorité des mutations émergentes soient neutres ou légèrement délétères, les substitutions C-vers-T présentent une meilleure fitness et offrent probablement un avantage sélectif, tandis que les mutations G-vers-T sont plus délétères et impactent négativement la fitness virale. Ces résultats apportent des contributions concrètes aux outils de surveillance et à la préparation aux pandémies, en mettant l’accent sur l’évolution virale lors de l’infection. La diversité intra-hôte souligne l’importance de limiter la durée des infections pour réduire la capacité du virus à s’adapter. En intégrant des stratégies de surveillance couvrant à la fois les infections courtes et prolongées, nous pouvons améliorer notre capacité à prédire et répondre à l’émergence de variants préoccupants. L’harmonisation des données génomiques mondiales peut renforcer les stratégies de santé publique et la préparation aux pandémies en améliorant notre capacité à analyser la diversité virale, le traçage des lignées et l’évolution adaptative.
Thanks to advancements in high-throughput sequencing technologies, genomics datasets are becoming increasingly large and complex, rendering them challenging to analyze. For exam- ple, SARS-CoV-2 has been sequenced at an unprecedented scale, leading to a vast amount of genomic data on the viral population. SARS-CoV-2 evolved into several variants of concern by accumulating mutations that confer a selective advantage, not only at the population level during transmission (inter-host) but also at the host level during infection (intra-host). In this thesis, I aim to leverage big data bioinformatics approaches to analyze viral genomic data in a pandemic context, with the goal of uncovering critical insights into the virus’s evolutionary dynamics, both within and between hosts, in a timely manner. I aim to design and implement bioinformatics workflows that efficiently process and analyze the unprecedented volume of SARS-CoV-2 genomic data generated during the COVID-19 pandemic. I present two genomic data processing workflows developed to refine and harmonize SARS-CoV-2 data from sequencing centers around the world. The first curate high-quality consensus sequences from GSAID; the second curates emerging intra-host single nucleotide variants (iSNVs) from NCBI sequence libraries. I demonstrate the analytical utility of these global, harmonized datasets by analyzing the resulting data. I found that (a) population genetics methods complement phylogenetic methods in identifying global viral evolutionary dynamics; (b) emerging intra-host iSNVs influence the evolutionary dynamics of SARS-CoV-2; and (c) that while most emerging mutations are neutral or slightly deleterious, C-to-T substitutions exhibit higher fitness and likely provide a selective advantage, while G-to-T mutations are more deleterious and negatively impact viral fitness. These findings have significance for public health and pandemic preparedness. Intra-host diversity underscores the need to limit infection duration to reduce the virus’ capacity for adaptation. By integrating surveillance strategies across both short and long-term infections, we can improve our ability to predict and respond to the emergence of VOCs. Harmonizing global genomic data can enhance public health strategies and pandemic preparedness by improving our analysis of viral diversity, lineage tracing, and adaptive evolution.