Repository logo

Combining label-free Raman spectroscopy with machine learning for biomarker discovery in infectious and chronic diseases


Thèse ou mémoire / Thesis or Dissertation
Loading...
Thumbnail Image

Contributor(s)

Published in

Conference Date

Conference Place

Publisher

Degree Level

Doctorat / Doctoral

Affiliation

Keywords

  • Maladie COVID-19
  • Maladie chronique EM
  • Spectroscopie Raman
  • Apprentissage automatique
  • Découverte de biomarqueurs
  • COVID-19 disease
  • Myalgic encephalomyelitis
  • Label-free Raman spectroscopy
  • Machine learning
  • Biomarker discovery

Funding organization(s)

Abstract

La maladie à coronavirus 2019 (COVID-19), causée par le coronavirus du syndrome respiratoire aigu sévère 2 (SARS-CoV-2), a entraîné plus de 7 millions de décès dans le monde, tandis que le COVID long affecte encore environ 400 millions de personnes. De nombreux symptômes du COVID long chevauchent ceux de l’encéphalomyélite myalgique (EM), un trouble chronique et multisystémique touchant environ 600 000 Canadiens et jusqu’à 2,5 millions d’Américains. La COVID-19 et l’EM sont toutes deux des maladies hétérogènes, dont les manifestations cliniques vont de symptômes légers à modérés à des formes sévères, voire potentiellement mortelles. À l’heure actuelle, les tests diagnostiques de référence pour la COVID-19 présentent des limites quant à leur capacité à stratifier les patients selon les différents stades de la maladie ou à assurer un suivi à long terme. Par ailleurs, l’EM ne dispose d’aucun biomarqueur validé à des fins diagnostiques ou pronostiques, et les mécanismes moléculaires sous-jacents à cette maladie demeurent mal compris. Ces limitations entravent le développement d’outils diagnostiques et de suivi rapides au point de service, capables d’identifier les altérations biochimiques induites par l’infection au SARS-CoV-2 et par l’EM. Combler ces lacunes pourrait fournir des connaissances essentielles pour améliorer la prise en charge clinique et favoriser le développement de nouvelles stratégies thérapeutiques. L’objectif de cette thèse était de développer un outil de dépistage combinant la spectroscopie Raman sans marquage (RS) et la modélisation par apprentissage automatique (ML) (RS-ML) afin de permettre la détection sensible des altérations biochimiques associées aux maladies induites par l’infection au SARS-CoV-2 et l’EM, à différents stades des maladies aiguës et chroniques. Cette thèse comprend trois études visant à caractériser les signatures biomoléculaires dans le plasma sanguin humain associées à des conditions infectieuses et chroniques. Dans la première étude, un outil de dépistage RS-ML a été développé pour prédire la sévérité et la mortalité de la COVID-19 chez des patients hospitalisés. Les modèles de classification ont atteint des valeurs d’AUC comprises entre 0,83 et 0,94, indiquant que RS-ML pourrait aider à identifier les patients présentant un risque accru de complications ou de décès. Dans la deuxième étude, l’approche RS-ML a été appliquée pour détecter les changements biomoléculaires longitudinaux de la phase aiguë à la phase de récupération chez des patients hospitalisés atteints de COVID-19, et pour les différencier de sujets sains. Les modèles ont permis de distinguer avec succès les patients critiques des non-critiques pendant les phases aigües et de récupération, et d’autres modèles ont classé l’état des patients (aigu vs récupération) à l’aide d’analyses transversales et longitudinales. Ces modèles ont atteint des valeurs d’AUC comprises entre 0,83 et 1,00, démontrant le potentiel de RS-ML pour suivre l’évolution de la maladie et la récupération. Dans la troisième étude, la méthodologie RS-ML a été appliquée pour différencier les patients atteints d’EM des sujets sains à deux moments : au départ avant un test de stress (T0) et 90 minutes après un test de stress post-effort (T90). Les modèles ont atteint des valeurs d’AUC de 0,83 à T0 et 0,84 à T90, mettant en évidence la capacité de RS-ML à capter les altérations biochimiques induites par les stress associés au malaise post-effort. En conclusion, les résultats présentés dans cette thèse démontrent que l’intégration de la spectroscopie Raman sans marquage et de l’apprentissage automatique permet d’identifier des différences biomoléculaires spécifiques à la maladie, tant pour la COVID-19 que pour l’EM, à différents stades de la maladie. Ces résultats soutiennent le potentiel de l’approche RS-ML comme outil de stratification des patients et de suivi clinique.


Coronavirus disease 2019 (COVID-19), caused by the severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2), has resulted in over 7 million deaths worldwide, while long COVID continues to affect an estimated 400 million individuals. Many symptoms of long COVID overlap with those of myalgic encephalomyelitis (ME), a chronic, multisystem disorder affecting approximately 600,000 Canadians and up to 2.5 million Americans. Both COVID-19 and ME are heterogeneous conditions, with clinical manifestations ranging from mild to moderate symptoms to severe and potentially life-threatening disease. Currently, gold-standard diagnostic tests for COVID-19 are limited in their ability to stratify patients across different stages of disease or to support long-term monitoring. Moreover, ME lacks validated biomarkers for diagnosis or prognosis, and the molecular mechanisms underlying the disease remain poorly understood. These limitations hinder the development of rapid point-of-care diagnostic and monitoring tools capable of identifying biochemical alterations induced by SARS-CoV-2 infection and ME. Addressing these gaps could provide critical insights to improve clinical management and support the development of novel therapeutic strategies. The aim of this thesis was to develop a screening tool that combines label-free Raman spectroscopy (RS) with machine learning (ML) modeling (RS-ML) to enable sensitive detection of disease-associated biochemical alterations induced by SARS-CoV-2 infection and ME across different stages of acute and chronic disease. This thesis comprises three studies designed to characterize biomolecular signatures in human blood plasma associated with infectious and chronic conditions. In the first study, an RS-ML screening tool was developed to predict COVID-19 severity and mortality in hospitalized patients. The classification models achieved AUC values ranging from 0.83 to 0.94, indicating that RS-ML may help identify patients at increased risk of complications or death. In the second study, the RS-ML approach was applied to detect longitudinal biomolecular changes from acute infection to recovery in hospitalized COVID-19 patients and to differentiate these patients from healthy controls. The models successfully distinguished critical from non-critical patients during both acute and recovery phases, and additional models classified patient status (acute vs. recovery) using cross-sectional and 6 longitudinal analyses. These models achieved AUC values ranging from 0.83 to 1.00, demonstrating the potential of RS-ML to monitor disease progression and recovery. In the third study, the RS-ML methodology was applied to differentiate ME patients from healthy controls at two time points: baseline prior to a stress test (T0) and 90 minutes following the post-exertional stress test (T90). The models achieved AUC values of 0.83 at T0 and 0.84 at T90, highlighting the ability of RS-ML to capture stress-induced biomolecular alterations associated with post-exertional malaise. In conclusion, the findings presented in this dissertation demonstrate that the integration of label-free Raman spectroscopy with machine learning enables the identification of disease-specific biomolecular differences in both COVID-19 and ME across distinct stages of disease. These results support the potential of RS-ML as a tool for disease stratification and clinical monitoring.

Table of contents

Notes

Notes

Other language versions

Related research dataset(s)

Endorsement

Review

Supplemented By

Referenced By

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). Unless the document is published under a Creative Commons licence, it may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.