Sélection de modèles robuste : régression linéaire et algorithme à sauts réversibles
Date de publication
Autrices et auteurs
Identifiant ORCID de l’auteur
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Programme
Affiliation
Mots-clés
- algorithme Metropolis de type marche aléatoire
- analyse en composantes principales
- Principal component analysis
- Random walk Metropolis algorithm
- Robustness
- Super heavy-tailed distributions
- distributions à ailes extrêmement relevées
- inférence bayésienne
- méthodes de Monte Carlo par chaînes de Markov
- robustesse
- valeurs aberrantes
- Bayesian inference
- Markov chain Monte Carlo methods
- Outliers
Organisme subventionnaire
Résumé
Dans cette thèse, deux aspects incontournables de l’analyse statistique sont traités, soient la sélection de modèles et l’estimation des paramètres. Ceci est effectué dans un contexte bayésien par l’intermédiaire de trois articles. Dans le premier, ces aspects sont traités d’un point de vue computationnel. L’algorithme à sauts réversibles, une méthode Monte Carlo par chaînes de Markov permettant simultanément la sélection de modèles et l’estimation des paramètres, est analysé dans l’objectif d’indiquer à l’utilisateur la façon optimale de l’implémenter. Un algorithme implémenté optimalement correspond à un algorithme engendrant des chaînes de Markov qui explorent leur espace d’états de façon optimale. L’objectif est atteint par l’intermédiaire de l’optimisation d’un processus stochastique correspondant à la limite (en distribution) de la suite des processus stochastiques engendrés par cet algorithme. Dans le deuxième article, une stratégie menant à l’estimation robuste des paramètres d’un modèle de régression linéaire en présence de valeurs aberrantes est présentée. La stratégie consiste à poser des hypothèses plus adaptées à cette éventualité de présence de valeurs aberrantes, comparativement au modèle traditionnel basé sur l’hypothèse de normalité des erreurs. Il s’agit de remplacer cette hypothèse de normalité par une hypothèse de distribution à ailes extrêmement relevées. La robustesse, se traduisant par la convergence de la distribution a posteriori des paramètres (basée sur l’échantillon entier) vers celle excluant les valeurs aberrantes, est garantie lorsque le nombre de valeurs aberrantes ne dépasse pas un certain seuil. Finalement, les résultats présentés dans les deux premiers articles sont combinés afin d’introduire une approche bayésienne de régression robuste sur composantes principales faisant intervenir la sélection de modèles dans le processus de prédiction. Ces caractéristiques de robustesse et d’incorporation de la sélection de modèles dans l’analyse contribuent à l’amélioration de la précision des prédictions produites.
Model selection and parameter estimation are two main aspects of statistical analysis. This thesis discusses these aspects from a Bayesian point of view via three papers. The first one deals with a computational procedure, named the reversible jump algorithm, that allows to simultaneously select models and estimate parameters. This sampler being difficult to tune in practice, we aim at providing guidelines to users for an optimal implementation. An optimally tuned sampler corresponds to a sampler that generates Markov chains that optimally explore their state space. Our goal is achieved through the optimisation of a stochastic process that corresponds to the limit (in distribution) of the sequence of stochastic processes engendered by the algorithm. In the second paper, a strategy leading to robust estimation of the parameters of a linear regression model in presence of outliers is presented. The strategy is to make assumptions that are more adapted to the eventual presence of outliers, compared with the traditional model assuming normality of errors. This normality assumption is indeed replaced by a super heavy-tailed distribution assumption. Robustness, which is represented by the convergence of the posterior distribution of the parameters (based on the whole sample) towards that arising from the nonoutliers only, is guaranteed when the number of outliers does not exceed a given threshold. Finally, the results presented in the first two papers are combined to introduce a Bayesian robust principal component regression approach that involves model selection in the prediction process. The characteristics of this approach contribute to increase the accuracy of the predictions produced.