Le lasso linéaire : une méthode pour des données de petites et grandes dimensions en régression linéaire
Thèse ou mémoire / Thesis or Dissertation
Date de publication
Autrices et auteurs
Identifiant ORCID de l’auteur
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Maîtrise / Master's
Programme
Affiliation
Mots-clés
- Régression linéaire
- Lasso
- inference
- high dimensionality
- moindres carrés ordinaires
- sélection de variables
- inférence
- grande dimension
- linear regression
- Lasso
- ordinary least squares
- variable selection
Organisme subventionnaire
Résumé
Résumé
Dans ce mémoire, nous nous intéressons à une façon géométrique de voir la méthode du
Lasso en régression linéaire. Le Lasso est une méthode qui, de façon simultanée, estime les
coefficients associés aux prédicteurs et sélectionne les prédicteurs importants pour expliquer
la variable réponse. Les coefficients sont calculés à l’aide d’algorithmes computationnels.
Malgré ses vertus, la méthode du Lasso est forcée de sélectionner au maximum n variables
lorsque nous nous situons en grande dimension (p > n). De plus, dans un groupe de variables
corrélées, le Lasso sélectionne une variable “au hasard”, sans se soucier du choix de la variable.
Pour adresser ces deux problèmes, nous allons nous tourner vers le Lasso Linéaire. Le
vecteur réponse est alors vu comme le point focal de l’espace et tous les autres vecteurs
de variables explicatives gravitent autour du vecteur réponse. Les angles formés entre le
vecteur réponse et les variables explicatives sont supposés fixes et nous serviront de base pour
construire la méthode. L’information contenue dans les variables explicatives est projetée
sur le vecteur réponse. La théorie sur les modèles linéaires normaux nous permet d’utiliser
les moindres carrés ordinaires (MCO) pour les coefficients du Lasso Linéaire.
Le Lasso Linéaire (LL) s’effectue en deux étapes. Dans un premier temps, des variables
sont écartées du modèle basé sur leur corrélation avec la variable réponse; le nombre de
variables écartées (ou ordonnées) lors de cette étape dépend d’un paramètre d’ajustement
γ. Par la suite, un critère d’exclusion basé sur la variance de la distribution de la variable
réponse est introduit pour retirer (ou ordonner) les variables restantes. Une validation croisée
répétée nous guide dans le choix du modèle final.
Des simulations sont présentées pour étudier l’algorithme en fonction de différentes valeurs
du paramètre d’ajustement γ. Des comparaisons sont effectuées entre le Lasso Linéaire
et des méthodes compétitrices en petites dimensions (Ridge, Lasso, SCAD, etc.). Des améliorations
dans l’implémentation de la méthode sont suggérées, par exemple l’utilisation de
la règle du 1se nous permettant d’obtenir des modèles plus parcimonieux. Une implémentation
de l’algorithme LL est fournie dans la fonction R intitulée linlasso, disponible au
https://github.com/yanwatts/linlasso.
In this thesis, we are interested in a geometric way of looking at the Lasso method in the context of linear regression. The Lasso is a method that simultaneously estimates the coefficients associated with the predictors and selects the important predictors to explain the response variable. The coefficients are calculated using computational algorithms. Despite its virtues, the Lasso method is forced to select at most n variables when we are in highdimensional contexts (p > n). Moreover, in a group of correlated variables, the Lasso selects a variable “at random”, without caring about the choice of the variable. To address these two problems, we turn to the Linear Lasso. The response vector is then seen as the focal point of the space and all other explanatory variables vectors orbit around the response vector. The angles formed between the response vector and the explanatory variables are assumed to be fixed, and will be used as a basis for constructing the method. The information contained in the explanatory variables is projected onto the response vector. The theory of normal linear models allows us to use ordinary least squares (OLS) for the coefficients of the Linear Lasso. The Linear Lasso (LL) is performed in two steps. First, variables are dropped from the model based on their correlation with the response variable; the number of variables dropped (or ordered) in this step depends on a tuning parameter γ. Then, an exclusion criterion based on the variance of the distribution of the response variable is introduced to remove (or order) the remaining variables. A repeated cross-validation guides us in the choice of the final model. Simulations are presented to study the algorithm for different values of the tuning parameter γ. Comparisons are made between the Linear Lasso and competing methods in small dimensions (Ridge, Lasso, SCAD, etc.). Improvements in the implementation of the method are suggested, for example the use of the 1se rule allowing us to obtain more parsimonious models. An implementation of the LL algorithm is provided in the function R entitled linlasso available at https://github.com/yanwatts/linlasso.
In this thesis, we are interested in a geometric way of looking at the Lasso method in the context of linear regression. The Lasso is a method that simultaneously estimates the coefficients associated with the predictors and selects the important predictors to explain the response variable. The coefficients are calculated using computational algorithms. Despite its virtues, the Lasso method is forced to select at most n variables when we are in highdimensional contexts (p > n). Moreover, in a group of correlated variables, the Lasso selects a variable “at random”, without caring about the choice of the variable. To address these two problems, we turn to the Linear Lasso. The response vector is then seen as the focal point of the space and all other explanatory variables vectors orbit around the response vector. The angles formed between the response vector and the explanatory variables are assumed to be fixed, and will be used as a basis for constructing the method. The information contained in the explanatory variables is projected onto the response vector. The theory of normal linear models allows us to use ordinary least squares (OLS) for the coefficients of the Linear Lasso. The Linear Lasso (LL) is performed in two steps. First, variables are dropped from the model based on their correlation with the response variable; the number of variables dropped (or ordered) in this step depends on a tuning parameter γ. Then, an exclusion criterion based on the variance of the distribution of the response variable is introduced to remove (or order) the remaining variables. A repeated cross-validation guides us in the choice of the final model. Simulations are presented to study the algorithm for different values of the tuning parameter γ. Comparisons are made between the Linear Lasso and competing methods in small dimensions (Ridge, Lasso, SCAD, etc.). Improvements in the implementation of the method are suggested, for example the use of the 1se rule allowing us to obtain more parsimonious models. An implementation of the LL algorithm is provided in the function R entitled linlasso available at https://github.com/yanwatts/linlasso.
Table des matières
Notes
Notes
Autre version linguistique
Ensemble de données lié
Licence
Approbation
Évaluation
Complété par
Référencé par
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.