Classification des données de grandes dimensions à l'aide de variantes de machines de Boltzmann
Date
Authors
Contributor(s)
Advisor(s)
Published in
Conference Date
Conference Place
Publisher
Degree Level
Discipline
Affiliation
Keywords
- Machine de Boltzmann
- Réseaux de neurones
- Classification
- Clustering
- Markov Chain Monte Carlo
- Réduction de dimensionnalité
- Décomposition tensorielles
- Classification
- Regroupement des données
- Monte-Carlo par chaînes de Markov
- Boltzmann machine
- Neural networks
- Tensor decompositions
Funding organization(s)
Abstract
Les machines de Boltzmann sont des modèles graphiques non orientés impliquant des variables latentes. Dans leur version de base, toutes les variables impliquées dans le modèle sont binaires et s’interagissent entre elles. Ces modèles requièrent un grand nombre de paramètres, rendant leur apprentissage complexe et nécessitant des ordinateurs avec une grande capacité de stockage. De plus, les machines de Boltzmann sont souvent utilisées comme phase préliminaire pour d'autres algorithmes, fournissant soit un prétraitement des données, soit une méthode d'initialisation pour les réseaux de neurones à propagation avant. Elles ne constituent pas une solution autonome pour les problèmes de classification et de regroupement de données. Dans cette thèse, nous avons étudié le cas où les variables de la machine de Boltzmann restreinte sont continues. Nous avons d'abord proposé une méthodologie basée sur l'utilisation des décompositions tensorielles pour représenter la matrice de poids de la machine de Boltzmann restreinte gaussienne (GRBM), où les variables sont supposées continues et non bornées. Cette méthodologie a permis de réduire la capacité en mémoire du modèle en diminuant le nombre de paramètres grâce aux formats tensoriels. En particulier, l'opérateur de produits matriciels (MPO) s'est révélé être le format offrant la meilleure compression de la GRBM parmi les formats tensoriels expérimentés, sans détériorer la qualité du modèle initial. En outre, nous avons étudié d'autres variantes de la machine de Boltzmann restreinte (RBM) en supposant que les variables du modèle sont continues et bornées. Nous avons nommé ce modèle la machine de Boltzmann restreinte à intervalle compact (CIRBM). Afin de résoudre les problèmes de classification des données de grande dimension, nous avons proposé un modèle appelé machine de Boltzmann restreinte multinomiale à intervalle compact (MCIRBM). La particularité de ce modèle est qu'il est autonome et ne nécessite aucun recours à un autre algorithme de classification. En plus de posséder de bonnes caractéristiques de modèle génératif, le modèle MCIRBM a un excellent pouvoir prédictif, surpassant certains modèles utilisés pour la classification des données de grande dimension. De plus, nous avons proposé un modèle de mélange de machines de Boltzmann restreintes à intervalle compact (MixCIRBM) dans le but de réaliser des tâches de regroupement des données de grande dimension en grappes. Le modèle MixCIRBM est ajusté à l'aide de l'algorithme d'espérance-maximisation et testé sur des données générées et réelles. Les expériences ont montré que le modèle MixCIRBM propose une capacité de regroupement de données supérieure à celle du modèle de mélange gaussien et de l'algorithme K-moyennes. Les différents modèles étudiés dans cette thèse ont été entraînés par des algorithmes reposant sur la méthode de Monte-Carlo par chaînes de Markov (MCMC).
Boltzmann machines are undirected graphical models involving latent variables. In their basic version, all the variables involved in the model are binary and interact with each other. These models require many parameters, making their learning complex and requiring computers with large storage capacity. Additionally, Boltzmann machines are often used as a preliminary phase for other algorithms, providing either data preprocessing or an initialization method for feedforward neural networks. They are not a stand-alone solution for classification and clustering problems. In this thesis, we studied the case where the variables of the restricted Boltzmann machine are continuous. We first proposed a methodology based on the use of tensor decompositions to represent the weight matrix of the Gaussian restricted Boltzmann machine (GRBM), where the variables are assumed to be continuous and unbounded. This methodology allowed the reduction of memory needed by decreasing the number of parameters through tensor decompositions. In particular, the matrix product operator (MPO) was found to be the format offering the best compression of the GRBM among the experimented tensor decompositions, without deteriorating the initial model's quality. Furthermore, we studied other variants of the restricted Boltzmann machine (RBM), assuming that the model variables are continuous and bounded. We named this model the compact interval restricted Boltzmann machine (CIRBM). In order to address high-dimensional data classification problems, we proposed a model called the multinomial compact interval restricted Boltzmann machine (MCIRBM). The particularity of this model is that it is autonomous and does not require any other classification algorithm. In addition to having good generative model characteristics, the MCIRBM model has excellent predictive power, outperforming some models used for high-dimensional data classification tasks. Moreover, we proposed a compact interval restricted Boltzmann machine mixture model (MixCIRBM) to perform high-dimensional data clustering tasks. The MixCIRBM model is fitted using the expectation-maximization algorithm and tested on both generated and real data. Experiments showed that the MixCIRBM model provides better data clustering capabilities than the Gaussian mixture model and the K-means algorithm. The various models studied in this thesis were trained using algorithms based on the Markov chain Monte Carlo method (MCMC).