Repository logo

Classification des données de grandes dimensions à l'aide de variantes de machines de Boltzmann


Thèse ou mémoire / Thesis or Dissertation
Loading...
Thumbnail Image

Contributor(s)

Published in

Conference Date

Conference Place

Publisher

Degree Level

Doctorat / Doctoral

Discipline

Affiliation

Keywords

  • Machine de Boltzmann
  • Réseaux de neurones
  • Classification
  • Clustering
  • Markov Chain Monte Carlo
  • Réduction de dimensionnalité
  • Décomposition tensorielles
  • Classification
  • Regroupement des données
  • Monte-Carlo par chaînes de Markov
  • Boltzmann machine
  • Neural networks
  • Tensor decompositions

Funding organization(s)

Abstract

Les machines de Boltzmann sont des modèles graphiques non orientés impliquant des variables latentes. Dans leur version de base, toutes les variables impliquées dans le modèle sont binaires et s’interagissent entre elles. Ces modèles requièrent un grand nombre de paramètres, rendant leur apprentissage complexe et nécessitant des ordinateurs avec une grande capacité de stockage. De plus, les machines de Boltzmann sont souvent utilisées comme phase préliminaire pour d'autres algorithmes, fournissant soit un prétraitement des données, soit une méthode d'initialisation pour les réseaux de neurones à propagation avant. Elles ne constituent pas une solution autonome pour les problèmes de classification et de regroupement de données. Dans cette thèse, nous avons étudié le cas où les variables de la machine de Boltzmann restreinte sont continues. Nous avons d'abord proposé une méthodologie basée sur l'utilisation des décompositions tensorielles pour représenter la matrice de poids de la machine de Boltzmann restreinte gaussienne (GRBM), où les variables sont supposées continues et non bornées. Cette méthodologie a permis de réduire la capacité en mémoire du modèle en diminuant le nombre de paramètres grâce aux formats tensoriels. En particulier, l'opérateur de produits matriciels (MPO) s'est révélé être le format offrant la meilleure compression de la GRBM parmi les formats tensoriels expérimentés, sans détériorer la qualité du modèle initial. En outre, nous avons étudié d'autres variantes de la machine de Boltzmann restreinte (RBM) en supposant que les variables du modèle sont continues et bornées. Nous avons nommé ce modèle la machine de Boltzmann restreinte à intervalle compact (CIRBM). Afin de résoudre les problèmes de classification des données de grande dimension, nous avons proposé un modèle appelé machine de Boltzmann restreinte multinomiale à intervalle compact (MCIRBM). La particularité de ce modèle est qu'il est autonome et ne nécessite aucun recours à un autre algorithme de classification. En plus de posséder de bonnes caractéristiques de modèle génératif, le modèle MCIRBM a un excellent pouvoir prédictif, surpassant certains modèles utilisés pour la classification des données de grande dimension. De plus, nous avons proposé un modèle de mélange de machines de Boltzmann restreintes à intervalle compact (MixCIRBM) dans le but de réaliser des tâches de regroupement des données de grande dimension en grappes. Le modèle MixCIRBM est ajusté à l'aide de l'algorithme d'espérance-maximisation et testé sur des données générées et réelles. Les expériences ont montré que le modèle MixCIRBM propose une capacité de regroupement de données supérieure à celle du modèle de mélange gaussien et de l'algorithme K-moyennes. Les différents modèles étudiés dans cette thèse ont été entraînés par des algorithmes reposant sur la méthode de Monte-Carlo par chaînes de Markov (MCMC).


Boltzmann machines are undirected graphical models involving latent variables. In their basic version, all the variables involved in the model are binary and interact with each other. These models require many parameters, making their learning complex and requiring computers with large storage capacity. Additionally, Boltzmann machines are often used as a preliminary phase for other algorithms, providing either data preprocessing or an initialization method for feedforward neural networks. They are not a stand-alone solution for classification and clustering problems. In this thesis, we studied the case where the variables of the restricted Boltzmann machine are continuous. We first proposed a methodology based on the use of tensor decompositions to represent the weight matrix of the Gaussian restricted Boltzmann machine (GRBM), where the variables are assumed to be continuous and unbounded. This methodology allowed the reduction of memory needed by decreasing the number of parameters through tensor decompositions. In particular, the matrix product operator (MPO) was found to be the format offering the best compression of the GRBM among the experimented tensor decompositions, without deteriorating the initial model's quality. Furthermore, we studied other variants of the restricted Boltzmann machine (RBM), assuming that the model variables are continuous and bounded. We named this model the compact interval restricted Boltzmann machine (CIRBM). In order to address high-dimensional data classification problems, we proposed a model called the multinomial compact interval restricted Boltzmann machine (MCIRBM). The particularity of this model is that it is autonomous and does not require any other classification algorithm. In addition to having good generative model characteristics, the MCIRBM model has excellent predictive power, outperforming some models used for high-dimensional data classification tasks. Moreover, we proposed a compact interval restricted Boltzmann machine mixture model (MixCIRBM) to perform high-dimensional data clustering tasks. The MixCIRBM model is fitted using the expectation-maximization algorithm and tested on both generated and real data. Experiments showed that the MixCIRBM model provides better data clustering capabilities than the Gaussian mixture model and the K-means algorithm. The various models studied in this thesis were trained using algorithms based on the Markov chain Monte Carlo method (MCMC).

Table of contents

Notes

Notes

Other language versions

Related research dataset(s)

Endorsement

Review

Supplemented By

Referenced By

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). Unless the document is published under a Creative Commons licence, it may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.