Évaluation de modèles de langues structurés à l'aide de données artificielles
Date de publication
Autrices et auteurs
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Programme
Affiliation
Mots-clés
- traitement automatique du langage
- génération automatique de textes
- modèles de langue
- apprentissage profond non-supervisé
- Natural Language Processing
- Automatic Text Generation
- Language Models
- Unsupervised Learning
Organisme subventionnaire
Résumé
Ce mémoire explore les avancées récentes dans le domaine de l'apprentissage profond appliqué au traitement automatique du langage, en mettant l'accent sur l'analyse de modèles non supervisés intégrant des structures latentes. Le travail se concentre sur deux modèles spécifiques : la grammaire de réseau neuronal récurrent non supervisée (URNNG) et la grammaire composée hors-contexte probabiliste (C-PCFG). Le mémoire s'ouvre sur une problématique centrale : bien que les modèles d'apprentissage profond aient démontré des performances exceptionnelles, les mécanismes internes qui sous-tendent ces résultats restent en grande partie inaccessibles, comme une boîte noire. Pour y remédier, on se penche sur les modèles de langues structurés avec des structures latentes, qui offrent une interprétabilité linguistique des résultats produits par ces modèles. Deux axes principaux sont donc développés. Le premier concerne la génération automatique de données textuelles via des grammaires hors-contexte probabilistes, conçues pour générer un corpus d'un grand nombre de phrases avec des structures grammaticales complexes, annoté avec des arbres syntaxiques binaires. Le second axe porte sur l'évaluation et la comparaison des modèles d'URNNG et de C-PCFG. L'objectif est de vérifier si ces modèles non supervisés parviennent à reconstruire correctement les structures syntaxiques à partir de phrases non annotées, et si l'augmentation de la taille de données d'entraînement améliore leur performance. Les résultats montrent que les deux modèles réussissent dans une certaine mesure à capturer des structures syntaxiques complexes. Cependant, en augmentant progressivement les données d'entraînement jusqu'à un maximum de 800k, l'effet d'échelle ne se trouve que dans l'URNNG et reste limité aux données assez petites (jusqu'à 25k). En outre, on a remarqué que l'URNNG semble préférer l'embranchement à droite, et que seule la C-PCFG peut prédire les arbres de l'embranchement à gauche. Le mémoire conclut par une réflexion sur les similarités et sur les différences entre l'apprentissage machine et l'acquisition du langage chez les enfants. En résumé, cette recherche apporte une contribution à la compréhension des modèles de langues structurés, l'URNNG et la C-PCFG, sur leur sensibilité à la taille de données d'entraînement, et sur leur tendance à l'embranchement.
This master thesis explores recent advances in the field of deep learning applied to natural language processing, focusing on the analysis of unsupervised models incorporating latent structures. The work focuses on two specific models : Unsupervised Recurrent Neural Network Grammars (URNNG) and Compound Probabilistic Context-Free Grammars (C-PCFG). This research opens with a central problem : although deep learning models have demonstrated exceptional performance, the internal mechanisms underlying these results remain largely inaccessible, like a black box. To remedy this, we look at structured language models with latent structures, which offer linguistic interpretability of the results produced by these models. Two main axes are being developed. The first concerns the automatic text generation via probabilistic context-free grammars, designed to generate a corpus of large numbers of sentences with complex grammatical structures, annotated with binary syntactic trees. The second axis concerns the evaluation and comparison of the URNNG and C-PCFG models. The aim is to verify whether these unsupervised models succeed in correctly reconstructing syntactic structures from unannotated corpus, and whether increasing the size of training data improves their performance. The results show that both models succeed to some extent in capturing complex syntactic structures. However, the scale effect on training data size is only found in URNNG, and the effect was limited to up to medium-sized data (25k). Furthermore, it was noted that URNNG seems to prefer right branching, and that only C-PCFG could predict left branching trees. This master thesis concludes with a reflection on the similarities and the difference between language learning by machine and language acquisition by children. In summary, this research makes a contribution to the understanding of the structured language models, URNNG and C-PCFG, on their sensitivity to training data size, and on their branching tendency.