Robust, efficient, and knowledge-augmented text generation with pre-trained language models


Thèse ou mémoire / Thesis or Dissertation
En cours de chargement...
Vignette d'image

Date de publication

Autrices et auteurs

Contributrices et contributeurs

Direction de recherche

Publié dans

Date de la Conférence

Lieu de la Conférence

Éditeur

Cycle d'études

Doctorat / Doctoral

Programme

Affiliation

Mots-clés

  • Text generation
  • Pre-trained language models
  • Efficient NLP
  • Knowledge augmentation
  • Model evaluation
  • Génération de texte
  • Modèles de langage pré-entraînés
  • TAL efficace
  • Augmentation des connaissances
  • Évaluation de modèles

Organisme subventionnaire

Résumé

Les modèles de langage pré-entraînés (PLM) ont considérablement fait progresser le domaine de la génération de texte. Cependant, leur application pratique est souvent entravée par des défis liés à l'évaluation systématique des capacités, aux coûts de calcul élevés pour l'entraînement et l'inférence, et aux limitations imposées par des connaissances internes statiques et obsolètes. Cette thèse aborde ces défis critiques pour rendre la génération de texte basée sur les PLM plus robuste, efficace et fiable. Premièrement, nous développons ElitePLM, un cadre d'évaluation complet qui évalue systématiquement les capacités langagières générales (mémoire, compréhension, raisonnement et composition) de divers PLM. Ce cadre fournit non seulement une compréhension plus approfondie de leurs forces et faiblesses, mais met également en évidence les limitations spécifiques qui motivent nos recherches ultérieures. Deuxièmement, pour répondre au coût élevé de l'entraînement, nous proposons PTG (Prompt Transfer for Text Generation), une approche efficace en paramètres. PTG exploite l'apprentissage par transfert basé sur les invites (prompts), en utilisant un réseau de mémoire multi-clés et un mécanisme d'attention adaptatif pour transférer efficacement les connaissances des tâches sources vers de nouvelles tâches de génération avec des mises à jour minimales des paramètres. Troisièmement, pour pallier l'inefficacité de l'inférence, nous introduisons ELMER, un modèle non autorégressif. ELMER intègre une stratégie de sortie anticipée avec un nouvel objectif de pré-entraînement de Modélisation du Langage par Permutation de Couches (LPLM), accélérant considérablement la génération tout en maintenant des performances compétitives grâce à une modélisation efficace des dépendances entre tokens. Quatrièmement, pour surmonter les contraintes des connaissances internes des PLM, nous présentons UniWeb, un cadre qui augmente les PLM avec des connaissances dynamiques et complètes récupérées sur le Web en ligne. UniWeb emploie une récupération active assistée par moteur de recherche basée sur la confiance du modèle et une tâche d'apprentissage continu des connaissances pour intégrer efficacement les nouvelles informations. Collectivement, les méthodologies et les cadres développés dans cette thèse contribuent à une évaluation plus approfondie des PLM et offrent des solutions novatrices pour leur entraînement efficace, leur inférence rapide et leur meilleure ancrage factuel. Ces avancées visent à rendre les technologies sophistiquées de génération de texte plus accessibles, évolutives et dignes de confiance pour un large éventail d'applications.


Pre-trained Language Models (PLMs) have significantly advanced the field of text generation. However, their practical application is often hindered by challenges related to systematic capability evaluation, high computational costs for training and inference, and limitations imposed by static and outdated internal knowledge. This thesis addresses these critical challenges to make PLM-based text generation more robust, efficient, and reliable. First, we develop ElitePLM, a comprehensive evaluation framework that systematically assesses the general language abilities (memory, comprehension, reasoning, and composition) of various PLMs. This framework not only provides a deeper understanding of their strengths and weaknesses but also highlights the specific limitations that motivate our subsequent research. Second, to address the high cost of training, we propose PTG (Prompt Transfer for Text Generation), a parameter-efficient approach. PTG leverages prompt-based transfer learning, employing a multi-key memory network and an adaptive attention mechanism to effectively transfer knowledge from source tasks to new generation tasks with minimal parameter updates. Third, to tackle inference inefficiency, we introduce ELMER, a non-autoregressive model. ELMER integrates an early exit strategy with a novel Layer Permutation Language Modeling (LPLM) pre-training objective, significantly speeding up generation while maintaining competitive performance by effectively modeling token dependencies. Fourth, to overcome the constraints of PLMs' internal knowledge, we present UniWeb, a framework that augments PLMs with dynamic and comprehensive knowledge retrieved from the online Web. UniWeb employs search engine-assisted active retrieval based on model confidence and a continual knowledge learning task to integrate new information effectively. Collectively, the methodologies and frameworks developed in this thesis contribute to a more thorough evaluation of PLMs and offer novel solutions for their efficient training, rapid inference, and enhanced factual grounding. These advancements aim to make sophisticated text generation technologies more accessible, scalable, and trustworthy for a wide range of applications.

Table des matières

Notes

Notes

Autre version linguistique

Ensemble de données lié

Approbation

Évaluation

Complété par

Référencé par

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.