Towards efficient and effective preference alignment for large language models
Thèse ou mémoire / Thesis or Dissertation
Date de publication
Autrices et auteurs
Identifiant ORCID de l’auteur
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Maîtrise / Master's
Programme
Affiliation
Mots-clés
- Grands modèles de langage
- Formation d'alignement
- Fusion de modèles
- Large Language Models
- Alignment Training
- Model Merging
Organisme subventionnaire
Résumé
Résumé
Les grands modèles linguistiques (LLM) sont devenus omniprésents en tant qu'assistants quotidiens des humains, utilisés pour la compréhension des connaissances, la programmation, la traduction et l'écriture créative. Les LLM sont pré-entraînés sur des quantités massives de textes disponibles sur le web ouvert, généralement de l'ordre de trillions de tokens, et sont ensuite instruction-tuned, c'est-à-dire formés dans des contextes supervisés sur des données de réponse à des instructions. Toutefois, ces étapes n'enseignent pas au modèle les « préférences » humaines, en lui fournissant des caractéristiques telles que l'honnêteté, l'innocuité et la sécurité. Des méthodes telles que l'apprentissage par renforcement à partir du feedback humain (RLHF) visent à affiner les LLM sur des données spécifiquement annotées pour prendre en compte ces préférences avec des objectifs spécialisés. Des modèles spécifiques à une tâche, à un domaine, à une langue et à une culture étant en cours d'élaboration en vue d'une utilisation généralisée, il est essentiel de les rendre sûrs et inoffensifs en les alignant sur les préférences humaines avant leur adoption. Cependant, la manière la plus efficace de procéder à l'apprentissage de l'alignement des modèles n'est pas claire, compte tenu du grand nombre de méthodes, d'ensembles de données et de modèles pré-entraînés disponibles. En outre, l'ajustement complet des LLM pour l'alignement est souvent coûteux et exigeant en termes de ressources. Par conséquent, l'élaboration de méthodes d'entraînement efficaces qui peuvent conduire à des performances comparables en termes d'alignement sur les préférences humaines est une question de recherche ouverte. Motivés par cela, nous effectuons une plongée profonde dans l'analyse de l'effet de divers facteurs cruciaux en termes de jeu de données, de modèle et de méthode d'apprentissage sur la performance d'alignement en aval des LLMs lorsqu'ils sont entraînés dans des paramètres efficaces. Nous évaluons de nombreux modèles largement utilisés entraînés avec des méthodes d'alignement couramment utilisées sur des ensembles de données de référence et fournissons des recettes pour aligner les LLM de manière efficace et efficiente. Nous présentons ensuite la fusion de modèles comme une alternative intéressante à l'entraînement à l'alignement, en montrant son potentiel pour rendre les modèles experts plus sûrs avec une perte minimale de leur utilité dans le domaine. Grâce à nos travaux, nous espérons motiver les chercheurs du monde universitaire et de l'industrie à intégrer l'alignement des préférences d'une manière efficace et efficiente afin de garantir que les modèles sont sûrs et inoffensifs pour une utilisation généralisée.
Large Language Models (LLMs) have become ubiquitous as everyday assistants for humans, being used for knowledge comprehension, programming, translation, and creative writing. LLMs are pre-trained on massive amounts of text available on the open web, generally in the order of trillions of tokens, and are then instruction-tuned, i.e., trained in supervised settings on instruction-response data. However, these steps do not teach the model human `preferences', providing it characteristics such as honesty, harmlessness, and safety. Methods such as reinforcement learning from human feedback (RLHF) are aimed to fine-tune LLMs on data specifically annotated to take these preferences into account with specialized objectives. With task-specific, domain-specific, language-specific, and culture-specific models being developed for widespread use, making them safe and harmless with alignment to human preferences is of critical importance before their adoption. However, it is unclear how to perform alignment training of models in the most effective manner given the vast number of methods, datasets, and pre-trained models available. Furthermore, full fine-tuning of LLMs for alignment is often expensive and resource intensive. Hence, coming up with efficient training methods that can lead to comparable performance in terms of aligning to human preferences is an open-research question. Motivated by this, we perform a deep dive into analyzing the effect of various crucial factors in terms of the dataset, the model, and the training method on downstream alignment performance of LLMs when trained in parameter-efficient settings. We evaluate numerous widely-used models trained with commonly used alignment methods on benchmark datasets and provide recipes for effectively and efficiently aligning LLMs. We follow-up with presenting model merging as an interesting alternative to alignment training, showing its potential in making domain-expert models safer with minimal loss in their domain utility. Through our works, we hope to motivate researchers across academia and industry to integrate preference alignment in an efficient and effective manner to ensure models are safe and harmless for widespread use.
Large Language Models (LLMs) have become ubiquitous as everyday assistants for humans, being used for knowledge comprehension, programming, translation, and creative writing. LLMs are pre-trained on massive amounts of text available on the open web, generally in the order of trillions of tokens, and are then instruction-tuned, i.e., trained in supervised settings on instruction-response data. However, these steps do not teach the model human `preferences', providing it characteristics such as honesty, harmlessness, and safety. Methods such as reinforcement learning from human feedback (RLHF) are aimed to fine-tune LLMs on data specifically annotated to take these preferences into account with specialized objectives. With task-specific, domain-specific, language-specific, and culture-specific models being developed for widespread use, making them safe and harmless with alignment to human preferences is of critical importance before their adoption. However, it is unclear how to perform alignment training of models in the most effective manner given the vast number of methods, datasets, and pre-trained models available. Furthermore, full fine-tuning of LLMs for alignment is often expensive and resource intensive. Hence, coming up with efficient training methods that can lead to comparable performance in terms of aligning to human preferences is an open-research question. Motivated by this, we perform a deep dive into analyzing the effect of various crucial factors in terms of the dataset, the model, and the training method on downstream alignment performance of LLMs when trained in parameter-efficient settings. We evaluate numerous widely-used models trained with commonly used alignment methods on benchmark datasets and provide recipes for effectively and efficiently aligning LLMs. We follow-up with presenting model merging as an interesting alternative to alignment training, showing its potential in making domain-expert models safer with minimal loss in their domain utility. Through our works, we hope to motivate researchers across academia and industry to integrate preference alignment in an efficient and effective manner to ensure models are safe and harmless for widespread use.
Table des matières
Notes
Notes
Autre version linguistique
Ensemble de données lié
Licence
Approbation
Évaluation
Complété par
Référencé par
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.