Repository logo

Towards efficient and effective preference alignment for large language models


Thèse ou mémoire / Thesis or Dissertation
Loading...
Thumbnail Image

Contributor(s)

Published in

Conference Date

Conference Place

Publisher

Degree Level

Maîtrise / Master's

Discipline

Affiliation

Keywords

  • Grands modèles de langage
  • Formation d'alignement
  • Fusion de modèles
  • Large Language Models
  • Alignment Training
  • Model Merging

Funding organization(s)

Abstract

Les grands modèles linguistiques (LLM) sont devenus omniprésents en tant qu'assistants quotidiens des humains, utilisés pour la compréhension des connaissances, la programmation, la traduction et l'écriture créative. Les LLM sont pré-entraînés sur des quantités massives de textes disponibles sur le web ouvert, généralement de l'ordre de trillions de tokens, et sont ensuite instruction-tuned, c'est-à-dire formés dans des contextes supervisés sur des données de réponse à des instructions. Toutefois, ces étapes n'enseignent pas au modèle les « préférences » humaines, en lui fournissant des caractéristiques telles que l'honnêteté, l'innocuité et la sécurité. Des méthodes telles que l'apprentissage par renforcement à partir du feedback humain (RLHF) visent à affiner les LLM sur des données spécifiquement annotées pour prendre en compte ces préférences avec des objectifs spécialisés. Des modèles spécifiques à une tâche, à un domaine, à une langue et à une culture étant en cours d'élaboration en vue d'une utilisation généralisée, il est essentiel de les rendre sûrs et inoffensifs en les alignant sur les préférences humaines avant leur adoption. Cependant, la manière la plus efficace de procéder à l'apprentissage de l'alignement des modèles n'est pas claire, compte tenu du grand nombre de méthodes, d'ensembles de données et de modèles pré-entraînés disponibles. En outre, l'ajustement complet des LLM pour l'alignement est souvent coûteux et exigeant en termes de ressources. Par conséquent, l'élaboration de méthodes d'entraînement efficaces qui peuvent conduire à des performances comparables en termes d'alignement sur les préférences humaines est une question de recherche ouverte. Motivés par cela, nous effectuons une plongée profonde dans l'analyse de l'effet de divers facteurs cruciaux en termes de jeu de données, de modèle et de méthode d'apprentissage sur la performance d'alignement en aval des LLMs lorsqu'ils sont entraînés dans des paramètres efficaces. Nous évaluons de nombreux modèles largement utilisés entraînés avec des méthodes d'alignement couramment utilisées sur des ensembles de données de référence et fournissons des recettes pour aligner les LLM de manière efficace et efficiente. Nous présentons ensuite la fusion de modèles comme une alternative intéressante à l'entraînement à l'alignement, en montrant son potentiel pour rendre les modèles experts plus sûrs avec une perte minimale de leur utilité dans le domaine. Grâce à nos travaux, nous espérons motiver les chercheurs du monde universitaire et de l'industrie à intégrer l'alignement des préférences d'une manière efficace et efficiente afin de garantir que les modèles sont sûrs et inoffensifs pour une utilisation généralisée.


Large Language Models (LLMs) have become ubiquitous as everyday assistants for humans, being used for knowledge comprehension, programming, translation, and creative writing. LLMs are pre-trained on massive amounts of text available on the open web, generally in the order of trillions of tokens, and are then instruction-tuned, i.e., trained in supervised settings on instruction-response data. However, these steps do not teach the model human `preferences', providing it characteristics such as honesty, harmlessness, and safety. Methods such as reinforcement learning from human feedback (RLHF) are aimed to fine-tune LLMs on data specifically annotated to take these preferences into account with specialized objectives. With task-specific, domain-specific, language-specific, and culture-specific models being developed for widespread use, making them safe and harmless with alignment to human preferences is of critical importance before their adoption. However, it is unclear how to perform alignment training of models in the most effective manner given the vast number of methods, datasets, and pre-trained models available. Furthermore, full fine-tuning of LLMs for alignment is often expensive and resource intensive. Hence, coming up with efficient training methods that can lead to comparable performance in terms of aligning to human preferences is an open-research question. Motivated by this, we perform a deep dive into analyzing the effect of various crucial factors in terms of the dataset, the model, and the training method on downstream alignment performance of LLMs when trained in parameter-efficient settings. We evaluate numerous widely-used models trained with commonly used alignment methods on benchmark datasets and provide recipes for effectively and efficiently aligning LLMs. We follow-up with presenting model merging as an interesting alternative to alignment training, showing its potential in making domain-expert models safer with minimal loss in their domain utility. Through our works, we hope to motivate researchers across academia and industry to integrate preference alignment in an efficient and effective manner to ensure models are safe and harmless for widespread use.

Table of contents

Notes

Notes

Other language versions

Related research dataset(s)

Endorsement

Review

Supplemented By

Referenced By

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). Unless the document is published under a Creative Commons licence, it may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.