Towards efficient large language models : training low-bitwidth variants and low-rank decomposition of pretrained models


Thèse ou mémoire / Thesis or Dissertation

Date de publication

Autrices et auteurs

Identifiant ORCID de l’auteur

Contributrices et contributeurs

Direction de recherche

Publié dans

Date de la Conférence

Lieu de la Conférence

Éditeur

Cycle d'études

Maîtrise / Master's

Programme

Affiliation

Mots-clés

  • Apprentissage automatique
  • Apprentissage profond
  • Deep learning
  • Scaling laws
  • Quantisation
  • Pretraining
  • Post training quantisation
  • Low rank decomposition
  • Binary network
  • Ternary network
  • Lois de mise à l’échelle
  • Quantification
  • Pré-entraînement
  • Quantification post-entraînement
  • Décomposition de bas rang
  • Réseau binaire
  • Réseau ternaire
  • Machine learning

Organisme subventionnaire

Résumé

Résumé

Au cours de la dernière décennie, les progrès de l’intelligence artificielle (IA) ont été largement motivés par l’apprentissage profond et la mise à l’échelle des architectures de réseaux neuronaux. Si l’augmentation de l’échelle des modèles (à la fois en termes de nombre de paramètres et de taille des ensembles de données d’entraînement) a conduit à des améliorations significatives des capacités de l’IA, elle a également introduit des défis, notamment lors du déploiement de ces modèles dans des scénarios du monde réel. Cette thèse aborde ces défis en explorant des méthodes permettant de réduire la taille du modèle ou le nombre de paramètres sans perte de performances, réduisant ainsi les coûts de calcul et l’utilisation de la mémoire pendant le déploiement. La recherche étudie spécifiquement le pré-entraînement de modèles de langage à grande largeur de bit (LLM) extrêmement faible et la décomposition de bas rang des LLM pré-entraînés, démontrant des stratégies possibles pour préserver les niveaux de performances deces systèmes tout en réduisant considérablement les coûts de calcul et de mémoire pendant inférence. La première étude démontre la faisabilitéde former à partir dezéro des LLM ternaires qui atteignent la parité de performances avec les réseaux FP16 (float16) à des échelles dépassant 3 milliards de paramètres, offrant une alternative plus efficace en termes de taille de bits. La deuxième étude explore la décomposition efficace des LLM pré-entraînés en matrices de poids de bas rang, réduisant considérablement le nombre de paramètres pour le déploiement. Nos résultats révèlent que la stratégie ci-dessus pour compresser les modèles peut offrir des performances comparables, voire améliorées, tout en utilisant beaucoup moins de bits ou de paramètres lors de l’inférence. Cette recherche souligne le potentiel d’amélioration de l’efficacité du système d’IA, contribuant ainsi au développement de technologies d’IA plus abordables, accessibles et durables.
Over the past decade, advancements in artificial intelligence (AI) have largely been driven by deep learning and the scaling of neural network architectures. While increasing model scale—both in terms of parameter count and training dataset size—has led to significant improvements in AI capabilities, it has also introduced challenges, particularly in deploying these models in real-world scenarios. This thesis addresses these challenges by exploring methods to reduce model size or parameter count without losing performance, thereby lowering computational costs and memory usage during deployment. The research specifically investigates the pre-training of extremely low-bitwidth large language models (LLMs) and the low-rank decomposition of pre-trained LLMs, demonstrating possible strategies for preserving the performance levels of these systems while significantly reducing computational and memory cost during inference. The first study demonstrates the feasibility of training ternary LLMs from scratch that achieve performance parity with FP16 (float16) networks at scales exceeding 3 billion parameters, offering a more efficient alternative in terms of bit size. The second study explores the effective decomposition of pretrained LLMs into low-rank weight matrices, significantly reducing parameter count for deployment. Our findings reveal that the above strategy for compressing models can deliver comparable or even improved performance while utilizing substantially fewer bits or parameters during inference. This research underscores the potential for enhancing AI system efficiency, contributing to the development of more affordable, accessible, and sustainable AI technologies.

Table des matières

Notes

Notes

Autre version linguistique

Ensemble de données lié

Licence

Approbation

Évaluation

Complété par

Référencé par

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.