Towards efficient large language models : training low-bitwidth variants and low-rank decomposition of pretrained models

UdeM.ORCIDAuteurThese0009-0005-2690-9903
dc.contributor.advisorRish, Irina
dc.contributor.authorVaidhya, Tejas
dc.date.accessioned2025-02-20T20:48:00Z
dc.date.availableNO_RESTRICTION
dc.date.available2025-02-20T20:48:00Z
dc.date.issued2024-12
dc.description.abstractAu cours de la dernière décennie, les progrès de l’intelligence artificielle (IA) ont été largement motivés par l’apprentissage profond et la mise à l’échelle des architectures de réseaux neuronaux. Si l’augmentation de l’échelle des modèles (à la fois en termes de nombre de paramètres et de taille des ensembles de données d’entraînement) a conduit à des améliorations significatives des capacités de l’IA, elle a également introduit des défis, notamment lors du déploiement de ces modèles dans des scénarios du monde réel. Cette thèse aborde ces défis en explorant des méthodes permettant de réduire la taille du modèle ou le nombre de paramètres sans perte de performances, réduisant ainsi les coûts de calcul et l’utilisation de la mémoire pendant le déploiement. La recherche étudie spécifiquement le pré-entraînement de modèles de langage à grande largeur de bit (LLM) extrêmement faible et la décomposition de bas rang des LLM pré-entraînés, démontrant des stratégies possibles pour préserver les niveaux de performances deces systèmes tout en réduisant considérablement les coûts de calcul et de mémoire pendant inférence. La première étude démontre la faisabilitéde former à partir dezéro des LLM ternaires qui atteignent la parité de performances avec les réseaux FP16 (float16) à des échelles dépassant 3 milliards de paramètres, offrant une alternative plus efficace en termes de taille de bits. La deuxième étude explore la décomposition efficace des LLM pré-entraînés en matrices de poids de bas rang, réduisant considérablement le nombre de paramètres pour le déploiement. Nos résultats révèlent que la stratégie ci-dessus pour compresser les modèles peut offrir des performances comparables, voire améliorées, tout en utilisant beaucoup moins de bits ou de paramètres lors de l’inférence. Cette recherche souligne le potentiel d’amélioration de l’efficacité du système d’IA, contribuant ainsi au développement de technologies d’IA plus abordables, accessibles et durables.
dc.description.abstractOver the past decade, advancements in artificial intelligence (AI) have largely been driven by deep learning and the scaling of neural network architectures. While increasing model scale—both in terms of parameter count and training dataset size—has led to significant improvements in AI capabilities, it has also introduced challenges, particularly in deploying these models in real-world scenarios. This thesis addresses these challenges by exploring methods to reduce model size or parameter count without losing performance, thereby lowering computational costs and memory usage during deployment. The research specifically investigates the pre-training of extremely low-bitwidth large language models (LLMs) and the low-rank decomposition of pre-trained LLMs, demonstrating possible strategies for preserving the performance levels of these systems while significantly reducing computational and memory cost during inference. The first study demonstrates the feasibility of training ternary LLMs from scratch that achieve performance parity with FP16 (float16) networks at scales exceeding 3 billion parameters, offering a more efficient alternative in terms of bit size. The second study explores the effective decomposition of pretrained LLMs into low-rank weight matrices, significantly reducing parameter count for deployment. Our findings reveal that the above strategy for compressing models can deliver comparable or even improved performance while utilizing substantially fewer bits or parameters during inference. This research underscores the potential for enhancing AI system efficiency, contributing to the development of more affordable, accessible, and sustainable AI technologies.
dc.identifier.urihttps://hdl.handle.net/1866/40691
dc.subjectApprentissage automatique
dc.subjectApprentissage profond
dc.subjectLois de mise à l’échelle
dc.subjectQuantification
dc.subjectPré-entraînement
dc.subjectQuantification post-entraînement
dc.subjectDécomposition de bas rang
dc.subjectRéseau binaire
dc.subjectRéseau ternaire
dc.subjectMachine learning
dc.subjectDeep learning
dc.subjectScaling laws
dc.subjectQuantisation
dc.subjectPretraining
dc.subjectPost training quantisation
dc.subjectLow rank decomposition
dc.subjectBinary network
dc.subjectTernary network
dc.titleTowards efficient large language models : training low-bitwidth variants and low-rank decomposition of pretrained models
dc.typeThèse ou mémoire / Thesis or Dissertation
dcterms.languageeng
etd.degree.disciplineInformatique
etd.degree.grantorUniversité de Montréal
etd.degree.levelMaîtrise / Master's
etd.degree.nameM. Sc.

Fichiers

Bundle original

Voici les éléments 1 - 1 sur 1
En cours de chargement...
Vignette d'image
Nom:
Tejas_Vaidhya_2024_Memoire.pdf
Taille:
6.23 MB
Format:
Adobe Portable Document Format
Description:
Mémoire

Bundle de license

Voici les éléments 1 - 1 sur 1
En cours de chargement...
Vignette d'image
Nom:
license.txt
Taille:
2.8 KB
Format:
Item-specific license agreed upon to submission
Description: