Towards efficient large language models : training low-bitwidth variants and low-rank decomposition of pretrained models
UdeM.ORCIDAuteurThese | 0009-0005-2690-9903 | |
dc.contributor.advisor | Rish, Irina | |
dc.contributor.author | Vaidhya, Tejas | |
dc.date.accessioned | 2025-02-20T20:48:00Z | |
dc.date.available | NO_RESTRICTION | |
dc.date.available | 2025-02-20T20:48:00Z | |
dc.date.issued | 2024-12 | |
dc.description.abstract | Au cours de la dernière décennie, les progrès de l’intelligence artificielle (IA) ont été largement motivés par l’apprentissage profond et la mise à l’échelle des architectures de réseaux neuronaux. Si l’augmentation de l’échelle des modèles (à la fois en termes de nombre de paramètres et de taille des ensembles de données d’entraînement) a conduit à des améliorations significatives des capacités de l’IA, elle a également introduit des défis, notamment lors du déploiement de ces modèles dans des scénarios du monde réel. Cette thèse aborde ces défis en explorant des méthodes permettant de réduire la taille du modèle ou le nombre de paramètres sans perte de performances, réduisant ainsi les coûts de calcul et l’utilisation de la mémoire pendant le déploiement. La recherche étudie spécifiquement le pré-entraînement de modèles de langage à grande largeur de bit (LLM) extrêmement faible et la décomposition de bas rang des LLM pré-entraînés, démontrant des stratégies possibles pour préserver les niveaux de performances deces systèmes tout en réduisant considérablement les coûts de calcul et de mémoire pendant inférence. La première étude démontre la faisabilitéde former à partir dezéro des LLM ternaires qui atteignent la parité de performances avec les réseaux FP16 (float16) à des échelles dépassant 3 milliards de paramètres, offrant une alternative plus efficace en termes de taille de bits. La deuxième étude explore la décomposition efficace des LLM pré-entraînés en matrices de poids de bas rang, réduisant considérablement le nombre de paramètres pour le déploiement. Nos résultats révèlent que la stratégie ci-dessus pour compresser les modèles peut offrir des performances comparables, voire améliorées, tout en utilisant beaucoup moins de bits ou de paramètres lors de l’inférence. Cette recherche souligne le potentiel d’amélioration de l’efficacité du système d’IA, contribuant ainsi au développement de technologies d’IA plus abordables, accessibles et durables. | |
dc.description.abstract | Over the past decade, advancements in artificial intelligence (AI) have largely been driven by deep learning and the scaling of neural network architectures. While increasing model scale—both in terms of parameter count and training dataset size—has led to significant improvements in AI capabilities, it has also introduced challenges, particularly in deploying these models in real-world scenarios. This thesis addresses these challenges by exploring methods to reduce model size or parameter count without losing performance, thereby lowering computational costs and memory usage during deployment. The research specifically investigates the pre-training of extremely low-bitwidth large language models (LLMs) and the low-rank decomposition of pre-trained LLMs, demonstrating possible strategies for preserving the performance levels of these systems while significantly reducing computational and memory cost during inference. The first study demonstrates the feasibility of training ternary LLMs from scratch that achieve performance parity with FP16 (float16) networks at scales exceeding 3 billion parameters, offering a more efficient alternative in terms of bit size. The second study explores the effective decomposition of pretrained LLMs into low-rank weight matrices, significantly reducing parameter count for deployment. Our findings reveal that the above strategy for compressing models can deliver comparable or even improved performance while utilizing substantially fewer bits or parameters during inference. This research underscores the potential for enhancing AI system efficiency, contributing to the development of more affordable, accessible, and sustainable AI technologies. | |
dc.identifier.uri | https://hdl.handle.net/1866/40691 | |
dc.subject | Apprentissage automatique | |
dc.subject | Apprentissage profond | |
dc.subject | Lois de mise à l’échelle | |
dc.subject | Quantification | |
dc.subject | Pré-entraînement | |
dc.subject | Quantification post-entraînement | |
dc.subject | Décomposition de bas rang | |
dc.subject | Réseau binaire | |
dc.subject | Réseau ternaire | |
dc.subject | Machine learning | |
dc.subject | Deep learning | |
dc.subject | Scaling laws | |
dc.subject | Quantisation | |
dc.subject | Pretraining | |
dc.subject | Post training quantisation | |
dc.subject | Low rank decomposition | |
dc.subject | Binary network | |
dc.subject | Ternary network | |
dc.title | Towards efficient large language models : training low-bitwidth variants and low-rank decomposition of pretrained models | |
dc.type | Thèse ou mémoire / Thesis or Dissertation | |
dcterms.language | eng | |
etd.degree.discipline | Informatique | |
etd.degree.grantor | Université de Montréal | |
etd.degree.level | Maîtrise / Master's | |
etd.degree.name | M. Sc. |
Fichiers
Bundle original
1 - 1 sur 1
En cours de chargement...
- Nom:
- Tejas_Vaidhya_2024_Memoire.pdf
- Taille:
- 6.23 MB
- Format:
- Adobe Portable Document Format
- Description:
- Mémoire
Bundle de license
1 - 1 sur 1
En cours de chargement...
- Nom:
- license.txt
- Taille:
- 2.8 KB
- Format:
- Item-specific license agreed upon to submission
- Description: