Improving language models for underserved languages and communities
Date
Authors
ORCID
0000-0002-3533-6829Contributor(s)
Advisor(s)
Published in
Conference Date
Conference Place
Publisher
Degree Level
Discipline
Affiliation
Keywords
- modélisation du langage
- communautés mal desservies
- grammar books
- dictionaries
- concept definitions
- langues mal desservies
- NaijaVoices
- grammaires
- dictionnaires
- définitions conceptuelles
- language modelling
- underserved communities
- underserved languages
Funding organization(s)
Abstract
Les technologies d’intelligence artificielle (IA), principalement propulsées par les grands modèles de langage (large language models, LLMs, ou simplement modèles de langage), connaissent une progression rapide et deviennent de plus en plus capables d’accomplir un large éventail de tâches. Elles peuvent écrire du code informatique, rédiger des courriels et des contrats professionnels, créer des vidéos entières, commander un taxi, et même conduire des véhicules. Ces systèmes comprennent et communiquent avec les humains par le biais du langage; par conséquent, leurs performances sont intrinsèquement limitées par les langues qu’ils sont capables de comprendre. Malgré l’existence de plus de 7,000 langues parlées par environ 8 milliards de personnes à travers le monde, les LLMs affichent aujourd’hui des performances robustes dans un nombre restreint de langues à forte dotation en ressources, telles que l’anglais. Cette asymétrie engendre des inégalités majeures : les locuteurs des langues privilégiées bénéficient de manière disproportionnée de ces technologies, tandis que la grande majorité des communautés qui ne parlent pas ces langues — que nous qualifions de communautés mal desservies (underserved communities) — en sont exclues. Si cette situation n’est pas corrigée, elle risque de marginaliser de vastes populations mondiales vis-à-vis du progrès technologique et de rendre leurs langues obsolètes dans l’espace numérique, menaçant ainsi l’extinction tant des langues que des cultures qui y sont associées. Ce mémoire s’inscrit dans une démarche visant à assurer une représentation aussi large que possible des populations, de leurs langues et de leurs cultures au sein des technologies du langage. Cela implique d’adapter des modèles de langage toujours plus avancés aux langues et aux communautés mal desservies. Pour atteindre cet objectif, nous analysons les défis liés à l’adaptation des modèles de langage à ces communautés selon deux perspectives complémentaires et proposons des solutions innovantes pour y répondre. Les données constituent le socle fondamental des modèles de langage : leur disponibilité — ou leur insuffisance — au sein d’une communauté linguistique donnée influence directement l’efficacité — ou, au contraire, la dégradation — des performances du modèle. Pour de nombreuses communautés mal desservies, les performances limitées des modèles de langage sont en grande partie dues à l’inefficacité des cadres traditionnels de collecte de données, qui peinent à produire des ensembles de données de grande taille, représentatifs et de haute qualité. Dans le premier chapitre de ce mémoire, nous examinons les défis socio-techniques liés à la mise à l’échelle de la collecte de données au sein des communautés mal desservies du Sud global, et nous proposons le cadre de data farming, une approche visant à déployer efficacement la collecte de données culturelles de haute qualité dans ces communautés linguistiques. Nous démontrons l’efficacité de cette approche en l’utilisant pour créer le jeu de données NaijaVoices, le plus vaste corpus vocal africain à ce jour, comprenant 1,800 heures de parole provenant de 5,000 personnes issues de trois communautés linguistiques africaines. Toutefois, la constitution de grands ensembles de données n’est pas envisageable pour toutes les langues du monde. Pour certaines langues, notamment les langues autochtones ou celles menacées de disparition, les héritages de la colonisation, l’érosion culturelle et la diminution de l’usage linguistique liée à l’urbanisation rendent impossible la collecte de données à l’échelle requise par les méthodes conventionnelles d’entraînement des modèles de langage. Néanmoins, le développement de technologies linguistiques robustes demeure essentiel pour ces langues, en particulier dans une optique de préservation linguistique. Dans le second chapitre, en prenant la traduction automatique comme étude de cas, nous analysons les approches traditionnelles de ce domaine, en mettant l’accent sur leurs limites pour les langues mal desservies. Nous introduisons ensuite GrammarLLM, une approche alternative pour la traduction automatique des langues en danger ou à très faibles ressources : cette méthode s’affranchit de la dépendance à de vastes ensembles de données et exploite plutôt les ressources linguistiques intrinsèques d’une langue, à savoir sa grammaire et ses dictionnaires. Nous démontrons la faisabilité de GrammarLLM en traduisant de l’anglais vers trois langues cibles: le dagaare, l’igbo et le turc. À travers ce mémoire, nous contribuons à l’amélioration des modèles de langage pour les langues et les communautés mal desservies, tant au niveau des configurations de données que des architectures de modèles, et œuvrons à garantir que chaque communauté, indépendamment de la langue qu’elle parle, puisse accéder aux technologies du langage et en tirer bénéfice à l’échelle mondiale.
AI technologies, mostly powered by large language models (a.k.a LLMs or simply language models) are advancing rapidly and becoming increasingly capable at performing a wide range of tasks. They can write software code, draft professional emails and contracts, create entire videos, order a taxi for us, and even drive us. These systems understand and communicate with us through language. Therefore, their performance is constrained by the languages they can understand. Despite the existence of over 7,000 languages spoken by approximately 8 billion people, LLMs currently exhibit robust performance in only a limited subset of high-resource languages like English. This asymmetry produces significant inequities: speakers of privileged languages disproportionately benefit from these technologies, while the vast majority of communities that don't speak these languages – what we term “underserved communities” – are left behind. If not addressed, this disparity risks marginalizing vast global populations from technological advancement and rendering their languages obsolete in the digital sphere, thereby threatening the extinction of both the languages and their associated cultures. Our thesis represents a journey towards ensuring that we represent as many people and their languages and cultures as possible in language technologies. This entails adapting increasingly advanced language models to underserved languages and communities. To achieve our goal, we examine the challenges surrounding adapting language models to underserved communities from two lenses and propose innovative solutions that address them. Data is the backbone of language models, as its availability (or inadequacy) in any given language community influences the efficacy (or detriment) of the model's performance. For many underserved communities, the subpar performance of language models is largely due to the ineffectiveness of standard data-collection frameworks in generating high-quality, large, representative datasets from these communities. In the first chapter of this thesis, we examine the socio-technical challenges of scaling data collection within underserved communities in the Global South, and propose `data farming', a framework for effectively scaling high-quality, cultural data collection in Global South language communities. We demonstrate the effectiveness of this approach by utilizing it to create the NaijaVoices dataset, the largest African speech dataset, comprising 1,800 hours of speech from 5,000 people across three African language communities. However, the creation of large data sets is not possible for all the world's languages. For some languages, such as Indigenous languages or those that are nearing endangerment, the legacies of colonization, cultural degradation, and declining language use due to urbanization make it impossible to curate data on the large scale required to train language models the conventional way. Notwithstanding, there remains a critical need to develop robust language technologies capable of serving these languages, especially for language preservation. In the second chapter, using machine translation as a case study, we examine its traditional approaches, with an emphasis on the challenges for underserved languages. Finally, we introduce GrammarLLM, a different approach to performing machine translation for endangered and very low-resource languages: our method eschews reliance on the availability of large datasets, instead leveraging the inherent linguistic resources of a language, namely its grammar and dictionaries. We demonstrate the feasibility of GrammarLLM by translating from English into three target languages -- Dagaare, Igbo, and Turkish languages. Through this thesis, we improve language models for underserved languages and communities from both the model and data configurations, and ensure that every community, regardless of the language they speak, can use and benefit from language technologies around the world.