Évaluation de la compétence lexicale des modèles de langues
Date
Authors
Contributor(s)
Advisor(s)
Published in
Conference Date
Conference Place
Publisher
Degree Level
Discipline
Affiliation
Keywords
- Grands modèles de langues
- Lexicologie
- Fonctions lexicales
- Large language models
- Lexicology
- Lexical functions
Funding organization(s)
Abstract
Les grands modèles de langues (LLM) manifestent une aisance remarquable dans l'usage du langage, mais l'ampleur et la profondeur de leurs connaissances linguistiques ne sont pas encore clairement délimitées. Dans ce mémoire, nous proposons un nouveau banc d'essai pour évaluer la compétence lexicale des LLM, en nous appuyant sur les fonctions lexicales (FL), un système dans le cadre de la théorie Sens-Texte (TST) qui modélise formellement la structure du lexique à travers des relations lexicales paradigmatiques et syntagmatiques. Nous établissons une classification hiérarchique en regroupant des FL spécifiques en catégories plus générales et plus abstraites, afin d'examiner la capacité des modèles à distinguer des relations de spécificité variable. Dans le cadre expérimental, nous sélectionnons 82 FL (ou classes de FL) issues de cette hiérarchie, pour chacune desquelles nous construisons une tâche contrastive composée de 20 requêtes adressées aux LLM. Chaque requête, construite à partir des données des FL extraites du Réseau lexicale du français (RL-fr), comprend: (i) une description textuelle de la FL ciblée, (ii) quelques exemples positifs (issus de la FL ciblée) et négatifs (issus de FL contrastives voisines), et (iii) une question polaire (Oui/Non) portant sur un nouvel exemple. Le modèle doit déterminer si ce nouvel exemple instancie ou non la FL ciblée en se fondant sur les deux premiers éléments de la requête. Les résultats expérimentaux montrent que les tâches proposées constituent un défi notable pour les LLM. À travers les différentes FL, la performance varie significativement parmi les FL ciblées et décline systématiquement lorsque la finesse des distinctions s'accroît. Les modèles parviennent relativement bien à maîtriser les relations lexicales correspondant à des distinctions de partie du discours (PdD), mais rencontrent davantage de difficultés lorsqu'il s'agit de relations plus profondes, en particulier celles impliquant la structure actancielle. En outre, les réponses des modèles semblent en partie influencées par la similarité morphologique entre les paires de lexies, surtout lorsque ces indices sont renforcés par les exemples dans la requête.
Large language models (LLMs) exhibit impressive fluency in language use, yet their underlying linguistic ability is not clearly circumscribed. In this study, we propose a new benchmark to assess LLMs' lexical competence, grounded in the system of Lexical Functions (LFs)---a framework within Meaning–Text Theory (MTT) that formally models the structure of the lexicon through paradigmatic and syntagmatic lexical relations. We construct a hierarchical classification of LFs by organizing specific functions into broader and more abstract categories, enabling a fine-grained evaluation of LLMs' ability to distinguish among lexical relations of variable specificity. Our experimental framework targets 82 LFs (or LF classes) drawn from this hierarchy. For each LF target, we design a contrastive task consisting of 20 prompts presented to the models. Each prompt, built on LF instances from the dataset called French Lexical Network (LN-fr), includes: (i) a textual definition of the target LF, (ii) a few positive examples (from the target LF) and negative examples (from contrastive sibling LFs), and (iii) a binary (Yes/No) question on a new example. LLMs are asked to determine whether the new pair of words instantiates the target LF, given the prior definition and examples. Experimental results show that the proposed tasks pose a substantial challenge to LLMs. Across different target LFs, model performance varies considerably and systematically declines as the distinctions become more fine-grained. The models handle lexical relations involving part-of-speech distinctions reasonably well, but struggle with deeper LFs, particularly those involving actantial structure. Moreover, model responses appear to be partly driven by morphological similarity between word pairs, especially when such cues are amplified by the prompt design.