Repository logo

Évaluation de la compétence lexicale des modèles de langues


Thèse ou mémoire / Thesis or Dissertation
Loading...
Thumbnail Image

Contributor(s)

Published in

Conference Date

Conference Place

Publisher

Degree Level

Maîtrise / Master's

Discipline

Affiliation

Keywords

  • Grands modèles de langues
  • Lexicologie
  • Fonctions lexicales
  • Large language models
  • Lexicology
  • Lexical functions

Funding organization(s)

Abstract

Les grands modèles de langues (LLM) manifestent une aisance remarquable dans l'usage du langage, mais l'ampleur et la profondeur de leurs connaissances linguistiques ne sont pas encore clairement délimitées. Dans ce mémoire, nous proposons un nouveau banc d'essai pour évaluer la compétence lexicale des LLM, en nous appuyant sur les fonctions lexicales (FL), un système dans le cadre de la théorie Sens-Texte (TST) qui modélise formellement la structure du lexique à travers des relations lexicales paradigmatiques et syntagmatiques. Nous établissons une classification hiérarchique en regroupant des FL spécifiques en catégories plus générales et plus abstraites, afin d'examiner la capacité des modèles à distinguer des relations de spécificité variable. Dans le cadre expérimental, nous sélectionnons 82 FL (ou classes de FL) issues de cette hiérarchie, pour chacune desquelles nous construisons une tâche contrastive composée de 20 requêtes adressées aux LLM. Chaque requête, construite à partir des données des FL extraites du Réseau lexicale du français (RL-fr), comprend: (i) une description textuelle de la FL ciblée, (ii) quelques exemples positifs (issus de la FL ciblée) et négatifs (issus de FL contrastives voisines), et (iii) une question polaire (Oui/Non) portant sur un nouvel exemple. Le modèle doit déterminer si ce nouvel exemple instancie ou non la FL ciblée en se fondant sur les deux premiers éléments de la requête. Les résultats expérimentaux montrent que les tâches proposées constituent un défi notable pour les LLM. À travers les différentes FL, la performance varie significativement parmi les FL ciblées et décline systématiquement lorsque la finesse des distinctions s'accroît. Les modèles parviennent relativement bien à maîtriser les relations lexicales correspondant à des distinctions de partie du discours (PdD), mais rencontrent davantage de difficultés lorsqu'il s'agit de relations plus profondes, en particulier celles impliquant la structure actancielle. En outre, les réponses des modèles semblent en partie influencées par la similarité morphologique entre les paires de lexies, surtout lorsque ces indices sont renforcés par les exemples dans la requête.


Large language models (LLMs) exhibit impressive fluency in language use, yet their underlying linguistic ability is not clearly circumscribed. In this study, we propose a new benchmark to assess LLMs' lexical competence, grounded in the system of Lexical Functions (LFs)---a framework within Meaning–Text Theory (MTT) that formally models the structure of the lexicon through paradigmatic and syntagmatic lexical relations. We construct a hierarchical classification of LFs by organizing specific functions into broader and more abstract categories, enabling a fine-grained evaluation of LLMs' ability to distinguish among lexical relations of variable specificity. Our experimental framework targets 82 LFs (or LF classes) drawn from this hierarchy. For each LF target, we design a contrastive task consisting of 20 prompts presented to the models. Each prompt, built on LF instances from the dataset called French Lexical Network (LN-fr), includes: (i) a textual definition of the target LF, (ii) a few positive examples (from the target LF) and negative examples (from contrastive sibling LFs), and (iii) a binary (Yes/No) question on a new example. LLMs are asked to determine whether the new pair of words instantiates the target LF, given the prior definition and examples. Experimental results show that the proposed tasks pose a substantial challenge to LLMs. Across different target LFs, model performance varies considerably and systematically declines as the distinctions become more fine-grained. The models handle lexical relations involving part-of-speech distinctions reasonably well, but struggle with deeper LFs, particularly those involving actantial structure. Moreover, model responses appear to be partly driven by morphological similarity between word pairs, especially when such cues are amplified by the prompt design.

Table of contents

Notes

Notes

Other language versions

Related research dataset(s)

Endorsement

Review

Supplemented By

Referenced By

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). Unless the document is published under a Creative Commons licence, it may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.