Le dépôt institutionnel Papyrus sera indisponible pour quelques heures le mercredi 10 juin dès 20h, en raison d'une mise à jour logicielle. Merci de votre compréhension.
Repository logo

Empowering code review automation : a data-centric, multi-task-driven, and human-aware approach


Thèse ou mémoire / Thesis or Dissertation
Loading...
Thumbnail Image

Contributor(s)

Published in

Conference Date

Conference Place

Publisher

Degree Level

Doctorat / Doctoral

Discipline

Affiliation

Keywords

  • AI for SE
  • code review
  • revue de code
  • modèles de langage pré-entraînés
  • grands modèles de langage
  • apprentissage par renforcement
  • maintenance logicielle
  • qualité logicielle
  • psychologie du travail
  • fonctionnement psychologique optimal
  • pre-trained language models
  • large language models
  • reinforcement learning
  • software maintenance
  • software quality
  • organizational psychology
  • optimal psychological functioning
  • IA pour le génie logiciel

Funding organization(s)

Abstract

The integration of artificial intelligence (AI), and more recently large language models (LLMs), into software engineering has enabled new levels of automation in traditionally human-intensive tasks. Among these, code review stands out as a crucial yet laborious activity, essential for ensuring code quality, maintainability, and team collaboration. While early tools focused on rule-based detection of superficial issues, the emergence of LLMs has paved the way for generative approaches capable of producing human-like review feedback. However, the transition toward trustworthy, human-aligned, and end-to-end automated code review remains hindered by four critical challenges: the rigidity of rule-based analyzers, the isolated modeling of interdependent review tasks, the noise and inconsistency of available training data, and the limited scope of evaluation metrics that overlook psychological and human-centered dimensions. This thesis addresses these limitations through four key contributions. First, it introduces a multi-step learning framework that uses pretrained language models to identify the type and location of review issues, serving as a flexible and interpretable alternative to static analysis. Second, it proposes a unified framework that jointly models code review subtasks, namely comment generation, code refinement, and quality estimation, via cross-task knowledge distillation and reinforcement learning, aligning generation behavior with downstream task utility. Third, it presents a data curation strategy that leverages LLMs to assess, filter, and rephrase noisy review comments, resulting in higher-quality training data that improves model performance. Finally, it develops SEWELL-CARE, a novel evaluation framework that captures not only technical effectiveness but also human aspects (e.g., developer well-being, autonomy, and cognitive load) in AI-assisted settings. Together, these contributions offer a holistic approach to code review automation that balances general-purpose language understanding with domain-specific adaptability, addresses both technical and human concerns, and provides actionable pathways toward the design of intelligent, efficient, and developer-friendly code review assistants.


L’intégration de l’intelligence artificielle (IA), et plus récemment des grands modèles de langage (LLMs), dans le génie logiciel a ouvert de nouvelles perspectives d’automatisation pour des tâches historiquement manuelles, coûteuses en temps et en ressources. Parmi celles-ci, la revue de code se distingue comme une activité cruciale — essentielle pour garantir la qualité du code, sa maintenabilité et la collaboration au sein des équipes — mais aussi particulièrement laborieuse. Alors que les premiers outils de revue de code reposaient essentiellement sur des règles fixes pour détecter des problèmes superficiels, l’émergence des LLMs a rendu possible le développement d’approches génératives capables de produire des commentaires proches de ceux rédigés par des humains. Toutefois, la transition vers une revue de code automatisée de bout en bout, fiable et alignée sur les attentes humaines, reste freinée par quatre défis majeurs : la rigidité des analyseurs à base de règles, la modélisation isolée de tâches interdépendantes, la qualité insuffisante des données d’entraînement, et la portée limitée des métriques d’évaluation, qui négligent les dimensions psychologiques et centrées sur l’humain. Cette thèse répond à ces limitations à travers quatre contributions principales. Premièrement, elle introduit un cadre d’apprentissage en plusieurs étapes, basé sur des modèles de langage préentraînés, pour identifier le type et la localisation des problèmes dans le code, offrant ainsi une alternative flexible et interprétable à l’analyse statique. Deuxièmement, elle propose un cadre unifié modélisant conjointement les sous-tâches interdépendantes de la revue de code — génération de commentaires, raffinement du code et estimation de la qualité — en s’appuyant sur la distillation de connaissances inter-tâches et l’apprentissage par renforcement. Cela permet d’aligner la génération de commentaires avec leur utilité pour les tâches subséquentes. Troisièmement, une stratégie de curation des données est présentée, exploitant les LLMs pour évaluer, filtrer et reformuler les commentaires bruités, produisant ainsi des données d’entraînement de meilleure qualité, propices à de meilleures performances des modèles. Enfin, cette thèse développe SEWELL-CARE, un cadre d’évaluation novateur qui prend en compte non seulement l’efficacité technique, mais aussi les aspects humains, tels que le bien-être des développeurs, leur autonomie et leur charge cognitive, dans des contextes d’assistance automatisée. Ensemble, ces contributions offrent une approche holistique de l’automatisation de la revue de code, conciliant compréhension générale du langage et adaptation aux spécificités du domaine, tout en traitant les enjeux techniques et humains. Elles ouvrent ainsi la voie à la conception d’assistants de revue intelligents, efficaces et véritablement alignés sur les besoins des développeurs.

Table of contents

Notes

Notes

Other language versions

Related research dataset(s)

Endorsement

Review

Supplemented By

Referenced By

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). Unless the document is published under a Creative Commons licence, it may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.