Repository logo

Technical methods for governing AI agents


Thèse ou mémoire / Thesis or Dissertation
Loading...
Thumbnail Image

Contributor(s)

Published in

Conference Date

Conference Place

Publisher

Degree Level

Doctorat / Doctoral

Discipline

Affiliation

Keywords

  • agents
  • risques
  • visibilité
  • identifiers
  • identifiants
  • visibility
  • risks
  • gouvernance
  • risks

Funding organization(s)

Abstract

Une grande partie de la recherche en intelligence artificielle (IA) vise à construire des agents---des systèmes qui seraient capables d'atteindre des objectifs de manière autonome, sans instructions explicites pour comment agir. La possibilité de construire des agents d'usage général, en particulier ceux basés sur les ``modèles de fondation'', a suscité des inquiétudes croissantes quant à leurs risques. Ces risques pourraient inclure le mauvais usage, le dysfonctionnement, et des effets économiques ou politiques diffus, mais ils sont encore incertains. Il faut obtenir plus d'informations sur ces risques. Il faut également préparer à l'avance des interventions potentielles, car certaines d'entres elles pourraient prendre beaucoup de temps (par exemple, l'adoption de normes prend généralement des années). Cette thèse fait avancer ces deux tâches. Dans le premier article, nous caractérisons plus précisément les agents et décrivons des risques potentiels de tels systèmes. Dans le deuxième article, nous évaluons trois mesures techniques pour améliorer la visibilité sur l'utilisation des agents. Dans le dernier article, nous nous concentrons sur les identifiants, une mesure issue du deuxième article : nous proposons une spécification pour les identifiants et explorons une mise en œuvre potentielle. Nous espérons que nos méthodes aideront à gérer de manière responsable le développement et le déploiement des agents d'IA.


A key goal of AI research is to build AI agents—systems that can autonomously achieve goals with little to no explicit human instruction for how to do so. The prospect of general-purpose agents, especially those based upon foundation models, has motivated increasing concerns about their risks. Such risks could include misuse, malfunction in critical settings, and diffuse economic or political effects, but remain highly uncertain. Obtaining more information about these risks is crucial. It is also crucial to prepare potential interventions in advance, since some preparation could take much time (e.g., standards adoption is on the order of years). This thesis makes progress on both of these tasks. In our first contribution, we more precisely characterize the notion of an agent, and outline potential harms of such systems. In our second contribution, we assess three technical measures to improve visibility into how agents are used. In our final contribution, we focus on IDs, a measure from our second contribution: we propose a specification for IDs and explore a potential implementation. We hope for our methods to serve as a foundation for responsibly managing the development and deployment of AI agents.

Table of contents

Notes

Notes

Other language versions

Related research dataset(s)

Endorsement

Review

Supplemented By

Referenced By

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). Unless the document is published under a Creative Commons licence, it may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.