Technical methods for governing AI agents
Date de publication
Autrices et auteurs
Identifiant ORCID de l’auteur
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Programme
Affiliation
Mots-clés
- agents
- risques
- visibilité
- identifiers
- identifiants
- visibility
- risks
- gouvernance
- risks
Organisme subventionnaire
Résumé
Une grande partie de la recherche en intelligence artificielle (IA) vise à construire des agents---des systèmes qui seraient capables d'atteindre des objectifs de manière autonome, sans instructions explicites pour comment agir. La possibilité de construire des agents d'usage général, en particulier ceux basés sur les ``modèles de fondation'', a suscité des inquiétudes croissantes quant à leurs risques. Ces risques pourraient inclure le mauvais usage, le dysfonctionnement, et des effets économiques ou politiques diffus, mais ils sont encore incertains. Il faut obtenir plus d'informations sur ces risques. Il faut également préparer à l'avance des interventions potentielles, car certaines d'entres elles pourraient prendre beaucoup de temps (par exemple, l'adoption de normes prend généralement des années). Cette thèse fait avancer ces deux tâches. Dans le premier article, nous caractérisons plus précisément les agents et décrivons des risques potentiels de tels systèmes. Dans le deuxième article, nous évaluons trois mesures techniques pour améliorer la visibilité sur l'utilisation des agents. Dans le dernier article, nous nous concentrons sur les identifiants, une mesure issue du deuxième article : nous proposons une spécification pour les identifiants et explorons une mise en œuvre potentielle. Nous espérons que nos méthodes aideront à gérer de manière responsable le développement et le déploiement des agents d'IA.
A key goal of AI research is to build AI agents—systems that can autonomously achieve goals with little to no explicit human instruction for how to do so. The prospect of general-purpose agents, especially those based upon foundation models, has motivated increasing concerns about their risks. Such risks could include misuse, malfunction in critical settings, and diffuse economic or political effects, but remain highly uncertain. Obtaining more information about these risks is crucial. It is also crucial to prepare potential interventions in advance, since some preparation could take much time (e.g., standards adoption is on the order of years). This thesis makes progress on both of these tasks. In our first contribution, we more precisely characterize the notion of an agent, and outline potential harms of such systems. In our second contribution, we assess three technical measures to improve visibility into how agents are used. In our final contribution, we focus on IDs, a measure from our second contribution: we propose a specification for IDs and explore a potential implementation. We hope for our methods to serve as a foundation for responsibly managing the development and deployment of AI agents.