Fear prediction for training robust RL agents
Thèse ou mémoire / Thesis or Dissertation
Date de publication
Autrices et auteurs
Identifiant ORCID de l’auteur
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Maîtrise / Master's
Programme
Affiliation
Mots-clés
- apprentissage par renforcement
- robotique
- apprentissage adversariel
- reinforcement learning
- robotics
- adversarial training
- machine learning
- apprentissage machine
- artificial intelligence
- intelligence artificielle
Organisme subventionnaire
Résumé
Résumé
Les algorithmes d’apprentissage par renforcement conditionné par les buts apprennent à
accomplir des tâches en interagissant avec leur environnement. Ce faisant, ils apprennent à
propos du monde qui les entourent de façon graduelle et adaptive. Parmi d’autres raisons,
c’est pourquoi cette branche de l’intelligence artificielle est une des avenues les plus promet-
teuses pour le contrôle des robots généralistes de demain. Cependant, la sûreté de ces algo-
rithmes de contrôle restent un champ de recherche actif. La majorité des algorithmes “d’ap-
prentissage par renforcement sûr” tâchent d’assurer la sécurité de la politique de contrôle
tant durant l’apprentissage que pendant le déploiement ou l’évaluation. Dans ce travail, nous
proposons une stratégie complémentaire.
Puisque la majorité des algorithmes de contrôle pour la robotique sont développés, entraî-
nés, et testés en simulation pour éviter d’endommager les vrais robots, nous pouvons nous
permettre d’agir de façon dangereuse dans l’environnement simulé. Nous démontrons qu’en
donnant des buts dangereux à effectuer à l’algorithme d’apprentissage durant l’apprentissage,
nous pouvons produire des populations de politiques de contrôle plus sûres au déploiement
ou à l’évaluation qu’en sélectionnant les buts avec des techniques de l’état de l’art. Pour
ce faire, nous introduisons un nouvel agent à l’entraînement de la politique de contrôle, le
“Directeur”. Le rôle du Directeur est de sélectionner des buts qui sont assez difficiles pour
aider la politique à apprendre à les résoudre sans être trop difficiles ou trop faciles. Pour
aider le Directeur dans sa tâche, nous entraînons un réseau de neurones en ligne pour prédire
sur quels buts la politique de contrôle échouera. Armé de ce “réseau de la peur” (nommé
d’après la peur de la politique de contrôle), le Directeur parviens à sélectionner les buts de
façon à ce que les politiques de contrôles finales sont plus sûres et plus performantes que
les politiques entraînées à l’aide de méthodes de l’état de l’art, ou obtiennent des métriques
semblables. De plus, les populations de politiques entraînées par le Directeur ont moins de
variance dans leur comportement, et sont plus résistantes contre des attaques d’adversaires
sur les buts qui leur sont issus.
By learning from experience, goal-conditioned reinforcement learning methods learn from their environments gradually and adaptively. Among other reasons, this makes them a promising direction for the generalist robots of the future. However, the safety of these goal- conditioned RL policies is still an active area of research. The majority of “Safe Reinforce- ment Learning” methods seek to enforce safety both during training and during deployment and/or evaluation. In this work, we propose a complementary strategy. Because the majority of control algorithms for robots are developed, trained, and tested in simulation to avoid damaging the real hardware, we can afford to let the policy act in unsafe ways in the simulated environment. We show that by tasking the learning algorithm with unsafe goals during its training, we can produce populations of final policies that are safer at evaluation or deployment than when trained with state-of-the-art goal-selection methods. To do so, we introduce a new agent to the training of the policy that we call the “Director”. The Director’s role is to select goals that are hard enough to aid the policy’s training, without being too hard or too easy. To help the Director in its task, we train a neural network online to predict which goals are unsafe for the current policy. Armed with this “fear network” (named after the policy’s own fear of violating its safety conditions), the Director is able to select training goals such that the final trained policies are safer and more performant than policies trained on state-of-the-art goal-selection methods (or just as safe/performant). Additionally, the populations of policies trained by the Director show decreased variance in their behaviour, along with increased resistance to adversarial attacks on the goals issued to them.
By learning from experience, goal-conditioned reinforcement learning methods learn from their environments gradually and adaptively. Among other reasons, this makes them a promising direction for the generalist robots of the future. However, the safety of these goal- conditioned RL policies is still an active area of research. The majority of “Safe Reinforce- ment Learning” methods seek to enforce safety both during training and during deployment and/or evaluation. In this work, we propose a complementary strategy. Because the majority of control algorithms for robots are developed, trained, and tested in simulation to avoid damaging the real hardware, we can afford to let the policy act in unsafe ways in the simulated environment. We show that by tasking the learning algorithm with unsafe goals during its training, we can produce populations of final policies that are safer at evaluation or deployment than when trained with state-of-the-art goal-selection methods. To do so, we introduce a new agent to the training of the policy that we call the “Director”. The Director’s role is to select goals that are hard enough to aid the policy’s training, without being too hard or too easy. To help the Director in its task, we train a neural network online to predict which goals are unsafe for the current policy. Armed with this “fear network” (named after the policy’s own fear of violating its safety conditions), the Director is able to select training goals such that the final trained policies are safer and more performant than policies trained on state-of-the-art goal-selection methods (or just as safe/performant). Additionally, the populations of policies trained by the Director show decreased variance in their behaviour, along with increased resistance to adversarial attacks on the goals issued to them.
Table des matières
Notes
Notes
Autre version linguistique
Ensemble de données lié
Licence
Approbation
Évaluation
Complété par
Référencé par
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.