Building intuitive reinforcement learning algorithms


Thèse ou mémoire / Thesis or Dissertation

Date de publication

Autrices et auteurs

Identifiant ORCID de l’auteur

Contributrices et contributeurs

Publié dans

Date de la Conférence

Lieu de la Conférence

Éditeur

Cycle d'études

Doctorat / Doctoral

Programme

Affiliation

Mots-clés

  • Reinforcement Learning
  • Deep Learning
  • Machine Learning
  • Sample Efficiency
  • Reward Design
  • Apprentissage par Renforcement
  • Apprentissage Profond
  • Apprentissage Automatique
  • Efficacité de l’Échantillonnage
  • Conception des Récompenses

Organisme subventionnaire

Résumé

Résumé

La promesse de l’apprentissage par renforcement (RL) est de former des agents capables d’interagir avec potentiellement n’importe quel environnement. Pour tenir cette promesse, les algorithmes de RL doivent être intuitifs. Cette thèse présente des approches visant à rendre le RL à la fois efficace et intuitif pour les concepteurs d’agents. Comme travaux préparatoires, je présente d’abord plusieurs avancées dans la compréhension fondamentale des algorithmes modernes de RL. Premièrement, en dévoilant le biais de primauté, une tendance des agents RL profonds à ne pas apprendre à partir de flux d’expériences, en raison de la dynamique de l’entraînement des réseaux neuronaux, et en proposant un remède basé sur des réinitialisations périodiques. Ensuite, en étudiant les caractéristiques des paysages de retour générés par les algorithmes RL profonds et la performance des politiques qu’ils entraînent, à mesure que leurs paramètres évoluent. De plus, je présente une approche idéalisée de l’exploration appelée méta-programmation dynamique, validée dans le contexte de la programmation dynamique asynchrone. Je présente ensuite deux cadres RL intuitifs, dont le développement s’est appuyé sur les enseignements tirés des travaux préparatoires. Le premier, basé sur le ratio de relecture échelonné, est une approche remarquablement simple mais extrêmement efficace, permettant d’augmenter l’efficacité de l’échantillonnage des algorithmes de RL en équilibrant naturellement les ressources computationnelles et de données, grâce à l’utilisation de réinitialisations périodiques. Le second, nommé Motif, combine les grands modèles de langage (LLM) et le RL pour simplifier la motivation intrinsèque et la conception des récompenses, offrant une stratégie générale pour ancrer les LLM et distiller leur connaissance du sens commun dans des capacités de prise de décision séquentielle.
The promise of reinforcement learning (RL) is to train agents for successfully interacting with potentially any environment. Realistically, to deliver on this promise, RL algorithms should be intuitive. This thesis presents approaches for making RL both effective and intuitive to use for an agent designer. As preparatory work, I first present a number of advances in the fundamental understanding of modern RL algorithms. First, by uncovering the primacy bias, a tendency of deep RL agents to being unable to learn from streams of experiences, due to the dynamics of neural networks’ training, and proposing a resetting-based remedy to it. Then, by studying the characteristics of the return landscapes produced by deep RL algorithms, the performance of the policies they train, as their parameters change. Additionally, I present an idealized approach to exploration called meta dynamic programming, which is validated in the context of asynchronous dynamic programming. Then, I present two intuitive RL frameworks, whose development leveraged the insights gained through the preparatory work. The first one, based on replay ratio scaling, is a remarkably simple, yet extremely effective, approach that allows to increase the sample efficiency of RL algorithms by naturally trading off computational and data resources, with the use of periodic resets. The second one, named Motif, combines Large Language Models (LLMs) and RL to simplify intrinsic motivation and reward design, providing a general strategy for grounding LLMs, distilling their common sense knowledge into sequential decision-making abilities.

Table des matières

Notes

Notes

Autre version linguistique

Ensemble de données lié

Licence

Approbation

Évaluation

Complété par

Référencé par

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.