Compositionality for hierarchical reinforcement learning

Mostra el registre complet Registre parcial de l'ítem

  • dc.contributor.author Infante Molina, Guillermo
  • dc.contributor.other Johnson, Anders
  • dc.contributor.other Gómez, Vicenç
  • dc.contributor.other Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
  • dc.date.accessioned 2025-05-05T05:31:18Z
  • dc.date.available 2025-05-05T05:31:18Z
  • dc.date.issued 2025-05-02T11:48:32Z
  • dc.date.issued 2025-05-02T11:48:32Z
  • dc.date.issued 2025-02-21
  • dc.date.modified 2025-05-02T11:48:35Z
  • dc.description.abstract Recent breakthroughs in AI have proven that reinforcement learning can be used successfully to solve complex sequential decision problems to achieve near-optimal solutions. However, despite the successful applications that use function approximation techniques, RL algorithms face open challenges that involve data efficiency and generalization. In this line, hierarchical methods have been historically applied to simplify learning as much as possible. In this thesis we study how algorithms can exploit compositionality properties to obtain the optimal solution along with a hierarchical decomposition of a large problem. To do this, we devise algorithms in which the agent works at different levels of abstraction to learn a series of base behaviors. These can be combined to optimally solve a higher level task specification. Such base behavior can be reused in different ways to bring computational efficiency by reducing the number of learning samples used to solve each problem.
  • dc.description.abstract Los avances recientes en IA han demostrado que el aprendizaje por refuerzo puede utilizarse con éxito para resolver problemas complejos de decisión secuencial y lograr soluciones casi óptimas. Sin embargo, a pesar de las aplicaciones exitosas que emplean técnicas de aproximación de funciones, los algoritmos de aprendizaje por refuerzo enfrentan desafíos abiertos que incluyen la eficiencia y la generalización. Para eso, los métodos jerárquicos se han aplicado históricamente para simplificar el aprendizaje lo más posible. En esta tesis, estudiamos cómo los algoritmos pueden explotar las propiedades de composicionalidad para obtener la solución óptima junto con una descomposición jerárquica de un problema grande. Para ello, diseñamos algoritmos en los que el agente trabaja en diferentes niveles de abstracción para aprender una serie de comportamientos base. Estos pueden combinarse para resolver de manera óptima una especificación de tarea de nivel superior y pueden reutilizarse de diversas maneras para mejorar la eficiencia computacional.
  • dc.description.abstract Programa de Doctorat en Tecnologies de la Informació i les Comunicacions
  • dc.format 109 p.
  • dc.format application/pdf
  • dc.identifier http://hdl.handle.net/10803/694345
  • dc.identifier.uri http://hdl.handle.net/10230/70260
  • dc.language.iso eng
  • dc.publisher Universitat Pompeu Fabra
  • dc.rights L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
  • dc.rights http://creativecommons.org/licenses/by-nc-sa/4.0/
  • dc.rights info:eu-repo/semantics/openAccess
  • dc.source TDX (Tesis Doctorals en Xarxa)
  • dc.subject.keyword Markov decision process
  • dc.subject.keyword Reinforcement learning
  • dc.subject.keyword Hierarchical reinforcement learning
  • dc.subject.keyword Compositionality
  • dc.subject.keyword Optimal solutions
  • dc.subject.keyword Temporal abstraction
  • dc.subject.keyword State abstraction
  • dc.subject.keyword Generalization
  • dc.subject.keyword Dynamic-programming
  • dc.subject.keyword Temporal difference
  • dc.subject.keyword Artificial intelligence
  • dc.subject.keyword Machine learning
  • dc.subject.keyword Machine intelligence
  • dc.subject.keyword 62
  • dc.title Compositionality for hierarchical reinforcement learning
  • dc.type info:eu-repo/semantics/doctoralThesis
  • dc.type info:eu-repo/semantics/publishedVersion

Col·leccions