Lagragian duality for efficient large-scale reinforcement learning

Mostra el registre complet Registre parcial de l'ítem

  • dc.contributor.author Bas Serrano, Joan
  • dc.contributor.other Neu, Gergely
  • dc.contributor.other Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
  • dc.date.accessioned 2024-03-16T02:33:49Z
  • dc.date.available 2024-03-16T02:33:49Z
  • dc.date.issued 2022-07-12T10:57:43Z
  • dc.date.issued 2022-07-12T10:57:43Z
  • dc.date.issued 2022-06-28
  • dc.date.modified 2024-03-15T10:58:07Z
  • dc.description.abstract Reinforcement learning is an expanding field where very often there is a mismatch between the high performance of the algorithms and their poor theoretical justification. For this reason, there is a need of algorithms that are well grounded in theory, with strong mathematical guarantees and that are efficient in solving large-scale problems. In this work we explore the linear programming approach for optimal control in MDPs. In order to develop novel reinforcement learning algorithms, we apply tools from constrained optimization to this linear programming framework. In concrete, we propose a variety of new algorithms using techniques like constraint relaxation, regularization or Lagrangian duality. We provide a formal performance analysis for all of these algorithms, and evaluate them in a range of benchmark tasks.
  • dc.description.abstract L'aprenentatge per reforç (en anglès, reinforcement learning) és un camp en expansió on tot sovint la gran eficàcia dels algorismes no va de la mà d'una bona justificació teòrica d'aquests. Per aquest motiu, hi ha la necessitat d'algorismes ben fonamentats en la teoria, amb garanties matemàtiques robustes, i que a la vegada siguin eficients a l'hora de resoldre problemes de gran escala. En aquest treball explorem la formulació basada en programació lineal per al control òptim en problemes de decisió de Markov. Per tal de desenvolupar nous algorismes d'aprenentatge per reforç, apliquem eines del camp de l'optimització de funcions convexes a la formulació basada en programació lineal. En concret, utilitzem tècniques com la relaxació de condicions, la regularització, o la dualitat Lagrangiana. També elaborem una anàlisi formal del rendiment d'aquests algorismes i els avaluem en diferents tasques de referència.
  • dc.description.abstract Programa de doctorat en Tecnologies de la Informació i les Comunicacions
  • dc.format 126 p.
  • dc.format application/pdf
  • dc.format application/pdf
  • dc.identifier http://hdl.handle.net/10803/674767
  • dc.identifier.uri http://hdl.handle.net/10230/53728
  • dc.language.iso eng
  • dc.publisher Universitat Pompeu Fabra
  • dc.rights L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
  • dc.rights http://creativecommons.org/licenses/by/4.0/
  • dc.rights info:eu-repo/semantics/openAccess
  • dc.source TDX (Tesis Doctorals en Xarxa)
  • dc.subject.keyword Reinforcement learning
  • dc.subject.keyword Lagrangian duality
  • dc.subject.keyword Linear programming
  • dc.subject.keyword Constraint relaxation
  • dc.subject.keyword Convex optimization
  • dc.subject.keyword Entropy regularization
  • dc.subject.keyword Aprenentatge per reforç
  • dc.subject.keyword Dualitat lagrangiana
  • dc.subject.keyword Programació lineal
  • dc.subject.keyword Relaxació de condicions
  • dc.subject.keyword Regularització entròpica
  • dc.subject.keyword 62
  • dc.title Lagragian duality for efficient large-scale reinforcement learning
  • dc.type info:eu-repo/semantics/doctoralThesis
  • dc.type info:eu-repo/semantics/publishedVersion

Col·leccions