Vila Alarcón, Nicolás2024-10-172024-10-172024http://hdl.handle.net/10230/68216Tutora: Gergely NeuTreball de fi de grau en Enginyeria Matemàtica en Ciència de DadesIn recent years, Reinforcement Learning (RL) has gained significant attention due to its applications in real-world problems, particularly leveraging Deep Neural Networks (DNNs). While state of the art models like Proximal Policy Optimization (PPO), Twin Delayed DDPG (TD3), or Soft Actor-Critic (SAC) employ the squared Bellman error (SBE) in some way or other to address the Bellman Optimality Equations, the limitations of SBE are well-documented. To address these issues, alternative algorithms rooted in the Linear Program (LP) reformulation of Markov Decision Processes (MDPs), such as REPS and QREPS, have shown to be promising. Yet, there exists a notable gap in research regarding the adaptation and application of these LP-based approaches within a large scale DNN learning setting. We propose an adaptation of LP-based algorithms with the use of DNNs and perform an empirical study to understand the impact of different design choices in their practical implementation that may directly or indirectly affect their performance. We train over 30,000 agents in several discrete classical control environments of different complexity and provide insights and practical recommendations. Furthermore, we evaluate their performance compared to other well-known RL algorithms.En els darrers anys, l’aprenentatge de reforc¸ (RL) ha guanyat una atenció important a causa de les seves aplicacions en problemes del món real, especialment aprofitant les xarxes neuronals profundes (DNN). Si b´e els models d’´ultima generació com Proximal Policy Optimization’ (PPO), el ’Twin Delayed DDPG (TD3) o el ’Soft Actor Critic’ (SAC) utilitzen l’error quadrat de Bellman (SBE) d’una manera o altra per abordar les equacions d’optimitat de Bellman, les limitacions de l’SBE estan ben documentades. Per abordar aquests problemes, els algorismes alternatius arrelats a la reformulació del programa lineal (LP) dels processos de decisió de Markov (MDP), com ara REPS i Q-REPS, han demostrat ser prometedors. No obstant això, hi ha un buit notable entre la teoria i la investigaci´o sobre l’adaptació i l’aplicaci´o d’aquests enfocaments basats en LP en un entorn d’aprenentatge amb DNN a gran escala. Proposem una adaptació d’algorismes basats en LP amb l’ús de DNN i realitzem un estudi empíric per entendre l’impacte de diferents opcions de disseny en la seva implementació pràctica que poden afectar directament o indirectament el seu rendiment. Entrenem més de 30.000 agents en diversos entorns de control clàssics discrets de diferent complexitat i proporcionem idees i recomanacions pràctiques. A més, avaluem el seu rendiment en comparació amb altres algorismes de RL coneguts.application/pdfengLlicència CC Reconeixement-NoComercial-SenseObraDerivada 4.0 Internacional (CC BY-NC-ND 4.0)Psicologia de l'aprenentatgeEntropy-regularized deep reinforcement learning from a linear programming perspective.info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/openAccess