In this thesis we develop a traffic light control agent that can manage traffic lights with the objective to reduce traffic jams, trip time and other traffic metrics in a given network using reinforcement learning. To this end, we implement a Double Deep Q-Network algorithm and test its performance in controlling traffic lights on a ’small’ and a ’large’ traffic junction. We find that this algorithm beats a fixed traffic light phase program when traffic demand fluctuates, as it is capable of reacting ...
In this thesis we develop a traffic light control agent that can manage traffic lights with the objective to reduce traffic jams, trip time and other traffic metrics in a given network using reinforcement learning. To this end, we implement a Double Deep Q-Network algorithm and test its performance in controlling traffic lights on a ’small’ and a ’large’ traffic junction. We find that this algorithm beats a fixed traffic light phase program when traffic demand fluctuates, as it is capable of reacting to real-time traffic situations. The algorithm can be scaled up and holds promise to also perform well in controlling larger transport networks.
+
En aquest treball de final de màster es desenvolupa un algorisme d'aprenentatge reforçat pel control de semàfors amb l'objectiu de reduir temps de trajecte i retencions. Específicament, s'ha implementat l'algorisme Double Deep Q-Network i s'ha comprovat la seva eficàcia comparant-lo amb escenaris realistes de control d'una intersecció simple i d'una complexa. S'ha demostrat que aquest algorisme es comporta millor que l'escenari real en el qual el canvi de fase es duu a terme amb intervals de temps ...
En aquest treball de final de màster es desenvolupa un algorisme d'aprenentatge reforçat pel control de semàfors amb l'objectiu de reduir temps de trajecte i retencions. Específicament, s'ha implementat l'algorisme Double Deep Q-Network i s'ha comprovat la seva eficàcia comparant-lo amb escenaris realistes de control d'una intersecció simple i d'una complexa. S'ha demostrat que aquest algorisme es comporta millor que l'escenari real en el qual el canvi de fase es duu a terme amb intervals de temps fixes. Els resultats indiquen que aquesta tècnica és capaç d'adaptar-se a les situacions de trànsit canviants i per tant obtenir millor resultats que l'escenari real. L'algorisme pot ser adaptat per controlar xarxes de trànsit més grans.
+