Control via Reinforcement Learning: Controle via Aprendizado por Reforço (2025)
- Authors:
- Autor USP: DI MASE, MAURICIO GARCIA - EESC
- Unidade: EESC
- Sigla do Departamento: SEL
- Subjects: CONTROLE ÓTIMO; APRENDIZADO COMPUTACIONAL
- Keywords: Aprendizado por Reforço; Engenharia de Controle; Q-learning; Actor-Critic; DQN; TD3; DDPG
- Language: Inglês
- Abstract: This work presents a comprehensive review and practical application of Reinforcement Learning (RL) algorithms in control engineering. The theoretical groundwork of RL is laid out, establishing its connection to Optimal Control and detailing various algorithms, including Dynamic Programming (Value Iteration and Policy Iteration), Q-learning (Tabular and Deep Q-Learning/DQN), and Actor-Critic methods (Deep Deterministic Policy Gradient/DDPG and Twin Delayed Deep Deterministic Policy Gradient/TD3). The algorithms are first validated by comparing Deep Q-Learning against Dynamic Programming for a simple discrete Markov Decision Process (MDP) with a small state space, demonstrating the capability of approximation methods to converge toward the exact optimal policy, although this is not guaranteed in larger environments. Subsequently, performance comparisons are conducted between the RL agents (DQN, DDPG, TD3) and a Linear Quadratic Regulator (LQR) in simulated environments for classic control systems: the simple pendulum, cart-pole, and rotary pendulum. Results show that while the LQR is highly effective near the unstable equilibrium point, RL agents, particularly TD3, demonstrate superior generality for initial conditions farther from the linearization point. The study also examines learning stability, confirming TD3’s robustness against Q-value overestimation, a problem observed in DDPG and DQN training.Este trabalho apresenta uma revisão abrangente e uma aplicação prática de algoritmos de Aprendizado por Reforço (Reinforcement Learning – RL) no domínio da engenharia de controle. A base teórica do RL é estabelecida, demonstrando sua conexão com o Controle Ótimo e detalhando diversos algoritmos, incluindo Programação Dinâmica (Iteração de Valor e Iteração de Política), Q-learning (Tabular e Deep Q-Learning/DQN) e métodos AtorCrítico (Deep Deterministic Policy Gradient/DDPG e Twin Delayed Deep Deterministic Policy Gradient/TD3). Os algoritmos são inicialmente validados por meio da comparação entre o Deep Q-Learning e a Programação Dinâmica em um Processo de Decisão de Markov (MDP) discreto e simples, com um pequeno espaço de estados, o que demonstra a capacidade dos métodos de aproximar a política ótima exata, embora isso não seja algo garantido para ambientes maiores. Em seguida, são realizadas comparações de desempenho entre os agentes de RL (DQN, DDPG, TD3) e um Regulador Linear Quadrático (LQR) em ambientes simulados de sistemas clássicos de controle: o pêndulo simples, o pêndulo invertido em carrinho (cart-pole) e o pêndulo rotativo. Os resultados mostram que, embora o LQR seja altamente eficaz próximo ao ponto de equilíbrio instável, os agentes de RL, particularmente o TD3, demonstram maior generalidade para condições iniciais distantes do ponto de linearização. O estudo também examina questões relacionadas à estabilidade do aprendizado, confirmando a robustez do TD3 em relação à superestimação dos valores-Q, um problema observado durante o treinamento de DDPG e DQN.Por fim, propõe-se e implementa-se uma nova estratégia de controle híbrido, combinando o TD3 para tarefas não lineares (como o balanço ou o swing-up) e o LQR para a estabilização. Essa abordagem híbrida demonstra uma redução significativa no custo cumulativo total, mostrando-se particularmente eficaz no sistema mais complexo e não linear do pêndulo rotativo. Os resultados obtidos validam a relevância e o potencial do RL como alternativa robusta para o projeto de controladores aplicados a sistemas não lineares complexos do mundo real.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2025
-
ABNT
DI MASE, Maurício Garcia. Control via Reinforcement Learning: Controle via Aprendizado por Reforço. 2025. Trabalho de Conclusão de Curso (Graduação) – Escola de Engenharia de São Carlos, Universidade de São Paulo, São Carlos, 2025. Disponível em: https://bdta.abcd.usp.br/directbitstream/699b2933-ab6d-42fb-ae30-70fc1b164519/Di_Mase_Mauricio_Garcia.pdf. Acesso em: 19 jan. 2026. -
APA
Di Mase, M. G. (2025). Control via Reinforcement Learning: Controle via Aprendizado por Reforço (Trabalho de Conclusão de Curso (Graduação). Escola de Engenharia de São Carlos, Universidade de São Paulo, São Carlos. Recuperado de https://bdta.abcd.usp.br/directbitstream/699b2933-ab6d-42fb-ae30-70fc1b164519/Di_Mase_Mauricio_Garcia.pdf -
NLM
Di Mase MG. Control via Reinforcement Learning: Controle via Aprendizado por Reforço [Internet]. 2025 ;[citado 2026 jan. 19 ] Available from: https://bdta.abcd.usp.br/directbitstream/699b2933-ab6d-42fb-ae30-70fc1b164519/Di_Mase_Mauricio_Garcia.pdf -
Vancouver
Di Mase MG. Control via Reinforcement Learning: Controle via Aprendizado por Reforço [Internet]. 2025 ;[citado 2026 jan. 19 ] Available from: https://bdta.abcd.usp.br/directbitstream/699b2933-ab6d-42fb-ae30-70fc1b164519/Di_Mase_Mauricio_Garcia.pdf
Download do texto completo
| Tipo | Nome | Link | |
|---|---|---|---|
| Di_Mase_Mauricio_Garcia.p... | Direct link |
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
