Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym (2024)
- Authors:
- Autor USP: MONTAGUTI, FERNANDO HOLD - ICMC
- Unidade: ICMC
- DOI: 10.11606/003225817
- Subjects: INTELIGÊNCIA ARTIFICIAL; APRENDIZADO COMPUTACIONAL; PROCESSAMENTO DE IMAGENS; PROCESSAMENTO DE LINGUAGEM NATURAL
- Keywords: Aprendizado por Reforço Car-R; Proximal Policy Optimization (PPO); Carro Autônomo; Car-R
- Language: Português
- Abstract: Este trabalho explora a aplicação de técnicas de aprendizagem por reforço no ambiente Car-Racing da OpenAI Gym, com o objetivo de treinar um agente inteligente para conduzir um carro de corrida em uma pista gerada aleatoriamente. Foi utilizado Frame Stacking para que o agente tivesse uma percepção da velocidade na pista, além de um pré-processamento das imagens de entrada. Uma rede neural convolucional (CNN) extraiu as características importantes das imagens, permitindo que o ator do algoritmo Proximal Policy Optimization (PPO) decidisse quais ações realizar, enquanto o crítico avaliou o valor dessas ações. O treinamento consistiu em 300.000 passos em seis ambientes paralelos, totalizando 1,8 milhões de passos, com validações periódicas para avaliar o progresso. A paralelização do ambiente acelerou o treinamento e aumentou a eficiência amostral, permitindo uma exploração mais ampla do espaço de estados e ações. Testes para otimização dos hiperparâmetros foram conduzidos com a biblioteca Optuna, revelando a sensibilidade do modelo a pequenas variações nos parâmetros. Este trabalho contribui para o entendimento das complexidades envolvidas na aplicação de algoritmos de aprendizagem por reforço em ambientes simulados.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2024
- Este periódico é de acesso aberto
- Este artigo NÃO é de acesso aberto
-
ABNT
MONTAGUTI, Fernando Hold. Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym. 2024. Trabalho de Conclusão de Curso (MBA) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2024. Disponível em: https://doi.org/10.11606/003225817. Acesso em: 03 mar. 2026. -
APA
Montaguti, F. H. (2024). Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym (Trabalho de Conclusão de Curso (MBA). Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos. Recuperado de https://doi.org/10.11606/003225817 -
NLM
Montaguti FH. Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym [Internet]. 2024 ;[citado 2026 mar. 03 ] Available from: https://doi.org/10.11606/003225817 -
Vancouver
Montaguti FH. Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym [Internet]. 2024 ;[citado 2026 mar. 03 ] Available from: https://doi.org/10.11606/003225817
Informações sobre o DOI: 10.11606/003225817 (Fonte: oaDOI API)
Download do texto completo
| Tipo | Nome | Link | |
|---|---|---|---|
| Fernando_Hold_Montaguti.p... | Direct link |
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
