Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym

Montaguti, Fernando Hold; Santos, Roney Lira de Sales

Trabalho de conclusao de curso - tcc

Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym (2024)

Authors:
- Montaguti, Fernando Hold
- Santos, Roney Lira de Sales (Orientador)
Autor USP: MONTAGUTI, FERNANDO HOLD - ICMC
Unidade: ICMC
DOI: 10.11606/003225817
Subjects: INTELIGÊNCIA ARTIFICIAL; APRENDIZADO COMPUTACIONAL; PROCESSAMENTO DE IMAGENS; PROCESSAMENTO DE LINGUAGEM NATURAL
Keywords: Aprendizado por Reforço Car-R; Proximal Policy Optimization (PPO); Carro Autônomo; Car-R
Language: Português
Abstract: Este trabalho explora a aplicação de técnicas de aprendizagem por reforço no ambiente Car-Racing da OpenAI Gym, com o objetivo de treinar um agente inteligente para conduzir um carro de corrida em uma pista gerada aleatoriamente. Foi utilizado Frame Stacking para que o agente tivesse uma percepção da velocidade na pista, além de um pré-processamento das imagens de entrada. Uma rede neural convolucional (CNN) extraiu as características importantes das imagens, permitindo que o ator do algoritmo Proximal Policy Optimization (PPO) decidisse quais ações realizar, enquanto o crítico avaliou o valor dessas ações. O treinamento consistiu em 300.000 passos em seis ambientes paralelos, totalizando 1,8 milhões de passos, com validações periódicas para avaliar o progresso. A paralelização do ambiente acelerou o treinamento e aumentou a eficiência amostral, permitindo uma exploração mais ampla do espaço de estados e ações. Testes para otimização dos hiperparâmetros foram conduzidos com a biblioteca Optuna, revelando a sensibilidade do modelo a pequenas variações nos parâmetros. Este trabalho contribui para o entendimento das complexidades envolvidas na aplicação de algoritmos de aprendizagem por reforço em ambientes simulados.
Imprenta:
- Publisher place: São Carlos
- Date published: 2024

Informações sobre o DOI: 10.11606/003225817 (Fonte: oaDOI API)

Este periódico é de acesso aberto
Este artigo NÃO é de acesso aberto

Download do texto completo

Tipo	Nome	Link
	Fernando_Hold_Montaguti.p...	Direct link

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

MONTAGUTI, Fernando Hold. Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym. 2024. Trabalho de Conclusão de Curso (MBA) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2024. Disponível em: https://doi.org/10.11606/003225817. Acesso em: 16 maio 2026.
APA

Montaguti, F. H. (2024). Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym (Trabalho de Conclusão de Curso (MBA). Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos. Recuperado de https://doi.org/10.11606/003225817
NLM

Montaguti FH. Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym [Internet]. 2024 ;[citado 2026 maio 16 ] Available from: https://doi.org/10.11606/003225817
Vancouver

Montaguti FH. Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym [Internet]. 2024 ;[citado 2026 maio 16 ] Available from: https://doi.org/10.11606/003225817

BDTA

Exportar registro bibliográfico

Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym (2024)

Download do texto completo

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

BDTA

Exportar registro bibliográfico

Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym (2024)

Download do texto completo

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: