Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym (2024)
- Authors:
- Autor USP: MONTAGUTI, FERNANDO HOLD - ICMC
- Unidade: ICMC
- Subjects: INTELIGÊNCIA ARTIFICIAL; APRENDIZADO COMPUTACIONAL; PROCESSAMENTO DE IMAGENS; PROCESSAMENTO DE LINGUAGEM NATURAL
- Keywords: Aprendizado por Reforço Car-R; Proximal Policy Optimization (PPO); Carro Autônomo; Car-R
- Language: Português
- Abstract: Este trabalho explora a aplicação de técnicas de aprendizagem por reforço no ambiente Car-Racing da OpenAI Gym, com o objetivo de treinar um agente inteligente para conduzir um carro de corrida em uma pista gerada aleatoriamente. Foi utilizado Frame Stacking para que o agente tivesse uma percepção da velocidade na pista, além de um pré-processamento das imagens de entrada. Uma rede neural convolucional (CNN) extraiu as características importantes das imagens, permitindo que o ator do algoritmo Proximal Policy Optimization (PPO) decidisse quais ações realizar, enquanto o crítico avaliou o valor dessas ações. O treinamento consistiu em 300.000 passos em seis ambientes paralelos, totalizando 1,8 milhões de passos, com validações periódicas para avaliar o progresso. A paralelização do ambiente acelerou o treinamento e aumentou a eficiência amostral, permitindo uma exploração mais ampla do espaço de estados e ações. Testes para otimização dos hiperparâmetros foram conduzidos com a biblioteca Optuna, revelando a sensibilidade do modelo a pequenas variações nos parâmetros. Este trabalho contribui para o entendimento das complexidades envolvidas na aplicação de algoritmos de aprendizagem por reforço em ambientes simulados.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2024
-
ABNT
MONTAGUTI, Fernando Hold. Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym. 2024. Trabalho de Conclusão de Curso (MBA) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2024. Disponível em: https://bdta.abcd.usp.br/directbitstream/05748cb2-5be3-4ade-9dda-b57ff21b395b/Fernando_Hold_Montaguti.pdf. Acesso em: 18 mar. 2025. -
APA
Montaguti, F. H. (2024). Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym (Trabalho de Conclusão de Curso (MBA). Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos. Recuperado de https://bdta.abcd.usp.br/directbitstream/05748cb2-5be3-4ade-9dda-b57ff21b395b/Fernando_Hold_Montaguti.pdf -
NLM
Montaguti FH. Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym [Internet]. 2024 ;[citado 2025 mar. 18 ] Available from: https://bdta.abcd.usp.br/directbitstream/05748cb2-5be3-4ade-9dda-b57ff21b395b/Fernando_Hold_Montaguti.pdf -
Vancouver
Montaguti FH. Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym [Internet]. 2024 ;[citado 2025 mar. 18 ] Available from: https://bdta.abcd.usp.br/directbitstream/05748cb2-5be3-4ade-9dda-b57ff21b395b/Fernando_Hold_Montaguti.pdf
Download do texto completo
Tipo | Nome | Link | |
---|---|---|---|
Fernando_Hold_Montaguti.p... | Direct link |
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas