Exportar registro bibliográfico

Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym (2024)

  • Authors:
  • Autor USP: MONTAGUTI, FERNANDO HOLD - ICMC
  • Unidade: ICMC
  • Subjects: INTELIGÊNCIA ARTIFICIAL; APRENDIZADO COMPUTACIONAL; PROCESSAMENTO DE IMAGENS; PROCESSAMENTO DE LINGUAGEM NATURAL
  • Keywords: Aprendizado por Reforço Car-R; Proximal Policy Optimization (PPO); Carro Autônomo; Car-R
  • Language: Português
  • Abstract: Este trabalho explora a aplicação de técnicas de aprendizagem por reforço no ambiente Car-Racing da OpenAI Gym, com o objetivo de treinar um agente inteligente para conduzir um carro de corrida em uma pista gerada aleatoriamente. Foi utilizado Frame Stacking para que o agente tivesse uma percepção da velocidade na pista, além de um pré-processamento das imagens de entrada. Uma rede neural convolucional (CNN) extraiu as características importantes das imagens, permitindo que o ator do algoritmo Proximal Policy Optimization (PPO) decidisse quais ações realizar, enquanto o crítico avaliou o valor dessas ações. O treinamento consistiu em 300.000 passos em seis ambientes paralelos, totalizando 1,8 milhões de passos, com validações periódicas para avaliar o progresso. A paralelização do ambiente acelerou o treinamento e aumentou a eficiência amostral, permitindo uma exploração mais ampla do espaço de estados e ações. Testes para otimização dos hiperparâmetros foram conduzidos com a biblioteca Optuna, revelando a sensibilidade do modelo a pequenas variações nos parâmetros. Este trabalho contribui para o entendimento das complexidades envolvidas na aplicação de algoritmos de aprendizagem por reforço em ambientes simulados.
  • Imprenta:

  • Download do texto completo

    Tipo Nome Link
    Versão Publicada Fernando_Hold_Montaguti.p... Direct link
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      MONTAGUTI, Fernando Hold. Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym. 2024. Trabalho de Conclusão de Curso (MBA) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2024. Disponível em: https://bdta.abcd.usp.br/directbitstream/05748cb2-5be3-4ade-9dda-b57ff21b395b/Fernando_Hold_Montaguti.pdf. Acesso em: 18 mar. 2025.
    • APA

      Montaguti, F. H. (2024). Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym (Trabalho de Conclusão de Curso (MBA). Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos. Recuperado de https://bdta.abcd.usp.br/directbitstream/05748cb2-5be3-4ade-9dda-b57ff21b395b/Fernando_Hold_Montaguti.pdf
    • NLM

      Montaguti FH. Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym [Internet]. 2024 ;[citado 2025 mar. 18 ] Available from: https://bdta.abcd.usp.br/directbitstream/05748cb2-5be3-4ade-9dda-b57ff21b395b/Fernando_Hold_Montaguti.pdf
    • Vancouver

      Montaguti FH. Aprendizagem por reforço para solucionar o ambiente Car Racing da OpenAI Gym [Internet]. 2024 ;[citado 2025 mar. 18 ] Available from: https://bdta.abcd.usp.br/directbitstream/05748cb2-5be3-4ade-9dda-b57ff21b395b/Fernando_Hold_Montaguti.pdf

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Biblioteca Digital de Trabalhos Acadêmicos da Universidade de São Paulo     2012 - 2025