Exportar registro bibliográfico

Análise comparativa de modelos derivados do BERT e LLMs para extração de dados em documentos de Imposto de Renda (2024)

  • Authors:
  • Autor USP: SILVA, JEAN LOURENÇO DA - ICMC
  • Unidade: ICMC
  • Subjects: INTELIGÊNCIA ARTIFICIAL; PROCESSAMENTO DE LINGUAGEM NATURAL; MINERAÇÃO DE DADOS; IMPOSTO DE RENDA
  • Keywords: BERTimbau; DeBERTa; DeBERTina; RoBERTa; DistilBERT
  • Language: Português
  • Abstract: Com a crescente demanda por extração e cruzamento de informações em documentos financeiros, as empresas enfrentam desafios significativos devido à complexidade dessas tarefas. Modelos avançados de PLN, como deBERTa, RoBERTa, DistillBERT, e LLMs como Llama2, GPT-4, e Google Gemini, têm sido utilizados para automatizar essas tarefas, melhorando a precisão e a eficiência, além de reduzir o tempo e o esforço necessários para a análise manual. A vasta gama de modelos BERT e LLMs, com diferentes tamanhos e requisitos computacionais, torna a otimização dessas tarefas de PLN um desafio. Este trabalho se propõe a realizar uma análise comparativa dos principais modelos encoder-only, como os derivados do BERT, e compará-los com modelos decoder-only, como o GPT, na extração de dados de documentos financeiros, especificamente do imposto de renda. Para isso, foram geradas bases de dados sintéticas com 1.000, 10.000 e 100.000 amostras. Após o fine-tuning em diversos modelos e a realização de 30 testes com dados reais, foram analisadas métricas como Precisão, Revocação, F1-Score e Acurácia, além de aspectos técnicos, como complexidade de implementação e hospedagem. Nos testes realizados, os LLMs Llama2 7B, GPT-4 e Gemini atingiram um resultado perfeito de extração de dados. Entre os modelos derivados do BERT, as versões multilíngue ou em português brasileiro apresentaram uma acurácia de 98% e F1-Score de 96,5% para o deBERTa Large, 98% e 96,5% para o deBERTa Base Multilíngue, 98% e 96,2% para o RoBERTa Base, 70,5% e 59,4% para o DistillBERT Base, 88,4% e 86,1% para o BERT Base Multilíngue, e 97% e 93,3% para o BERT Large. Concluindo assim, que o maior impacto no desempenho dos modelos se dá através da quantidade de amostras de treino. Com aproximadamente 10.000 amostras, os modelos BERT tornam-se competitivos em nível comercial ao comparado com as LLMs, oferecendo, contudo, com a vantagem em termos de custo de implementação ehospedagem.
  • Imprenta:

  • Download do texto completo

    Tipo Nome Link
    Versão Publicada Jean_Lourenço_da_Silva.p... Direct link
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      SILVA, Jean Lourenço. Análise comparativa de modelos derivados do BERT e LLMs para extração de dados em documentos de Imposto de Renda. 2024. Trabalho de Conclusão de Curso (MBA) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2024. Disponível em: https://bdta.abcd.usp.br/directbitstream/2983c72b-3520-4701-bd92-0b607ed8a71b/Jean_Louren%C3%A7o_da_Silva.pdf. Acesso em: 23 mar. 2025.
    • APA

      Silva, J. L. (2024). Análise comparativa de modelos derivados do BERT e LLMs para extração de dados em documentos de Imposto de Renda (Trabalho de Conclusão de Curso (MBA). Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos. Recuperado de https://bdta.abcd.usp.br/directbitstream/2983c72b-3520-4701-bd92-0b607ed8a71b/Jean_Louren%C3%A7o_da_Silva.pdf
    • NLM

      Silva JL. Análise comparativa de modelos derivados do BERT e LLMs para extração de dados em documentos de Imposto de Renda [Internet]. 2024 ;[citado 2025 mar. 23 ] Available from: https://bdta.abcd.usp.br/directbitstream/2983c72b-3520-4701-bd92-0b607ed8a71b/Jean_Louren%C3%A7o_da_Silva.pdf
    • Vancouver

      Silva JL. Análise comparativa de modelos derivados do BERT e LLMs para extração de dados em documentos de Imposto de Renda [Internet]. 2024 ;[citado 2025 mar. 23 ] Available from: https://bdta.abcd.usp.br/directbitstream/2983c72b-3520-4701-bd92-0b607ed8a71b/Jean_Louren%C3%A7o_da_Silva.pdf

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Biblioteca Digital de Trabalhos Acadêmicos da Universidade de São Paulo     2012 - 2025