Exportar registro bibliográfico

Integrando grandes modelos de língua na modelagem de tópicos para o domínio jurídico (2024)

  • Authors:
  • Autor USP: LIMA, CLAUDIO HERNANDES SILVA - ICMC
  • Unidade: ICMC
  • Subjects: INTELIGÊNCIA ARTIFICIAL; APRENDIZADO COMPUTACIONAL; MINERAÇÃO DE DADOS
  • Keywords: Modelagem de tópicos; Domínio jurídico
  • Language: Português
  • Abstract: A crescente quantidade de documentos jurídicos gerados diariamente representa um desafio significativo para advogados, juízes e profissionais da área legal, que precisam processar, analisar e compreender grandes volumes de informações de maneira eficiente. A falta de ferramentas automatizadas capazes de organizar e classificar esses documentos com precisão e rapidez pode resultar em atrasos nos processos judiciais. Nesse sentido, este trabalho propõe uma metodologia que combina técnicas de extração de tópicos e classificação de textos no domínio jurídico, com foco em petições iniciais de processos cíveis. Foi desenvolvido e avaliado um pipeline de cinco etapas, desde a amostragem de dados até a classificação de novos documentos. Inicialmente, durante uma fase de treinamento, documentos jurídicos são amostrados e submetidos a um LLM (Large Language Model) para extração de tags representativas. Essas tags permitem extrair conhecimento relevante dos documentos jurídicos com base em prompts definidos pelo usuário. Em seguida, essas tags são vetorizadas usando embeddings gerados por um modelo SBERT e agrupadas utilizando o algoritmo k-Means. Cada grupo é mapeado para um tópico, nomeado pela LLM, o que já permite uma análise exploratória da organização dos documentos jurídicos. Além disso, os tópicos são organizados em níveis hierárquicos, permitindo uma estrutura de navegação dos documentos por similaridade semântica. Para lidar com o processamento em grande escala, novos documentos são pré-processados e classificados com base nesses tópicos, utilizando um modelo de fine-tuning do BERT, mais leve que uma LLM. Resultados experimentais em uma base de documentos reais indicam que a metodologia proposta é eficaz para a organização e análise de grandes volumes de documentos jurídicos, proporcionando uma ferramenta promissora para a organização automatizada de processos judiciais.
  • Imprenta:

  • Download do texto completo

    Tipo Nome Link
    Versão Publicada Cláudio_Hernandes_Silva_... Direct link
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      LIMA, Cláudio Hernandes Silva. Integrando grandes modelos de língua na modelagem de tópicos para o domínio jurídico. 2024. Trabalho de Conclusão de Curso (MBA) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2024. Disponível em: https://bdta.abcd.usp.br/directbitstream/e88f6ec8-04b2-4e53-91c8-aef289dc4ab4/Cl%C3%A1udio_Hernandes_Silva_Lima.pdf. Acesso em: 17 mar. 2025.
    • APA

      Lima, C. H. S. (2024). Integrando grandes modelos de língua na modelagem de tópicos para o domínio jurídico (Trabalho de Conclusão de Curso (MBA). Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos. Recuperado de https://bdta.abcd.usp.br/directbitstream/e88f6ec8-04b2-4e53-91c8-aef289dc4ab4/Cl%C3%A1udio_Hernandes_Silva_Lima.pdf
    • NLM

      Lima CHS. Integrando grandes modelos de língua na modelagem de tópicos para o domínio jurídico [Internet]. 2024 ;[citado 2025 mar. 17 ] Available from: https://bdta.abcd.usp.br/directbitstream/e88f6ec8-04b2-4e53-91c8-aef289dc4ab4/Cl%C3%A1udio_Hernandes_Silva_Lima.pdf
    • Vancouver

      Lima CHS. Integrando grandes modelos de língua na modelagem de tópicos para o domínio jurídico [Internet]. 2024 ;[citado 2025 mar. 17 ] Available from: https://bdta.abcd.usp.br/directbitstream/e88f6ec8-04b2-4e53-91c8-aef289dc4ab4/Cl%C3%A1udio_Hernandes_Silva_Lima.pdf

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Biblioteca Digital de Trabalhos Acadêmicos da Universidade de São Paulo     2012 - 2025