Análise comparativa de redes profundas para reconhecimento automático de fala em português (2022)
- Authors:
- Autor USP: LOPES FILHO, ANTONIO ALVES - ICMC
- Unidade: ICMC
- Subjects: INTELIGÊNCIA ARTIFICIAL; PROCESSAMENTO DE IMAGENS; APRENDIZADO COMPUTACIONAL
- Language: Português
- Abstract: Reconhecimento automático de fala é um processo que visa gerar uma saída em texto a partir de uma entrada em áudio. Mecanismos de inteligência artificial tem sido empregados de forma efetiva como soluções para esta tarefa, com diferentes abordagens baseadas em redes profundas. Wav2Vec2 é uma arquitetura fundamentada nos conceitos de mecanismos de atenção e Transformers, enquanto DeepSpeech2/CoquiSTT é construída usando redes recorrentes, LSTM e GRU. Contudo, essas arquiteturas foram projetadas e validadas inicialmente na língua inglesa. Sendo assim, torna-se pertinente a avaliação dessas arquiteturas para dados em língua portuguesa. Para essa avaliação foi utilizado um conjunto de dados público, Common Voice, e outro particular, coletado e catalogado manualmente. De forma geral, Wav2Vec2 superou a performance da arquitetura DeepSpeech2/CoquiSTT em todos os resultados, inclusive quando aplicado ruídos para dificultar a performance. Assim, é notável que o modelo Wav2Vec2 é mais adaptável para sistemas comerciais por ter um melhor desempenho mesmo treinando com poucos dados e por ser menos complexo na quantidade de parâmetros treináveis.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2022
-
ABNT
LOPES FILHO, Antonio Alves. Análise comparativa de redes profundas para reconhecimento automático de fala em português. 2022. Trabalho de Conclusão de Curso (MBA) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2022. Disponível em: https://bdta.abcd.usp.br/directbitstream/7716b2eb-7006-4fa2-b06c-a858bd42691d/Antonio%20Alves_TCC_ASR_COMPARISON_OFICIAL%20%287%29_207623.pdf. Acesso em: 28 mar. 2025. -
APA
Lopes Filho, A. A. (2022). Análise comparativa de redes profundas para reconhecimento automático de fala em português (Trabalho de Conclusão de Curso (MBA). Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos. Recuperado de https://bdta.abcd.usp.br/directbitstream/7716b2eb-7006-4fa2-b06c-a858bd42691d/Antonio%20Alves_TCC_ASR_COMPARISON_OFICIAL%20%287%29_207623.pdf -
NLM
Lopes Filho AA. Análise comparativa de redes profundas para reconhecimento automático de fala em português [Internet]. 2022 ;[citado 2025 mar. 28 ] Available from: https://bdta.abcd.usp.br/directbitstream/7716b2eb-7006-4fa2-b06c-a858bd42691d/Antonio%20Alves_TCC_ASR_COMPARISON_OFICIAL%20%287%29_207623.pdf -
Vancouver
Lopes Filho AA. Análise comparativa de redes profundas para reconhecimento automático de fala em português [Internet]. 2022 ;[citado 2025 mar. 28 ] Available from: https://bdta.abcd.usp.br/directbitstream/7716b2eb-7006-4fa2-b06c-a858bd42691d/Antonio%20Alves_TCC_ASR_COMPARISON_OFICIAL%20%287%29_207623.pdf
Download do texto completo
Tipo | Nome | Link | |
---|---|---|---|
Antonio Alves_TCC_ASR_COM... | Direct link |
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas