Predição da Função de Proteínas com Aprendizado de Máquina: Uma Análise da Competição CAFA 5 (2024)
- Authors:
- Autor USP: PEREIRA, NATÁLIA BACKHAUS - ICMC
- Unidade: ICMC
- Subjects: APRENDIZADO COMPUTACIONAL; REDES NEURAIS; BIOINFORMÁTICA
- Keywords: Predição da Função de Proteínas; CAFA 5; XGBoost; Word Embedding
- Language: Português
- Abstract: Proteínas são componentes fundamentais para o funcionamento dos seres vivos, visto que atuam em diversos processos biológicos, realizando diferentes funções. As informações de cada proteína, como a sua sequência de aminoácidos e as suas funções, são organizadas por meio da ontologia genética, a qual é estruturada com grafos hierárquicos. Essa ontologia categoriza as funções de uma proteína em três possíveis sub-ontologias: função molecular (MF), componente celular (CC) e processos biológicos (BP), em que uma proteína pode conter diversas funções em todas as sub-ontologias. Como o cenário de anotação das proteínas é muito complexo e a quantidade de novas proteínas sendo descobertas ocorre em uma velocidade alta, as pesquisas experimentais para determinar a função das proteínas não são capazes de catalogar todas elas em um tempo hábil. Com o intuito de aproximar as áreas de computação e de biologia, o grupo Function Community of Special Interest promove a competição Critical Assessment of protein Function Annotation 5 (CAFA 5) na plataforma Kaggle. A competição CAFA 5 tem como o objetivo descobrir os melhores modelos de aprendizado de máquina para predizer as funções de proteínas a partir da sua sequência de aminoácidos. Com base nos dados divulgados nessa competição, esse trabalho em questão desenvolveu dois modelos de aprendizado de máquina para predizer a função de mais de 140 mil proteínas diferentes. Para preparar os dados de input para os modelos, três word embeddings foram escolhidos: T5, EMS2 e ProtBERT. Além disso, os modelos escolhidos foram o XGBoost e a Rede Neural Artificial, em que as redes foram otimizadas e alcançaram performance melhor com o embedding T5.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2024
-
ABNT
PEREIRA, Natália Backhaus. Predição da Função de Proteínas com Aprendizado de Máquina: Uma Análise da Competição CAFA 5. 2024. Trabalho de Conclusão de Curso (MBA) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2024. Disponível em: https://bdta.abcd.usp.br/directbitstream/6c0a9d8e-607d-4770-abc3-62b4f4dcc384/Natalia_Backhaus_Pereira.pdf. Acesso em: 25 mar. 2025. -
APA
Pereira, N. B. (2024). Predição da Função de Proteínas com Aprendizado de Máquina: Uma Análise da Competição CAFA 5 (Trabalho de Conclusão de Curso (MBA). Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos. Recuperado de https://bdta.abcd.usp.br/directbitstream/6c0a9d8e-607d-4770-abc3-62b4f4dcc384/Natalia_Backhaus_Pereira.pdf -
NLM
Pereira NB. Predição da Função de Proteínas com Aprendizado de Máquina: Uma Análise da Competição CAFA 5 [Internet]. 2024 ;[citado 2025 mar. 25 ] Available from: https://bdta.abcd.usp.br/directbitstream/6c0a9d8e-607d-4770-abc3-62b4f4dcc384/Natalia_Backhaus_Pereira.pdf -
Vancouver
Pereira NB. Predição da Função de Proteínas com Aprendizado de Máquina: Uma Análise da Competição CAFA 5 [Internet]. 2024 ;[citado 2025 mar. 25 ] Available from: https://bdta.abcd.usp.br/directbitstream/6c0a9d8e-607d-4770-abc3-62b4f4dcc384/Natalia_Backhaus_Pereira.pdf
Download do texto completo
Tipo | Nome | Link | |
---|---|---|---|
Natalia_Backhaus_Pereira.... | Direct link |
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas