Uma proposta de arquitetura paralela de rede neural convolucional para detecção de padrões em sequências de DNA (2024)
- Authors:
- Autor USP: TEODOSIO, DANIEL FERREIRA - ICMC
- Unidade: ICMC
- Subjects: APRENDIZADO COMPUTACIONAL; REDES NEURAIS; GENÉTICA
- Keywords: Identificação de padrões
- Language: Português
- Abstract: A informação genética dos seres vivos, responsável por determinar suas características, está quimicamente codificada em sequências de bases nitrogenadas no núcleo celular, o DNA. Tal informação é transcrita em RNA e traduzida em aminoácidos no citoplasma celular. Os padrões contidos no DNA ou no RNA, que contêm informação útil, seja informação genética ou padrões que servem a propósitos estruturais no processo de transcrição e tradução da informação genética, são, por vezes, demasiadamente complexos e variam em forma e tamanho. Sendo assim, métodos de aprendizado profundo podem ser um caminho eficaz na identificação e classificação de padrões em sequêcias de DNA. Este trabalho apresenta uma proposta de identificação de padrões em sequências de DNA, usando como base, redes neurais convolucionais em uma arquitetura paralela, de forma a extrair com base em diferentes representações de uma mesma amostra de um conjunto de treino, características que uma vez concatenadas, possam se complementar e melhorar o processo de classificação pela camada densa. Os datasets utilizados neste trabalho são constituídos de sequencias formadas pelos caracteres A, C, T, G, representando as quatro bases nitrogendadas que formam o DNA e para cada sequência podem ser atribuídas duas classes, conter ou não conter determinado padrão. Como forma de transformar uma sequência de DNA em uma matriz de forma a preservar os padrões posicionais úteis no processo de classificação das amostras pela rede convolucional, foram extraídas subsequências, para cada sequência de DNA, sendo que tais subsequências foram organizadas em forma de colunas e depois substituídas por um vetor binário denso, tomando a forma de uma matriz binária.As diferentes representações de cada matriz numérica, representante de um elemento transformado do dataset, dizem respeito aos diferentes tamanhos da janela de convolução que os diferentes segmentos da arquitetura convolucional paralela proposta possuem na sua primeira camada convolucional, portanto se trata de uma análise com base em diferentes tamanhos de janela de convolução na entrada da rede. Foram feitos experimentos treinando variações da arquitetura proposta, no que diz respeito ao número de segmentos paralelos, e também foram feitos experimentos com segmentos sequênciais componentes da arquitetura em questão, de forma a extrair para uma dada implementação, o valor da média de múltiplos experimentos de métricas úteis para avaliação do classificador, como acurácia, F1-score, precisão e revocação, além de valores referentes a média de tempo por época necessários para treinar cada implementação e a média da quantidade de RAM alocada durante o treinamento. Os experimentos foram feitos para dois datasets diferentes e, para ambos, as arquiteturas paralelas, com diferentes números de segmentos, obtiveram, na maioria das vezes, um melhor resultado de acurácia, em relação aos segmentos isolados que as compunham. Além disso os melhores resultados gerais para cada dataset, foram obtidos com alguma variação da arquitetura paralela proposta. Porém a quantidade de memória alocada durante o treino e o tempo necessário para o treino da rede, cresceram linearmente em relação ao número de segmentos paralelos e os experimentos não mostram uma correlação direta entre o número de segmentos paralelos e a qualidade do classificador.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2024
-
ABNT
TEODOSIO, Daniel Ferreira. Uma proposta de arquitetura paralela de rede neural convolucional para detecção de padrões em sequências de DNA. 2024. Trabalho de Conclusão de Curso (MBA) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2024. Disponível em: https://bdta.abcd.usp.br/directbitstream/74fb009e-6790-4e5a-b59b-0f307acd5eb5/Daniel_Ferreira_Teodosio.pdf. Acesso em: 22 mar. 2025. -
APA
Teodosio, D. F. (2024). Uma proposta de arquitetura paralela de rede neural convolucional para detecção de padrões em sequências de DNA (Trabalho de Conclusão de Curso (MBA). Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos. Recuperado de https://bdta.abcd.usp.br/directbitstream/74fb009e-6790-4e5a-b59b-0f307acd5eb5/Daniel_Ferreira_Teodosio.pdf -
NLM
Teodosio DF. Uma proposta de arquitetura paralela de rede neural convolucional para detecção de padrões em sequências de DNA [Internet]. 2024 ;[citado 2025 mar. 22 ] Available from: https://bdta.abcd.usp.br/directbitstream/74fb009e-6790-4e5a-b59b-0f307acd5eb5/Daniel_Ferreira_Teodosio.pdf -
Vancouver
Teodosio DF. Uma proposta de arquitetura paralela de rede neural convolucional para detecção de padrões em sequências de DNA [Internet]. 2024 ;[citado 2025 mar. 22 ] Available from: https://bdta.abcd.usp.br/directbitstream/74fb009e-6790-4e5a-b59b-0f307acd5eb5/Daniel_Ferreira_Teodosio.pdf
Download do texto completo
Tipo | Nome | Link | |
---|---|---|---|
Daniel_Ferreira_Teodosio.... | Direct link |
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas