Identificação de componentes usualmente presentes em páginas web (2022)
- Authors:
- Autor USP: LOURENCO, ALON MOTA - ICMC
- Unidade: ICMC
- Subjects: INTELIGÊNCIA ARTIFICIAL; MINERAÇÃO DE DADOS; SISTEMAS DE INFORMAÇÃO
- Language: Português
- Abstract: A web consiste em um conjunto de documentos em hipertexto que são interligados, os quais também são chamados de páginas web. As páginas web e suas funcionalidades, ou componentes, impactam no funcionamento do mundo real. Por exemplo, as páginas que uma empresa disponibiliza bem como os componentes presentes nessas páginas podem ser a diferença entre o sucesso e o fracasso da empresa. Neste sentido, surge a necessidade de se identificar quais componentes uma página web deve englobar, de forma que esses componentes estejam presentes quando uma nova página web for projetada ou atualizada. Neste trabalho de conclusão de curso, aborda-se esse desafio. Para tanto, foi desenvolvida uma metodologia composta das seguintes etapas. Primeiramente, foi identificado um conjunto de páginas web que possuem muitos acessos. Depois, foi desenvolvido um web-crawler com o objetivo de obter o código fonte dessas páginas web. Na sequência, o código fonte de cada página foi transformado em uma imagem correspondente. As imagens geradas foram então fragmentadas e manipuladas por uma rede neural convolucional, a qual extraiu os vetores de características dos fragmentos e viabilizou o agrupamento dos fragmentos em diferentes grupos de acordo com o algoritmo k-means. Por fim, as características dos agrupamentos gerados foram analisadas. Os resultados obtidos possibilitaram a identificação de componentes usualmente encontrados em páginas web, como barras de pesquisa, menus verticais de navegação, lista de opções e tabelas, dentre outros.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2022
-
ABNT
LOURENÇO, Alon Mota. Identificação de componentes usualmente presentes em páginas web. 2022. Trabalho de Conclusão de Curso (MBA) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2022. Disponível em: https://bdta.abcd.usp.br/directbitstream/354ff1de-a759-4a02-b5e9-a2838954b141/Alon%20Lourenco_tese_mba_ia_bd_alon%20%282%29_206829.pdf. Acesso em: 22 mar. 2025. -
APA
Lourenço, A. M. (2022). Identificação de componentes usualmente presentes em páginas web (Trabalho de Conclusão de Curso (MBA). Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos. Recuperado de https://bdta.abcd.usp.br/directbitstream/354ff1de-a759-4a02-b5e9-a2838954b141/Alon%20Lourenco_tese_mba_ia_bd_alon%20%282%29_206829.pdf -
NLM
Lourenço AM. Identificação de componentes usualmente presentes em páginas web [Internet]. 2022 ;[citado 2025 mar. 22 ] Available from: https://bdta.abcd.usp.br/directbitstream/354ff1de-a759-4a02-b5e9-a2838954b141/Alon%20Lourenco_tese_mba_ia_bd_alon%20%282%29_206829.pdf -
Vancouver
Lourenço AM. Identificação de componentes usualmente presentes em páginas web [Internet]. 2022 ;[citado 2025 mar. 22 ] Available from: https://bdta.abcd.usp.br/directbitstream/354ff1de-a759-4a02-b5e9-a2838954b141/Alon%20Lourenco_tese_mba_ia_bd_alon%20%282%29_206829.pdf
Download do texto completo
Tipo | Nome | Link | |
---|---|---|---|
Alon Lourenco_tese_mba_ia... | Direct link |
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas