Defesa de Dissertação de Leandro Figueiredo, dia 15/05/15, as 10:00, no CEAD.

Defesa de Dissertação de Leandro Neiva Lopes Figueiredo, dia 15/05/15, as 10:00, no CEAD.

Banca: Prof. Dr. Anderson Almeida Ferreira; Prof. Dr. Álvaro Rodrigues Pereira Junior; Prof. Dr. Guilherme Tavares de Assis; Prof. Dr. Altigran Soares da Silva.

Título: Um Metodo Baseado em Informações de Renderização para Extração de Dados de Páginas Web.

Resumo: A extração de dados de páginas web e uma importante tarefa para várias aplicações, como comparadores de preçcos, bibliotecas digitais e mineradores de dados. Grande parte dos dados necessários para essas aplicações e disponibilizada através de páginas de resultado de busca, onde cada resultado, chamado de search result record, representa um registro de um banco de dados. Um dos passos mais importantes para extrair esses registros é identi car, dentro as diferentes regiões de dados de uma página, aquela que contém os registros a serem extrados, ou seja, a principal região de dados. Uma identi cação errada dessa região pode resultar em uma extração incorreta dos search
result records. Outro passo importante é a detecção e a separação de cada registro dentro dessa principal região de dados, bem como de seus respectivos atributos. Nesse trabalho, é proposto um método que, baseado nas informações de renderização dos elementos da página de resultado de busca, seleciona a sua principal região de dados e extrai seus 0registros e atributos. Experimentos utilizando paginas de varios dominios de aplicação mostram que o metodo e efetivo e competitivo em relação a alguns métodos já existentes.

Departamento de Computação  |  ICEB  |  Universidade Federal de Ouro Preto
Campus Universitário Morro do Cruzeiro  |  CEP 35400-000  |  Ouro Preto - MG, Brasil
Telefone: +55 31 3559-1692  |  decom@ufop.edu.br