Rosa Virginia Encinas Quille Orientador: Prof. Dr. José Fernando Rodrigues Junior

Análise de Dados Multi-Relacional Suportada por Técnicas de Pré-processamento de texto e Decomposição por Valor Singular Rosa Virginia EncinasQuille Orientador: Prof. Dr. José Fernando Rodrigues Junior

Roteiro • Introdução • SVD • Análise espectral de grafos • Técnicas de processamento de texto • Metodologia desenvolvida e seus resultados • Conclusões

Introdução Bases de dados relacionais

IntroduçãoDomínio de dados DBLP

IntroduçãoMotivação Instituição Grupo 1 N Participa Participa Participa M M M N M N Autor M Palavra chave Artigo N M N Área (tema) Participa Participa Participa M N Participa Participa 1 N 1 Evento Veículo 1 Participa

IntroduçãoDescoberta de padrões e tomada de decisão Classificação Ordem Hipóteses Identificar os padrões Agrupamento Exceção Tomada de decisões

IntroduçãoObjetivos • Investigar e desenvolver soluções em mineração de dados  metodologia analítica • Decomposição por Valor Singular e Técnicas de pré-processamento de texto  Análise exploratória de múltiplas relações.

SVDLinha de evolução • Eugenio Beltrami (1873) • Camille Jordan (1874) • James Joseph Sylvester (1889) • Erhard Schmidt (1907) • Hermann Weyl (1912) • Gene Golub (1970) – Low-rankapproximation

SVDSingular ValueDecomposition T • É uma matriz definida como ASV

SVDLow-rankapproximation • Conjuntos de dados densos e esparsos • Problemas: • grandes matrizes  complexidade em tempo e espaço • dimensionalidade aparentemente alta  na verdade, baixa dimensionalidade intrínseca

SVDLow-rankapproximation • As ações pelas quais se usam as decomposições são: • Remoção de ruído • Poupar espaço • Descrição de dados Tabela1: Técnicas de aproximações mais populares de decomposição.

SVDExemplo de SVD A1 Autor A1 A2 A3 A4 A5 A6 A7 A2 Autor A1 A3 A2 A4 A3 A4 A5 A5 A6 A6 A7 A7

SVDExemplo de SVD

Trabalhos relacionados - SVDExemplo de SVD Começamos a partir de um grafo Professores Eventos 1 2 3 KDD 5 1 2 4 7 CIKM 1 5 6 3 15 7 2 ACMGIS 9 4 4 8 CVPR 5 6 2 9 1 AAAI 6 3 1 5 2 2 6 7 ICML 2 Matriz de adjacência

Exemplo de SVD Segundo Fukunaga, é suficiente que mantenha o número de valores Singulares que totalize entre o 80% e 90%, da energia pelo sumatório Dos quadrados dos valores singulares.

Análise espectral de grafos • Entidades como vértices e os relacionamentos como arestas. • A partir disso vai se trabalhar com derivação dos relacionamentos junto à análise de propriedades dos grafos

Análise espectral de grafosDerivação de Relacionamentos • “Um autor publica vários artigos, os quais possuem múltiplos autores“. A1 A2 A3

Análise espectral de grafosDerivação de Relacionamentos • “Um autor publica vários artigos, os quais possuem múltiplos autores“. Grafo bipartido: n m Autor-Artigos 1 Autor Artigos 1 1,A1 1 2 3 4 1,A2 A1 1,A3 A2 2,A1 2,A2 A3 3,A1 3,A3 4,A1 4,A2 A B 4,A3 R

Análise espectral de grafosDerivação de Relacionamentos • “Um autor publica vários artigos, os quais possuem múltiplos autores“. Grafo bipartido: Autores Artigos 1,A1 1 A1 1,A2 1,A3 2,A1 2 2,A2 A2 3,A1 4,A1 3 3,A3 4,A2 A3 4 4,A3 G W X W={1,2,3,4} X={A1,A2,A3} E={(1,A1);(1,A2) ;(1,A3) ;(2,A1) ;(2,A2) ;(3,A1) ;(3,A3) ;(4,A1) ;(4,A2) ;(4,A3)}

Análise espectral de grafosDerivação de Relacionamentos • co-autores, em álgebra relacional: Cálculo a partir do: Novo grafo: / Tal que: Autores Artigos 1 1,A1 A1 1,A2 2,A1 2,A1 1,A3 Y 2 2 2,A2 A2 f={y,z} 3,A1 3,A1 4,A1 3,A3 3 3 4,A2 A3 4,A3 G 4 X W E={(1,A1);(1,A2) ;(1,A3) ;(2,A1) ;(2,A2) ;(3,A1) ;(3,A3) ;(4,A1) ;(4,A2) ;(4,A3)}

Análise espectral de grafosDerivação de Relacionamentos O grafo H “conectados por caminho de tamanho 2”, sub-conjunto do produto cartesiano de WxW. WxW={(1,1);(1,2);(1,3); (1,4); (2,1);(2,2);(2,3); (2,4),;(3,1);(3,2);(3,3); (3,4); (4,1);(4,2);(4,3); (4,4)} Autores Artigos 1 1,A1 A1 1,A2 2,A1 2,A1 1,A3 Y 2 2 2,A2 A2 f={y,z} 3,A1 3,A1 4,A1 H 3,A3 3 3 4,A2 A3 4,A3 G 4 X W E={(1,A1);(1,A2) ;(1,A3) ;(2,A1) ;(2,A2) ;(3,A1) ;(3,A3) ;(4,A1) ;(4,A2) ;(4,A3)}

Análise espectral de grafosExemplo de SVD baseado em grafo Grafo exemplo - relacionamento “professor participa de evento” muitos-para muitos entre instâncias de professores e instâncias de eventos. Os pesos das arestas indicam quantas participações de um dado professor em um dado evento.

Análise espectral de grafosExemplo de SVD baseado em grafo T A V U S mxn mxr rxr rxn k=1 k=2 k=6

Técnicas de processamento de textoTratamento com textos Pré-processamento para os títulos

Técnicas de processamento de textoTokenização

Técnicas de processamento de textoEliminação de stopwords As palavras   Irrelevantes

Técnicas de processamento de textoSteamming • Palavra  stem • Eliminados afixos de derivação ou de flexão Pedra (palavra primitiva)-eira (afixo)pedra + eira = PEDREIRA (palavra derivada de pedra, que tem um significado próprio, diferente de sua palavra de origem) 

Técnicas de processamento de textoTratamento com textos • Índice de distribuição de Theil • O índice varia entre 0 a 1; • 0 corresponde à menor concentração; • 1 corresponde à maior concentração.

Técnicas de processamento de textoPrincipio de Pareto 80% 20%

Técnicas de processamento de textoA curva de Zipf e os cortes de Luhn A curva de Zipf e os cortes de Luhn

Metodologia desenvolvida e seus resultadosDescrição da Metodologia Desenvolvida • A metodologia desenvolvida compreende-se em sete passos. • Pré-processamento e limpeza de dados; • Modelagem de dados; • Transformação relacional; • Seleção de dados; • Processamento SVD; • Análise de dados; • Avaliação e interpretação.

Metodologia desenvolvida e seus resultadosDescrição da Metodologia Desenvolvida Metodologia Desenvolvida

Metodologia desenvolvida e seus resultados Pré-processamento e limpeza de dados • Pré-processamento e limpeza de dados  conversão de caracteres ASCII, tokenização, remoção de stopwords e stemming de termos • DBLP estão cheios de redundâncias, falta de conformidade, não-homogeneidade e ruído. • Aplicadas aos títulos, nomes de autores, eventos e veículos dos jornais. • Conversão de caracteres ASCII, tokenização, remoção de stopwords, e decorrente.

Metodologia desenvolvida e seus resultados Modelagem de dados e transformação relacional • A DBLP está disponível em formato semi-estruturado XML; • Descreve-se a DBLP como um modelo entidade-relacionamento, transformando-o ainda mais em um banco de dados relacional. Modelo entidade- relação da DBLP

Metodologia desenvolvida e seus resultados Seleção de dados Entidades envolvidas no análise • Estes números são de processamento algébrico bastante grande, portanto, filtra-se através da análise de sua distribuição.

Metodologia desenvolvida e seus resultados Seleção de autores (a) (b) Distribuição dos autores-artigos. (a) número de artigos x número de autores. (b) Rank-plot sobre o índice do autor x número de artigos. • O gráfico mostra uma distribuição de cauda longa em que a maioria dos autores não tem mais de 22 artigos essa porção corresponde a 1016354 autores.

Metodologia desenvolvida e seus resultados Seleção de termos • Artigos carregam mais informação do que simplesmente definindo instâncias; todos eles têm um título composto por um conjunto de termos semânticos.

Metodologia desenvolvida e seus resultados Experimentos com SVD para a detecção de comunidades • Para os experimentos, usam-se conjuntos de dados de eventos(todas as conferências e workshops), veículos(todas as conferências, workshops e revistas), autores e termos. Com estes conjuntos de entidades, foram considerados três casos experimentais.

Metodologia desenvolvida e seus resultados Caso 1: Termos (Theil) x Veículos Scree-plot dos níveis de energia da SVD de Termos (com Theil) x Veículos

Metodologia desenvolvida e seus resultados Caso 1: Termos (Theil) x Veículos Termos (com Theil) x Veículos -- termos mais importantes (mais alto score) em 6 comunidades principais.

Metodologia desenvolvida e seus resultados Caso 1: Termos (Theil) x Veículos Termos (Theil-only) x Veículos -- dois veículos como áreas de especialidade - segunda e terceira comunidades.

Metodologia desenvolvida e seus resultados Caso 1: Termos (Theil) x Veículos • Nota-se, no entanto, que a análise realizada, neste caso, não contava com um corte adequado dos termos; • Este fato levou a um pequeno número de comunidades e para alguns grandes temas de investigação; • Isto deveu-se ao fato de que muitos termos comuns estão poluindo a análise SVD, a qual ficou com informações semanticamente pobres. • É a afirmação de que uma seleção mais fina de termos, como conseguido usando-se a teoria de Luhn, pode melhorar significativamente os resultados analíticos da SVD. Este fato é demonstrado na próxima seção.

Metodologia desenvolvida e seus resultados Caso 2: Termos (Luhn) x Veículos (Luhn) Scree-plot dos níveis de energia da SVD para os Termos (Luhn) x Veículos.

Metodologia desenvolvida e seus resultados Caso 2: Termos (Luhn) x Veículos (Luhn) Termos (Luhn) x Veículos (Luhn) -- termos mais frequentes em 6 comunidades.

Metodologia desenvolvida e seus resultados Caso 2: Termos (Luhn) x Veículos (Luhn) Termos (Luhn) x Veículos (Luhn) -- as seis principais conferências e revistas na segunda e 16a. comunidades.

Metodologia desenvolvida e seus resultados Caso 2: Termos (Luhn) x Veículos (Luhn) • Neste segundo experimento  foi possível observar que o processamento SVD foi significativamente melhorado pela seleção de termos com base na filtragem semântica. • As comunidades  mais bem caracterizadas tanto em termos quanto em veículos, proporcionando um panorama interessante da pesquisa em ciência da computação.

Rosa Virginia Encinas Quille Orientador: Prof. Dr. José Fernando Rodrigues Junior

Rosa Virginia Encinas Quille Orientador: Prof. Dr. José Fernando Rodrigues Junior

Presentation Transcript

escola estadual jos barbosa rodrigues

Disciplina: Metodologia Cient fica Prof.: Dr. Jos Alcides Gobbo Jr.

Doutoranda:Rosilene Calazans Soares Orientador: Prof. Titular Dr. Leão Pereira Pinto

PROF. JOS AUGUSTO FIORIN

Orientador : Dr. Paulo R. Margotto

Prof. Esp. Fernando Barreto

Por Vadeilza Castilho de Araújo Bernert Email:vadeilzacastilho@gmail.com Orientador Prof. Drd. Sérgio Rodrigues Alves –

Revisión bibliográfica Dr. Fernando Osorio Prof. Dr. Luis García Guido

Luis Gustavo Carvalho Pacheco Orientador: Prof. Dr. Vasco Azevedo Co-Orientador: Prof. Dr. Alan Lane de Melo

Prof. Dr. Fernando de Toro

INTERTEXTUALIDADE Prof. Vinicius Rodrigues

Renata Rodrigues Santos Valois ( GRA) Orientador: Prof. Dr. Adeilton Pereira Maciel

Orientador: Prof. Eng , Msc . Luciano Duque

Prof. Fernando D’Angelo

Apresentação: Cintia Rabelo da Rocha Orientador: Prof. Dr. Roberto Fernando da Fonseca Lyra

Prof. Gilberto Junior

DIP – 2014.1 – Prof. Gilberto Rodrigues

Hamer Nastasy Palhares Alves Orientador: Prof. Dr. Luiz Antônio Nogueira-Martins Co-orientador:

Prof. Dr. Fernando Aith

Santa Rosa Junior College Student Center Santa Rosa, California

Prof. Dr. Fernando Zacarías Flores

Prof. Arimateia Junior