570 likes | 770 Views
Análise de Dados Multi-Relacional Suportada por Técnicas de Pré-processamento de texto e Decomposição por Valor Singular. Rosa Virginia Encinas Quille Orientador: Prof. Dr. José Fernando Rodrigues Junior. Roteiro. Introdução SVD Análise espectral de grafos
E N D
Análise de Dados Multi-Relacional Suportada por Técnicas de Pré-processamento de texto e Decomposição por Valor Singular Rosa Virginia EncinasQuille Orientador: Prof. Dr. José Fernando Rodrigues Junior
Roteiro • Introdução • SVD • Análise espectral de grafos • Técnicas de processamento de texto • Metodologia desenvolvida e seus resultados • Conclusões
Introdução Bases de dados relacionais
IntroduçãoMotivação Instituição Grupo 1 N Participa Participa Participa M M M N M N Autor M Palavra chave Artigo N M N Área (tema) Participa Participa Participa M N Participa Participa 1 N 1 Evento Veículo 1 Participa
IntroduçãoDescoberta de padrões e tomada de decisão Classificação Ordem Hipóteses Identificar os padrões Agrupamento Exceção Tomada de decisões
IntroduçãoObjetivos • Investigar e desenvolver soluções em mineração de dados metodologia analítica • Decomposição por Valor Singular e Técnicas de pré-processamento de texto Análise exploratória de múltiplas relações.
Roteiro • Introdução • SVD • Análise espectral de grafos • Técnicas de processamento de texto • Metodologia desenvolvida e seus resultados • Conclusões
SVDLinha de evolução • Eugenio Beltrami (1873) • Camille Jordan (1874) • James Joseph Sylvester (1889) • Erhard Schmidt (1907) • Hermann Weyl (1912) • Gene Golub (1970) – Low-rankapproximation
SVDSingular ValueDecomposition T • É uma matriz definida como ASV
SVDLow-rankapproximation • Conjuntos de dados densos e esparsos • Problemas: • grandes matrizes complexidade em tempo e espaço • dimensionalidade aparentemente alta na verdade, baixa dimensionalidade intrínseca
SVDLow-rankapproximation • As ações pelas quais se usam as decomposições são: • Remoção de ruído • Poupar espaço • Descrição de dados Tabela1: Técnicas de aproximações mais populares de decomposição.
SVDExemplo de SVD A1 Autor A1 A2 A3 A4 A5 A6 A7 A2 Autor A1 A3 A2 A4 A3 A4 A5 A5 A6 A6 A7 A7
Trabalhos relacionados - SVDExemplo de SVD Começamos a partir de um grafo Professores Eventos 1 2 3 KDD 5 1 2 4 7 CIKM 1 5 6 3 15 7 2 ACMGIS 9 4 4 8 CVPR 5 6 2 9 1 AAAI 6 3 1 5 2 2 6 7 ICML 2 Matriz de adjacência
Exemplo de SVD Segundo Fukunaga, é suficiente que mantenha o número de valores Singulares que totalize entre o 80% e 90%, da energia pelo sumatório Dos quadrados dos valores singulares.
Roteiro • Introdução • SVD • Análise espectral de grafos • Técnicas de processamento de texto • Metodologia desenvolvida e seus resultados • Conclusões
Análise espectral de grafos • Entidades como vértices e os relacionamentos como arestas. • A partir disso vai se trabalhar com derivação dos relacionamentos junto à análise de propriedades dos grafos
Análise espectral de grafosDerivação de Relacionamentos • “Um autor publica vários artigos, os quais possuem múltiplos autores“. A1 A2 A3
Análise espectral de grafosDerivação de Relacionamentos • “Um autor publica vários artigos, os quais possuem múltiplos autores“. Grafo bipartido: n m Autor-Artigos 1 Autor Artigos 1 1,A1 1 2 3 4 1,A2 A1 1,A3 A2 2,A1 2,A2 A3 3,A1 3,A3 4,A1 4,A2 A B 4,A3 R
Análise espectral de grafosDerivação de Relacionamentos • “Um autor publica vários artigos, os quais possuem múltiplos autores“. Grafo bipartido: Autores Artigos 1,A1 1 A1 1,A2 1,A3 2,A1 2 2,A2 A2 3,A1 4,A1 3 3,A3 4,A2 A3 4 4,A3 G W X W={1,2,3,4} X={A1,A2,A3} E={(1,A1);(1,A2) ;(1,A3) ;(2,A1) ;(2,A2) ;(3,A1) ;(3,A3) ;(4,A1) ;(4,A2) ;(4,A3)}
Análise espectral de grafosDerivação de Relacionamentos • co-autores, em álgebra relacional: Cálculo a partir do: Novo grafo: / Tal que: Autores Artigos 1 1,A1 A1 1,A2 2,A1 2,A1 1,A3 Y 2 2 2,A2 A2 f={y,z} 3,A1 3,A1 4,A1 3,A3 3 3 4,A2 A3 4,A3 G 4 X W E={(1,A1);(1,A2) ;(1,A3) ;(2,A1) ;(2,A2) ;(3,A1) ;(3,A3) ;(4,A1) ;(4,A2) ;(4,A3)}
Análise espectral de grafosDerivação de Relacionamentos O grafo H “conectados por caminho de tamanho 2”, sub-conjunto do produto cartesiano de WxW. WxW={(1,1);(1,2);(1,3); (1,4); (2,1);(2,2);(2,3); (2,4),;(3,1);(3,2);(3,3); (3,4); (4,1);(4,2);(4,3); (4,4)} Autores Artigos 1 1,A1 A1 1,A2 2,A1 2,A1 1,A3 Y 2 2 2,A2 A2 f={y,z} 3,A1 3,A1 4,A1 H 3,A3 3 3 4,A2 A3 4,A3 G 4 X W E={(1,A1);(1,A2) ;(1,A3) ;(2,A1) ;(2,A2) ;(3,A1) ;(3,A3) ;(4,A1) ;(4,A2) ;(4,A3)}
Análise espectral de grafosExemplo de SVD baseado em grafo Grafo exemplo - relacionamento “professor participa de evento” muitos-para muitos entre instâncias de professores e instâncias de eventos. Os pesos das arestas indicam quantas participações de um dado professor em um dado evento.
Análise espectral de grafosExemplo de SVD baseado em grafo T A V U S mxn mxr rxr rxn k=1 k=2 k=6
Roteiro • Introdução • SVD • Análise espectral de grafos • Técnicas de processamento de texto • Metodologia desenvolvida e seus resultados • Conclusões
Técnicas de processamento de textoTratamento com textos Pré-processamento para os títulos
Técnicas de processamento de textoEliminação de stopwords As palavras Irrelevantes
Técnicas de processamento de textoSteamming • Palavra stem • Eliminados afixos de derivação ou de flexão Pedra (palavra primitiva)-eira (afixo)pedra + eira = PEDREIRA (palavra derivada de pedra, que tem um significado próprio, diferente de sua palavra de origem)
Técnicas de processamento de textoTratamento com textos • Índice de distribuição de Theil • O índice varia entre 0 a 1; • 0 corresponde à menor concentração; • 1 corresponde à maior concentração.
Técnicas de processamento de textoPrincipio de Pareto 80% 20%
Técnicas de processamento de textoA curva de Zipf e os cortes de Luhn A curva de Zipf e os cortes de Luhn
Roteiro • Introdução • SVD • Análise espectral de grafos • Técnicas de processamento de texto • Metodologia desenvolvida e seus resultados • Conclusões
Metodologia desenvolvida e seus resultadosDescrição da Metodologia Desenvolvida • A metodologia desenvolvida compreende-se em sete passos. • Pré-processamento e limpeza de dados; • Modelagem de dados; • Transformação relacional; • Seleção de dados; • Processamento SVD; • Análise de dados; • Avaliação e interpretação.
Metodologia desenvolvida e seus resultadosDescrição da Metodologia Desenvolvida Metodologia Desenvolvida
Metodologia desenvolvida e seus resultados Pré-processamento e limpeza de dados • Pré-processamento e limpeza de dados conversão de caracteres ASCII, tokenização, remoção de stopwords e stemming de termos • DBLP estão cheios de redundâncias, falta de conformidade, não-homogeneidade e ruído. • Aplicadas aos títulos, nomes de autores, eventos e veículos dos jornais. • Conversão de caracteres ASCII, tokenização, remoção de stopwords, e decorrente.
Metodologia desenvolvida e seus resultados Modelagem de dados e transformação relacional • A DBLP está disponível em formato semi-estruturado XML; • Descreve-se a DBLP como um modelo entidade-relacionamento, transformando-o ainda mais em um banco de dados relacional. Modelo entidade- relação da DBLP
Metodologia desenvolvida e seus resultados Seleção de dados Entidades envolvidas no análise • Estes números são de processamento algébrico bastante grande, portanto, filtra-se através da análise de sua distribuição.
Metodologia desenvolvida e seus resultados Seleção de autores (a) (b) Distribuição dos autores-artigos. (a) número de artigos x número de autores. (b) Rank-plot sobre o índice do autor x número de artigos. • O gráfico mostra uma distribuição de cauda longa em que a maioria dos autores não tem mais de 22 artigos essa porção corresponde a 1016354 autores.
Metodologia desenvolvida e seus resultados Seleção de termos • Artigos carregam mais informação do que simplesmente definindo instâncias; todos eles têm um título composto por um conjunto de termos semânticos.
Metodologia desenvolvida e seus resultados Experimentos com SVD para a detecção de comunidades • Para os experimentos, usam-se conjuntos de dados de eventos(todas as conferências e workshops), veículos(todas as conferências, workshops e revistas), autores e termos. Com estes conjuntos de entidades, foram considerados três casos experimentais.
Metodologia desenvolvida e seus resultados Caso 1: Termos (Theil) x Veículos Scree-plot dos níveis de energia da SVD de Termos (com Theil) x Veículos
Metodologia desenvolvida e seus resultados Caso 1: Termos (Theil) x Veículos Termos (com Theil) x Veículos -- termos mais importantes (mais alto score) em 6 comunidades principais.
Metodologia desenvolvida e seus resultados Caso 1: Termos (Theil) x Veículos Termos (Theil-only) x Veículos -- dois veículos como áreas de especialidade - segunda e terceira comunidades.
Metodologia desenvolvida e seus resultados Caso 1: Termos (Theil) x Veículos • Nota-se, no entanto, que a análise realizada, neste caso, não contava com um corte adequado dos termos; • Este fato levou a um pequeno número de comunidades e para alguns grandes temas de investigação; • Isto deveu-se ao fato de que muitos termos comuns estão poluindo a análise SVD, a qual ficou com informações semanticamente pobres. • É a afirmação de que uma seleção mais fina de termos, como conseguido usando-se a teoria de Luhn, pode melhorar significativamente os resultados analíticos da SVD. Este fato é demonstrado na próxima seção.
Metodologia desenvolvida e seus resultados Caso 2: Termos (Luhn) x Veículos (Luhn) Scree-plot dos níveis de energia da SVD para os Termos (Luhn) x Veículos.
Metodologia desenvolvida e seus resultados Caso 2: Termos (Luhn) x Veículos (Luhn) Termos (Luhn) x Veículos (Luhn) -- termos mais frequentes em 6 comunidades.
Metodologia desenvolvida e seus resultados Caso 2: Termos (Luhn) x Veículos (Luhn) Termos (Luhn) x Veículos (Luhn) -- as seis principais conferências e revistas na segunda e 16a. comunidades.
Metodologia desenvolvida e seus resultados Caso 2: Termos (Luhn) x Veículos (Luhn) • Neste segundo experimento foi possível observar que o processamento SVD foi significativamente melhorado pela seleção de termos com base na filtragem semântica. • As comunidades mais bem caracterizadas tanto em termos quanto em veículos, proporcionando um panorama interessante da pesquisa em ciência da computação.