340 likes | 445 Views
Mineração de Exceções. Apresentadores Andrey C. Cavalcanti George Soares da Silva. Introdução. Dados podem ser armazenados e resumidos em cubos multidimensionais.(OLAP) Um usuário ou analista pode usar operações OLAP para encontrar padrões interessantes.
E N D
Mineração de Exceções Apresentadores Andrey C. Cavalcanti George Soares da Silva
Introdução • Dados podem ser armazenados e resumidos em cubos multidimensionais.(OLAP) • Um usuário ou analista pode usar operações OLAP para encontrar padrões interessantes. • O processo de descoberta não é automático. Depende da intuição ou hipóteses usadas pelo usuário. • Desvantagens da exploração baseada em hipóteses: • espaço de busca muito grande • agregações de alto nível não indicam anomalias • dificuldade mesmo se o espaço for pequeno
Análise de Outliers • Outliers Exceções • Causa dos Outliers → erro de execução ou medida. • Exemplo: Inserção default de um valor • Falsos Outliers (Ex: salários de executivos) • Mineração de outliers → consiste na detecção e análise de outliers (complexo e interessante)
Aplicações de Mineração de Outliers • Detecção de Fraudes ( cartões de crédito ou telefone) • Comportamento de gastos de consumidores ( por classe social ) • Em análises médicas ( resultados não esperados de tratamentos )
Pode ser dividido em 2 subproblemas: Definir quais dados são aberrantes Definir método eficiente para encontrar tais aberrações Aberrante sempre com referência a algum padrão Métodos de detecção: Semi-automático: Visualização Automático Estatística Distância Desvio Observação: Usuário tem que checar se os outliers descobertos são realmente outliers. Mineração de Outliers
Detecção de Outliers baseada em Estatística • Distribuição ou modelo probabilístico ( Ex: distribuição normal ) • Teste de discordância (TD)→ identifica os outliers com respeito ao modelo escolhido • O TD examina 2 hipóteses: • de trabalho • alternativa • Um dado ser ou não ser Outlier depende da distribuição escolhida
2 procedimentos paradetecção de outliers: Procedimentos em blocos Procedimentos consecutivos (sequencial) menos provável é testado mais eficiente Conclusão Testa aberração ao longo de apenas uma única dimensão Dificuldade na escolha de uma distribuição padrão, especialmente com dados desconhecidos Detecção de Outliers baseada em Estatística
Um exemplo de detecção de Outliers baseado em estatística • O Procedimento abaixo é feito para cada observação xi,onde i=1..n e k = n-1: • vetor médio da amostra • xm = (1/k) Σxi (p/ i de 1 à k) • Matriz de covariância • S = (1/(k-1)) Σ(xi – xm) (xi – xm)’ • Distância de Mahalanobis: • D2 = (x – xm)’S-1(x – xm) • Distribuição F com p e k-p graus de liberdade • F = ((k – p)k / (k2 – 1)p) D2 • A partir de F calcula-se o valor de P que será comparado com o nível de significância ά • Se P < ά, então encontramos um outlier, remove o mesmo e refaz o procedimento acima • Se P > ά, está OK
Exemplo de Detecção de Outliers baseada em Estatística • Nível de significância ά=0,05 • Primeiro encontrou as médias e os desvio padrões iguais à: • x1 = 120,6 e s1 = 20,9 • x2 = 81,0 e s2 = 21,7 • Com n=15, removemos x9 por ter tido o menor valor de P=0,0003 • Agora temos n=14 e remove x7 com P=0,0264 • Agora temos n=13 e não há mais outliers detectados. • Neste momento, temos as seguintes médias e desvios: • x1 = 121,8 e s1 = 20,8 / x2 = 80,5 e s2 = 16,3 • Valores corretos: x7=(93,54) e x9=(132,94)
Detecção de Outliers baseada em Distância • Origem → Resolver limitações do estatístico • O que é um outlier baseado em distância? • um objeto ‘o’ num conjunto de dados ‘S’ • é um outlier baseado em distância DB(p,d), • se pelo menos uma fração ‘p’ de objetos em ‘S’ • se encontram a uma distância maior que ‘d’ de ‘o’ • Exemplo com pontos no plano
Estatística X Distância Conceito de distância ≠ Testes estatísticos vantagens: evita suposição sobre distribuição dos dados custo computacional menor em muitos casos: outlier baseado em distância outlier estatístico Alguns algoritmos: Index-based Nested-loop Cell-based desvantagens Escolha dos parâmetros ‘p’ e ‘d’. Detecção de Outliers baseada em Distância
Detecção de Outliers baseada em Desvio • Nem estatística, nem distância • Outliers Desvios • Identifica outliers a partir das características do grupo • 2 técnicas para detecção: • Técnica de exceção sequencial • Técnica de cubo de dados OLAP
Técnica de Exceção Sequencial • Compara objetos sequencialmente num conjunto (Exemplo: humanos na distinção de objetos) • Alguns termos chaves: • Conjunto de Exceções • subconjunto mínimo de objetos cuja remoção resulta na maior redução de dissimilaridade • Função de dissimilaridade • Ex: para dados numéricos variância • Ex: para dados categóricos diferença entre proporções de objetos que se casam com padrão simbólico com variáveis livres (aa**b)
Técnica de Exceção Sequencial • Termos Chaves: (Cont.) • Função de Cardinalidade →No de objetos • Fator de suavização • mede redução de dissimilaridade por exclusão de subconjuntos, normalizado pelo número de elementos • Conjunto com maior fator de suavização = Conjunto de exceções
Técnica de Exceção Sequencial • Funcionamento da técnica • Pode a ordem dos subconjuntos na sequência afetar o resultado ?
Exploração Baseada em Descoberta • Modelo usando o cubo de dados • O especialista é vai procurar por anomalias nos dados guiado por indicadores de exceções pré-computados • Modelo estatístico usado para computar o valor esperado do dado • Uso de ferramentas OLAP
O Cubo de Dados • Dimensões • Hierarquia • Operações OLAP • Drill down • Roll up • Slice
Definindo Exceções em Cubos • Exceções são, intuitivamente, dados que nos surpreendem • Como medir a ‘surpresa’? • SelfExp • Valor relativo ao seu próprio nível • InExp • Valor relativo ao drill-down em todos as dimensões • PathExp • Um InExp relativo a um determinada dimensão
Exceções em Cubos: a qual granularidade? • Quanto menor a granularidade, mais fácil será achar uma(s) exceção(ões) • Uma exceção pode ser considerada uma exceção por um group-by e não ser considerada por outro group-by • Exemplo
Cálculo do Valor Esperado • O valor esperado é calculado levando em conta a contribuição dos vários níveis de group-by • Exemplo: • ŷijk = f(γ, γiA, γjB, γkC, γijAB, γjkBC, γikAC) • yijk é uma exceção se: • (yijk – ŷijk)/ ijk > ( = 2.5) • Por que o valor de é 2.5? • Qual o valor de ijk?
Cálculo do Valor Esperado • A função f() pode ser das seguintes formas: • Aditiva • Multiplicativa • Outras mais complexas
(γ + γiA + γjB + γkC + γijAB + γjkBC + γikAC) e Cálculo do Valor Esperado • O valor de ŷijk é: • ŷijk = • Para o caso de um cubo com 3 dimensões, usando a forma aditiva de f()
Cálculo do Valor de cada γ • Primeiro calcula o nível específico • γ = l+...+ • Para cada dimensão, suba um nível , calcule o valor de γ como sendo: • γirAr = l+...+ir+...+ - γ • Para os níveis acima, faça o mesmo, da forma • γirisArAs = l+...+ir+...+ is+...+ - γirAr - γisAs - γ
A B C A,B A,C B,C A,B,C Exemplificando
(yijk - ŷijk)2 log ŷijk 0 log ŷijk (ŷijk) Cálculo do valor de ijk • A fórmula de ijk é: • onde tem que satisfazer a equação (baseada no princípio da máxima verossimilhança): 2ijk = (ŷijk)
Estimando os Coeficientes do Modelo (γ) • Baseada na média • Ex: Formar uma linha de regressão e remover da consideração 10% dos pontos que se encontram mais longe da mesma • Baseada em média “emagrecida” • Baseada na mediana • Mais robusta, pois é melhor na presença de outliers muito grandes • Alto custo computacional → muitas vezes impraticável
Outros Tipos de Modelo • Hierárquico • A idéia é calcular o valor esperado baseado na sua posíção e parentes na hierarquia • Série de Regressão Temporal • Baseado na idéia que as células tem um atributo temporal • É possível encontrar padrões em períodos
Outros métodos • Valor extremo no conjunto • Clustering • Clustering multi-dimensional • Regressão em dimensões contínuas • Efeitos combinados de dimensões categóricas
Referências • Data Mining: concepts and techniques, de Han, J. & Kamber, M., 2001, Morgan Kaufmann • Data Mining: practical machine learning tools and techniques with Java implementations, de Witten, I.H. & Frank, E., 2000, Morgan Kaufmann • Discovery-driven Exploration of OLAP Data Cubes, de Sunita Sarawagi, Rakesh Agrawal, Nimrod Megiddo, IBM Research Division