420 likes | 541 Views
Seminário. Mineração de Exceções. Erivan A. Andrade ( eaa@cin.ufpe.br ) Jacques Robin ( jr@cin.ufpe.br ). Roteiro. Motivação Métodos Baseados em Agrupamento Métodos Baseados em Estatística Métodos baseados em Distância Métodos Baseados em Desvio Conclusões Referências.
E N D
Seminário Mineração de Exceções Erivan A. Andrade (eaa@cin.ufpe.br) Jacques Robin (jr@cin.ufpe.br) UFPE-CIN 2002
Roteiro • Motivação • Métodos Baseados em Agrupamento • Métodos Baseados em Estatística • Métodos baseados em Distância • Métodos Baseados em Desvio • Conclusões • Referências UFPE-CIN 2002
Motivação: definição • O que é outlier? • É uma observação, num conjunto de dados, que é suficientemente dissimilar ou aberrante do restante dos dados para levantar suspeita de ser causado por um mecanismo diferenciado • Equivalente a exceções • Causa dos outliers: o que é esse mecanismo? • Erro de medida • Comportamento diferente do padrão • Dilema: “o ruído de uns é o sinal dos outros” • Mineração de outliers • Detecção e análise de outliers UFPE-CIN 2002
Motivação: aplicações práticas • Detecção de Fraudes • Comportamento de gastos de consumidores • Em análises médicas (resultados não esperados de tratamentos ) • Pesquisa farmacêutica • Marketing • Coaching (hey Felipão, Romário é um outlier! ) • Etc. UFPE-CIN 2002
Classes de técnicas: Semi-automático: Visualização Automático Baseados em Clustering Baseado em Estatística Baseado em Desvio Baseado em Distância Características desejáveis Escalável para alta dimensionalidade Interpretabilidade dos resultados Computacionalmente eficiente Dá importância ao comportamento local dos dados Ordenação dos outliers Técnicas de Mineração de Exceções UFPE-CIN 2002
Roteiro • Motivação • Métodos Baseados em Agrupamento • Métodos Baseados em Estatística • Métodos baseados em Distância • Métodos Baseados em Desvio • Conclusões • Referências UFPE-CIN 2002
Mineração de exceção baseada em agrupamento • Idéia: • Formar grupos de dados • Dados que não se encaixam em nenhum grupos são considerados exceções Inserir figura exemplo aqui UFPE-CIN 2002
Vantagens Reutiliza vasto leque de métodos de agrupamentos Não requer conhecimento prévio de distribuição Limitações O que se busca é otimizar os agrupamentos, não a detecção de exceções O que é exceção para uma configuração pode não ser para outra Mineração de exceção baseada em agrupamento UFPE-CIN 2002
Roteiro • Motivação • Métodos baseados em Agrupamento • Métodos baseados em Estatística • Métodos baseados em Distância • Métodos Baseados em Desvio • Conclusões • Referências UFPE-CIN 2002
Mineração de Outliers Baseada em Estatística • Assume distribuição ou modelo probabilístico para um conjunto de dados • Ex: distribuição normal • Usa Teste de discordância (TD) → identifica os outliers com respeito ao modelo escolhido • Se um objeto for significativamente maior ou menor que o modelo escolhido ele é uma exceção • O TD examina 2 hipóteses: • Uma hipótese de trabalho • Uma hipótese alternativa UFPE-CIN 2002
Vantagens: Pode ser avaliado o nível de significância de uma exceção Usa métodos estatístico consolidados ao longo dos tempos Limitações: O modelo escolhido influencia a identificação dos Outliers Testa aberração ao longo de apenas uma única dimensão Dificuldade na escolha de uma distribuição Mineração de Outliers Baseada em Estatística UFPE-CIN 2002
Roteiro • Motivação • Métodos baseados em Agrupamento • Métodos baseados em Estatística • Métodos Baseados em Desvio • Métodos baseados em Distância • Conclusões • Referências UFPE-CIN 2002
Mineração de Outliers Baseada em Desvio • Não usa métodos estatísticos nem medidas de distância • Define exceção como pontos cujo valor desviam da maioria ao longo de algumas ou todas as dimensões • Exceções são equivalentes a Desvios de comportamento UFPE-CIN 2002
Mineração de Outliers Baseada em Densidade de Distribuição Características • Divide o espaço de dados em classe equi-depth • Cada classe contém uma fração f=1/ dos registros • Diferentes localidades dos dados são densas com respeito a diferentes subconjuntos de atributos • Observa a densidade de distribuição da projeção dos dados • Gera projeções dos dados sobre k dimensões • Identifica nessas projeções, regiões de densidade anormalmente baixa • Pontos nessas regiões são considerados outliers • Suporta dados com alta dimensionalidade UFPE-CIN 2002
Mineração de Outliers Baseada em Densidade de Distribuição Ideia UFPE-CIN 2002
Mineração de Outliers Baseada em Densidade de Distribuição • O número de pontos em um cubo pode ser aproximando por uma distribuição normal e então: • Fração esperada • Desvio padrão • Coeficiente de dispersão de um cubo D • n(D) número de pontos em um cubo k-dimensional • N número de pontos no conjunto de dados • S(D)<0 indica cubos com numero de pontos significativamente abaixo do esperado UFPE-CIN 2002
Mineração de Outliers Baseada em Densidade de Distribuição • Busca necessária para gerar as projeções • Busca exaustiva: garante encontrar todas a exceções mas com complexidade alta • Busca genética com função de seleção, crossover e mutação específica para o problema permite encontrar, a um custo muito menor, a maioria das exceções Comparativo de resultado UFPE-CIN 2002
Mineração de Outliers em Cubos OLAP • Exploração dirigida a hipótese • O usuário interativamente busca por regiões de anomalias • As regiões de anomalias representam áreas de interesse • A busca das anomalias é feita com o uso das operações de cubo OLAP • Dril-down, roll-up, seleção • Problemas da exploração dirigida a hipótese • Espaço de busca muito grande • As anomalias podem estar em níveis inferiores ao ponto de partida da análise • Grande quantidade de agregados UFPE-CIN 2002
Mineração de Outliers em Cubos OLAP • Exploração dirigida a descoberta • O usuário busca por anomalias guiado por indicadores pré-computados • Os indicadores permitem a observação de padrões anormais em qualquer nível de agregação • Muito útil, especialmente, para grande numero de dimensões • Um valor é uma exceção se ele difere significativamente do seu valor antecipado • Valor calculado por um modelo estatístico • Considera o contexto da posição da célula no cubo • Combina as tendências ao longo das diferentes dimensões a que uma célula pertence UFPE-CIN 2002
(γ + γiA + γjB + γkC + γijAB + γjkBC + γikAC) e ŷijk = Mineração de Outliers em Cubos OLAP • Exploração dirigida a descoberta • Definição de exceção (yijk – ŷijk)/ ijk > ( = 2.5) • Cálculo do valor antecipado ŷijk • Onde • γ = l+...+ (média ao longo de todas as dimensões) • γirAr = l+...+ir+...+ - γ(média ao longo de uma dimensão) • γirisArAs = l+...+ir+...+ is+...+ - γirAr - γisAs – γ (Média ao longo de duas dimensões) UFPE-CIN 2002
(yijk - ŷijk)2 log ŷijk 0 log ŷijk (ŷijk) Mineração de Outliers em Cubos OLAP • Exploração dirigida a descoberta • Equação iterativa para cálculo do (desvio padrão) 2ijk = (ŷijk) • Onde é calculado por UFPE-CIN 2002
Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta • Os indicadores dão o grau de surpresa do valor da célula • Os indicadores são 3: • SelfExp: valor surpresa da célula em relação a outras células no mesmo nível de agregação • InExp: Grau de surpresa em algum nível abaixo desta célula • PathExp: grau de surpresa para cada caminho de drill-down a partir da célula. UFPE-CIN 2002
Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) Destacar Exceções UFPE-CIN 2002
Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) Exceção de Caminho UFPE-CIN 2002
Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) Drill-Down por produto (PathExp) UFPE-CIN 2002
Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) Drill-Drown para Diet-S (InExp) UFPE-CIN 2002
Mineração de Outliers em Cubos OLAP Exploração dirigida a descoberta (Exemplo) UFPE-CIN 2002
Roteiro • Motivação • Métodos baseados em Agrupamento • Métodos baseados em Estatística • Métodos Baseados em Desvio • Métodos baseados em Distância • Conclusões • Referências UFPE-CIN 2002
Mineração de Outliers Baseada em Distância: Dk(p) • Busca Resolver limitações do estatístico • Um outlier é determinado baseado nadistanciaDk(p) • Dk(p)= distância de p ao seu k-esimo vizinho • Evita suposição sobre distribuição dos dados • Menor custo computacional • Pode, ás vezes, convergir para os métodos estatísticos • Desvantagem • Não é escalável para mais que 5 dimensões UFPE-CIN 2002
Detecção de Outliers Baseada em Distâncias: Dk(p) Algoritmo Loop aninhado • Para cada ponto p no conjunto de dados calcula Dk(p) • Para calcular cada Dk(p) varre todos os dados • Mantém uma lista de k vizinhos mais próximo para cada ponto p • Os n pontos com maior valor de Dk(p) são os n outliers • Para melhorar a eficiência pode-se considerar blocos de pontos ao invés de pontos individuais UFPE-CIN 2002
Detecção de Outliers Baseada em Distâncias: Dk(p) Algoritmo baseado em índice • O uso de estruturas de índices espaciais pode diminuir substancialmente o calculo de distâncias (R*-tree, por exemplo) • É possível podar sub-arvores cujos nós não podem conter outlier • A cada passo guarda-se os n outliers encontrados • Dnmin menor Dk entre os outlier • Dk(p)< Dnmin P não pode ser um outlier UFPE-CIN 2002
Detecção de Outliers Baseada em Distâncias: Dk(p) Algoritmo Baseado em partições • Detecta os n outliers mais fortes • Os outliers são ordenados pela distância Dk(p) • Baseia se na distância dos vizinhos mais próximos • O conjunto de dados é divididos em partições por meio de algoritmos de agrupamento • Poda partições que não são candidatas a conter outlier • Acelera a identificação pois diminui a quantidade de pontos UFPE-CIN 2002
Detecção de Outliers Baseada em Distâncias : Dk(p) Algoritmo Baseado em partições (passos) • Gerar partições • Através de clustering • Calcular limites Dk para os pontos em cada partição • P.upper=max(Dk) e P.lower=min(Dk) dos pontos da partição P • Identificar partições candidatas a conter exceções • P.upperminDkDist=min{Pi.lower:1il} • Pi.lower>Pj.lower>..>Pl.lower e o número de pontos seja pelo menos n • Computar exceções com os pontos nas partições candidatas • P.neighbors denota as partições vizinhas de P a uma distância de P.upper UFPE-CIN 2002
Detecção de Outliers Baseada em Distâncias : Dk(p) Algoritmo Baseado em partições (passos) O número total de pontos a ser examinado para calcular outlier é o das partições candidatas+os de suas vizinhas UFPE-CIN 2002
Detecção de Outliers Baseada em Distâncias : Dk(p) Algoritmo Baseado em partições UFPE-CIN 2002
Detecção de Outliers Baseada em Distâncias : Dk(p) Comparativo de desempenho UFPE-CIN 2002
Detecção de Outliers Baseada em Distâncias : Dk(p) Comparativo de desempenho UFPE-CIN 2002
Roteiro • Motivação • Métodos baseados em Agrupamento • Métodos baseados em Estatística • Métodos Baseados em Desvio • Métodos baseados em Distância • Conclusões • Referências UFPE-CIN 2002
Conclusões • Mineração de exceções • É de grande interesse • É custosa computacionalmente, principalmente para grande quantidade de dimensões • Necessita de métodos robustos UFPE-CIN 2002
Referências • Data Mining: concepts and techniques, de Han, J. & Kamber, M., 2001, MorganKaufmann • Discovery-driven Exploration of OLAP Data Cubes, de Sunita Sarawagi, Rakesh Agrawal, Nimrod Megiddo, IBM Research Division • Efficient Algoritms for Mining Outliers from Data sets. SridharRamaswamy, RajeevRatogi e KyuseokShim. 2000 • Outlier Detection for High Dimensional Data. CharuC. Aggarwal e PhilipS. Yu. 2001 UFPE-CIN 2002
Visão de Outliers UFPE-CIN 2002
Comparativo: Força bruta x algorotimo Evolutivo UFPE-CIN 2002