1 / 61

Data Mining Técnicas não supervisionadas

Data Mining Técnicas não supervisionadas. Redes neurais Em modo não supervisionado : Redes de Kohonen, Cartas Auto Adaptativas, etc. Clustering (agrupamento) Classificação Ascendente Hierárquica K-means Busca dos vizinhos "mais próximos". Busca de associações

raine
Download Presentation

Data Mining Técnicas não supervisionadas

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data MiningTécnicas não supervisionadas • Redes neurais • Em modo não supervisionado : Redes de Kohonen, Cartas Auto Adaptativas, etc. • Clustering (agrupamento) • Classificação Ascendente Hierárquica • K-means • Busca dos vizinhos "mais próximos". • Busca de associações • Geralmente utilizadas para realizar análise de "cesta de compras" : quais são os produtos comprados simultaneamente ? www.NHConsultoriaTI.com

  2. Técnicas não supervisionadasClustering Cluster: uma coleção de objetos de dados; • Similares entre si no mesmo cluster; • Não similares aos objetos fora do respectivo cluster; Análise de clusters: • Agrupamento de dados em clusters; Agrupamento (clustering) é uma classificação não-supervisionada: não há classes pré-definidas. Aplicações típicas: • Como ferramenta para análise da distribuição dos dados; • Como pré-processamento para outros métodos. www.NHConsultoriaTI.com

  3. ClusteringAplicações típicas - 1 • Reconhecimento de padrões; • Análise de dados espaciais: • Criação de mapas temáticos em GIS por agrupamento de espaços de características; • Detecção de clusters espaciais e sua explicação em data mining; • Processamento de imagens; • Pesquisas de mercado; • WWW: • Classificação de documentos; • Agrupamento de dados de weblogs para descobrir padrões similares de acesso; www.NHConsultoriaTI.com

  4. ClusteringAplicações típicas - 2 • Marketing: ajuda na descoberta de grupos distintos de clientes, e uso deste conhecimento para criar campanhas dirigidas; • Uso de terras: identificação de áreas de uso similar a partir de uma base de observação via satélite; • Seguros: identificação de grupos de assegurados com alto custo de sinistro; • Planejamento urbano: identificação de grupos de casa de acordo com seu tipo, valor e localização geográfica; • Estudos sobre terremotos: identificação de epicentros e seu agrupamento ao longo de falhas geológicas. www.NHConsultoriaTI.com

  5. ClusteringEstrutura dos dados • Matriz de dados • n indivíduos • p variáveis • Matriz de • dissimilaridade • d(i,i) = 0 • d(i,j) = d(j,i) • d(x,y) R+ www.NHConsultoriaTI.com

  6. ClusteringSimilaridade • Exemplo : Distância de Minkowski • q=1 : Distância de Manhattan (de blocos) • q=2 : Distância de Euclid www.NHConsultoriaTI.com

  7. Técnicas não supervisionadasClassificação ascendente hierárquica • Objetivo • Classificar os indivíduos que apresentam um comportamento similar em função de um conjunto de variáveis • Princípio • A cada etapa, gera-se uma partição obtida realizando o agrupamento 2 a 2 dos elementos mais "próximos". • Elemento = individuo ou grupo de indivíduos • O algoritmo fornece uma hierarquia de partições • Árvore que contêm o histórico da classificação. • Permite escolher o número de partições desejadas. • Necessidades • De ter uma métrica (medida de similaridade ou dissimilaridade). • De fixar regras de agrupamento entre um grupo e um indivíduo ou entre dois grupos : critério de agrupamento. www.NHConsultoriaTI.com

  8. Classificação ascendente hierarquica Etapa 1 : n indivíduos / n classes 1 3 2 4 5 Constroi-se a matriz das distâncias (dissimilaridades) entre os n elementos e agrupa-se os dois mais próximos www.NHConsultoriaTI.com

  9. Classificação ascendente hierarquica Distância entre os elementos Etapa 2 : n-1 classes 1 3 2 4 5 1 2 3 4 5 • Como medir a distância entre uma classe (um grupo) e um elemento individual ? • Critério dos centros de gravidade • Critério de distância máxima • Critério de distância mínima • Critério de Ward www.NHConsultoriaTI.com

  10. Classificação ascendente hierarquica Distância entre os elementos Etapa 3 : n-2 classes 1 3 2 4 5 1 2 3 4 5 • Como medir a distância entre uma classe (um grupo) e um elemento individual ? • Critério dos centros de gravidade • Critério de distância máxima • Critério de distância mínima • Critério de Ward www.NHConsultoriaTI.com

  11. Classificação ascendente hierarquica Distância entre os elementos Etapa 4 : n-3 classes 1 3 2 4 5 1 2 3 4 5 • Como medir a distância entre uma classe (um grupo) e um elemento individual ? • Critério dos centros de gravidade • Critério de distância máxima • Critério de distância mínima • Critério de Ward www.NHConsultoriaTI.com

  12. Classificação ascendente hierarquica Distância entre os elementos Etapa 5 : n-4 = 1 classe 1 3 2 4 5 1 2 3 4 5 • Como medir a distância entre uma classe (um grupo) e um elemento individual ? • Critério dos centros de gravidade • Critério de distância máxima • Critério de distância mínima • Critério de Ward www.NHConsultoriaTI.com

  13. Classificação ascendente hierarquica Distância entre os elementos Etapa 5 : n-4 = 1 classe 2 classes 1 3 2 4 5 1 2 3 4 5 Classe 1 Classe 2 www.NHConsultoriaTI.com

  14. Classificação ascendente hierarquica Distância entre os elementos Etapa 5 : n-4 = 1 classe 1 3 2 3 classes 4 5 1 2 3 4 5 Classe 1 Classe 2 Cl. 3 A escolha da quantidade de classes é determinada a posteriori www.NHConsultoriaTI.com

  15. CAH : critérios de agrupamento • Distância máxima • (A,B) = max{d(a,b), aA, bB} • Distância mínima • (A,B) = min{d(a,b), aA, bB} • Centros de gravidade • (A,B) =d(ga, gb) www.NHConsultoriaTI.com

  16. CAHInércias Dada uma classificação em k grupos de efetivos n1, ..., nk os individuos sendo pontos de um espaço euclidiano. G1, ..., Gk são os grupos, e g1, ..., gk são os seus centros de gravidade (g é o centro de gravidade da nuve completa). www.NHConsultoriaTI.com

  17. CAHCritério de agrupamento de inércia Teorema de Huygens : Inércia total = Inércia interclasse + Inércia Intraclasse A cada agrupamento realizado, a inércia intraclasse aumenta, e a inércia interclasse diminue www.NHConsultoriaTI.com

  18. CAHMétodo de WARD Ao substituir duas classes A e B pela sua reunião, demostra-se que a diminução da inércia interclasse (ou seja o aumento da intraclasse) é igual a : O método de Ward consiste em escolher o agrupamento que minimize o aumento da inércia intraclasse. www.NHConsultoriaTI.com

  19. CAHMétodo de WARD • Agrupamento com distância mínima • Efeitos em cadeia : os objetos se agrupam ao grupo ja constituido um depois do outro. • Agrupamento com distância máxima • Deformações importantes da árvore. • Método Ward • Utiliza-se uma distância de Euclid. www.NHConsultoriaTI.com

  20. CAHCrítica • Vantagens • As classes são uma visão sintética e estruturada dos dados • Agrupamentos pouco esperados aparecem • As classes significativas geram definições de funções que permitem num segundo tempo atribuir um indivíduo novo à classe mais próxima • Desvantagens • Agrupamentos esperados não aparecem • Funciona melhor juntamente com uma ACP (método de Ward). www.NHConsultoriaTI.com

  21. Exemplo de CAH com ACP www.NHConsultoriaTI.com

  22. www.NHConsultoriaTI.com

  23. www.NHConsultoriaTI.com

  24. www.NHConsultoriaTI.com

  25. www.NHConsultoriaTI.com

  26. www.NHConsultoriaTI.com

  27. www.NHConsultoriaTI.com

  28. www.NHConsultoriaTI.com

  29. www.NHConsultoriaTI.com

  30. www.NHConsultoriaTI.com

  31. K-means Etapa 0 c1 c2 Inicializa-se de maneira aleatória os centros de gravidade de cada classe : ck. A quantidade de classes é determinada a priori. www.NHConsultoriaTI.com

  32. K-means Etapa 1 c1 c2 Cada ponto é atribuído a classe que têm centro de gravidade mais próximo www.NHConsultoriaTI.com

  33. K-means Etapa 2 c1 c2 Os centros de gravidade são re-calculados dentro de cada classe www.NHConsultoriaTI.com

  34. K-means Etapa 3 : identica á etapa 1 c1 c2 Cada ponto é atruibuído a classe que têm centro de gravidade mais próximo www.NHConsultoriaTI.com

  35. K-means Etapa 4 : identica á etapa 2 c1 c2 Os centros de gravidade são re-calculados dentro de cada classe www.NHConsultoriaTI.com

  36. K-means Etapa 5 : identica á etapa 1 c1 c2 Cada ponto é atruibuído a classe que têm centro de gravidade mais próximo www.NHConsultoriaTI.com

  37. K-means Etapa 6 c1 c2 Os centros de gravidade são re-calculados dentro de cada classe www.NHConsultoriaTI.com

  38. K-means Etapa 7 c1 c2 Cada ponto é atruibuído a classe que têm centro de gravidade mais próximo www.NHConsultoriaTI.com

  39. K-means Etapa 8 c1 c2 • A partir desta etapa, as classes não mudam mais. • Pára-se quando : • O centros de gravidade se deslocam muito pouco • Nenhum indivíduo muda de classe. www.NHConsultoriaTI.com

  40. Comparação K-Means e CAH www.NHConsultoriaTI.com

  41. www.NHConsultoriaTI.com

  42. www.NHConsultoriaTI.com

  43. K-meansCrítica • Vantagens • Algorítmo muito simples, e eficiente • Possibilidade de utilizar dissimilaridades, diversas distâncias, etc. • Desvantagens • Quantidade de classes conhecida a priori. • Não funciona com dados discretos • Sensível ao ruído • Tendência de construir classes esféricas, maximizando inércia intraclasse e minimizando inércia interclasse (não descobre grupos de forma não-convexa). www.NHConsultoriaTI.com

  44. Técnicas não supervisionadasBusca de associações • Mineração de associações ou de regras de associação: • Encontrar padrões freqüentes, associações, correlações, ou estruturas causais a partir de conjuntos de itens ou objetos em DB de transações, relacionais, ou em outros repositórios de informações. • Aplicações: • Análise de cestas de dados (basket data), marketing cruzado, projeto de catálogos, agrupamento, etc. www.NHConsultoriaTI.com

  45. Regras de associações • Dados: • Uma DB da transações; • Cada transação constituída de uma lista de itens (compras de um cliente); • Encontrar: • Todas as regras que correlacionam a presença de um conjunto de itens com outro conjunto de itens. • Exemplo: 98 % das pessoas que compram pneus e assessórios também compram sua instalação. www.NHConsultoriaTI.com

  46. Análise dos "tickets" de caixa Se premissa então conseqüência Lista de produtos Exemplo : "Se Martini e Cachaça então Azeitonas" Regras de associaçãoDados de transação - 1 • Comentários : • Uma observação = uma compra • Somente considerar a presencia dos produtos, não a quantidade. • Quantidade de produtos varia entre as compras • Lista dos produtos é imensa ! • Objetivos : • Descobrir os produtos comprados juntos • Escrever este conhecimento na forma de regras de associação www.NHConsultoriaTI.com

  47. Regras de associaçãoDados de transação - 2 Outra representação dos dados de transação (binária) Em função da granularidade escolhida, o número de colunas pode ser imenso ! (ex. Agrupamento por família de produtos : azeites de oliva, cervejas, etc.) O objetivo da análise é detectar co-ocorrências na tabela. www.NHConsultoriaTI.com

  48. Dados Suporte : indicador de "confiabilidade" da regra sup(R1) = 2 ou sup(R1) = 2/6 = 33% absoluto relativo Confiança : indicador de "precisão" da regra conf(R1) = sup(R1)/sup(premissa(R1)) = sup(p1 -> p2)/sup(p1) = 2/4 = 50% Regras de associaçãoCritérios de avaliação das regras Suporte e Confiança Regra de associação : R1 : Se p1 então p2 Uma "boa" regra deve ter Confiança e Suporte altos www.NHConsultoriaTI.com

  49. Regras de associaçãoIdentificação das regras - 1 • Parâmetros : fixar um grau de exigência nas regras. • Suporte mínimo (ex : 2 transações ou 33% das transações). • Confiança mínima (ex : 75%). • Permite limitar (controlar) a quantidade de regras que serão produzidas. • Mecanismo : construção em 2 tempos • Busca dos itemset freqüentes (com suporte >= suporte min). • A partir dos itemset freqüentes, construir as regras (com conf >= conf min). • Definições • Item = produto • Itemset = conjunto de produtos (ex : {p1, p3}) • sup(itemset) = quantidade de transações onde aparecem simultaneamente os produtos (ex : sup{p1,p3}=4) • card(itemset) = quantidade de produtos no conjunto (ex : card{p1,p3}=2). www.NHConsultoriaTI.com

  50. Dados  4 {p1} 3 {p2} 5 {p3} 1 {p4} {p1,p2} 2 {p1,p3} 4 {p1,p4} 0 {p2,p3} 3 Era previsível : sup{p4,...} <= sup{p4} => sup{p1,p4} < 2 {p1,p2,p3} 2 É preciso testar por que {p1,p2}, {p1,p3}, {p2,p3} são todos freqüentes Regras de associaçãoIdentificação das regras – 2Busca dos Itemset freqüentes Caso geral : 2j – 1 Número de cáculos enorme ! Cada cálculo gera um scan completo da base C14 = 4 Itemsets de card=1 C24 = 6 Itemsets de card=2 C34 = 4 Itemsets de card=3 C44 = 1 Itemsets de card=4  = 15 = 24 - 1 Redução da complexidade com eliminação de algumas pistas www.NHConsultoriaTI.com

More Related