610 likes | 717 Views
Data Mining Técnicas não supervisionadas. Redes neurais Em modo não supervisionado : Redes de Kohonen, Cartas Auto Adaptativas, etc. Clustering (agrupamento) Classificação Ascendente Hierárquica K-means Busca dos vizinhos "mais próximos". Busca de associações
E N D
Data MiningTécnicas não supervisionadas • Redes neurais • Em modo não supervisionado : Redes de Kohonen, Cartas Auto Adaptativas, etc. • Clustering (agrupamento) • Classificação Ascendente Hierárquica • K-means • Busca dos vizinhos "mais próximos". • Busca de associações • Geralmente utilizadas para realizar análise de "cesta de compras" : quais são os produtos comprados simultaneamente ? www.NHConsultoriaTI.com
Técnicas não supervisionadasClustering Cluster: uma coleção de objetos de dados; • Similares entre si no mesmo cluster; • Não similares aos objetos fora do respectivo cluster; Análise de clusters: • Agrupamento de dados em clusters; Agrupamento (clustering) é uma classificação não-supervisionada: não há classes pré-definidas. Aplicações típicas: • Como ferramenta para análise da distribuição dos dados; • Como pré-processamento para outros métodos. www.NHConsultoriaTI.com
ClusteringAplicações típicas - 1 • Reconhecimento de padrões; • Análise de dados espaciais: • Criação de mapas temáticos em GIS por agrupamento de espaços de características; • Detecção de clusters espaciais e sua explicação em data mining; • Processamento de imagens; • Pesquisas de mercado; • WWW: • Classificação de documentos; • Agrupamento de dados de weblogs para descobrir padrões similares de acesso; www.NHConsultoriaTI.com
ClusteringAplicações típicas - 2 • Marketing: ajuda na descoberta de grupos distintos de clientes, e uso deste conhecimento para criar campanhas dirigidas; • Uso de terras: identificação de áreas de uso similar a partir de uma base de observação via satélite; • Seguros: identificação de grupos de assegurados com alto custo de sinistro; • Planejamento urbano: identificação de grupos de casa de acordo com seu tipo, valor e localização geográfica; • Estudos sobre terremotos: identificação de epicentros e seu agrupamento ao longo de falhas geológicas. www.NHConsultoriaTI.com
ClusteringEstrutura dos dados • Matriz de dados • n indivíduos • p variáveis • Matriz de • dissimilaridade • d(i,i) = 0 • d(i,j) = d(j,i) • d(x,y) R+ www.NHConsultoriaTI.com
ClusteringSimilaridade • Exemplo : Distância de Minkowski • q=1 : Distância de Manhattan (de blocos) • q=2 : Distância de Euclid www.NHConsultoriaTI.com
Técnicas não supervisionadasClassificação ascendente hierárquica • Objetivo • Classificar os indivíduos que apresentam um comportamento similar em função de um conjunto de variáveis • Princípio • A cada etapa, gera-se uma partição obtida realizando o agrupamento 2 a 2 dos elementos mais "próximos". • Elemento = individuo ou grupo de indivíduos • O algoritmo fornece uma hierarquia de partições • Árvore que contêm o histórico da classificação. • Permite escolher o número de partições desejadas. • Necessidades • De ter uma métrica (medida de similaridade ou dissimilaridade). • De fixar regras de agrupamento entre um grupo e um indivíduo ou entre dois grupos : critério de agrupamento. www.NHConsultoriaTI.com
Classificação ascendente hierarquica Etapa 1 : n indivíduos / n classes 1 3 2 4 5 Constroi-se a matriz das distâncias (dissimilaridades) entre os n elementos e agrupa-se os dois mais próximos www.NHConsultoriaTI.com
Classificação ascendente hierarquica Distância entre os elementos Etapa 2 : n-1 classes 1 3 2 4 5 1 2 3 4 5 • Como medir a distância entre uma classe (um grupo) e um elemento individual ? • Critério dos centros de gravidade • Critério de distância máxima • Critério de distância mínima • Critério de Ward www.NHConsultoriaTI.com
Classificação ascendente hierarquica Distância entre os elementos Etapa 3 : n-2 classes 1 3 2 4 5 1 2 3 4 5 • Como medir a distância entre uma classe (um grupo) e um elemento individual ? • Critério dos centros de gravidade • Critério de distância máxima • Critério de distância mínima • Critério de Ward www.NHConsultoriaTI.com
Classificação ascendente hierarquica Distância entre os elementos Etapa 4 : n-3 classes 1 3 2 4 5 1 2 3 4 5 • Como medir a distância entre uma classe (um grupo) e um elemento individual ? • Critério dos centros de gravidade • Critério de distância máxima • Critério de distância mínima • Critério de Ward www.NHConsultoriaTI.com
Classificação ascendente hierarquica Distância entre os elementos Etapa 5 : n-4 = 1 classe 1 3 2 4 5 1 2 3 4 5 • Como medir a distância entre uma classe (um grupo) e um elemento individual ? • Critério dos centros de gravidade • Critério de distância máxima • Critério de distância mínima • Critério de Ward www.NHConsultoriaTI.com
Classificação ascendente hierarquica Distância entre os elementos Etapa 5 : n-4 = 1 classe 2 classes 1 3 2 4 5 1 2 3 4 5 Classe 1 Classe 2 www.NHConsultoriaTI.com
Classificação ascendente hierarquica Distância entre os elementos Etapa 5 : n-4 = 1 classe 1 3 2 3 classes 4 5 1 2 3 4 5 Classe 1 Classe 2 Cl. 3 A escolha da quantidade de classes é determinada a posteriori www.NHConsultoriaTI.com
CAH : critérios de agrupamento • Distância máxima • (A,B) = max{d(a,b), aA, bB} • Distância mínima • (A,B) = min{d(a,b), aA, bB} • Centros de gravidade • (A,B) =d(ga, gb) www.NHConsultoriaTI.com
CAHInércias Dada uma classificação em k grupos de efetivos n1, ..., nk os individuos sendo pontos de um espaço euclidiano. G1, ..., Gk são os grupos, e g1, ..., gk são os seus centros de gravidade (g é o centro de gravidade da nuve completa). www.NHConsultoriaTI.com
CAHCritério de agrupamento de inércia Teorema de Huygens : Inércia total = Inércia interclasse + Inércia Intraclasse A cada agrupamento realizado, a inércia intraclasse aumenta, e a inércia interclasse diminue www.NHConsultoriaTI.com
CAHMétodo de WARD Ao substituir duas classes A e B pela sua reunião, demostra-se que a diminução da inércia interclasse (ou seja o aumento da intraclasse) é igual a : O método de Ward consiste em escolher o agrupamento que minimize o aumento da inércia intraclasse. www.NHConsultoriaTI.com
CAHMétodo de WARD • Agrupamento com distância mínima • Efeitos em cadeia : os objetos se agrupam ao grupo ja constituido um depois do outro. • Agrupamento com distância máxima • Deformações importantes da árvore. • Método Ward • Utiliza-se uma distância de Euclid. www.NHConsultoriaTI.com
CAHCrítica • Vantagens • As classes são uma visão sintética e estruturada dos dados • Agrupamentos pouco esperados aparecem • As classes significativas geram definições de funções que permitem num segundo tempo atribuir um indivíduo novo à classe mais próxima • Desvantagens • Agrupamentos esperados não aparecem • Funciona melhor juntamente com uma ACP (método de Ward). www.NHConsultoriaTI.com
Exemplo de CAH com ACP www.NHConsultoriaTI.com
K-means Etapa 0 c1 c2 Inicializa-se de maneira aleatória os centros de gravidade de cada classe : ck. A quantidade de classes é determinada a priori. www.NHConsultoriaTI.com
K-means Etapa 1 c1 c2 Cada ponto é atribuído a classe que têm centro de gravidade mais próximo www.NHConsultoriaTI.com
K-means Etapa 2 c1 c2 Os centros de gravidade são re-calculados dentro de cada classe www.NHConsultoriaTI.com
K-means Etapa 3 : identica á etapa 1 c1 c2 Cada ponto é atruibuído a classe que têm centro de gravidade mais próximo www.NHConsultoriaTI.com
K-means Etapa 4 : identica á etapa 2 c1 c2 Os centros de gravidade são re-calculados dentro de cada classe www.NHConsultoriaTI.com
K-means Etapa 5 : identica á etapa 1 c1 c2 Cada ponto é atruibuído a classe que têm centro de gravidade mais próximo www.NHConsultoriaTI.com
K-means Etapa 6 c1 c2 Os centros de gravidade são re-calculados dentro de cada classe www.NHConsultoriaTI.com
K-means Etapa 7 c1 c2 Cada ponto é atruibuído a classe que têm centro de gravidade mais próximo www.NHConsultoriaTI.com
K-means Etapa 8 c1 c2 • A partir desta etapa, as classes não mudam mais. • Pára-se quando : • O centros de gravidade se deslocam muito pouco • Nenhum indivíduo muda de classe. www.NHConsultoriaTI.com
Comparação K-Means e CAH www.NHConsultoriaTI.com
K-meansCrítica • Vantagens • Algorítmo muito simples, e eficiente • Possibilidade de utilizar dissimilaridades, diversas distâncias, etc. • Desvantagens • Quantidade de classes conhecida a priori. • Não funciona com dados discretos • Sensível ao ruído • Tendência de construir classes esféricas, maximizando inércia intraclasse e minimizando inércia interclasse (não descobre grupos de forma não-convexa). www.NHConsultoriaTI.com
Técnicas não supervisionadasBusca de associações • Mineração de associações ou de regras de associação: • Encontrar padrões freqüentes, associações, correlações, ou estruturas causais a partir de conjuntos de itens ou objetos em DB de transações, relacionais, ou em outros repositórios de informações. • Aplicações: • Análise de cestas de dados (basket data), marketing cruzado, projeto de catálogos, agrupamento, etc. www.NHConsultoriaTI.com
Regras de associações • Dados: • Uma DB da transações; • Cada transação constituída de uma lista de itens (compras de um cliente); • Encontrar: • Todas as regras que correlacionam a presença de um conjunto de itens com outro conjunto de itens. • Exemplo: 98 % das pessoas que compram pneus e assessórios também compram sua instalação. www.NHConsultoriaTI.com
Análise dos "tickets" de caixa Se premissa então conseqüência Lista de produtos Exemplo : "Se Martini e Cachaça então Azeitonas" Regras de associaçãoDados de transação - 1 • Comentários : • Uma observação = uma compra • Somente considerar a presencia dos produtos, não a quantidade. • Quantidade de produtos varia entre as compras • Lista dos produtos é imensa ! • Objetivos : • Descobrir os produtos comprados juntos • Escrever este conhecimento na forma de regras de associação www.NHConsultoriaTI.com
Regras de associaçãoDados de transação - 2 Outra representação dos dados de transação (binária) Em função da granularidade escolhida, o número de colunas pode ser imenso ! (ex. Agrupamento por família de produtos : azeites de oliva, cervejas, etc.) O objetivo da análise é detectar co-ocorrências na tabela. www.NHConsultoriaTI.com
Dados Suporte : indicador de "confiabilidade" da regra sup(R1) = 2 ou sup(R1) = 2/6 = 33% absoluto relativo Confiança : indicador de "precisão" da regra conf(R1) = sup(R1)/sup(premissa(R1)) = sup(p1 -> p2)/sup(p1) = 2/4 = 50% Regras de associaçãoCritérios de avaliação das regras Suporte e Confiança Regra de associação : R1 : Se p1 então p2 Uma "boa" regra deve ter Confiança e Suporte altos www.NHConsultoriaTI.com
Regras de associaçãoIdentificação das regras - 1 • Parâmetros : fixar um grau de exigência nas regras. • Suporte mínimo (ex : 2 transações ou 33% das transações). • Confiança mínima (ex : 75%). • Permite limitar (controlar) a quantidade de regras que serão produzidas. • Mecanismo : construção em 2 tempos • Busca dos itemset freqüentes (com suporte >= suporte min). • A partir dos itemset freqüentes, construir as regras (com conf >= conf min). • Definições • Item = produto • Itemset = conjunto de produtos (ex : {p1, p3}) • sup(itemset) = quantidade de transações onde aparecem simultaneamente os produtos (ex : sup{p1,p3}=4) • card(itemset) = quantidade de produtos no conjunto (ex : card{p1,p3}=2). www.NHConsultoriaTI.com
Dados 4 {p1} 3 {p2} 5 {p3} 1 {p4} {p1,p2} 2 {p1,p3} 4 {p1,p4} 0 {p2,p3} 3 Era previsível : sup{p4,...} <= sup{p4} => sup{p1,p4} < 2 {p1,p2,p3} 2 É preciso testar por que {p1,p2}, {p1,p3}, {p2,p3} são todos freqüentes Regras de associaçãoIdentificação das regras – 2Busca dos Itemset freqüentes Caso geral : 2j – 1 Número de cáculos enorme ! Cada cálculo gera um scan completo da base C14 = 4 Itemsets de card=1 C24 = 6 Itemsets de card=2 C34 = 4 Itemsets de card=3 C44 = 1 Itemsets de card=4 = 15 = 24 - 1 Redução da complexidade com eliminação de algumas pistas www.NHConsultoriaTI.com