1 / 71

Data Mining : Conceitos e Técnicas

Data Mining : Conceitos e Técnicas. Algumas técnicas para Data Mining. Geração de regras de associação; Classificação e predição; Agrupamento ( clustering ). Data Mining : Regras de Associação. Regras de associação. Mineração de associações ou de regras de associação:

Download Presentation

Data Mining : Conceitos e Técnicas

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data Mining: Conceitos e Técnicas

  2. Algumas técnicas para Data Mining • Geração de regras de associação; • Classificação e predição; • Agrupamento (clustering).

  3. Data Mining: Regras de Associação

  4. Regras de associação • Mineração de associações ou de regras de associação: • Encontrara padrões freqüentes, associações, correlações, ou estruturas causais a partir de conjuntos de itens ou objetos em DB de transações, relacionais, ou em outros repositórios de informações. • Aplicações: • Análise de cestas de dados (basket data), marketing cruzado, projeto de catálogos, agrupamento, etc.

  5. Regras de associação • Exemplo: • Formato da regra: “corpo => cabeça [suporte, confiança]”; • compra(X, “fraldas”) => compra (X, “cerveja”) [0.5%, 60%]

  6. Regras de associação • Dados: • Uma DB da transações; • Cada transação constituída de uma lista de itens (compras de um cliente); • Encontrar: • Todas as regras que correlacionam a presença de um conjunto de itens com outro conjunto de itens. • Exemplo: 98 % das pessoas que compram pneus e assessórios também compram sua instalação.

  7. Regras de associação • Aplicações: • * => contratos de manutenção (o que fazer para aumentar as vendas de contratos de manutenção) • Eletrônicos => * (que outros produtos devem ser estocados) • Indicativos em marketing direto; • Detecção de “ping-pong” de pacientes, colisões...

  8. Regras de associação Customer buys both Customer buys diaper Encontrar regras X & Y  Z com suporte e confiança mínimos • Suporte,s, é a probabilidade de uma transação conter {X  Y  Z} • Confiança,c, é a probabilidade condicional da transação tendo {X  Y} também conter Z Customer buys beer • Para um suporte mínimo de 50%, e confiança mínima de 50%, tem-se: • A  C (50%, 66.6%) • C  A (50%, 100%)

  9. Regras de associação • Associações booleanas x quantitativas: conforme os valores manuseados: • compra(X, “SQLServer”) ^ compra(X, “DMBook”) => compra(X, “DBMiner”) [0.2%, 60%] • idade(Y, “30..39”) ^ renda(Y, “42..48K”) => compra(Y, “PC”) [1%, 75%] • Associações uni e multi dimensionais; • Análises uni e multi-níveis: • Que marcas de cervejas estão associadas a marcas de fraldas ?

  10. Regras de associação • Varias extensões: • Correlação, análise causal: • Associação não necessariamente implica em correlação ou causalidade; • Padrões maximais e conjuntos fechados de itens; • Restrições forçadas: • E.g., pequenas vendas (valor < 100) disparam grandes vendas (valor > 1000)?

  11. Regras de associação • Algoritmo utilizado: • APRIORI; • Princípio: todo subconjunto de um conjunto freqüente de itens deve ser freqüente; • Várias otimizações para melhoria da performance computacional.

  12. Regras de associação - exemplo Database D L1 C1 Scan D C2 C2 L2 Scan D L3 C3 Scan D

  13. Regras de associação • Regras de associação multi-níveis: • Pressupõe uma hierarquia; • Abordagem top-down progressiva; • Inicialmente: encontrar as regras “fortes” de alto nível: • Leite => pão [20%, 60%] • Em seguida, regras “fracas” de mais baixo nível: • 2% leite => pão branco [6%, 50%]

  14. Sumário • Mineração de regras de associação: • Provavelmente a contribuição mais significativa da comunidade de DB à KDD; • Inúmeros trabalhos publicados; • Muitos pontos importantes explorados; • Direções de pesquisa: • Análise de associações em outros tipos de dados: espaciais, multimídia, temporais, etc.

  15. Aprendizagem supervisionada e não supervisionada • Aprendizagem supervisionada (classificação) • Supervisão: O conjunto de treinamento (observações, medições, etc.) é acompanhado dos rótulos indicativos das classes das observações; • Novos dados são classificados com base na estrutura gerada a partir do conjunto de treinamento;

  16. Aprendizagem supervisionada e não supervisionada • Aprendizagem não supervisionada(agrupamento = clustering) • Os rótulos das classes no conjunto de treinamento são desconhecidos; • Dado um conjunto de medidas, observações, etc. o objetivo é estabelecer a existência de classes ou grupos nos dados.

  17. Data Mining: Classificação e Predição

  18. Classificação e Predição • Classificação: • Predição dos nomes (rótulos) das classes; • Classifica os dados (constrói um modelo) com base no conjunto de treinamento e nos valores (rótulos) do atributo classificador, de forma a determinar a classe dos novos dados; • Predição: • Modela funções sobre valores contínuos, i.e., prediz valores desconhecidos ou perdidos; • Aplicações típicas: • Aprovação de crédito, marketing dirigido, diagnóstico médico ...

  19. Classificação: um processo de dois passos • Construção do modelo: • Descrição de um conjunto de um conjunto de classes pré-determinadas: • Cada tupla (exemplo) é considerada como pertencente a uma classe pré-definida, determinada pelo rótulo de seu atributo-classe; • O conjunto de tuplas usado na construção do modelo é o conjunto de treinamento; • O modelo pode ser representado por regras de classificação, árvores de decisão ou fórmulas matemáticas;

  20. Classificação: um processo de dois passos • Uso do modelo: • Para a classificação futura ou de elementos desconhecidos; • Correção estimada do modelo: • Uso de conjunto de teste; • O rótulo conhecido é comparado ao rótulo fornecido pelo modelo; • O conjunto de teste deve ser diferente do conjunto de treinamento, de forma a evitar overfitting.

  21. Training Data Classifier (Model) Classificação: passo 1 Classification Algorithms IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’

  22. Classifier Testing Data Unseen Data Classificação: passo 2 (Jeff, Professor, 4) Tenured?

  23. Preparação do dados • Limpeza dos dados: • Pré-processamento dos dados para reduzir o ruído e tratar valores desconhecidos; • Análise de relevância (seleção de características): • Remoção de atributos irrelevantes ou redundantes; • Transformação de dados: • Generalização e normalização dos dados.

  24. Avaliação da classificação • Correção preditiva; • Performance e escalabilidade; • Construção do modelo e seu uso; • Robustez: • Manuseio de dados ruidosos e incompletos; • Interpretabilidade: • Compreensão oferecida pelo modelo; • Utilidade das regras: • Tamanho, facilidade de leitura, etc.

  25. Árvores de decisão

  26. Classificação por árvore de decisão • Árvores de decisão: • Estrutura do tipo “fluxograma”; • Nós internos denotam testes em atributos; • Ramos representam saídas dos testes; • Nós folha representam rótulos de classe.

  27. Classificação por árvore de decisão • Construção da árvore: • No início, todos os exemplos de treinamento são associados à raiz; • Os exemplos são particionados com base nos atributos selecionados; • Poda da árvore: ramos que refletem desvios e/ou ruído são eliminados; • Uso da árvore de decisão: • Os valores dos atributos do novo exemplo são testados diretamente na árvore atingindo o nó folha da classe correspondente.

  28. Exemplo: árvore de decisão Exemplo:ID3 de Quinlan

  29. Exemplo: árvore de decisão age? <=30 overcast >40 30..40 student? credit rating? yes no yes fair excellent no yes no yes Buys computer ?

  30. Exemplo: árvore de decisão • Ordem dos atributos: ganho de informação (página 70/421 do Mitchell)... • Representação por regras IF-THEN: • Uma regra para cada caminho da raiz à folha; • Cada par (atributo, valor) forma uma conjunção; • Cada folha determina a classe prevista; • Regras são de mais fácil compreensão aos usuários: IF age = “<=30” AND student = “no” THEN buys_computer = “no” IF age = “>40” AND credit_rating = “excellent” THEN buys_computer = “yes”

  31. Classificador Bayesiano

  32. Classificador bayesiano • Aprendizagem probabilista: cálculo da probabilidade explícita da hipótese, de ampla aplicação em vários domínios; • Incremental: • cada exemplo de treinamento pode aumentar / diminuir a probabilidade da hipótese; • Conhecimento a priori pode ser combinado com os dados observados; • Previsão probabilista: • Várias hipótese podem ser previstas, ponderadas por suas probabilidades; • Fornece uma referência a ser comparada a outros métodos.

  33. Classificador bayesiano • Fundamento: Teorema de Bayes; • Dado um conjunto de treinamento D, a probabilidade a posteriori de uma hipótese h, P(h|D) é dada por: • A probabilidade máxima a posteriori MAP é: • Dificuldade prática: requer conhecimento inicial de muitas probabilidades, custo computacional elevado; • Simplificação: independência dos atributos.

  34. Exemplo: jogar ou não tênis ?

  35. Exemplo: jogar ou não tênis ? • Um novo exemplo: X = <rain, hot, high, false> • P(X|p)·P(p) = P(rain|p)·P(hot|p)·P(high|p)·P(false|p)·P(p) = 3/9·2/9·3/9·6/9·9/14 = 0.010582 • P(X|n)·P(n) = P(rain|n)·P(hot|n)·P(high|n)·P(false|n)·P(n) = 2/5·2/5·4/5·2/5·5/14 = 0.018286 • O exemplo X é classificado como da classe n(não jogar).

  36. Redes Neurais

  37. Redes Neurais Vantagens: • Correção de predição em geral elevada; • Robustez, bom funcionamento na presença de ruídos; • Saídas discretas, reais, ou mistas; • Avaliação rápida da função de aprendizagem. Desvantagens / crítica: • Tempo de treinamento lento; • Dificuldade no entendimento da função de aprendizagem (pesos); • Difícil incorporação de conhecimento de domínio.

  38. - mk x0 w0 x1 w1 f å output y xn wn Input vector x weight vector w weighted sum Activation function Um neurônio • Um vetor n-dimensional x de entrada é mapeado em uma variável y por meio de um produto escalar e de um mapeamento não-linear.

  39. Rede perceptron multi-camadas Output vector Output nodes Hidden nodes wij Input nodes Input vector: xi

  40. Rede perceptron multi-camadas Treinamento: • Obtenção dos pesos que tornam a maior parte das tuplas no conjunto de treinamento corretamente classificadas; Passos: • Inicialização randômica dos pesos; • Alimentação da rede pelas tuplas, uma a uma; • Para cada unidade: • Computar a entrada da rede à unidade como combinação linear das entradas da unidade; • Computar a saída em função dos pesos e da função de ativação; • Calcular o erro; • Modificar os pesos e recomputar.

  41. Aprendizagem baseada em instâncias:K-vizinhos mais próximos

  42. K-vizinhos mais próximos Aprendizagem baseada em instâncias (IBL): • Armazenamento dos exemplos de treinamento (avaliação preguiçosa = “lazy evaluation”) até que a nova instância deva ser classificada; K-vizinhos mais próximos: • Algoritmo mais utilizado em IBL; • As instâncias são associadas a pontos no espaço euclidiano; • Métrica de distância para selecionar os vizinhos.

  43. K-vizinhos mais próximos (k-NN) • Todas as instâncias correspondem a pontos no espaço n- dimensional; • Os vizinhos mais próximos são usualmente definidos em função da distância euclidiana; • A função objetivo (classe) pode ser discreta ou real; • Para os casos discretos o k-NN retorna a classe mais comum entre as classes dos k vizinhos mais próximos à nova instância;

  44. K-vizinhos mais próximos (k-NN) • Diagrama de Voronoi: descreve a superfície de decisão induzida; • No exemplo a seguir, um caso típico para 1-NN . _ _ _ . _ . + . + . _ + xq . _ +

  45. Predição Similar à classificação no caso em que o atributo “classe” é contínuo; Etapas: • Construção do modelo; • Uso do modelo para predizer um valor desconhecido: • O método mais utilizado é a regressão: • Regressão linear e múltipla; • Regressão não-linear.

  46. Sumário • Classificação é provavelmente uma das técnicas mais utilizadas de data mining, com muitas possibilidades de aplicação; • É uma problema extensivamente estudado, especialmente com o uso de análise estatística, aprendizagem de máquina e redes neurais; • A escalabilidade é muito importante em aplicações de DB: o uso conjunto de de classificação e técnicas de DB é uma área promissora de estudos; • Muitas novas áreas podem ser vislubradas: classificação de dados não-relacionais, e.g. textuais, espaciais, multimídia, etc.

  47. Data Mining: Agrupamento (clustering)

  48. Agrupamento (clustering) Cluster: uma coleção de objetos de dados; • Similares entre si no mesmo cluster; • Não similares aos objetos fora do respectivo cluster; Análise de clusters: • Agrupamento de dados em clusters; Agrupamento (clustering) é uma classificação não-supervisionada: não há classes pré-definidas. Aplicações típicas: • Como ferramenta para análise da distribuição dos dados; • Como pré-processamento para outros métodos.

  49. Aplicações gerais do agrupamento • Reconhecimento de padrões; • Análise de dados espaciais: • Criação de mapas temáticos em GIS por agrupamento de espaços de características; • Detecção de clusters espaciais e sua explanação em data mining; • Processamento de imagens; • Pesquisas de mercado; • WWW: • Classificação de documentos; • Agrupamento de dados de weblogs para descobrir padrões similares de acesso;

  50. Exemplos de aplicações • Marketing: ajuda na descoberta de grupos distintos de clientes, e uso deste conhecimento para criar campanhas dirigidas; • Uso de terras: identificação de áreas de uso similar a partir de uma base de observação via satélite; • Seguros: identificação de grupos de assegurados com alto custo de sinistro; • Planejamento urbano: identificação de grupos de casa de acordo com seu tipo, valor e localização geográfica; • Estudos sobre terremotos: identificação de epicentros e seu agrupamento ao longo de falhas geológicas.

More Related