1 / 32

Business Intelligence

Business Intelligence. KDD Antonio Cesar de Barros Munari. Extração de conhecimento: visão geral. Extração de conhecimento em bd. Knowledge Database Discovery (KDD) É um processo que possui várias etapas é relativamente recente nas empresas é multidisciplinar

alyson
Download Presentation

Business Intelligence

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Business Intelligence KDD Antonio Cesar de Barros Munari

  2. Extração de conhecimento: visão geral

  3. Extração de conhecimento em bd • Knowledge Database Discovery (KDD) • É um processo que • possui várias etapas • é relativamente recente nas empresas • é multidisciplinar • é estratégico para as organizações • deve ganhar importância nos próximos anos Antonio Cesar de Barros Munari

  4. Propósito do KDD • Buscar as informações não evidentes que estão contidas nas bases de dados • conseguir ler nas entrelinhas • a perspectiva é outra: os dados em seu conjunto • Exemplos: • Como variam as vendas ao longo dos anos? • Quem são meus melhores clientes? • O que caracteriza um devedor problemático? Antonio Cesar de Barros Munari

  5. KDD: disciplinas importantes • Estatística • Convencional • amostragem, medidas de dispersão, distribuições, teste de hipóteses, teoria da decisão, regressão linear, ... • Análise exploratória • Análise multivariada • Bancos de dados • Áreas dos domínios dos problemas Antonio Cesar de Barros Munari

  6. KDD: disciplinas importantes • Inteligência artificial e afins • Aprendizado de máquina • redes neurais (RN) • raciocínio baseado em casos • computação evolutiva (GA) • indução de regras • sistemas especialistas • sistemas nebulosos (fuzzy) • … Antonio Cesar de Barros Munari

  7. Representação do conhecimento • Diversas formas são possíveis: • tabelas e relatórios • gráficos e mapas • regras • Melhor forma depende de vários aspectos • tipo de conhecimento • propósitos de utilização • características do problema e do usuário final • … Antonio Cesar de Barros Munari

  8. Diversos tipos de conhecimento • Regras de associação • Market basket analysis • Regras de classificação • Análise de agrupamentos • Cluster analysis • Classificação não supervisionada • Padrões seqüenciais Antonio Cesar de Barros Munari

  9. O conhecimento em regras • Forma geral (regra de produção) • X antecedente  conseqüente • Antecedente: LHS (Left Hand Size) • Conseqüente: RHS (Right Hand Size) Exemplo: ECivil = ‘S’ ^ Renda > 2000  status = ‘A’ Antonio Cesar de Barros Munari

  10. Avaliação de regras • Existem diversas medidas, algumas são mais adequadas para determinadas situações • Mais comuns: Confiança e Suporte • Típicas da utilização de regras de associação e de classificação Antonio Cesar de Barros Munari

  11. Confiança x Suporte Casos com a característica A Regra: A  B A B T (conjunto total de casos) Casos com a característica B Antonio Cesar de Barros Munari

  12. Confiança da regra |A  B| / |A| A B Grau de confiança p/ A  B Antonio Cesar de Barros Munari

  13. Confiança da regra • Mede o grau de acerto esperado para a regra • Forma de cálculo • confiança (A  B) = No casos com A e B • No de casos com A • Outros nomes: confiabilidade, acurácia, força da regra, qualidade da regra, fator de certeza, peso discriminatório Antonio Cesar de Barros Munari

  14. Suporte da regra |A  B| / |T| A B T (conjunto total de casos) Suporte de A  B Antonio Cesar de Barros Munari

  15. Suporte da regra • Mede o grau de freqüência com que a regra ocorre • Forma de cálculo: • suporte (A  B) = No casos com A e B • No total de casos Antonio Cesar de Barros Munari

  16. Regras de associação • Identificam itens que ocorrem juntos em uma mesma transação • Exemplos: • quais os produtos que geralmente são comprados juntos? • Aplicação chamada Market Basket Analysis • quais as operações que um usuário costuma fazer ao interagir com meu site? Antonio Cesar de Barros Munari

  17. Cestas com ovos e leite Market basket analysis Cestas com ovos Cestas com leite Todas as cestas de compra Antonio Cesar de Barros Munari

  18. Regras de classificação • Definem critérios para associar um novo caso a uma classe pré-existente • Exemplos: • Este novo cliente pode ser um cliente preferencial? • Os sintomas apresentados pelo paciente correspondem a qual problema/doença? Antonio Cesar de Barros Munari

  19. Análise de agrupamentos • Divide os casos em categorias (grupos ou clusters) que não estão previamente definidas • Exemplos: • quais os tipos de alunos encontrados na escola? • como os clientes podem ser divididos? • que tipos de reclamação costumamos receber? Antonio Cesar de Barros Munari

  20. Padrões seqüenciais • Identificam ocorrências que possuem um padrão de comportamento ao longo do tempo ou do espaço • Exemplos: • como variam as vendas ao longo do ano? • como se comportam as cotações da bolsa de valores após uma desvalorização cambial? • que tipo de figura é essa? Antonio Cesar de Barros Munari

  21. Estratégia básica de KDD

  22. Classificadores • Função que atribui uma categoria pré-definida para um objeto • com base nos atributos desse objeto • após algum tipo de treinamento • Várias técnicas para a indução de classificadores • Redes neurais, GA, árvores de decisão, etc • Classificador x sua representação Antonio Cesar de Barros Munari

  23. Um caso fictício Antonio Cesar de Barros Munari

  24. A classificação Antonio Cesar de Barros Munari

  25. A árvore de decisão Antonio Cesar de Barros Munari

  26. Construção da árvore • A escolha do atributo de divisão é crítica • Seleção da melhor árvore é NP-complexa • Estratégia: qual atributo gera os subconjuntos mais homogêneos? (com relação à classe) • Abordagens principais • Estatística (gini index,  2) • Teoria da Informação (entropia e seus derivados) Antonio Cesar de Barros Munari

  27. Acurácia • Indica o grau de acerto de um classificador • sobre os dados de treinamento • sobre novos dados (test set) • é preciso saber a classe correta para medi-la • Taxa de erro = erros / nº de casos • pode-se ponderar o custo de certos erros ... • Acurácia = 1 - taxa de erro Antonio Cesar de Barros Munari

  28. Algoritmo básico (TDIDT) Sendo S o conjunto de treinamento inicial faça: 1. Encontre o melhor atributo at ; 2. Divida os objetos conforme o valor de at ; 3. Crie um nó para o atributo at ; 4. Para cada subconjunto Si formado faça: 5. Se todos os objetos são da mesma classe crie um nó folha para a classe senão reexecute do passo 1, fazendo S = Si ; Antonio Cesar de Barros Munari

  29. Arquivos para o See5 Antonio Cesar de Barros Munari

  30. Geração dos dados Antonio Cesar de Barros Munari

  31. Etapas do processo KDD Seleção Pré Processamento Dados Alvo Dados Transformação Dados Transformados Dados Pré Processados Data Mining Inter- pretação Conhecimento Padrões Antonio Cesar de Barros Munari

  32. DW O processo KDD Antonio Cesar de Barros Munari

More Related