320 likes | 400 Views
Business Intelligence. KDD Antonio Cesar de Barros Munari. Extração de conhecimento: visão geral. Extração de conhecimento em bd. Knowledge Database Discovery (KDD) É um processo que possui várias etapas é relativamente recente nas empresas é multidisciplinar
E N D
Business Intelligence KDD Antonio Cesar de Barros Munari
Extração de conhecimento em bd • Knowledge Database Discovery (KDD) • É um processo que • possui várias etapas • é relativamente recente nas empresas • é multidisciplinar • é estratégico para as organizações • deve ganhar importância nos próximos anos Antonio Cesar de Barros Munari
Propósito do KDD • Buscar as informações não evidentes que estão contidas nas bases de dados • conseguir ler nas entrelinhas • a perspectiva é outra: os dados em seu conjunto • Exemplos: • Como variam as vendas ao longo dos anos? • Quem são meus melhores clientes? • O que caracteriza um devedor problemático? Antonio Cesar de Barros Munari
KDD: disciplinas importantes • Estatística • Convencional • amostragem, medidas de dispersão, distribuições, teste de hipóteses, teoria da decisão, regressão linear, ... • Análise exploratória • Análise multivariada • Bancos de dados • Áreas dos domínios dos problemas Antonio Cesar de Barros Munari
KDD: disciplinas importantes • Inteligência artificial e afins • Aprendizado de máquina • redes neurais (RN) • raciocínio baseado em casos • computação evolutiva (GA) • indução de regras • sistemas especialistas • sistemas nebulosos (fuzzy) • … Antonio Cesar de Barros Munari
Representação do conhecimento • Diversas formas são possíveis: • tabelas e relatórios • gráficos e mapas • regras • Melhor forma depende de vários aspectos • tipo de conhecimento • propósitos de utilização • características do problema e do usuário final • … Antonio Cesar de Barros Munari
Diversos tipos de conhecimento • Regras de associação • Market basket analysis • Regras de classificação • Análise de agrupamentos • Cluster analysis • Classificação não supervisionada • Padrões seqüenciais Antonio Cesar de Barros Munari
O conhecimento em regras • Forma geral (regra de produção) • X antecedente conseqüente • Antecedente: LHS (Left Hand Size) • Conseqüente: RHS (Right Hand Size) Exemplo: ECivil = ‘S’ ^ Renda > 2000 status = ‘A’ Antonio Cesar de Barros Munari
Avaliação de regras • Existem diversas medidas, algumas são mais adequadas para determinadas situações • Mais comuns: Confiança e Suporte • Típicas da utilização de regras de associação e de classificação Antonio Cesar de Barros Munari
Confiança x Suporte Casos com a característica A Regra: A B A B T (conjunto total de casos) Casos com a característica B Antonio Cesar de Barros Munari
Confiança da regra |A B| / |A| A B Grau de confiança p/ A B Antonio Cesar de Barros Munari
Confiança da regra • Mede o grau de acerto esperado para a regra • Forma de cálculo • confiança (A B) = No casos com A e B • No de casos com A • Outros nomes: confiabilidade, acurácia, força da regra, qualidade da regra, fator de certeza, peso discriminatório Antonio Cesar de Barros Munari
Suporte da regra |A B| / |T| A B T (conjunto total de casos) Suporte de A B Antonio Cesar de Barros Munari
Suporte da regra • Mede o grau de freqüência com que a regra ocorre • Forma de cálculo: • suporte (A B) = No casos com A e B • No total de casos Antonio Cesar de Barros Munari
Regras de associação • Identificam itens que ocorrem juntos em uma mesma transação • Exemplos: • quais os produtos que geralmente são comprados juntos? • Aplicação chamada Market Basket Analysis • quais as operações que um usuário costuma fazer ao interagir com meu site? Antonio Cesar de Barros Munari
Cestas com ovos e leite Market basket analysis Cestas com ovos Cestas com leite Todas as cestas de compra Antonio Cesar de Barros Munari
Regras de classificação • Definem critérios para associar um novo caso a uma classe pré-existente • Exemplos: • Este novo cliente pode ser um cliente preferencial? • Os sintomas apresentados pelo paciente correspondem a qual problema/doença? Antonio Cesar de Barros Munari
Análise de agrupamentos • Divide os casos em categorias (grupos ou clusters) que não estão previamente definidas • Exemplos: • quais os tipos de alunos encontrados na escola? • como os clientes podem ser divididos? • que tipos de reclamação costumamos receber? Antonio Cesar de Barros Munari
Padrões seqüenciais • Identificam ocorrências que possuem um padrão de comportamento ao longo do tempo ou do espaço • Exemplos: • como variam as vendas ao longo do ano? • como se comportam as cotações da bolsa de valores após uma desvalorização cambial? • que tipo de figura é essa? Antonio Cesar de Barros Munari
Classificadores • Função que atribui uma categoria pré-definida para um objeto • com base nos atributos desse objeto • após algum tipo de treinamento • Várias técnicas para a indução de classificadores • Redes neurais, GA, árvores de decisão, etc • Classificador x sua representação Antonio Cesar de Barros Munari
Um caso fictício Antonio Cesar de Barros Munari
A classificação Antonio Cesar de Barros Munari
A árvore de decisão Antonio Cesar de Barros Munari
Construção da árvore • A escolha do atributo de divisão é crítica • Seleção da melhor árvore é NP-complexa • Estratégia: qual atributo gera os subconjuntos mais homogêneos? (com relação à classe) • Abordagens principais • Estatística (gini index, 2) • Teoria da Informação (entropia e seus derivados) Antonio Cesar de Barros Munari
Acurácia • Indica o grau de acerto de um classificador • sobre os dados de treinamento • sobre novos dados (test set) • é preciso saber a classe correta para medi-la • Taxa de erro = erros / nº de casos • pode-se ponderar o custo de certos erros ... • Acurácia = 1 - taxa de erro Antonio Cesar de Barros Munari
Algoritmo básico (TDIDT) Sendo S o conjunto de treinamento inicial faça: 1. Encontre o melhor atributo at ; 2. Divida os objetos conforme o valor de at ; 3. Crie um nó para o atributo at ; 4. Para cada subconjunto Si formado faça: 5. Se todos os objetos são da mesma classe crie um nó folha para a classe senão reexecute do passo 1, fazendo S = Si ; Antonio Cesar de Barros Munari
Arquivos para o See5 Antonio Cesar de Barros Munari
Geração dos dados Antonio Cesar de Barros Munari
Etapas do processo KDD Seleção Pré Processamento Dados Alvo Dados Transformação Dados Transformados Dados Pré Processados Data Mining Inter- pretação Conhecimento Padrões Antonio Cesar de Barros Munari
DW O processo KDD Antonio Cesar de Barros Munari