400 likes | 561 Views
Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining). Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br. Sumário. Introdução Conceito de DCBD Tipos de descobertas Processo de DCBD Bibliografia. Introdução.
E N D
Descoberta de Conhecimento em Bases de Dados - DCBD(mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br
Sumário • Introdução • Conceito de DCBD • Tipos de descobertas • Processo de DCBD • Bibliografia
Introdução • Grande quantidade de informações armazenadas em muitas áreas: comércio,indústria, governo, etc. • Exemplos: • cada compra em um supermercado fica registrada em um arquivo (código de barra) • todas as chamadas telefônicas (origem, destino, horário, duração, ...) • o SUS mantém registro magnético de todos os atendimentos realizados (hospital, data, médico, diagnóstico, procedimentos realizados, ...)
Exemplo de uso de conhecimento Michael Dell: venda de assinaturas de jornais
BDs atuais • BDs atuais são feitos para armazenar e recuperar rápida e eficientemente dados operacionais • BDs atuais são úteis para recuperar dados específicos, mas não são capazes de extrair conhecimento genérico • Exemplo: um sistema bancário recupera rapidamente as últimas movimentações ou o saldo de uma conta, mas teria dificuldade em descrever o perfil do cliente em relação a outros clientes ou determinar se ele seria um bom pagador em caso de fazer um empréstimo
Introdução • Conceito de DCBD • Tipos de descobertas • Processo de DCBD • Bibliografia
Descoberta de conhecimento em bases de dados Objetivo: estudar e desenvolver um processo capaz de extrair conhecimento novo, útil e interessante implícito em coleções de dados (BD) e representá-lo de forma acessível para o usuário.
Descoberta de conhecimento em bases de dados Objetivo: • descoberta de “conhecimento” a partir de dados existentes • identificar relacionamentos entre os dados e gerar regras para aplicar em casos futuros
Relações da DCBD com outras áreas • O processo de DCBD utiliza conhecimento de várias áreas: • BD • IA: aprendizagem de máquina, redes neurais, representação de conhecimento, ... • estatística
DCBD: Exemplo Predição de consumo de água: • Dados: • consumo diário de água • aspectos do tempo (temperatura, umidade do ar, …) • dia da semana e do mês, feriado, férias, ... • Objetivo: minimizar o consumo de energia elétrica no bombeamento
Introdução • Conceito de DCBD • Tipos de descobertas • Processo de DCBD • Bibliografia
Tipos de descobertas Os dois principais objetivos de alto nível da DCBD são a descrição e a previsão • a descrição se concentra em encontrar padrões que descrevem os dados de forma compreensível para o usuário • a previsão envolve usar valores conhecidos de campos ou variáveis para prever o valor desconhecido ou futuro de variáveis de interesse para isso, utiliza-se vários tipos de descoberta ou tarefas de DCBD
“Tipos” de descobertas • Dependência (associação) entre atributos(o valor de um influencia o outro) • Exemplos: • determinados procedimentos médicos aparecem sempre juntos • determinados procedimento médicos aparecem sempre associados a homens e outros a mulheres • compradores de leite geralmente compram pão na mesma transação • em 80% das transações em que é comprada cerveja, também é comprada batata frita
Exemplo: vendas casadas PRODUTO A PRODUTO B Compra de produto Oferta de produto relacionado PRODUTO A
Agrupamento 2 + Dívida Agrupamento 1 + + + + + + + + + + + + + + + + + + + Agrupamento 3 + + + Renda “Tipos” de descobertas (cont.) • Formação de agrupamentos:é uma tarefa descritiva onde se procura identificar um conjunto finito de categorias ou agrupamentos que descrevem os dados
“Tipos” de descobertas (cont.) • Detecção de seqüências:detecção de dependências em relação ao tempo, em uma ordem determinada. • Exemplo: • determinado procedimento médico sempre precede outro • determinado procedimento só pode ser repetido após um intervalo mínimo de tempo
“Tipos” de descobertas (cont.) • Detecção de desvios:utilizada para detectar anomalias em bases de dados. Pode evidenciar problemas na qualidade dos dados, fraudes ou descobrir eventos raros • Exemplos: • um paciente foi submetido a três cirurgias para extração de rim • um homem submetido à cesariana • a incidência da doença “x” é bem maior no município “y” do que nos municípios vizinhos
Exemplos de aplicações • Cartões de crédito • Empresas de energia elétrica e água • SUS
exemplo: sistema de mortalidade • Doenças “P” – Algumas afecções originadas no período perinatal: • Uruguaiana apresenta um desvio significativo em relação a esta doença, pois foram registrados muito mais casos de morte do que o esperado. • Porto Alegre registrou menos mortes do que a quantidade esperada, para esta doença. • Caxias do Sul apresenta um desvio em relação às doenças “Q- malformação congênita, deformidades e anomalias cromossômicas”. Foi registrado um número de mortes significantemente maior do que o esperado para a cidade.
“Tipos” de descobertas (cont.) • Classificação ou descrição de conceitos(aprendizado supervisionado): dado um atributo que indique a classe, o algoritmo monta uma descrição para cada classe, identificando características comuns entre os membros da classe • exemplo: • se tem salário alto, é casado, tem conta no banco e o valor da prestação é baixo então é bom pagador • se tem salário baixo e a prestação é alta então é mau pagador
Exemplos de uso • Upgrade de pacotes de TV por assinatura • Cancelamento de assinaturas • Análise para concessão de empréstimos bancários
Introdução • Conceito de DCBD • Tipos de descobertas • Processo de DCBD • Bibliografia
O processo de DCBD • Pouco explorado na bibliografia • Longo • Trabalhoso • Muito dependente do usuário
Metodologia CRISP-DM • CRISP-DM = CRoss – Industry Standard Process for Data Mining (projeto ESPRIT com vários parceiros industriais) • Geral - não se restringe a ferramenta ou tecnologia específica
Entendimento do Negócio(ou do domínio do problema) Identificação dos objetivos do usuário sob o ponto de vista de DCBD e preparação de um plano inicial • Determinar os objetivos • Avaliar a situação: disponibilidade de recursos, limitações, etc. • Determinar os objetivos da DC: objetivo, tipo de problema (classificação, clustering,...), critérios para avaliação do modelo. • Produzir plano do projeto
Entendimento dos Dados A partir da coleta inicial, explorar os dados, verificando suas propriedades e qualidade • Coletar dados iniciais • Descrever os dados • Número de atributos e instâncias em cada arquivo • Tipos e faixas de valores dos atributos • Significado de cada atributo e sua importância para o objetivo • Estatísticas básicas para alguns atributos(média, DP, máximo, mínimo, etc.) • Relações entre os atributos-chave • Explorar os dados • Verificar qualidade dos dados
Preparação de Dados Produção de um conjunto de dados adequado aos algoritmos de mineração • Selecionar os dados • Limpar os dados • Construir dados • Integrar dados: combinar múltiplas tabelas ou outras fontes • Formatar dados: modificações sintáticas nos dados, sem alterar o seu significado. Ex: • Primeiro atributo tem que ser uma chave única • O arquivo tem que estar em uma ordem determinada • Retirar vírgulas dos campos para gerar um arquivo com atributos separados por vírgulas
Preparação de dados – seleção de dados Seleção de atributos • motivos: • Requisitos de tempo e espaço • Simplicidade do modelo gerado • Relevância dos atributos • Redundância entre atributos • Acurácia pode ser aumentada • forma: • Manual • Por algoritmos: mais de 30 algoritmos
Preparação de dados – seleção de dados • Seleção de instâncias (exemplos, registros) • Manual • Por algoritmos
Preparação de dados – Limpeza dos dados Visa garantir a qualidade dos dados • Eliminação de dados errôneos – • Padronização de dados: formato de datas, abreviaturas, valores de atributos (ex. sexo: M ou F, 0 ou 1, Mas e Fem, ...) • Eliminação de duplicatas • Tratamento de valores ausentes • Excluir instâncias • Completar valores ausentes • Complemento manual • Complemento com valor constante global: ex: “desconhecido” • Complementar com o valor mais provável • Complementar com o valor médio do atributo
Preparação de dados – Construir dados • Transformação de dados • Normalização • Transformação de valores simbólicos para numéricos • Discretização de atributos • Criação de novos atributos. Ex: área = comprimento x largura
sorri não sim segura balão espada amigo inimigo inimigo inimigo bandeira ou
mesma mesma - - forma forma sim sim não não amigo amigo inimigo inimigo
Modelagem Corresponde a fase de Mineração de Dados utilizada por outros autores • Selecionar a técnica de modelagem • Gerar projeto de teste • Construir modelo: mineração propriamente dita (aplicação do algoritmo) • Avaliar modelo
Avaliação • Interpretar e avaliar os resultados em relação aos objetivos do usuário • Avaliar resultados • Revisar o processo • Determinar próximos passos: ir para a fase final de disponibilização ou voltar para alguma etapa anterior
Disponibilização • Planejar disponibilização: decidir a estratégia para a integração dos resultados obtidos no ambiente da organização • Planejar monitoramento e manutenção: • Produzir relatório final • Revisar o projeto: avaliar pontos positivos e negativos do projeto, problemas e sugestões
Esforço (%) Etapa Descoberta de Conhecimento em Bases de Dados DESAFIOS: Fonte: Adriaans
Introdução • Conceito de DCBD • Tipos de descobertas • Processo de DCBD • Bibliografia
Bibliografia • ADRIAANS, Pieter, ZANTINGE, Dolf. Data Mining. Harlow : Addison-Wesley, 1997. 158p. • FAYYAD, Usama M. et al. Advances in Knowledge Discovery and Data Mining. Califórnia : American Association for Artificial Intelligence, 1996. 611p. • BERRY, Michael J. A.; LINOFF, Gordon. Data Mining techniques for marketing, sales and custumer support. New York: John Wiley, 1997. 454p. • PYLE, Dorian. Data preparation for data mining. San Diego: Academic Press, 1999. 540p.