580 likes | 673 Views
Descoberta de Conhecimento em Bases de Dados e Mineração de Dados. Ricardo Bezerra de Andrade e Silva rbas@di.ufpe.br. Roteiro. Exemplo preliminar Motivação Conceitos básicos Métodos de mineração de dados Exemplos de aplicação Conclusão. Exemplo preliminar. Problema.
E N D
Descoberta de Conhecimento em Bases de Dadose Mineração de Dados Ricardo Bezerra de Andrade e Silva rbas@di.ufpe.br
Roteiro • Exemplo preliminar • Motivação • Conceitos básicos • Métodos de mineração de dados • Exemplos de aplicação • Conclusão Exemplo preliminar
Problema • Um problema do mundo dos negócios: entender o perfil dos clientes • para desenvolvimento de novos produtos; • para controle de estoque em postos de distribuição; • propaganda mal direcionada gera maiores gastos e desestimula o possível interessado a procurar as ofertas adequadas; • Quais são meus clientes típicos? Prólogo
Situação • A empresa possui registro de todas as transações efetuadas; • O conteúdo desse banco de dados possui informação suficiente para categorizar diferentes comportamentos; • Mas como aproveitar este conteúdo? • “Afogados em dados, mas mendigando por informação”; • Solução: apoio em ferramentas de análise automatizada; Prólogo
Definição da tarefa • Tarefa escolhida: segmentação de mercado consumidor para auxílio a marketing; • Categorias (classes): • produtos de esporte; • equipamentos de exercício; • eletrodomésticos; • produtos de entretenimento; • produtos para o lar; Prólogo
Seleção de dados • Utilizando o conhecimento que dispõe do domínio, o analista responsável decide que todas as informações necessárias encontram-se nas seguintes tabelas: • clientes: nome, identificação, idade, sexo, estado civil, endereço, renda, proprietário da casa; • produtos: nome, identificação, preço, categoria, quantidade em estoque, quantidade encomendada; • transações: identificador de cliente, identificador de produto, data e hora, quantidade; Prólogo
Seleção de Dados (II) • Agrupando informações em uma única tabela; Prólogo
Aplicação de algoritmo • Decidiu-se aplicar um algoritmo de aprendizado para agrupar os clientes em quatro conjuntos • ex.: rede de Kohonen do tipo vector quantization; • A idéia do algoritmo é dispor, em conjuntos, clientes que apresentem aspectos similares; • Posteriormente, os dados são organizados em uma planilha, onde o número do grupo (1, 2, 3, ou 4) é utilizado como chave primária; • A planilha calcula estatísticas de cada grupo, comparando-as com toda população; Prólogo
Alguns resultados (I) Prólogo
Alguns resultados (II) Prólogo
Roteiro • Exemplo preliminar • Motivação • Conceitos básicos • Métodos de mineração de dados • Exemplos de aplicação • Conclusão Motivação
Motivação • A informatização dos meios produtivos permitiu a geração de grandes volumes de dados: • Transações eletrônicas; • Novos equipamentos científicos e industriais para observação e controle; • Dispositivos de armazenamento em massa; • O uso adequado da informação permite ganho de competitividade: conhecimento é poder, Motivação
Motivação • Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução: • processo iterativo de criação, teste e refinamento de hipóteses; • Tornam-se necessários novos métodos capazes de automatizar parte deste processo • busca em um espaço de hipóteses; Motivação
Descoberta de Conhecimento em Bancos de Dados • “O processo não trivial de extração de informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados”; • “Torture os dados até eles confessarem”; • Envolve a etapa de mineração de dados: a aplicação de algoritmos de análise de dados; Motivação
Interesse em Ascensão • International Conference onKnowledge Discovery and Data Mining • Junho de 1998: ACM SIGKDD • Algumas companhias envolvidas: • IBM • Microsoft • SAS Institute • Silicon Graphics Motivação
Roteiro • Exemplo preliminar • Motivação • Conceitos básicos • Métodos de mineração de dados • Exemplos de aplicação • Conclusão Conceitos básicos
O Que é Um Padrão Interessante? • Válido; • Novo; • Útil; • Interpretável; Conhecimento, sobre a ótica de KDD (Fayyad et al., 1996): Conhecimento ={ X | f(X, V, N, U, I) > T}
KDD x Data Mining • Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável; • KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”. Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados; Conceitos
Processo Compreensão do domínio e dos objetivos da tarefa; Criação do conjunto de dados envolvendo as variáveis necessárias; Escolha e execução do algoritmo de acordo com a tarefa a ser cumprida Operações como identificação de ruídos, outliers, como tratar falta de dados em alguns campos, etc. Interpretação dos resultados, com possível retorno aos passos anteriores; Redução de dimensionalidade, combinação de atributos; Consolidação: incorporação e documentação do conhecimento e comunicação aos interessados; Conceitos
Roteiro • Exemplo preliminar • Motivação • Conceitos básicos • Métodos de mineração de dados • Exemplos de aplicação • Conclusão Métodos de data mining
Métodos de mineração de dados: campos relacionados (I) • Inteligência Artificial • aprendizado de máquina; • representação de conhecimento e inferência; • Estatística • inferência estatística; • análise exploratória de dados; • Computação gráfica • visualização de dados; Métodos
Métodos de mineração de dados: campos relacionados (II) • Bancos de dados • linguagens de consulta • o que é uma descoberta, afinal? Exibir todos os empregados que ganham dentro de uma determinada faixa salarial é uma descoberta? • armazém de dados (data warehousing); • processamento analítico on-line (OLAP); • paralelização de processos; • tendências: • consultas por similaridade; • consultas de classificadores, grupos e outros objetos; Métodos
Métodos de mineração de dados • Métodos de mineração de dados normalmente são extensões ou combinações de uns poucos métodos fundamentais; • Porém, não é viável a criação de um único método universal: cada algoritmo possui sua própria tendência indutiva; Métodos
Tarefas básicas • Previsão • Cálculo de variáveis de interesse a partir dos valores de um conjunto de variáveis de explicação; • É comumente visada em aprendizado de máquina/estatística; • Exemplos: classificação e regressão; Métodos
Tarefas básicas • Descrição • Reportar relações entre as variáveis do modelo de forma simétrica; • À princípio, está mais relacionada ao processo de KDD; • Exemplos: agrupamento, sumarização (incluindo sumário de textos), dependências, análise de desvio; Métodos
sem crédito o x o o x x x x o o x o o o o x o débito t renda x: exemplo recusado o: exemplo aceito Exemplo de previsão (I) Análise de crédito • Um hiperplano paralelo de separação: pode ser interpretado diretamente como uma regra: • se a renda é menor que t, então o crédito não deve ser liberado • Exemplo: • árvores de decisão; • indução de regras Métodos
sem crédito o x o o x x x x o o x o o o o x o débito t renda x: exemplo recusado o: exemplo aceito Exemplo de previsão (II) Análise de crédito • Hiperplano oblíquo: melhor separação: • Exemplos: • regressão linear; • perceptron; Métodos
sem crédito o x o o x x x x o o x o o o o x o débito t renda x: exemplo recusado o: exemplo aceito Exemplo de previsão (III) Análise de crédito • Superfície não linear: melhor poder de classificação, pior interpretação; • Exemplos: • perceptrons multicamadas; • regressão não-linear; Métodos
sem crédito o x o o x x x x o o x o o o o x o débito t renda x: exemplo recusado o: exemplo aceito Exemplo de previsão (IV) Análise de crédito • Métodos baseado em exemplos; • Exemplos: • k-vizinhos mais próximos; • raciocínio baseado em casos; Métodos
+ + + + + + + + + + + + + + + + + débito t renda +: exemplo Exemplo de descrição (I) Análise de crédito • Agrupamento • Exemplo: • vector quantization; Métodos
Exemplo de descrição (II) • Regras de associação • “98% dos consumidores que adquiriram pneus e acessórios de automóveis também se interessaram por serviços automotivos”; • descoberta simétrica de relações, ao contrário de métodos de classificação • qualquer atributo pode ser uma classe ou um atributo de discriminação; Métodos
Exemplo de descrição (III) • Previsão de séries temporais Identificação dos investimentos mais promissores nos próximos 30 dias; Métodos
Garimpando resultados • Transformar 1.000.000 de registros em mil regras é bom, mas... • o que fazer com estas 1000 regras? • Medidas de utilidade • subjetivas • dependentes de domínio • demanda especialistas com tempo livre; • objetivas • mais independentes; • um dos pontos chaves de KDD; Métodos
Medidas objetivas de utilidade: grau de surpresa • Validade • utilizando limiares de confiança, apenas as regras (por exemplo) mais importantes seriam apresentadas; • E as exceções? • informações úteis não estão simplesmente nas regularidade mais comuns. Padrões inesperados podem também ser úteis; • Exemplo de método: • visualização de grupos de outliers; Métodos
Exemplo: algoritmo para regras de pequeno alcance (I) • São regras que cobrem apenas uma pequena quantidade de dados: • potencial para descrever relações interessantes e anteriormente despercebidas; • porém, são facilmente descartadas em filtragens por limiar de grau de cobertura; • como distingui-las de ruído? • Idéia do algoritmo: • criar pequenas generalizações das regras em estudo e comparar a cobertura obtida; Métodos
Exemplo: algoritmo para regras de pequeno alcance (II) • Algoritmo: • para cada antecedente a de uma regra • se a é categórico, retire-o da regra; • se a é contínuo, aumente o intervalo no qual o antecedente é válido; • conte o número D de vezes em que a classe obtida é diferente da classe da regra original; • calcule uma medida M em função de D e do total de antecedentes N. • exemplo: M = D/N; • valores altos de M tenderão a capturar as relações mais úteis; Métodos
Escalabilidadetécnicas para acelerar um processo KDD • Amostragem • redução de precisão; • Algoritmos distribuídos • particionar o banco de dados em p partições; • utilizar um processador diferente para cada partição; • utilizar um método de combinação de resultados; • Paralelismo (intra-algorítimico) Métodos
3% 2% O hospital A parece ser o menos adequado. O perigo da falta de análise:paradoxo de Simpson (I) Hospital A Hospital B Morreram Sobreviveram 63 2037 16 784 Total 2100 800 Métodos
1% 1.3% 3.8% 4% O perigo da falta de análise:paradoxo de Simpson (II) • Números x Bom-senso: “Lies, Damned Lies, and Statistics” Boas condições Hosp. A Hosp. B O hospital A é melhor! Morreram Sobreviveram 6 594 8 592 Total 600 600 Hosp. A Hosp. B Más condições Morreram Sobreviveram 57 1443 8 192 ...and data mining? Total 1500 200 Métodos
A busca por causalidade • Correlação não é o mesmo que causalidade • “lama” e “chuva” são dois conceitos relacionados, mas como inferir que um é causa do outro? • A média de idade da Flórida é grande. O clima da Flórida faz as pessoas viverem mais? • Explicação plausível: muitas pessoas mudam-se pra lá quando se aposentam; • Experimentos controlados Métodos
Roteiro • Exemplo preliminar • Motivação • Conceitos básicos • Métodos de mineração de dados • Exemplos de aplicação • Conclusão Exemplos de aplicação
SKICAT (Sky Image Cataloging and Analysis Tool) • Digital Palomar Observatory Sky Survey • banco de dados com três terabytes de imagens da ordem de dois bilhões de objetos celestes; • Tarefas: • diferenciar estrelas de galáxias • uma vez classificadas, análise científicas mais específicas são aplicadas; • classificar objetos de brilho fraco Aplicações
SKICAT: algoritmo de aprendizado • Regras extraídas de algoritmos de geração de árvores originam-se de uma única árvore; • RULER • alternativa: geração de várias árvores. Somente as melhores regras de cada árvore são mantidas; • Divide-se a base de dados em vários conjuntos treinamento (para árvores) e teste (para regras); • Podando regras: calcula-se a chance de que uma dada premissa esteja correlacionada com a classe especificada por pura sorte; • Produz-se, assim, uma base robusta de regras; • Redução da base por um algoritmo de cobertura de conjuntos; Aplicações
SKICAT: pré-processamento • “Em problemas de classificação, a escolha dos atributos utilizados para definir exemplos é o fator mais determinante do sucesso ou fracasso do processo de aprendizado” • garbage in, garbage out; • Uso de um programa público de processamento de imagens: • baseado nos agrupamentos de pixels constituindo cada objeto detectado, produzem-se os atributos básicos discriminadores • ex,: brilho e orientação; Aplicações
SKICAT: Gerenciando o conhecimento • Catálogo de objetos on-line utilizando-se um gerenciador de banco de dados • permitir ao usuário localizar corpos celestes e consultar informações dos mesmos; • Casamento de objetos obtidos de fontes diferentes; Aplicações
Kefir (Key Findings Reporter) • Análise de desvios • descoberta de diferenças significativas entre valores medidos e valores anteriores ou padrões; • Funções do Kefir • descobrir, explicar e relatar derivações chave; • Finding • Conjunto de valores relacionados (atual, anteriores, padrão) de uma dada medida; Aplicações
Health-Kefir • Motivação: organizações precisam controlar gastos com saúde, planejando medidas que venham a diminuir gastos futuros. MAS,... • gasta-se muito tempo preparando-se relatórios, perdendo-se oportunidade importantes; • Oportunidade para análise automática de dados: • métodos do mercado de saúde baseiam-se em medidas padrões de vários aspectos, como preço, uso e qualidade; • dimensões principais: • população: empregados de uma empresa, moradores de um bairro...; • área de estudo: nascimentos prematuros, internações...; • medidas: tempo de internação... Aplicações
Health-Kefir • O grau de interesse em um desvio está diretamente relacionado ao benefício atingível através das ações possíveis; • os desvios interessantes são aqueles que indicam problemas que podem ser corrigidos; • significância estatística; • Pagamentos_por_caso • desvios crescentes desta medida são altamente relevantes para o sistema Health-Kefir; • como reduzir custos futuros; Aplicações
valores padrões desvio medida valores reais tempo 92 93 94 95 Health-Kefir • Cálculo de desvio para cada setor e subsetor; • extrapolação linear; Aplicações
internação morte admissão cirurgia clínica mental gravidez Health-Kefir • Explicações • identificação do subsetor(es) mais responsável(is) pelo desvio encontrado; • recursivo; Aplicações