150 likes | 253 Views
Novos desafios em estudos de mercado: Knowledge Discovery e Data Mining. 7º Congresso da APODEMO Novembro de 2000. O sistema de informação de marketing. Analysis. Competitors. Planning. Control. Target Markets. Publics. Implementation. Mkt channels. Sistema de suporte à decisão.
E N D
Novos desafios em estudos de mercado:Knowledge Discovery e Data Mining 7º Congresso da APODEMO Novembro de 2000
O sistema de informação de marketing Analysis Competitors Planning Control Target Markets Publics Implementation Mkt channels
Sistema de suporte à decisão Actividades diárias Interacção on-line Query & Reporting OLAP Data Mining Dados recolhidos ao longo do tempo Data Warehouse Sistema Operacional Dados Recentes Dados históricos
Conhecimento Knowledge Access Data Mining OLAP/ROLAP Query & Data Warehousing Statistics & Reporting Dados 1970 1980 1990 2000 Dos dados ao conhecimento We are drowning in information, but starving for knowledge John Naisbett • A definição de descoberta de conhecimento em bases de dados (KDD); • A evolução ao longo do tempo nesta área:
Data Mining? • A definição tradicional da estatística • A definição no contexto de KDD: Data Mining is a process that uses a variety of data analysis tools to discover patterns and relationships in data that may be used to make valid and accurate predictions. Two Crows Corporation
Business Understanding Modeling Evaluation Deployment Data Understanding Data Preparation O processo de Data Mining – Cross Industry Standard Process for Data Mining (CRISP-DM) • Processo standard da indústria (SPSS, Daimler-Chrysler e NCR) • Composto pelas seguintes fases:
Problemas e técnicas utilizadas em Data Mining Business Problems • Segmentação de clientes • Aquisição e retenção de clientes • Detecção de fraude • Controlo de qualidade • Concessão de crédito Data Mining Problems • Regressão • Classificação • Descrição Models • Regressão linear • Regressão logística • Redes neuronais • Árvores de decisão • Técnicas de clustering
Redes Neuronais Input Layer Hidden Layer Output Layer • É uma forma simplista de simular o funcionamento do cérebro humano; • Todos os neurónios duma camada estão ligados a todos os outros das camadas seguintes e a cada ligação é atribuído um peso; • Input layer – variáveis utilizadas para fazer previsões/classificações; • Hidden layer – combinações dos neurónios de input; • Output layer – Variável que queremos prever ou classificar (dados contínuos ou categóricos) • Dois modelos de redes neuronais: • MLP (Multi-Layer Perceptron) • RBF (Radial Basis Function)
Árvores de decisão • As árvores de decisão têm uma interpretação mais simples pois representam regras • Além da previsão e classificação, podem ser utilizadas para interpretar resultados de outros modelos • Em cada nodo a pergunta é sempre: “Qual o teste que melhor discrimina entre as categorias da variável objectivo” • Não são necessariamente binárias • Vantagens sobre os modelos estatísticos tradicionais • Os modelos de árvores de decisão: • CHAID • CART • C 5.0
Data Mining e os estudos de mercado • Podem as aplicações de data mining substituir as metodologias tradicionais dos EM para responder aos problemas? • Em que situações as duas metodologias são complementares? • Exemplo: Retenção de clientes (assinaturas, apólices de seguro, contas bancárias, etc)
Data Mining e os estudos de mercadoRetenção de clientes • É sabido que, em geral, o custo de aquisição de novos clientes é superior à manutenção dos actuais • Quais os clientes que vão para a concorrência? • Quais os clientes que não me interessa conservar? • O que posso fazer para conservar os clientes que me interessam?
Data Mining e os estudos de mercadoRetenção de clientes • Focus groups de ex-clientes por forma a: • Determinar causas relevantes – informação qualitativa; • Identificar possíveis variáveis não disponíveis para o passo seguinte; • Recolher dados via call-center; • Pós-validar os resultados obtidos através do processo de data mining;
Data Mining e os estudos de mercadoRetenção de clientes • Segmentar a base de dados através de técnicas de clustering; • Centralizar a atenção nos clusters relevantes quer em termos de rentabilidade quer em termos de validação de variáveis; • Prever, utilizando as técnicas mencionadas (redes neuronais, etc), quais os clientes que provavelmente irão sair e quais as variáveis mais significativas.
Tópicos adicionais • Utilização de técnicas de data mining para substituição de missing values; • Web Mining – as ferramentas de data mining podem ser um poderoso auxiliar do e-business: • Segmentação dos consumidores on-line; • Associações entre as diversas páginas; • Personalização de conteúdos (exemplo: publicidade)
Bibliografia • Berry, M. J. e Linoff, G.: Data Mining Techniques (1997), John Wiley & Sons • Bishop, C. M.: Neural Networks for Pattern Recognition (1995), Oxford University Press. • Fayyad, U. M., Shapiro, G. P., Smyth P. E. e Uthurusamy R.: Advances in Knowledge Discovery and Data Mining (1996), AAAI Press/The MIT Press. • Quinlan, J. R.: C4.5 – Programs for Machine Learning (1993), Morgan Kaufmann Publishers. Internet • www.sas.com • www.spss.com • www.kdnuggets.com • www.crisp-dm.org