220 likes | 318 Views
Data Mining : Conceitos e Técnicas. DM, DW e OLAP. Data Warehousing e OLAP para Data Mining. O que é data warehouse ? De data warehousing para data mining. Data Warehousing e OLAP para Data Mining. Data Warehouse : A Memória da Empresa Data Mining : A Inteligência da Empresa.
E N D
Data Warehousing e OLAP para Data Mining • O que é data warehouse? • De data warehousing para data mining
Data Warehousing e OLAP para Data Mining • Data Warehouse: A Memória da Empresa • Data Mining: A Inteligência da Empresa
O que é Data Warehouse? • Definido de diversas formas, mas não rigorosamente: • É uma base de dados de suporte que é mantida separadamente da base de dados operacional da organização; • Suporta o processamento de informações provendo uma sólida plataforma de dados históricos e consolidados para análise;
O que é Data Warehouse? • “Um data warehouse é uma coleção de dados: • orientada a assunto (subject-oriented); • integrada; • variante no tempo, e • não-volátil para suporte a decisões de gerenciamento”.—W. H. Inmon • Data warehousing: o processo de construção e uso de data warehouses.
Usos do data warehouse • Processamento de Informações: • Suporta consultas, análise estatística básica e relatórios usando tabelas, gráficos, etc. • Processamento analítico: • Análise multi-dimensional doas dados contidos no data warehouse; • Suporta operações OLAP básicas (slice-dice, drilling, pivoting);
Usos do data warehouse • Data mining: • Descoberta de conhecimento em padrões; • Suporta associações, construção de modelos analíticos, executa classificação e predição, e apresenta os resultados usando ferramentas de visualização.
De OLAP para OLAM Por que OLAM? • Alta qualidade dos dados nos data warehouses; • DW contem dados integrados, consistentes e limpos. • Estrutura para o tratamento de informação disponível no ambiente de DW: • ODBC, OLEDB, acesso à Web, facilidades de serviço, relatórios e ferramentas OLAP; • Análise de dados exploratória baseada em OLAP; • Mineração com drilling, dicing, pivoting, etc. • Seleção on-line das funções de data mining: • Integração e intercâmbio de múltiplas funções de mineração, algoritmos e tarefas.
Uma arquitetura OLAM Mining query Mining result Layer4 User Interface User GUI API OLAM Engine OLAP Engine Layer3 OLAP/OLAM Data Cube API Layer2 MDDB MDDB Meta Data Database API Filtering&Integration Filtering Layer1 Data Repository Data cleaning Data Warehouse Databases Data integration
Por que pré-processar os dados ? • Dados reais são “sujos”: • Incompletos: falta de valores de atributos, falta de atributos de interesse ou existência de atributos agregados; • Ruidosos: contem erros e desvios; • Inconsistentes: contem discrepâncias em nomes e na codificação. • Sem dados de qualidade, sem resultados de qualidade em DM: • Decisões de qualidade devem estar baseadas em dados de qualidade; • DW necessita da integração consistente de dados de qualidade.
Medida multidimensional da qualidade dos dados • Uma visão multidimensional bem aceita: • Correção; • Completude; • Consistência; • Atualidade (timeliness); • Credibilidade; • Valor adicionado; • Interpretabilidade; • Acessibilidade. • Categorias abrangentes: • Intrínseca, contextual, representacional e acessibilidade.
Principais tarefas no pré-processamento dos dados • Limpeza dos dados: • Preenchimento de valores inexistentes, atenuação de dados ruidosos, identificação e remoção de desvios, resolução de inconsistências; • Integração de dados: • Integração de múltiplos DB, data cubos, e arquivos; • Transformações nos dados: • normalização e agregação; • Redução de dados: • Obtenção de uma representação reduzida em volume mas que produz resultados de análise idênticos ou similares.
Principais tarefas no pré-processamento dos dados • Limpeza dos dados: Valores faltantes • Ignorar a tupla; • Preencher o valor manualmente; • Usar uma constante global; • Usar o valor médio do atributo na base; • Usar o valor médio do atributo na classe; • Usar o valor mais provável.
Principais tarefas no pré-processamento dos dados • Limpeza dos dados: Atenuação de dados ruidosos • Discretização; • Agrupamento; • Interação humana; • Regressão.
Principais tarefas no pré-processamento dos dados • Limpeza dos dados: Inconsistências • Eliminar dados; • Corrigir manualmente; • Ignorar.
Principais tarefas no pré-processamento dos dados • Integração de dados: • Integração de esquemas de BD: problema da identificação de entidades; • Redundâncias; • Detecção e resolução de valores conflitantes nos dados.
Principais tarefas no pré-processamento dos dados • Transformações nos dados: • Suavização (smooting); • Agregação; • Generalização; • Normalização (entre 0 e 1); • Construção de atributos.
Principais tarefas no pré-processamento dos dados • Redução de dados: • Agregação de data cubes; • Redução de dimensionalidade; • Compressão de dados; • Redução de instâncias; • Geração de hierarquias de conceitos.
Sumário • A preparação do dados é um ponto crucial tanto para data warehousing quanto para data mining; • A preparação de dados inclui: • Limpeza e Integração de dados; • Redução de dados e seleção de características; • Discretização: intervalos iguais, freqüências iguais, agrupamento. • Vários métodos têm sido desenvolvidos, mas ainda é área ativa de pesquisa.