1 / 22

Data Mining : Conceitos e Técnicas

Data Mining : Conceitos e Técnicas. DM, DW e OLAP. Data Warehousing e OLAP para Data Mining. O que é data warehouse ? De data warehousing para data mining. Data Warehousing e OLAP para Data Mining. Data Warehouse : A Memória da Empresa Data Mining : A Inteligência da Empresa.

dahlia
Download Presentation

Data Mining : Conceitos e Técnicas

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data Mining: Conceitos e Técnicas

  2. DM, DW e OLAP

  3. Data Warehousing e OLAP para Data Mining • O que é data warehouse? • De data warehousing para data mining

  4. Data Warehousing e OLAP para Data Mining • Data Warehouse: A Memória da Empresa • Data Mining: A Inteligência da Empresa

  5. O que é Data Warehouse? • Definido de diversas formas, mas não rigorosamente: • É uma base de dados de suporte que é mantida separadamente da base de dados operacional da organização; • Suporta o processamento de informações provendo uma sólida plataforma de dados históricos e consolidados para análise;

  6. O que é Data Warehouse? • “Um data warehouse é uma coleção de dados: • orientada a assunto (subject-oriented); • integrada; • variante no tempo, e • não-volátil para suporte a decisões de gerenciamento”.—W. H. Inmon • Data warehousing: o processo de construção e uso de data warehouses.

  7. Usos do data warehouse • Processamento de Informações: • Suporta consultas, análise estatística básica e relatórios usando tabelas, gráficos, etc. • Processamento analítico: • Análise multi-dimensional doas dados contidos no data warehouse; • Suporta operações OLAP básicas (slice-dice, drilling, pivoting);

  8. Usos do data warehouse • Data mining: • Descoberta de conhecimento em padrões; • Suporta associações, construção de modelos analíticos, executa classificação e predição, e apresenta os resultados usando ferramentas de visualização.

  9. De OLAP para OLAM Por que OLAM? • Alta qualidade dos dados nos data warehouses; • DW contem dados integrados, consistentes e limpos. • Estrutura para o tratamento de informação disponível no ambiente de DW: • ODBC, OLEDB, acesso à Web, facilidades de serviço, relatórios e ferramentas OLAP; • Análise de dados exploratória baseada em OLAP; • Mineração com drilling, dicing, pivoting, etc. • Seleção on-line das funções de data mining: • Integração e intercâmbio de múltiplas funções de mineração, algoritmos e tarefas.

  10. Uma arquitetura OLAM Mining query Mining result Layer4 User Interface User GUI API OLAM Engine OLAP Engine Layer3 OLAP/OLAM Data Cube API Layer2 MDDB MDDB Meta Data Database API Filtering&Integration Filtering Layer1 Data Repository Data cleaning Data Warehouse Databases Data integration

  11. Pré-processamento de dados

  12. Por que pré-processar os dados ? • Dados reais são “sujos”: • Incompletos: falta de valores de atributos, falta de atributos de interesse ou existência de atributos agregados; • Ruidosos: contem erros e desvios; • Inconsistentes: contem discrepâncias em nomes e na codificação. • Sem dados de qualidade, sem resultados de qualidade em DM: • Decisões de qualidade devem estar baseadas em dados de qualidade; • DW necessita da integração consistente de dados de qualidade.

  13. Medida multidimensional da qualidade dos dados • Uma visão multidimensional bem aceita: • Correção; • Completude; • Consistência; • Atualidade (timeliness); • Credibilidade; • Valor adicionado; • Interpretabilidade; • Acessibilidade. • Categorias abrangentes: • Intrínseca, contextual, representacional e acessibilidade.

  14. Principais tarefas no pré-processamento dos dados • Limpeza dos dados: • Preenchimento de valores inexistentes, atenuação de dados ruidosos, identificação e remoção de desvios, resolução de inconsistências; • Integração de dados: • Integração de múltiplos DB, data cubos, e arquivos; • Transformações nos dados: • normalização e agregação; • Redução de dados: • Obtenção de uma representação reduzida em volume mas que produz resultados de análise idênticos ou similares.

  15. Principais tarefas no pré-processamento dos dados • Limpeza dos dados: Valores faltantes • Ignorar a tupla; • Preencher o valor manualmente; • Usar uma constante global; • Usar o valor médio do atributo na base; • Usar o valor médio do atributo na classe; • Usar o valor mais provável.

  16. Principais tarefas no pré-processamento dos dados • Limpeza dos dados: Atenuação de dados ruidosos • Discretização; • Agrupamento; • Interação humana; • Regressão.

  17. Principais tarefas no pré-processamento dos dados • Limpeza dos dados: Inconsistências • Eliminar dados; • Corrigir manualmente; • Ignorar.

  18. Principais tarefas no pré-processamento dos dados • Integração de dados: • Integração de esquemas de BD: problema da identificação de entidades; • Redundâncias; • Detecção e resolução de valores conflitantes nos dados.

  19. Principais tarefas no pré-processamento dos dados • Transformações nos dados: • Suavização (smooting); • Agregação; • Generalização; • Normalização (entre 0 e 1); • Construção de atributos.

  20. Principais tarefas no pré-processamento dos dados • Redução de dados: • Agregação de data cubes; • Redução de dimensionalidade; • Compressão de dados; • Redução de instâncias; • Geração de hierarquias de conceitos.

  21. Formas de pré-processamento de dados

  22. Sumário • A preparação do dados é um ponto crucial tanto para data warehousing quanto para data mining; • A preparação de dados inclui: • Limpeza e Integração de dados; • Redução de dados e seleção de características; • Discretização: intervalos iguais, freqüências iguais, agrupamento. • Vários métodos têm sido desenvolvidos, mas ainda é área ativa de pesquisa.

More Related