1 / 37

Data Mining, Data Warehousing e OLAP

Data Mining, Data Warehousing e OLAP. Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares. Data Warehouse. Banco de dados de informações empresariais. Processamento de consulta e não de transações. Torna informações acessíveis e claras para o uso.

nigel-white
Download Presentation

Data Mining, Data Warehousing e OLAP

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data Mining, Data Warehousing e OLAP Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares

  2. Data Warehouse • Banco de dados de informações empresariais. • Processamento de consulta e não de transações. • Torna informações acessíveis e claras para o uso. • Consultas sem impacto nos dados operacionais. • Maneira de obter informações corporativas para tomada de decisões.

  3. Data WarehouseOrigem • Anos 80 • Bancos de dados comerciais para SADs • No inicio eram apenas subconjuntos dos dados operacionais que eram copiados para o banco de apoio a decisões regularmente.

  4. Data WarehouseDefinições “Data Warehouse é uma coleção de dados orientada por assuntos, integrada, variante no tempo, e não volátil que tem por objetivo dar suporte aos processos de tomada de decisão.” Inmon(1997) “Poder faz dinheiro. Conhecimento é poder. Data Warehouse aumenta o conhecimento. Portanto, Data Warehouse faz dinheiro.” Knowles (1996)

  5. Data Warehouse X BD Operacional

  6. Data warehouseArquitetura

  7. Data WarehouseData Marts • Os Data Marts são subconjuntos de dados, dentro de um Data Warehouse, projetados para dar suporte a negócios de unidade organizacionais especificas (NIMER, 1998).

  8. Data Warehouse Finalizando • Data Warehouse é um ambiente adaptado para apenas um objetivo. • Desafios: • Consultas claras e rápidas. • Disponibilizar metadados. • Sistemas de gestão: Business Intelligence • Núcleo do apoio á decisões.

  9. OLAP (Online AnalyticalProcessing)

  10. OLAP -Origem • Keneth Iverson – 1962 • “A Programming Language” - APL • Necessidade de relatóriosdinâmicos • Tecnologia OLAP – década de 90. • Popularidade

  11. OLAP - Definição • ProcessamentoAnalítico Online • Manipular e analisar um grande volume de dados sob múltiplas perspectivas • Otimização de consulta e relatório • BI- síntese de informações corporativas • visões comparativas e personalizadas: • Apresenta as informações via um modelo de dados natural e intuitivo. • análises históricas; e • elaboração de cenários.

  12. OLAP - Definição • Tipos básicos de dados: • Medidas: • Dados numéricos, como quantidades e médias • Parâmetrosutilizadosnatomada de decisões • dimensão especial utilizada para realizar comparações. • Dimensões: • Uma unidade de análise que agrupa dados de negócio relacionados.

  13. OLAP - Definição • Conceitos – chave: • Cubo: estrutura multidimensional de dados do negócio. • Membro: subconjunto de uma dimensão. • Hierarquia: Uma estrutura em árvore lógica que organiza os membros de uma dimensão.

  14. OLAP – Representação dos Dados

  15. OLAP - Definição • Conceitos-chave • Drill-up: diminuir o nível de detalhamento • Drill-down: aumentar o nível de detalhamento • Slice and Dice: reorganizar os dados

  16. OLAP - Multidimensionalidade • Umadimensão • DuasDimensões

  17. OLAP - Multidimensionalidade • TrêsDimensões

  18. OLAP - Multidimensionalidade • QuatroDimensões

  19. OLAP e OLTP • Exemplo: aplicaçõesbancárias • OLTP: Ponto de vista do cliente. • inserção, alteração, remoção de dados individuais. • OLAP: Ponto de vista do Gerente. • Análise global de contas correntes com diversas visões. Ex: • Saber qual é o desempenho de contas correntes que tenham cheque especial e tenham utilizado o valor máximo dos mesmos em um determinado período de tempo em algumas regiões.

  20. OLAP – PrincipaisTipos • MOLAP: os dados são armazenados em cubos multimensionais. • ROLAP: manipula os dados armazenados no banco de dados relacional para dar a aparência de funcionalidade sliceanddicedo OLAP tradicional. • HOLAP: combinação do MOLAP e ROLAP.

  21. OLAP - Vantagens • São utilizados por gestores de qualquer nível da organização; • Análise, navegação e visualização de dados corporativos: • Alto desempenho • Consistente • Interativa • Dinâmica • Perspectivasdiferentes

  22. OLAP - Desvantagens • Escolha de uma ferramenta OLAP inadequada pode ocasionar severas consequências para um projeto de datawarehouse. • Não existe nenhuma característica peculiar que dite como a ferramenta deve ser construída, qual tecnologia deva ser usada e que funcionalidades devem ser implementadas

  23. Data Mining

  24. Introdução - Data Mining • Grande disponibilidade de dados armazenados eletronicamente • Existem informaçõesúteis, invisíveis, nesses grandes volumes de dados; • Aproveitar para prever um conhecimentofuturo (ir além do armazenamento explícito de dados).

  25. Data Mining • Data mining (mineração de dados), é o processo de extração de conhecimento de grandes bases de dados,convencionais ou não. • Utiliza técnicas de inteligência artificial que procuram relações de similaridade ou discordância entre dados. • Seu objetivo é encontrar, automaticamente,padrões, anomalias e regras com o propósito de transformar dados, aparentemente ocultos, em informaçõesúteis para a tomada de decisão e/ou avaliação de resultados.

  26. Evolução do Data Mining

  27. Processo – Data Mining • Seleção. • Pré-processamento. • Transformação. • Data mining. • Interpretação e Avaliação.

  28. Processo - Data Mining • Seleção • Selecionar ou segmentar dados de acordo com critérios definidos: • Ex.: Todas pessoas que possuem ensino superior. • Pré-processamento • Estágio de limpeza dos dados, onde informações julgadas desnecessárias são removidas. • Reconfiguração dos dados para assegurar formatos consistentes (identificação) • Ex. : graduação: “Graduação”, “Mestrado” ou Doutorado.

  29. Processo - Data Mining • Transformação • Transforma-se os dados em formatos utilizáveis. Esta depende da técnica data mining usada. • Ex: rede neural  converter valor literal em valor numérico • Disponibilizar os dados de maneira usável e navegável. • Data mining • É a verdadeira extração dos padrões de comportamento dos dados • Utilizando a definição de fatos, medidas de padrões, estados e o relacionamento entre eles.

  30. Processo – Data Mining • Interpretação e Avaliação • Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas • Ex.: Tarefas de previsões e classificações

  31. Técnicas • Indução • Regras indutivas • É o processo de olhar uma série de dados e, a partir dela gerar padrões; • Pode-se trabalhar com dados numéricos ou não; • Hipóteses;

  32. Técnicas • Árvores de decisão • Representação simples do conhecimento; • Utilização de regras condicionais; • A partir de um conjunto de valores decide SIM ou NÃO.

  33. Técnicas • Redes Neurais • É uma abordagem computacional que envolve estruturas matemáticas com a habilidade de aprender; • Elementos interconectados e possuem entrada e saída do processamento; • São organizados em camadas que aprendem pela modificação da conexão

  34. Técnicas • Redes Neurais

  35. Ferramenta WEKA • Open Source: Implementada na linguagem JAVA. • Classificação • Um classificador (ou modelo de classificação) é utilizado para identificar a classe à qual pertence uma determinada observação de uma base de dados, a partir de suas características (seus atributos).

  36. Exemplo – Entrada de dados • O Software WEKA utiliza o arquivo .arff para a entrada de dados o qual possui a seguinte estrutura: @relation Censo @attribute Escolaridade {Graduacao, Mestrado, Doutorado} @attribute Idade {>30, <=30} @attribute Rido {Sim, Nao} @data Mestrado,>30,Sim Doutorado,<=30,Sim Mestrado,<=30,Nao Doutorado,>30,Sim Graduacao,<=30,Nao Graduacao,>30,Nao

  37. Exemplo – Saida de dados Matriz de Confusão === Confusion Matrix === a b <-- classified as 4 5 | a = Sim 6 3 | b = Nao Arvore de Decisão

More Related