1 / 27

Capacidades do Data Warehouse

Capacidades do Data Warehouse. O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica.

kerry
Download Presentation

Capacidades do Data Warehouse

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Capacidades do Data Warehouse • O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. • As análises extremamente flexíveis obtidas através das operações OLAP (drill-down, roll-up, slice) são poderosas mais muito simples, tudo gira em torno de somas (fatos aditivos), médias (fatos semi-aditivos) e/ou contagens (fatos não-aditivos)

  2. Limites do OLAP • As operações Olap podem responder aos seguintes questionamentos: • Qual região vendeu mais? Qual diferença entre vendas de determinado produto por região ou por vendedor? • Olap não pode responder: • Qual o perfil dos compradores da região que mais vendeu determinado produto? • Quais produtos que mais venderam em conjunto? • Quais os prováveis produtos que determinado cliente irá escolher na próxima compra?

  3. Data Mining • Data Mining visa analisar dados também, só que com a utilização de métodos mais complexos, como conseqüência, os resultados são mais elaborados. • A Mineração de Dados é uma conjunto de poderosas técnicas de análise para extração de conhecimentos a partir de séries de dados muito grandes, que podem ser de extraordinário valor para análises e decisões nas organizações

  4. Relação DW e Data Mining • Do ponto de vista de um DW, Data Mining pode ser vista como um aplicação cliente do DW. Como uma ferramenta de consulta OLAP ou uma ferramenta de relatórios, a ferramenta de Data Mining pode estar em uma máquina a parte e requisitando dados do DW • Do ponto de vista de Data Mining, o DW é apenas uma coleção de dados organizada e sem problemas de qualidade, i.e., uma fonte de dados

  5. Relação DW e Data Mining • São independentes e podem ser utilizados em separado. • As análises são complementares e não sobrepostas • Contudo, um ambiente de análise completo necessita resultados de ambos, ou seja, o melhor é utilizar os dois em conjunto. • Existe uma tendência de ter as duas formas de análise no mesmo ambiente

  6. Exemplos de Aplicação • Marketing • Mala direta de produtos para clientes que tem possibilidade de comprar aquele produto • Varejo • Produtos organizados nas prateleiras de forma que o cliente ponha no carrinho de compra os produtos que vendem em conjunto • Telecomunicações • Ligações fraudulentas de Celulares clonados

  7. Exemplos de Aplicação • Bancário • Liberação de empréstimos para clientes que tem característica de bom pagador • Científico • NASA cataloga imagem de satélites classifica eventos similares nas imagens • Acadêmico • Disciplinas de graduação que tem maior probabilidade de serem cursadas em conjunto

  8. KDD & Data Mining • Descoberta de Conhecimento em Base de Dados (KDD) • “é o processo não trivial de identificação de padrões em dados que sejam válidos, novos, potencialmente úteis e compreensíveis” [Fayyad 96] • “é uma tarefa cujo uso de conhecimento é intensivo, consistindo de complexas interações, prolongadas no tempo, entre uma pessoa e um banco de dados, possivelmente suportada por um conjunto heterogêneo de ferramentas.” [Brachman 96]

  9. KDD & Data Mining • Data Mining • é uma etapa neste processo onde os recursos computacionais são mais exigidos • Também chamada de Mineração de Dados e Prospecção de dados • sondagem • pesquisa • avaliar • investigar • explorar

  10. Condições • Critérios que justificam adoção de KDD [Fayyad 96] • Práticos • Impacto Potencial • Falta de Alternativa • Suporte Organizacional

  11. Condições • Critérios que justificam adoção de KDD [Fayyad 96] • Técnicos • Quantidade de dados • Atributos Relevantes • Qualidade dos dados • Conhecimento acerca do domínio

  12. Processo de KDD • Abordagem utilizada • Dividida em etapas [Fayyad 96]

  13. Processo de KDD • Adriaans 97

  14. Processo de KDD • Terra 2000

  15. Etapas do Processo • Definição de Objetivos • Sempre o processo de KDD tem um objetivo inicial, uma hipótese, que será comprovada ou rejeitada com utilização de exemplos de dados/conhecimento extraído • Nem sempre o objetivo do processo é diretamente atribuído a um conjunto de dados do universo de discurso. Nestas situações existe o problema chamado de “concept assignment problem”. Por exemplo, como determinar o perfil dos melhores(?) clientes

  16. Etapas do Processo • Preparação dos Dados • A partir do objetivo podemos preparar um conjunto de dados. • Seleção. Focar em um subconjunto • Limpeza. Eliminar ruído • Enriquecimento. Acrescentar dados externos • Transformação/Codificação. Normalizar dados • Grande parte da preparação é feita quando temos o DW!

  17. Etapas do Processo • Data Mining • Algoritmos específicos são utilizados para extrair conhecimento • Existem vários tipos de análises realizadas pelos algoritmos • Escolher uma análise nem sempre é uma tarefa, principalmente onde há o “concept assignment problem”

  18. Etapas do Processo • Interpretação/Validação dos resultados • Muitas vezes temos uma quantidade de resultados de difícil aplicação na etapa de Data Mining (muito grande ou muito pequena) • A quantidade depende dos valores dos parâmetros escolhidos na análise • Características desejáveis Result.(Conhecimento) • Correto • Compreensível • Interessante / Útil/ Novo

  19. Data Mining • Tarefas de Mineração/Classes de Problemas • Após criar um conjunto de dados é preciso definir qual método de mineração será aplicado • Existem vários métodos que são agrupados em “tarefas” ou “classes” semelhantes: • [Agrawal 93] : Associações, Classificação e Seqüência • [Fayyad 96] : Link Analysis, Classificação, Agrupamento, Detecção de desvios, Sumarização,...

  20. Métodos • Em [Fayyad 96] é proposta uma divisão em mais alto nível dos métodos segundo a aplicação : • Descritivos • Procuram criar um modelo para gerar uma representação descritiva dos dados. A partir desta representação podem ser tomadas as devidas ações • Preditivos • Procuram criar modelos que permitam prever a situação futura. Não focam necessariamente a compreensão humana do modelo extraído.

  21. Algoritmos de Data Mining • Existem muitos algoritmos que podem ser utilizados em Data Mining • Em parte, estes algoritmos não são novos, mas sim originários de métodos estatísticos e de IA. • Contudo, em Data Mining, estes algoritmos devem ser adaptados para que possam tratar uma grande quantidades de dados. Muitos algoritmos não podem ser utilizados

  22. Associações/Link Analysis • As regras de associações representam padrões onde a ocorrência de eventos em conjunto é alta. • Exemplo mais comum é o do supermercado : • produtos que frequentemente são vendidos conjuntamente • folclore : cerveja e fralda saem em juntas em grande quantidade de transações • Existem associações usuais por seu uso comum : pão e manteiga, café e leite • As interessantes são as não usuais.

  23. Seqüência • São regras de associação que utilizam o fator tempo. • Os dados de uma seqüência podem ser transformados para que sejam aplicados algoritmos de associação • Ex. Utilização do Cartão de Crédito: • Quem compra um celular vai comprar um micro um tempo depois

  24. Agrupamentos/Clustering • Neste método os pares atributo/valor são analisados com o objetivo de criar grupos onde os valores são semelhantes. • Existem vários registros (exemplos) que representam um evento • Não são fornecidos rótulos para os exemplos. • Ex: Quais são os grupos que se comportam da mesma maneira?

  25. Classificação • Neste método são procurados padrões que “classifiquem” elementos rotulados (exemplos) • Os exemplos são fornecidos, juntamente com um conjunto de registros. O objetivo é descobrir quais valores justificam o exemplo. • Podem ser utilizados para “compreender” os agrupamentos • Ex. qual a característica do agrupamento

  26. Sumarização • Os métodos de sumarização são, em geral, métodos estatísticos mais simples. • Ex. Média, Desvio, Correlação • São muito parecidos com as possibilidades de análise fornecidas pelo OLAP. • Ex. Existe relação entre ações de empresas diferentes ao longo do tempo?

  27. Conclusões • O processo tem muitas escolhas • Como saber se as escolhas foram corretas? • Experiência do condutor do processo, o analista • O Analista não é necessariamente um usuário final!! • O processo pode ser refeito em algumas partes (iteratividade!!!) • Altamente Interativo, o usuário(especialista) é essencial  “background knowledge”

More Related