290 likes | 360 Views
Capacidades do Data Warehouse. O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica.
E N D
Capacidades do Data Warehouse • O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. • As análises extremamente flexíveis obtidas através das operações OLAP (drill-down, roll-up, slice) são poderosas mais muito simples, tudo gira em torno de somas (fatos aditivos), médias (fatos semi-aditivos) e/ou contagens (fatos não-aditivos)
Limites do OLAP • As operações Olap podem responder aos seguintes questionamentos: • Qual região vendeu mais? Qual diferença entre vendas de determinado produto por região ou por vendedor? • Olap não pode responder: • Qual o perfil dos compradores da região que mais vendeu determinado produto? • Quais produtos que mais venderam em conjunto? • Quais os prováveis produtos que determinado cliente irá escolher na próxima compra?
Data Mining • Data Mining visa analisar dados também, só que com a utilização de métodos mais complexos, como conseqüência, os resultados são mais elaborados. • A Mineração de Dados é uma conjunto de poderosas técnicas de análise para extração de conhecimentos a partir de séries de dados muito grandes, que podem ser de extraordinário valor para análises e decisões nas organizações
Relação DW e Data Mining • Do ponto de vista de um DW, Data Mining pode ser vista como um aplicação cliente do DW. Como uma ferramenta de consulta OLAP ou uma ferramenta de relatórios, a ferramenta de Data Mining pode estar em uma máquina a parte e requisitando dados do DW • Do ponto de vista de Data Mining, o DW é apenas uma coleção de dados organizada e sem problemas de qualidade, i.e., uma fonte de dados
Relação DW e Data Mining • São independentes e podem ser utilizados em separado. • As análises são complementares e não sobrepostas • Contudo, um ambiente de análise completo necessita resultados de ambos, ou seja, o melhor é utilizar os dois em conjunto. • Existe uma tendência de ter as duas formas de análise no mesmo ambiente
Exemplos de Aplicação • Marketing • Mala direta de produtos para clientes que tem possibilidade de comprar aquele produto • Varejo • Produtos organizados nas prateleiras de forma que o cliente ponha no carrinho de compra os produtos que vendem em conjunto • Telecomunicações • Ligações fraudulentas de Celulares clonados
Exemplos de Aplicação • Bancário • Liberação de empréstimos para clientes que tem característica de bom pagador • Científico • NASA cataloga imagem de satélites classifica eventos similares nas imagens • Acadêmico • Disciplinas de graduação que tem maior probabilidade de serem cursadas em conjunto
KDD & Data Mining • Descoberta de Conhecimento em Base de Dados (KDD) • “é o processo não trivial de identificação de padrões em dados que sejam válidos, novos, potencialmente úteis e compreensíveis” [Fayyad 96] • “é uma tarefa cujo uso de conhecimento é intensivo, consistindo de complexas interações, prolongadas no tempo, entre uma pessoa e um banco de dados, possivelmente suportada por um conjunto heterogêneo de ferramentas.” [Brachman 96]
KDD & Data Mining • Data Mining • é uma etapa neste processo onde os recursos computacionais são mais exigidos • Também chamada de Mineração de Dados e Prospecção de dados • sondagem • pesquisa • avaliar • investigar • explorar
Condições • Critérios que justificam adoção de KDD [Fayyad 96] • Práticos • Impacto Potencial • Falta de Alternativa • Suporte Organizacional
Condições • Critérios que justificam adoção de KDD [Fayyad 96] • Técnicos • Quantidade de dados • Atributos Relevantes • Qualidade dos dados • Conhecimento acerca do domínio
Processo de KDD • Abordagem utilizada • Dividida em etapas [Fayyad 96]
Processo de KDD • Adriaans 97
Processo de KDD • Terra 2000
Etapas do Processo • Definição de Objetivos • Sempre o processo de KDD tem um objetivo inicial, uma hipótese, que será comprovada ou rejeitada com utilização de exemplos de dados/conhecimento extraído • Nem sempre o objetivo do processo é diretamente atribuído a um conjunto de dados do universo de discurso. Nestas situações existe o problema chamado de “concept assignment problem”. Por exemplo, como determinar o perfil dos melhores(?) clientes
Etapas do Processo • Preparação dos Dados • A partir do objetivo podemos preparar um conjunto de dados. • Seleção. Focar em um subconjunto • Limpeza. Eliminar ruído • Enriquecimento. Acrescentar dados externos • Transformação/Codificação. Normalizar dados • Grande parte da preparação é feita quando temos o DW!
Etapas do Processo • Data Mining • Algoritmos específicos são utilizados para extrair conhecimento • Existem vários tipos de análises realizadas pelos algoritmos • Escolher uma análise nem sempre é uma tarefa, principalmente onde há o “concept assignment problem”
Etapas do Processo • Interpretação/Validação dos resultados • Muitas vezes temos uma quantidade de resultados de difícil aplicação na etapa de Data Mining (muito grande ou muito pequena) • A quantidade depende dos valores dos parâmetros escolhidos na análise • Características desejáveis Result.(Conhecimento) • Correto • Compreensível • Interessante / Útil/ Novo
Data Mining • Tarefas de Mineração/Classes de Problemas • Após criar um conjunto de dados é preciso definir qual método de mineração será aplicado • Existem vários métodos que são agrupados em “tarefas” ou “classes” semelhantes: • [Agrawal 93] : Associações, Classificação e Seqüência • [Fayyad 96] : Link Analysis, Classificação, Agrupamento, Detecção de desvios, Sumarização,...
Métodos • Em [Fayyad 96] é proposta uma divisão em mais alto nível dos métodos segundo a aplicação : • Descritivos • Procuram criar um modelo para gerar uma representação descritiva dos dados. A partir desta representação podem ser tomadas as devidas ações • Preditivos • Procuram criar modelos que permitam prever a situação futura. Não focam necessariamente a compreensão humana do modelo extraído.
Algoritmos de Data Mining • Existem muitos algoritmos que podem ser utilizados em Data Mining • Em parte, estes algoritmos não são novos, mas sim originários de métodos estatísticos e de IA. • Contudo, em Data Mining, estes algoritmos devem ser adaptados para que possam tratar uma grande quantidades de dados. Muitos algoritmos não podem ser utilizados
Associações/Link Analysis • As regras de associações representam padrões onde a ocorrência de eventos em conjunto é alta. • Exemplo mais comum é o do supermercado : • produtos que frequentemente são vendidos conjuntamente • folclore : cerveja e fralda saem em juntas em grande quantidade de transações • Existem associações usuais por seu uso comum : pão e manteiga, café e leite • As interessantes são as não usuais.
Seqüência • São regras de associação que utilizam o fator tempo. • Os dados de uma seqüência podem ser transformados para que sejam aplicados algoritmos de associação • Ex. Utilização do Cartão de Crédito: • Quem compra um celular vai comprar um micro um tempo depois
Agrupamentos/Clustering • Neste método os pares atributo/valor são analisados com o objetivo de criar grupos onde os valores são semelhantes. • Existem vários registros (exemplos) que representam um evento • Não são fornecidos rótulos para os exemplos. • Ex: Quais são os grupos que se comportam da mesma maneira?
Classificação • Neste método são procurados padrões que “classifiquem” elementos rotulados (exemplos) • Os exemplos são fornecidos, juntamente com um conjunto de registros. O objetivo é descobrir quais valores justificam o exemplo. • Podem ser utilizados para “compreender” os agrupamentos • Ex. qual a característica do agrupamento
Sumarização • Os métodos de sumarização são, em geral, métodos estatísticos mais simples. • Ex. Média, Desvio, Correlação • São muito parecidos com as possibilidades de análise fornecidas pelo OLAP. • Ex. Existe relação entre ações de empresas diferentes ao longo do tempo?
Conclusões • O processo tem muitas escolhas • Como saber se as escolhas foram corretas? • Experiência do condutor do processo, o analista • O Analista não é necessariamente um usuário final!! • O processo pode ser refeito em algumas partes (iteratividade!!!) • Altamente Interativo, o usuário(especialista) é essencial “background knowledge”