370 likes | 455 Views
Data Mining, Data Warehousing e OLAP. Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares. Data Warehouse. Banco de dados de informações empresariais. Processamento de consulta e não de transações. Torna informações acessíveis e claras para o uso.
E N D
Data Mining, Data Warehousing e OLAP Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares
Data Warehouse • Banco de dados de informações empresariais. • Processamento de consulta e não de transações. • Torna informações acessíveis e claras para o uso. • Consultas sem impacto nos dados operacionais. • Maneira de obter informações corporativas para tomada de decisões.
Data WarehouseOrigem • Anos 80 • Bancos de dados comerciais para SADs • No inicio eram apenas subconjuntos dos dados operacionais que eram copiados para o banco de apoio a decisões regularmente.
Data WarehouseDefinições “Data Warehouse é uma coleção de dados orientada por assuntos, integrada, variante no tempo, e não volátil que tem por objetivo dar suporte aos processos de tomada de decisão.” Inmon(1997) “Poder faz dinheiro. Conhecimento é poder. Data Warehouse aumenta o conhecimento. Portanto, Data Warehouse faz dinheiro.” Knowles (1996)
Data WarehouseData Marts • Os Data Marts são subconjuntos de dados, dentro de um Data Warehouse, projetados para dar suporte a negócios de unidade organizacionais especificas (NIMER, 1998).
Data Warehouse Finalizando • Data Warehouse é um ambiente adaptado para apenas um objetivo. • Desafios: • Consultas claras e rápidas. • Disponibilizar metadados. • Sistemas de gestão: Business Intelligence • Núcleo do apoio á decisões.
OLAP -Origem • Keneth Iverson – 1962 • “A Programming Language” - APL • Necessidade de relatóriosdinâmicos • Tecnologia OLAP – década de 90. • Popularidade
OLAP - Definição • ProcessamentoAnalítico Online • Manipular e analisar um grande volume de dados sob múltiplas perspectivas • Otimização de consulta e relatório • BI- síntese de informações corporativas • visões comparativas e personalizadas: • Apresenta as informações via um modelo de dados natural e intuitivo. • análises históricas; e • elaboração de cenários.
OLAP - Definição • Tipos básicos de dados: • Medidas: • Dados numéricos, como quantidades e médias • Parâmetrosutilizadosnatomada de decisões • dimensão especial utilizada para realizar comparações. • Dimensões: • Uma unidade de análise que agrupa dados de negócio relacionados.
OLAP - Definição • Conceitos – chave: • Cubo: estrutura multidimensional de dados do negócio. • Membro: subconjunto de uma dimensão. • Hierarquia: Uma estrutura em árvore lógica que organiza os membros de uma dimensão.
OLAP - Definição • Conceitos-chave • Drill-up: diminuir o nível de detalhamento • Drill-down: aumentar o nível de detalhamento • Slice and Dice: reorganizar os dados
OLAP - Multidimensionalidade • Umadimensão • DuasDimensões
OLAP - Multidimensionalidade • TrêsDimensões
OLAP - Multidimensionalidade • QuatroDimensões
OLAP e OLTP • Exemplo: aplicaçõesbancárias • OLTP: Ponto de vista do cliente. • inserção, alteração, remoção de dados individuais. • OLAP: Ponto de vista do Gerente. • Análise global de contas correntes com diversas visões. Ex: • Saber qual é o desempenho de contas correntes que tenham cheque especial e tenham utilizado o valor máximo dos mesmos em um determinado período de tempo em algumas regiões.
OLAP – PrincipaisTipos • MOLAP: os dados são armazenados em cubos multimensionais. • ROLAP: manipula os dados armazenados no banco de dados relacional para dar a aparência de funcionalidade sliceanddicedo OLAP tradicional. • HOLAP: combinação do MOLAP e ROLAP.
OLAP - Vantagens • São utilizados por gestores de qualquer nível da organização; • Análise, navegação e visualização de dados corporativos: • Alto desempenho • Consistente • Interativa • Dinâmica • Perspectivasdiferentes
OLAP - Desvantagens • Escolha de uma ferramenta OLAP inadequada pode ocasionar severas consequências para um projeto de datawarehouse. • Não existe nenhuma característica peculiar que dite como a ferramenta deve ser construída, qual tecnologia deva ser usada e que funcionalidades devem ser implementadas
Introdução - Data Mining • Grande disponibilidade de dados armazenados eletronicamente • Existem informaçõesúteis, invisíveis, nesses grandes volumes de dados; • Aproveitar para prever um conhecimentofuturo (ir além do armazenamento explícito de dados).
Data Mining • Data mining (mineração de dados), é o processo de extração de conhecimento de grandes bases de dados,convencionais ou não. • Utiliza técnicas de inteligência artificial que procuram relações de similaridade ou discordância entre dados. • Seu objetivo é encontrar, automaticamente,padrões, anomalias e regras com o propósito de transformar dados, aparentemente ocultos, em informaçõesúteis para a tomada de decisão e/ou avaliação de resultados.
Processo – Data Mining • Seleção. • Pré-processamento. • Transformação. • Data mining. • Interpretação e Avaliação.
Processo - Data Mining • Seleção • Selecionar ou segmentar dados de acordo com critérios definidos: • Ex.: Todas pessoas que possuem ensino superior. • Pré-processamento • Estágio de limpeza dos dados, onde informações julgadas desnecessárias são removidas. • Reconfiguração dos dados para assegurar formatos consistentes (identificação) • Ex. : graduação: “Graduação”, “Mestrado” ou Doutorado.
Processo - Data Mining • Transformação • Transforma-se os dados em formatos utilizáveis. Esta depende da técnica data mining usada. • Ex: rede neural converter valor literal em valor numérico • Disponibilizar os dados de maneira usável e navegável. • Data mining • É a verdadeira extração dos padrões de comportamento dos dados • Utilizando a definição de fatos, medidas de padrões, estados e o relacionamento entre eles.
Processo – Data Mining • Interpretação e Avaliação • Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas • Ex.: Tarefas de previsões e classificações
Técnicas • Indução • Regras indutivas • É o processo de olhar uma série de dados e, a partir dela gerar padrões; • Pode-se trabalhar com dados numéricos ou não; • Hipóteses;
Técnicas • Árvores de decisão • Representação simples do conhecimento; • Utilização de regras condicionais; • A partir de um conjunto de valores decide SIM ou NÃO.
Técnicas • Redes Neurais • É uma abordagem computacional que envolve estruturas matemáticas com a habilidade de aprender; • Elementos interconectados e possuem entrada e saída do processamento; • São organizados em camadas que aprendem pela modificação da conexão
Técnicas • Redes Neurais
Ferramenta WEKA • Open Source: Implementada na linguagem JAVA. • Classificação • Um classificador (ou modelo de classificação) é utilizado para identificar a classe à qual pertence uma determinada observação de uma base de dados, a partir de suas características (seus atributos).
Exemplo – Entrada de dados • O Software WEKA utiliza o arquivo .arff para a entrada de dados o qual possui a seguinte estrutura: @relation Censo @attribute Escolaridade {Graduacao, Mestrado, Doutorado} @attribute Idade {>30, <=30} @attribute Rido {Sim, Nao} @data Mestrado,>30,Sim Doutorado,<=30,Sim Mestrado,<=30,Nao Doutorado,>30,Sim Graduacao,<=30,Nao Graduacao,>30,Nao
Exemplo – Saida de dados Matriz de Confusão === Confusion Matrix === a b <-- classified as 4 5 | a = Sim 6 3 | b = Nao Arvore de Decisão