150 likes | 236 Views
4. Decisões Estruturadas 4.1. Data Warehouse (DW). Cadeia: SPT SIG DW SAD BI Os SPT e SIG não eram flexíveis o suficiente Importa dados dos DB transacionais Disponíveis somente para leitura A importação ocorre periodicamente Alto poder de processamento de consultas
E N D
4. Decisões Estruturadas4.1. Data Warehouse (DW) • Cadeia: SPT SIG DW SAD BI • Os SPT e SIG não eram flexíveis o suficiente • Importa dados dos DB transacionais • Disponíveis somente para leitura • A importação ocorre periodicamente • Alto poder de processamento de consultas • Facilidade de geração de relatórios • Suporte a decisões táticas e estratégicas • Análise, consolidação, sumarização e síntese • Usa séries históricas para validar modelos e fazer novas inferências Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 1
Data Warehouse e OLAP • On-Line Analytical Processing • Processamento Analítico On-line (popular para DW) • A OLAP foi construída para gerar respostas rápidas à consultas analíticas em dados multidimensionais compartilhados • Técnica: • Tira uma foto (snapshot) dos dados (que vai usar) • Estrutura os dados num cubo dimensional • Processa a consulta usando o cubo • Consultas complexas: gasta menos de 1% do DBMS • Exemplo: Weekly da Tupperware Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 2
Exemplo: Weekly da Tupperware Tipos de Pessoas: Executivas Revendedoras Recrutas Agrupamentos de Vendas: País Região Distribuição Grupos Dimensão Temporal: Ano Trimestre Mês Semana Dimensão Geográfica: Distribuição Distrito Setor Bairro Tipos de Reunião: Lançamento Normal OLAP: Vendas pessoais na semana (fact table) Vendas, Presenças, Marcações, Recrutamento Relatório: 18 segundos SIG: Vendas pessoais na semana Relatório: 34 minutos SPT: Pedidos Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 3
DB Relacional x DB Multidimensional Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 4
DW - OLAP • Estas ferramentas também ajudam na apresentação e navegação no DW • A navegação em cubos pode ser feita por: • Dimensões • Granularidade (dos detalhes até as sumarizações) • Tem recursos drill dwon e drill up (diminuir ou aumentar) • Tem recursos slice and dice (fatiar os dados, cria visões para ver os dados sobre outras perspectivas) • Facilidade de navegação e visualização são as chaves do OLAP e por conseqüência do DW Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 5
DW - Armazenamento • Precisa armazenar grandes volumes de dados • Usa Data Marts: unidades lógicas menores • São pontos de acesso a subconjuntos de dados • São construídos para antecipar consultas de um tipo específico de usuário • Ex: Data Mart financeiro dia-a-dia para gerentes financeiros e um mensal para os diretores e executivos • Podem ser constituídos de um ou mais cubos de dados • Usam o Esquema Estrela (Star Schema) • Modelagem Multidimensional • Tabela de Fatos (Fact Table) • Cubos dimensionais da tabela de fatos • O Star Schema é popular, mas não é o único Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 6
DW - Modelagem • Em DMBS usamos a normalização para: • Evitar redundâncias e garantir consistência • Gastar o menor espaço possível • Ex: Vendas (CodRev, Grupo, Valor) • Revendedoras (CodRev, Nome) • Grupos (Grupo, Nome Grupo) • Em DW privilegiamos a velocidade da consulta • A normalização torna-se irrelevante • Ex: Vendas (CodRev, Nome, Grupo, Nome Grupo, Valor) • Vantagens: • As consultas ficam muito mais rápidas • Os dados ficam mais intuitivos para os usuários • Desvantagens: • Gasta-se muito mais espaço (que ficou barato hoje em dia) Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 7
DW - Metadados • O DW vai importar dados. Logo, ele precisa saber: • Onde buscar qual dado (banco, tabela, atributo) • Como transformar o dado original (converter formatos) • Como lidar com ausência de dados (valor default) • Nome e alias (apelido) (Ex: pCod1 Código do Produto) • Dentre outras informações • Solução: Um repositório de Metadados • Um “dicionário” contendo “dados sobre os dados” • Onde buscar o dado, como transformá-lo, valor default ... • Isto é crucial para o DW converter dados transacionais em informações de negócio Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 8
DW - Dicionário dos Metadados • Origem dos dados • Banco, tabela e atributo ou arquivo e colunas ou processo • Cada dado só pode ter uma fonte • Fluxo de dados • Quais fluxos transformam este dado • Quais dados servem para quais processos • Formato dos dados • Todo dado tem um domínio (tipo, tamanho, formato) • Nome e alias (apelido) • Todo dado tem um nome de negócio ou técnico • Podem ser criados alias para nomes existentes • Devem ser usados padrões de criação de nomes e alias • Definições de negócio • Qual a utilidade do dado para o negócio • Esta definição e a manutenção dela são muito importantes Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 9
DW - Dicionário dos Metadados • Regras de transformação • São regras de negócio codificadas • São utilizadas no momento da extração • Fazem limpeza, verificação e agrupamento • Atualização de dados • Precisamos saber quando o dado foi atualizado • Requisitos de teste • São restrições de domínio: possíveis valores, intervalos, etc. • E como cada dado deve ser validado • Ex: Gênero = M (masculino) ou F (feminino) • Indicadores de qualidade dos dados • Índices indicando a qualidade, baseados em: origem, número de transformações, valores atômicos x sumarizados, níveis de uso, ... • Triggers (gatilhos) automáticos • Processos disparados automaticamente durante a extração Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 10
DW - Dicionário dos Metadados • Responsáveis pelas informações • Deve ser identificado o responsável por cada dado do DW • Assim como o responsável pelos metadados • Acesso e segurança • Os dados devem ser classificados quanto a confidencialidade (público, restrito, etc.) e o acesso (leitura, atualização, etc.) • Devem ser criados perfis de acesso aos dados e metadados • Deve ser identificado o responsável pela gestão da segurança • Deve ser identificado o administrador do banco de dados do DW Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 11
DW - Extração de Dados • A extração de dados é feita por ferramentas ETL (Extract Transform Load = Extração, Transformação e Carga) • Quando existem processos periódicos de extração: • Os dados são copiados da origem para a área de stage • Em seguida os dados são transformados • Finalmente eles são gravados nos Data Marts do DW • Quando o processo é on-line, estas etapas são executadas de uma vez Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 12
Arquitetura Genérica do DW Acesso a Informações Acesso a Dados DW Transporte Acesso a Dados DB Externos DB de SPT Usuários Repositório Metadados Funções dos Metadados Gerenciador de Processos Fonte: Adaptado de Ken Orr (1996 e 2000) Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 13
DW - Camadas • Camadas de fontes de dados: • Bancos de dados de SPT e fontes externas ao DW • Camada de acesso à informação: • Forma de iteração do usuário com o DW (hw e sw) • Camada de acesso aos dados: • Liga o acesso à informação ao DW e às fontes de dados • Camada de metadados: • Repositório do Dicionário de Dados • Biblioteca de funções de transformação • Camada de gerenciamento de processos: • Gerencia todos os processos do DW • Camada de transporte: • Gerencia o transporte de dados através da rede • Camada do Data Warehouse: • É o DW propriamente dito (o gerenciador principal) Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 14
Data Warehouse - Produtos • Fabricantes: • Líderes: Oracle, Microsoft e IBM • Grandes: NCR Teradata, HP e Sun Microsystems. • Menores: Netezza, Datallegro e Dataupia. • Produtos: • IBM: • Retail Business Intelligence Solution (RBIS) • Analysis and Business Intelligence • DB2 Data Warehouse Manager • Oracle Data Warehouse • NCR Teradata Warehouse • DMExpress Unidade 4 – Decisões Estruturadas – Data Warehouse – Slide 15