880 likes | 1.02k Views
Tec. BD. PUC-Rio. Data Warehousing (UFPA). Prof. Rubens Melo. Data Warehousing.
E N D
Tec BD PUC-Rio Data Warehousing(UFPA) Prof. Rubens Melo
Data Warehousing Data Warehouse (DW) é um tipo de Banco de Dados (BD) voltado ao apoio à tomada de decisões gerenciais e estratégicas. Esta tecnologia visa promover melhores negócios à empresa a partir de análises da grande quantidade de informação que se encontra distribuída por diversos sistemas de produção e sistemas externos. O projeto e a implementação de um DW requerem a utilização de conceitos, técnicas e ferramentas diferentes das utilizadas nos BDs convencionais.
Data Warehousing • Introdução: Evolução da TI • Nova tecnologia de BD e DW
TECNOLOGIA DA INFORMAÇÃO Componentes da Tecnologia da Informação TECNOLOGIA DE INTERFACE HOMEM MÁQUINA TECNOLOGIA DE REDE TECNOLOGIA DE PROCESSA MENTO TECNOLOGIA DE ARMAZE NAMENTO
É o componente da Tecnologia da Informação voltado para o armazenamento da informação, cuja estrutura e comportamento devem propiciar esse armazenamento de forma persistente e consistente. DEFINIÇÃO DE BANCO DE DADOS
DEFINIÇÃO DE BANCO DE DADOS Estrutura Persistência Banco de Dados Estado Consistência Comportamento Transação
EVOLUÇÃO DOS BD SISTEMAS DE ARQUIVOS BD CONVENCIONAIS BD REDES BD HIERÁRQUICOS BD RELACIONAIS LINGUAGENS OO BD SEMÂNTICOS OBJETOS COMPLEXOS HIPERMÍDIA BD OO INTELIGÊNCIA ARTIFICIAL RECUPERAÇÃO DA INFORMAÇÃO BD INTELIGENTES BD NÃO CONVENCIONAIS
FATORES MOTIVADORES BANCOS DE DADOS HIERÁRQUICOS LIMITAÇÕES HUMANAS (modelos) BANCOS DE DADOS DE REDES BANCOS DE DADOS RELACIONAIS BANCOS DE DADOS SEMÂNTICOS BANCOS DE DADOS OO BANCOS DE CONHECIMENTO
FATORES MOTIVADORES BANCOS DE DADOS CLIENT/SERVER LIMITAÇÕES TECNO LÓGICAS BANCOS DE DADOS DISTRIBUÍDOS BANCOS DE DADOS PARALELOS DATA WAREHOUSE
Métodos de Especificação de Sistemas Orientados a Processos (Gane, De Marco, .... ) Orientados a Dados (Chen, .... ) Orientados a Objetos (OMT, Booch, ....UML ) OO WEB Objetos distribuídos, CORBA, Internet, Intranet, .... Cliente / Servidor micro mini main frame Recursos de Hardware, Software e Rede Metodologias x Recursos rede melhoria de tecnologia de hardware
Tec BD PUC-Rio Departamento de Informática Data Warehousing(Conceitos)
William Inmon cunhou o termo em 1990 Data Warehouse OLAP + Data Mining • Suporte à decisão • Não volátil • Variante no tempo • Orientado a assunto = melhores negócios
ÁREAS DE APLICAÇÃO Marketing Controle Operacional Produtividade Custos/Margem Planejamento Estratégico DWing
EXEMPLOS DE APLICAÇÃO Marketing Orientado ao Cliente Análise de Crédito Gestão de Produto Gestão de Canais de Venda Quais clientes me dão maior lucro? Como atrair novos clientes e fidelizar os antigos? Como me antecipar às necessidades dos clientes? A quais clientes devo oferecer tal produto? Quais podem ter crédito pré-aprovado? DWing
EXEMPLOS DE APLICAÇÃO Marketing Orientado ao Cliente Análise de Crédito Gestão de Produto Gestão de Canais de Venda O método para previsão de risco é eficaz? Como é a variação de inadimplência por região demográfica e por produto? Qual é o meu mercado para um novo produto de crédito? DWing
EXEMPLOS DE APLICAÇÃO Marketing Orientado ao Cliente Análise de Crédito Gestão de Produto Gestão de Canais de Venda Onde há oportunidade de venda do novo produto para os atuais clientes? Quem está comprando meu produto, como e onde? Qual é o produto mais rentável em cada grupo? Qual é o efeito da descontinuação de um produto no lucro total? DWing
EXEMPLOS DE APLICAÇÃO Marketing Orientado ao Cliente Análise de Crédito Gestão de Produto Gestão de Canais de Venda Como mudar as transações mais freqüentes, mais demoradas ou que exijam mais pessoas, para os canais de venda mais baratos? Como aumentar a participação no mercado? Como oferecer mais produtos e com custos menores? Como utilizar melhor os canais de venda como instrumentos de marketing? DWing
O que é um Data Warehouse? DW Um Data Warehouse é um conjunto de dados de apoio às decisões gerenciais, integrado, não-volátil, variável em relação ao tempo e baseado em assuntos. William Inmon
..... BD1 BD2 BD3 BD4 BDn Fontes de Dados Internos • Sistemas de contas a pagar • Sistemas financeiros • Sistemas de vendas • Sistemas de produção • Sistemas logísticos • Sistemas de pessoal • Múltiplas plataformas de sistemas operacionais • Múltiplas plataformas de HW • Múltiplos BDs • Múltiplas redes de comunicação
Data Warehouse • Consolida dados operacionais e históricos • Atualizações são, freqüentemente, periódicas ou em “batch”, em vez de em tempo real • Deve ter alta dispo- nibilidade de uso Repositório de dados corporativos extraídos de transações de sistemas de produção sistemas para acesso “ad hoc” por “knowledge workers”
Geografia Produto Indústria Organização Pedidos História Renda Real Capital Prognóstico Estoque Qualidade Estratégica Gerencial Operacional DW armazena muitas visões de dados Negócio Recursos Tempo Empresa Uso
Dados KnowledgeWorkers Fontes • Clientes • Transações • Financeira • Inventário • R / H • Pedidos • Pesquisas • ......... • Relacional • Multidimensional • Texto • Imagem • Vídeo • Áudio • Espacial • ......... DadosOperacionais Acesso Analistas DW • Demográfica • Sociais • Mapeamento • Tempo • Econômica • ......... ..... Executivos • Ferramentas relacionais • Ferramentas OLAP • Data Mining • ......... DadosExternos
ETLM DW Ferramentas OLAP/BI O que é Data Warehousing? Data Warehousing não é um produto, e sim uma estratégia que reconhece a necessidade de se armazenar dados, separadamente, em sistemas de informação e consolidá-los, de forma a assistir diversos profissionais de uma empresa na tomada de decisões de modo rápido e eficaz.
DM O que são Data Marts? Data Marts são subconjuntos departamentais focados em assuntos selecionados (e.g., um data mart de marketing pode incluir informações de vendas, produtos e clientes). Chaudhuri & Dayal
O que é um software OLAP? OLAP = “Online Analytical Processing” Suportam a análise sofisticada, atendem a um número de dimensões significativamente elevado e possibilitam a análise do negócio a partir de grandes conjuntos de dados. Microstrategy Incorporated
C A OLTP A OLAP ARACTERÍSTICAS PLICAÇÃO PLICAÇÃO OLTP x OLAP atualização análise OPERAÇÃO TÍPICA não alteráveis definidas pelo usuário TELAS poucos muitos DADOS POR TRANSAÇÃO detalhado agregado NÍVEL DO DADO atual histórica, atual e projetada IDADE DO DADO registros vetores, séries de tempo ORIENTAÇÃO
Sistemas OLTP • Folha de pagamento • Contas a pagar • Compra de produtos • Controle de estoque Acumulam dados detalhados a partir das operações do dia-a-dia dos negócios SistemasOLTP On-Line Transaction Processing
Sistemas OLAP São projetados para suportar os requisitos de dados “ad hoc” dos usuários • Prognóstico • Perfil • Relatório resumo • Análise de tendências SistemasOLAP On-Line Analytical Processing
São diferentes A Separação entre BD Operacional e BD Informacional • Dados para necessidades informacionais ou analíticas • Tecnologia de suporte para processamento informacional ou analítico • Comunidade de usuários (tomadores de decisão) • Dados para necessidades operacionais • Tecnologia de suporte para processamento operacional • Comunidade de usuários (Operacionais)
O que é um ODS? ODS Um Operational Data Store (ODS) é um conjunto de dados baseado em assuntos, integrado, volátil (pode ser atualizado), atual ou recente, de apoio às decisões operacionais do dia-a-dia. William Inmon
Resumo do Fluxo de Dados ODS (dado corrente ou quase corrente, dado detalhado) Transforma dado e alimenta Pode alimentar Sistemas Transacionais (dado corrente) Data Warehouse (dado histórico) Pode alimentar Transforma dado e alimenta Data Mart (subconjunto de dados, dados resumidos, dados históricos, etc.) Metadado
Responda sucintamente as questões abaixo Diferencie aplicações OLTP de aplicações OLAP. Exemplifique consultas OLAP vs OLTP. Diferencie os objetivos de um DW de um Data Mart e de um ODS . Cite fatores críticos de sucesso de um projeto de DW. Prática
Tec BD PUC-Rio Departamento de Informática Data Warehousing(Arquitetura)
Histórico: Evolução dos “relatórios gerenciais” Relatórios para usuários finais egerência Relatórios para usuários finais egerência SistemaOperacional BDs de produção /arquivos SistemaOperacional BDs de produção /arquivos Todos os relatórios produzidos pela área de sistemas
Evolução dos “relatórios gerenciais” Relatórios predefinidos usuáriofinal usuáriofinal Relatórios customizados usuáriofinal usuáriofinal usuáriofinal usuáriofinal SistemaOperacional Acesso de usuários finais a sistemas de produção BDs de produção /arquivos SistemaOperacional Estruturas de dados “Legacy” não são projetadas para quem não é de sistemas BDs de produção /arquivos
Evolução dos “relatórios gerenciais” SistemaOperacional Relatórios predefinidos usuáriofinal BDs de produção /arquivos Sobrecarga do ambiente de produção usuáriofinal usuáriofinal usuáriofinal • Acesso de usuários finais tem impacto negativo na performance dos sistemas OLTP • Usuários finais devem acessar dados localizados em BDs de múltiplos sistemas • Mostrou que o acesso de usuário final devia ser “off-loaded’
Evolução dos “relatórios gerenciais” Acesso de Usuários Finais a Extratos de Dados SistemaOperacional usuáriofinal BDs de produção /arquivos usuáriofinal SistemaOperacional usuáriofinal BDs de produção /arquivos usuáriofinal
Evolução dos “relatórios gerenciais” Extrator Extratos de dados Acesso de Usuários Finais a Extratos de Dados SistemaOperacional usuáriofinal BDs de produção /arquivos usuáriofinal SistemaOperacional usuáriofinal BDs de produção /arquivos usuáriofinal • Computação de usuário final é off-loaded do ambiente operacional • Ambiente de (DSS) Decision Suport Systems é energizado
usuáriofinal usuáriofinal usuáriofinal usuáriofinal usuáriofinal usuáriofinal Porém, mesmos dados, resultados diferentes.. Extrator SistemaOperacional Extrator BDs de produção /arquivos Extratos de dados SistemaOperacional Extrator BDs de produção /arquivos • Dados coletados em diferentes tempos • Algoritmos diferentes • Diferentes semânticas • Fontes externas diferentes Extratos de dados • Grupos diferentes obtêm resultados diferentes - credibilidade em risco !
2 Arquiteturas • Data Warehouse • Data Mart mutuamente exclusivas
..... Estoque Folha Pgto Vendas Compras Fontes de Produção EXTRAÇÃO DW da Empresa Servidor da Empresa ARQUITETURA DE DADOS UNIFICADA /MODELO DE DADOS DA EMPRESA ACESSO Desktops Inteligentes Planejamento Estratégico Logística Marketing Vendas Controle Arquitetura de Acoplamento Forte: DW
DW DW - BD Data Warehouse O DW é um BD alimentado por um ou mais BDs de transações, sendo que os dados são “limpos” e reestruturados para suportar consultas, resumos e análise. O DW é o centrode distribuição para os dados de produção ! SistemaOperacional BDs de produção /arquivos usuáriofinal SistemaOperacional usuáriofinal BDs de produção /arquivos usuáriofinal
Arquitetura de Acoplamento Fraco: DM DM Workgroup e Dept Servers Planejamento Estratégico Logística Marketing Vendas Controle ..... Estoque Vendas Compras Folha Pgto Dados de Produção EXTRAÇÃO RDBMS VSAM MDDBMS ACESSO Desktops Inteligentes
DM BD customizado DM usuáriofinal usuáriofinal BD customizado usuáriofinal usuáriofinal usuáriofinal usuáriofinal Data Marts SistemaOperacional DW BDs de produção /arquivos SistemaOperacional DW - BD BDs de produção /arquivos DMs são subconjuntos de um DW, que focalizam uma ou mais áreas específicas. Seus dados são obtidos do DW, desnormalizados e indexados para suportar intensa pesquisa DMs extraem e ajustam porções de DWs aos requisitos específicos de grupos / departamentos !
SGBDr Servidor OLAP DW - BD BD multidimensional DM em Servidor OLAP SistemaOperacional BDs de produção /arquivos usuáriofinal usuáriofinal SistemaOperacional usuáriofinal BDs de produção /arquivos Porções de DWs copiadas para um BD multidimensional para otimizar análise de dados
Arquitetura Híbrida Folha Pgto Compras Estoque ..... Vendas Fontes de Produção EXTRAÇÃO DWda Empresa ARQUITETURA DE DADOS UNIFICADA /MODELO DE DADOS DA EMPRESA Servidor da Empresa EXTRAÇÃO EXTRAÇÃO DM MDDBMS RDBMS VSAM Workgroup e Dept Servers ACESSO Planejamento Estratégico Desktops Inteligentes Controle Vendas Marketing Logística
1) P/ Consulta e Relatórios simples 2) OLAP tools ROLAP MOLAP HOLAP DOLAP EIS Data Mining 3) Web OLAP Ferramentas OLAP em DWing
Começar pequeno Provar utilidade Construir sobre sucessos Preservar visão de DW Projeto: Abordagem Evolucionária Iterativa
Área Piloto • Área de negócio prioritária, de interesse imediato da empresa • Área fértil para mostrar os benefícios de Data Warehousing • Área de risco moderado para Data Warehousing
DWing (termos) MOLAP MULTIDIMENSIONAL OLAP DSS Data Warehouse ROLAP Data Mining EIS ODS CUBO ETL Repositório METADADOS