1 / 44

MVP Virtual Conference 2013

MVP Virtual Conference 2013. Windows Server HPC e Big Data: aplicação real em finanças. Pericles Rocha Architect, Microsoft Technology Center procha@microsoft.com. Pericles Rocha. Desenvolvedor Ex consultor na HP Services Na Microsoft há 6 anos. Arquiteto, Microsoft Technology Center.

tallis
Download Presentation

MVP Virtual Conference 2013

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. MVP Virtual Conference2013 Windows Server HPC e Big Data: aplicação real em finanças Pericles Rocha Architect, Microsoft Technology Center procha@microsoft.com

  2. Pericles Rocha Desenvolvedor Ex consultor na HP Services Na Microsoft há 6 anos Arquiteto, Microsoft Technology Center MCSE, MCDBA, MCSD 16 anos na indústria Corintiano e Karateca

  3. Agenda Big Data O que é Windows HPC Server? Arquitetura de um cluster HPC HPC + Windows Azure Cenários de uso Dúvidas Cenário Real e Demo Jobs Gerenciar Instalar

  4. Até 2020, mais de 1/3 de todos os dados do mundo vão passar pela núvem Indivíduos criam 70% de todos os dados – empresas armazenam 80% “Expertise em Big Data está escarço e é caro”, dizem 38% dos pesquisados Big Data

  5. Big Data Até 2020, mais de 1/3 de todos os dados do mundo vão passar pela núvem¹ Indivíduos criam 70% de todos os dados – empresas armazenam 80%¹ “Expertise em Big Data está escarçoe é caro”, dizem 38% dos pesquisados ¹ Big Data Just Beginningto Explode – csc.com ² Howto Bridge Big Data’s Information Gap – InformationWeek.com

  6. Big Data... consequências 50% dos CIOs acreditam que seus custos vão aumentar 39% acreditam que terão redução de flexibilidade Fonte: IDC Whitepaper, “Big Data Analytics in Deuschland 2012”

  7. O que é Big Data? Petabytes Big Data Click stream Wikis/blogs Sensors/RFID/devices Social sentiment Audio/video Log files Spatial & GPS coordinates Data market feeds eGov feeds Weather Text/image Terabytes Web 2.0 Advertising Mobile Collaboration eCommerce Web Logs Digital Marketing Search Marketing Recommendations Gigabytes ERP/CRM Megabytes Complexidade: Variedade e Velocidade Payables Payroll Inventory Contacts Deal Tracking Sales Pipeline

  8. Oportunidade Esteja entre os primeiros na sua indústria Transforme grandes volumes de informações em aprendizado Lidere a discussão Entenda as opções Tire mais dos dados Economize tempo e dinheiro

  9. Cenários comuns de Big Data Otimização da infraestrutura de TI Descobertas Análise de redes sociais Otimização do fluxo de transito Otimização de aplicações web Previsão do tempo Saúde pública Exploração de recursos naturais Análises de Churn Detecção de fraudes Pesquisas científicas Análise de resultado de anúncios Monitoração de equipamentos Medição inteligente

  10. Big Data requer uma abordagem fim-a-fim INSIGHT Auto serviço Colaboração Aplicativos Dispositivos DATA ENRICHMENT Descobrir Combinar Refinar DATA MANAGEMENT Relacional Não-relacional Analíticos Streaming

  11. Alertas, Notificações 3. Streaming: Processamento de dados Real Time SQL Server StreamInsight Fontes Big Data (Raw, NàoEstruturados) Business Insights 4. Business Analytics: Interações com os dados SQL Server FTDW Data Marts Sensores 2. Map/Reduce:Armazenamento e processamento de dados nãoestruturados Sumarização e Carga Fast Load Dispositivos SQL Server Reporting Services Relatórios Interativos Dados e Aplicações de Computaçãointensiva Hadoop on Windows Azure Hadoop on Windows Server Equipamentos 1. Data Warehousing:Armazenamento e análise de dados estruturados Dados Históricos Integrar/Enriquecer SQL Server Analysis Server Coletores Scorecards de Desempenho Azure Market Place ETL: SSIS, DQS, MDS The Big (Data) Picture ERP CRM LOB APPS SistemasFontes SQL Server Parallel Data Warehouse

  12. Tecnologia comoditizada, desenvolvimento simplificado Reaproveitamento de aplicações existentes Atuação mais abrangente: Big Data, Cálculo de Risco, Processamento de grandes volumes de informação High Performance computing

  13. High Performance Computing (HPC) Histórico do uso científico de super computadores Fonte: Supercomputer, Wikipedia

  14. HPC e Big Data • Parte de sua rotina de ETL: processamento com cálculos complexos, em grande volume de dados • Utilização (re) de código legado, ou de aplicações já existentes para cálculo • Modelos de cálculo em Microsoft Office Excel

  15. HPC hoje Tecnologia comoditizada, desenvolvimento simplificado Reaproveitamento de aplicações existentes Atuação mais abrangente: • Big Data, Cálculo de Risco, Processamento de grandes volumes de informação

  16. Windows Server HPC • Plataforma da Microsoft para computação em alta performance • Escala para milhares de núcleos • Na versão 2012 (quarta versão do HPC para Windows), permite que um cluster utilize VMs no Windows Azure

  17. HPC: Modelos de Desenvolvimento • ParallelApplications • Embarrassingly Parallel Applications • Hybrid Applications • Data Intensive Applications

  18. Parallel Applications

  19. Embarrassingly Parallel Applications

  20. Hybrid Applications

  21. Data Intensive Applications

  22. HPC Services for Excel • Utiliza uma infraestrutura SOA para executar Jobs do Excel no cluster • Unidades independentes de cálculo (células, linhas ou colunas) que rodam de forma assíncrona e independente no cluster

  23. Gerenciamento e agendamento dos Jobs. Ponto de entrada da rede corporativa para o Cluster Monitora e gerencia sessões SOA. Recebe requisições Aceita e executa Jobs. Podem ser utilizados de forma oportunista quando tem outro papel (File/Print Server, etc) Arquitetura de um cluster hpc

  24. Topologia básica de um Cluster HPC Active Directory Clientes Compute Nodes Head, Compute & Broker Nodes Jobs Requests Tasks Jobs Jobs

  25. Papéis dos membros de um cluster

  26. Componentes do HPC Server On-Premises Windows Azure (hoje) Windows Azure (breve)

  27. Ambiente híbrido: nodes on-premises e no Azure O único papel mandatório on-premiseé o Head node Suportado a partir do Windows Server 2008 R2 SP 2 Windows server hpc + azure

  28. Windows Server HPC + Azure Ambiente híbrido: nodes on-premises e no Azure O único papel mandatório on-premiseé o Head node Suportado a partir do Windows Server 2008 R2 SP 2

  29. Windows Server HPC + Azure

  30. Criação de Conteúdo Digital Pesquisa e DesenvolvimentoSetor Público Ciências e Energia Finanças Cenários de uso

  31. Cenários Criação de Conteúdo Digital Pesquisa e Desenvolvimento Ciências e Energia Finanças Setor Público Manufatura

  32. Instalaro Microsoft HPC Pack 2012 para criar o Head node, Fazer configuração inicial no Head node, Pre-configurar os Compute nodes, Fazer Join dos Compute nodes no cluster, HPC Cluster Manager, Node & Job Management, Diagnósticos, Relatórios e Gráficos Management Pack (apenas 2008 R2), Agendamento, Monitoração da execução dos Jobs Instalação, gerenciamento e jobs

  33. Windows HPC Cluster: instalação Depois de validados os pré-requisitos: • Instalar o Microsoft HPC Pack 2012 para criar o Head node • Fazer configuração inicial no Head node • Pre-configurar os Compute nodes • Fazer Join dos Compute nodes no cluster

  34. Windows HPC Cluster: gerenciar • HPC Cluster Manager • Node & Job Management • Diagnósticos • Relatórios e Gráficos • Management Pack (apenas 2008 R2)

  35. Windows HPC Cluster: jobs • Agendamento • Cada Job pode ter várias tarefas • Escolha de compute nodes para cada Job • Monitoração da execução dos Jobs

  36. Vida real: o cenário • Cliente com necessidade de uma solução para auxílio de cálculo de VAR (valueatrisk). Um dos cálculos necessários é o RAROC • O modelo RAROC (Risk AdjustedReturnonCapital, ou Retorno Ajustado ao Risco no Capital) foi desenvolvido nos anos 70. Hoje em dia, praticamente todos os grandes bancos internacionais utilizam uma variação deste modelo. O RAROC é uma mensuração da rentabilidade baseada no risco, sendo base para análise do desempenho do ajuste de risco e provendo uma visão consistente da rentabilidade cruzada com os negócios.

  37. Vida real: a solução • Utilização de uma Plataforma de Cálculo em Alta Performance que deve utilizar código legado já em uso na empresa • A solução deverá oferecer boa escalabilidade, custo competitivo e agilidadena adoção de novos projetos

  38. Cenário da Demonstração • Utilização de uma aplicação de cálculo que recebe um arquivo de entrada, realiza cálculos de raiz quadrada e escreve o resultado em um arquivo de saída • É criado um ParametricSweepJob (cenário EmbarrassinglyParallel) • Serão passados 20 arquivos ao cluster. Cada Compute Node aloca quatro threads de cada vez, uma para cada núcleo, e cada thread processa um arquivo • Nesta demonstração, o Head node também é um compute node • Os dados processados são importados utilizando o SSIS e a análise pode ser feita no Excel por analistas de Business Intelligence

  39. Demonstração: Parametric Sweep Job 1 2 3 ... 1000000 1: 1,00 2: 1,41 3: 1,73 ... 1000000: C:\calcula.exe dados.txt dados.txt dados.out SQRT de 1: 20 vezes SQRT de 2: 20 vezes SQRT de 3: 20 vezes ... SQRT de 1000000: 20 vezes Total de 20 milhões de cálculos

  40. Demonstração: Parametric Sweep Job HPC Engine: Parametric Sweep Job O Head Node distribui a execução do job entre os núcleos dos Compute Nodes, de acordo com a disponibilidade dados_2 dados_1 1 2 3 ... 1000000 1: 1,00 2: 1,41 3: 1,73 ... 1000000: 1 2 3 ... 1000000 1: 1,00 2: 1,41 3: 1,73 ... 1000000: 1 2 3 ... 1000000 1: 1,00 2: 1,41 3: 1,73 ... 1000000: dados_3 dados_4 Compute Node 3 Compute Node 2 Compute Node 1 CPU 1 CPU 1 CPU 1 CPU 2 CPU 2 CPU 2 dados_1.txt dados_2.txt dados_3.txt ... dados_20.txt dados_1.out dados_2.out dados_3.out ... dados_20.out dados_10 dados_6 dados_9 dados_5 dados_11 dados_7 dados_12 dados_8 CPU 3 CPU 3 CPU 3 CPU 4 CPU 4 CPU 4

  41. Utilização de uma Plataforma de Cálculo em Alta Performance que deve utilizar código legado já em uso na empresa A solução deverá oferecer boa escalabilidade, custo competitivo e agilidadena adoção de novos projetos Demonstração

  42. Resumo • Big Data: oportunidade de liderar a discussão • Várias tecnologias podem ser envolvidas no processo de tratamento dos dados • HPC é uma solução barata, altamente escalável e de implementação rápida

  43. Parte de sua rotina de ETL: processamento com cálculos complexos, em grande volume de dados – Utilização (re) de código legado, ou de aplicações já existentes para cálculo – Modelos de cálculo em Microsoft Office Excel Dúvidas

  44. Obrigado

More Related