440 likes | 569 Views
MVP Virtual Conference 2013. Windows Server HPC e Big Data: aplicação real em finanças. Pericles Rocha Architect, Microsoft Technology Center procha@microsoft.com. Pericles Rocha. Desenvolvedor Ex consultor na HP Services Na Microsoft há 6 anos. Arquiteto, Microsoft Technology Center.
E N D
MVP Virtual Conference2013 Windows Server HPC e Big Data: aplicação real em finanças Pericles Rocha Architect, Microsoft Technology Center procha@microsoft.com
Pericles Rocha Desenvolvedor Ex consultor na HP Services Na Microsoft há 6 anos Arquiteto, Microsoft Technology Center MCSE, MCDBA, MCSD 16 anos na indústria Corintiano e Karateca
Agenda Big Data O que é Windows HPC Server? Arquitetura de um cluster HPC HPC + Windows Azure Cenários de uso Dúvidas Cenário Real e Demo Jobs Gerenciar Instalar
Até 2020, mais de 1/3 de todos os dados do mundo vão passar pela núvem Indivíduos criam 70% de todos os dados – empresas armazenam 80% “Expertise em Big Data está escarço e é caro”, dizem 38% dos pesquisados Big Data
Big Data Até 2020, mais de 1/3 de todos os dados do mundo vão passar pela núvem¹ Indivíduos criam 70% de todos os dados – empresas armazenam 80%¹ “Expertise em Big Data está escarçoe é caro”, dizem 38% dos pesquisados ¹ Big Data Just Beginningto Explode – csc.com ² Howto Bridge Big Data’s Information Gap – InformationWeek.com
Big Data... consequências 50% dos CIOs acreditam que seus custos vão aumentar 39% acreditam que terão redução de flexibilidade Fonte: IDC Whitepaper, “Big Data Analytics in Deuschland 2012”
O que é Big Data? Petabytes Big Data Click stream Wikis/blogs Sensors/RFID/devices Social sentiment Audio/video Log files Spatial & GPS coordinates Data market feeds eGov feeds Weather Text/image Terabytes Web 2.0 Advertising Mobile Collaboration eCommerce Web Logs Digital Marketing Search Marketing Recommendations Gigabytes ERP/CRM Megabytes Complexidade: Variedade e Velocidade Payables Payroll Inventory Contacts Deal Tracking Sales Pipeline
Oportunidade Esteja entre os primeiros na sua indústria Transforme grandes volumes de informações em aprendizado Lidere a discussão Entenda as opções Tire mais dos dados Economize tempo e dinheiro
Cenários comuns de Big Data Otimização da infraestrutura de TI Descobertas Análise de redes sociais Otimização do fluxo de transito Otimização de aplicações web Previsão do tempo Saúde pública Exploração de recursos naturais Análises de Churn Detecção de fraudes Pesquisas científicas Análise de resultado de anúncios Monitoração de equipamentos Medição inteligente
Big Data requer uma abordagem fim-a-fim INSIGHT Auto serviço Colaboração Aplicativos Dispositivos DATA ENRICHMENT Descobrir Combinar Refinar DATA MANAGEMENT Relacional Não-relacional Analíticos Streaming
Alertas, Notificações 3. Streaming: Processamento de dados Real Time SQL Server StreamInsight Fontes Big Data (Raw, NàoEstruturados) Business Insights 4. Business Analytics: Interações com os dados SQL Server FTDW Data Marts Sensores 2. Map/Reduce:Armazenamento e processamento de dados nãoestruturados Sumarização e Carga Fast Load Dispositivos SQL Server Reporting Services Relatórios Interativos Dados e Aplicações de Computaçãointensiva Hadoop on Windows Azure Hadoop on Windows Server Equipamentos 1. Data Warehousing:Armazenamento e análise de dados estruturados Dados Históricos Integrar/Enriquecer SQL Server Analysis Server Coletores Scorecards de Desempenho Azure Market Place ETL: SSIS, DQS, MDS The Big (Data) Picture ERP CRM LOB APPS SistemasFontes SQL Server Parallel Data Warehouse
Tecnologia comoditizada, desenvolvimento simplificado Reaproveitamento de aplicações existentes Atuação mais abrangente: Big Data, Cálculo de Risco, Processamento de grandes volumes de informação High Performance computing
High Performance Computing (HPC) Histórico do uso científico de super computadores Fonte: Supercomputer, Wikipedia
HPC e Big Data • Parte de sua rotina de ETL: processamento com cálculos complexos, em grande volume de dados • Utilização (re) de código legado, ou de aplicações já existentes para cálculo • Modelos de cálculo em Microsoft Office Excel
HPC hoje Tecnologia comoditizada, desenvolvimento simplificado Reaproveitamento de aplicações existentes Atuação mais abrangente: • Big Data, Cálculo de Risco, Processamento de grandes volumes de informação
Windows Server HPC • Plataforma da Microsoft para computação em alta performance • Escala para milhares de núcleos • Na versão 2012 (quarta versão do HPC para Windows), permite que um cluster utilize VMs no Windows Azure
HPC: Modelos de Desenvolvimento • ParallelApplications • Embarrassingly Parallel Applications • Hybrid Applications • Data Intensive Applications
HPC Services for Excel • Utiliza uma infraestrutura SOA para executar Jobs do Excel no cluster • Unidades independentes de cálculo (células, linhas ou colunas) que rodam de forma assíncrona e independente no cluster
Gerenciamento e agendamento dos Jobs. Ponto de entrada da rede corporativa para o Cluster Monitora e gerencia sessões SOA. Recebe requisições Aceita e executa Jobs. Podem ser utilizados de forma oportunista quando tem outro papel (File/Print Server, etc) Arquitetura de um cluster hpc
Topologia básica de um Cluster HPC Active Directory Clientes Compute Nodes Head, Compute & Broker Nodes Jobs Requests Tasks Jobs Jobs
Componentes do HPC Server On-Premises Windows Azure (hoje) Windows Azure (breve)
Ambiente híbrido: nodes on-premises e no Azure O único papel mandatório on-premiseé o Head node Suportado a partir do Windows Server 2008 R2 SP 2 Windows server hpc + azure
Windows Server HPC + Azure Ambiente híbrido: nodes on-premises e no Azure O único papel mandatório on-premiseé o Head node Suportado a partir do Windows Server 2008 R2 SP 2
Criação de Conteúdo Digital Pesquisa e DesenvolvimentoSetor Público Ciências e Energia Finanças Cenários de uso
Cenários Criação de Conteúdo Digital Pesquisa e Desenvolvimento Ciências e Energia Finanças Setor Público Manufatura
Instalaro Microsoft HPC Pack 2012 para criar o Head node, Fazer configuração inicial no Head node, Pre-configurar os Compute nodes, Fazer Join dos Compute nodes no cluster, HPC Cluster Manager, Node & Job Management, Diagnósticos, Relatórios e Gráficos Management Pack (apenas 2008 R2), Agendamento, Monitoração da execução dos Jobs Instalação, gerenciamento e jobs
Windows HPC Cluster: instalação Depois de validados os pré-requisitos: • Instalar o Microsoft HPC Pack 2012 para criar o Head node • Fazer configuração inicial no Head node • Pre-configurar os Compute nodes • Fazer Join dos Compute nodes no cluster
Windows HPC Cluster: gerenciar • HPC Cluster Manager • Node & Job Management • Diagnósticos • Relatórios e Gráficos • Management Pack (apenas 2008 R2)
Windows HPC Cluster: jobs • Agendamento • Cada Job pode ter várias tarefas • Escolha de compute nodes para cada Job • Monitoração da execução dos Jobs
Vida real: o cenário • Cliente com necessidade de uma solução para auxílio de cálculo de VAR (valueatrisk). Um dos cálculos necessários é o RAROC • O modelo RAROC (Risk AdjustedReturnonCapital, ou Retorno Ajustado ao Risco no Capital) foi desenvolvido nos anos 70. Hoje em dia, praticamente todos os grandes bancos internacionais utilizam uma variação deste modelo. O RAROC é uma mensuração da rentabilidade baseada no risco, sendo base para análise do desempenho do ajuste de risco e provendo uma visão consistente da rentabilidade cruzada com os negócios.
Vida real: a solução • Utilização de uma Plataforma de Cálculo em Alta Performance que deve utilizar código legado já em uso na empresa • A solução deverá oferecer boa escalabilidade, custo competitivo e agilidadena adoção de novos projetos
Cenário da Demonstração • Utilização de uma aplicação de cálculo que recebe um arquivo de entrada, realiza cálculos de raiz quadrada e escreve o resultado em um arquivo de saída • É criado um ParametricSweepJob (cenário EmbarrassinglyParallel) • Serão passados 20 arquivos ao cluster. Cada Compute Node aloca quatro threads de cada vez, uma para cada núcleo, e cada thread processa um arquivo • Nesta demonstração, o Head node também é um compute node • Os dados processados são importados utilizando o SSIS e a análise pode ser feita no Excel por analistas de Business Intelligence
Demonstração: Parametric Sweep Job 1 2 3 ... 1000000 1: 1,00 2: 1,41 3: 1,73 ... 1000000: C:\calcula.exe dados.txt dados.txt dados.out SQRT de 1: 20 vezes SQRT de 2: 20 vezes SQRT de 3: 20 vezes ... SQRT de 1000000: 20 vezes Total de 20 milhões de cálculos
Demonstração: Parametric Sweep Job HPC Engine: Parametric Sweep Job O Head Node distribui a execução do job entre os núcleos dos Compute Nodes, de acordo com a disponibilidade dados_2 dados_1 1 2 3 ... 1000000 1: 1,00 2: 1,41 3: 1,73 ... 1000000: 1 2 3 ... 1000000 1: 1,00 2: 1,41 3: 1,73 ... 1000000: 1 2 3 ... 1000000 1: 1,00 2: 1,41 3: 1,73 ... 1000000: dados_3 dados_4 Compute Node 3 Compute Node 2 Compute Node 1 CPU 1 CPU 1 CPU 1 CPU 2 CPU 2 CPU 2 dados_1.txt dados_2.txt dados_3.txt ... dados_20.txt dados_1.out dados_2.out dados_3.out ... dados_20.out dados_10 dados_6 dados_9 dados_5 dados_11 dados_7 dados_12 dados_8 CPU 3 CPU 3 CPU 3 CPU 4 CPU 4 CPU 4
Utilização de uma Plataforma de Cálculo em Alta Performance que deve utilizar código legado já em uso na empresa A solução deverá oferecer boa escalabilidade, custo competitivo e agilidadena adoção de novos projetos Demonstração
Resumo • Big Data: oportunidade de liderar a discussão • Várias tecnologias podem ser envolvidas no processo de tratamento dos dados • HPC é uma solução barata, altamente escalável e de implementação rápida
Parte de sua rotina de ETL: processamento com cálculos complexos, em grande volume de dados – Utilização (re) de código legado, ou de aplicações já existentes para cálculo – Modelos de cálculo em Microsoft Office Excel Dúvidas