180 likes | 283 Views
[39 a lista do TOP500]. [Leonardo Garcia Tampelini]. Instituto de Computação MO601 – Mario Côrtes UNICAMP – Nov/2012. Introdução. Em 1986 Hans Meuer começa a publicar a contagem do número de supercomputadores
E N D
[39alista do TOP500] [Leonardo Garcia Tampelini] Instituto de Computação MO601 – Mario Côrtes UNICAMP – Nov/2012
Introdução Em 1986 Hans Meuer começa a publicar a contagem do número de supercomputadores Em 1979, com o objetivo de avaliar o desempenho de grandes computadores, Jack Dongarra formula o Linpack benchmark. Em 1993, com a junção das ideias a primeira lista do Top500 é lançada. Desde então, está lista é atualizada 2 vezes ao ano (Junho e Novembro).
Linpack Benchmark • Programa que resolve um enorme sistema linear. • Altamente Paralelizável • Intensivo em relação ao uso de CPU • Vantagens • Um único número: Rmax • Simples para definir e utilizar para classificar • Permite definir o tamanho diferentes tamanho de problemas • Desvantagens • Ênfase somente no pico máximo de utilização da CPU • Não exige muita comunicação • Ignora lei de Amdhal ( aumentar o problema conforme mais CPUs são usadas)
Outras medidas Rmax = desempenho para o maior problema executado em uma máquina (em Gflop/s); Nmax = tamanho do maior problema executado em uma máquina; N1/2 = tamanho quando metade de Rmax é executado; Rpeak = pico de performance teórico para a máquina (em Gflop/s) #Proc = Número de processadores utilizados Power = Consumo de energia em Watts (Green500)
Arquiteturas • PVP - Parallel Vector Processor • SMP - Symmetric Multiprocessor • MPP - Massively Parallel Processors • NOW - Network of Workstations • COW - Cluster of Workstations • Cluster (mais nós que processaor por nó) • Constellation (mais processador por nó que nós)
Modelo de programação • MPI • Muitos Cores (threads) • OpenMP • Muitos Nós • Hibrido • MPI e OpenMP
Os mais rápidos - Top 5 Referente a 39a Lista dos Top500 Junho 2012.
Projeto IBM – BlueGene/Q • Processador: • PowerPC A2 Power (64-bits) 1.8Ghz 18 núcleos • 16 cores para processamento • 1 core para SO • 1 core redundante (reserva) • # 100 mil • Rede: • 5D Torus de 2Gb/s • Memória: • 1,6 Petabytes de memória RAM • Energia: • 7.890 MW • 2 GFlops/W
Projeto IBM – BlueGene/Q Estrutura Modular – altamente escalável
Fujitsu – K Computer • Processador: • SPARC64 VIIIfx de 8 núcleos – 2Ghz - L1 de 6M/12-way • # 705.024 • Rede: Tofu • 6D mesh/torus • Capacidade 80 mil nós • Passagem de Mensagens • Memória: • 1,11 Petabytes de memória RAM • Energia: • 12659,89 MW - 150% mais que o BlueGene/Q - Sequoia • Obs.: 55% mais lento que o BlueGene/Q - Sequoia
A 40o Lista Top 500 (12/11/2012) • Novo primeiro lugar Titan da Cray (Antigo Jaguar). • Desempenho: 17.59 PetaFlop/s • Processador • 560.640 processadores AMD Opteron 6274 16C de 2.200GHz • 261.632 processadores gráficos NVIDIA K20x As mudanças transformaram o antigo Jaguar em uma maquina 10x mais rápida e 5x mais eficiente, saindo da 6a posição para a 1ª Geralmente GPU não é efeiciente energeticamente , mas o TITAM manteve o consumo em 8209 Watts, apenas 4% a mais que o Sequoia.
Highlights da 40ª Lista Um total de 62 sistemas estão utilizando Aceleradores gráficos como co-processador. (Tendência?) Sistemas que utilizam multicores (84,6%) continuam dominando a lista. Desses, 46,2% do total utilizam processadores com 6 ou mais núcleos. A Intel continua fornecendo a maioria dos processadores (76%), seguida pela AMD (12%) e pela IBM (10,6%). InfiniBand é a tecnologia que fornece a interconexão de 226 sistemas, acima dos 209 sistemas, tornando-o mais usado tecnologia de interconexão interna do sistema. Gigabit Ethernet são encontrados em 188 sistemas. Os Estados Unidos continua na liderança com 251 dos 500 sistemas. A participação europeia (105 sistemas) ainda é menor do que a quota da Ásia (123 sistemas). O número de sistemas instalados na China já estabilizou em 72, em comparação com 68 e 74 nas duas últimas listas, mantendo a segunda posição.
Considerações Finais • Técnicas de Programação flexíveis são essenciais • Dificuldade em programar para GPUs • Dados se mantém relativamente estáveis • Possível fazer boas previsões • Limite da escalabilidade • Gargalo nas redes de comunicação