240 likes | 354 Views
Die SX-Series: Eine Erfolgsstory mit Fortsetzung. Was bisher geschah:. Ende 1994 wird die SX-4 als erste CMOS Implementierung eines PVP Supercomputers angekündigt Alle Welt glaubte, daß die Zukunft Architekturen mit Standardkomponenten gehören wird. Heute:.
E N D
Was bisher geschah: • Ende 1994 wird die SX-4 als erste CMOS Implementierung eines PVP Supercomputers angekündigt • Alle Welt glaubte, daß die Zukunft Architekturen mit Standardkomponenten gehören wird
Heute: • Die SX-4 ist mit ca. 120 Installationen mit mehr als 900 CPUs die erfolgreichste Maschine ihrer Art • PVP ist wieder auf Erfolgskurs • höchste Effizienz in Anwendungen • zukunftsträchtige Technologiebasis • ausgewogenes, weil maßgeschneidertes Konzept
Effizienz & Leistung • Die SX-4 demonstriert in Anwendungen bis zu 80 % und mehr Leistung im Parallelbetrieb • Grundlagen • ausgewogene Architektur • konsequente Implementierung
Memory Performance STREAM Memory Bandwidth --- John D. McCalpin, mccalpin@cs.virginia.edu Revised to Sat Jun 14 09:17:22 PDT 1997 All results are in MB/s --- 1 MB=10^6 B, *not* 2^20 B ------------------------------------------------------------------ Machine ID ncpus COPY SCALE ADD TRIAD ------------------------------------------------------------------ NEC_SX_4 32 434784.0 432886.0 437358.0 436954.0 NEC_SX_4 16 247440.0 247343.0 250262.0 250231.0 NEC_SX_4 8 126084.0 126084.0 126725.0 126724.0 NEC_SX_4 4 63537.0 63536.0 63694.0 63692.0 NEC_SX_4 2 31887.0 31886.0 31925.0 31925.0 NEC_SX_4 1 15983.0 15984.0 15989.0 15898.0 Cray_T932_321024-3E 32 310721.0 302182.0 359841.0 359270.0 Cray_T932_321024-3E 16 160263.0 154880.0 193335.0 194562.0 Cray_T932_321024-3E 1 10653.0 10221.0 13014.0 13682.0 Cray_J932 32 19007.0 18944.1 19993.9 18870.4 Cray_J932 16 16298.2 15851.5 15657.6 14995.9 Cray_J932 1 1433.6 1408.6 1260.8 1270.0 SGI_Origin_2000_2 2 351.0 365.0 392.0 413.0
Die Skalierungsperspektive • Mit der SX-4 ist der leistungsfähigste Clusteransatz verwirklicht • 5 Standorte weltweit nutzen erfolgreich MultiNode Systeme mit bis zu 128 Vektor-CPUs • Teraflopscomputing auf Vektorbasis ist reale Option
Und in Zukunft... • „Vector Supercomputing has always offered the ultimate in processor performance“SGI Website, 16. Juni 1998 • aber auch:„A Supercomputer is a high performance memory with a fast CPU attached“sinngemäß S. Cray
Leistungscharakteristik von Vektor und Skalarprozessoren Vector Processing Cache Size Limitation Applications Scalar Processing Applications Data Size Warum eigentlich Vektor? Performance
Welcomes You to the Future of High Performance Supercomputing
Das Produkt • Die logische Fortführung der SX-4 Series • Setzt Renaissance des PVP Markets fort • Anwender wählen PVP, weil sie JETZT funktionieren • SX Systeme machen PVP Technologie erschwinglich • Bietet eine brauchbare, flexible Architektur • Single Node Shared Memory Modell • Multi Node Distributed Memory Modell
Spezifikationen • Single Node • Bis zu 128 GFLOPSaus 16 x 8 GFLOPS Prozessoren • Bis zu 128 GBytes Shared Main Memory • Multi Node • Bis zu 4 TFLOPS • Bis zu 32 Nodes über SX-5 IXS • Bis zu 512 Processors • Bis zu 4 Tbyte Hauptspeicher
CMOS VLSI Technologie • 0.25 Micron mit 5 Layern • Commodity, High Yield Geometry • Wirtschaftliche Herstellung • 64 Mbit SDRAM Memory Chips • kostengünstige High-end Standardkomponenten • Leistungsfähigkeit durch sehr hohe Bankzahl
Packaging Technologies • Chip Size Package • 25 mm sq • 1600+ Pinouts • 0.5 mm grid • Multi Chip Package • 225 mm sq • 11,000+ Pinouts • 32 Layers
Single Node Processor MAX 16 CPUs 16 units MASK MASK LOGICAL MULT LOAD & STORE VR ADD/SHIFT DIVIDE MAIN STORAGE SCALAR CACHE SR EXECUTION UNIT XMU IOP
Vector Einheit: Architektur • Multiple parallele Vektor Pipelines • 64 SX-4 kompatible Pipelines • Add-Shift x 16 • Multiply x 16 • Logical x 16 • Divide x 16 • Jede Instruktion nutzt 16 Pipelines • Automatische Hardware Parallelität • Piplines arbeiten unabhängig voneinander
Pro Processor • 8 GFLOPS Peak Vector • 500 MFLOPS Peak Scalar • Mehr als 2 X SX-4 Series skalaren Durchsatz • Weniger Konflikte der Skalareinheit • Extra Load Path • Double Issue Rate • 64 GB / sec Speicherbandbreite
Memory Architecture • Voller Non-blocking Crossbar • Single Node • 128 GB Kapazität • 1 TB/s Bandbreite • 1 CPU auf 2 MMU Einheiten • Jede MMU Einheit hat 4 GB,1K Banks, 32 Gbytes/sec • 64 Gbytes/second verfügbar für jede CPU • Die höchste im Markt verfügbare Speicherleistung !
Streams Benchmark TRIAD (SX-5 Werte extrapoliert)
SDRAM technology 32,768 64-bit banks 32 4-GB cards 32 GB/s per card The Single Node IOP IOP 3.15 GB/s x 4 IOPs 16 x 8 GF Vector Processors 1 CPU : 2 MMU (64 GB/s)
Multi Node Spezifikationen • Maximal 512 Prozessoren • 16 Prozessoren per Node Maximum • 32 Node Maximum • Maximal 4 TB Hauptspeicher • IXS Internode Crossbar • 256 GB/s Gesamzbandbreite • 8 GB/s Bandbreite Node zu Node
CPU CPU CPU CPU CPU CPU CPU CPU CPU IOP IOP IOP IOP IOP IOP IOP IOP IOP IOP IOP IOP MM MM MM IOP IOP IOP •••• •••• •••• The Multi Node IXS Internode Crossbar Max.16 CPU .... .... .... ....... éÂãLâØ éÂãLâØ éÂãLâØ MM MM MM •••• •••• Node #2 Node #1 Node #32 8 GB/s x 2
Japanische Konzepte haben Zukunft * *Aber Effizienz ist ein Muß!