230 likes | 346 Views
AMD’s Next Generation. Die Hammer Familie. Eine Kurzpräsentation von Frank Grümmert bei Herrn Prof. Dr.-Ing. Risse für das RST-Labor. AMD‘s achte Prozessorgeneration. Rechen Performance
E N D
AMD’s Next Generation Die Hammer Familie Eine Kurzpräsentation von Frank Grümmert bei Herrn Prof. Dr.-Ing. Risse für das RST-Labor
AMD‘s achte Prozessorgeneration • Rechen Performance • Merkbare Leistungssteigerung auf aktuellen Entwicklungsstand durch Nutzung nichtexotischer Silizium Prozesse und allgemeiner Design Techniken • Software Performance • Leistungssteigerung existierender x86-32 Software – 100% Kompatibilität • Multiprocessing & High Performance Computing (HPC) • Neue Standards – ermöglicht 4P und 8P Server • Kosten-Vorteile • Geringe Kosten durch Migration vorhandener Software und der Herstellung des Prozessors auf aktuellem Stand der Technik.
ClawHammer 1-2 Prozessoren In Desktopsystemen günstig ClawHammer-DP, SlegeHammer Multiprozessor fähig 2-8 Prozessoren >8 über Switches In HPC-Systemen ( High Performance Computing ) Auf Anwendung zugeschnitten
1-2 HyperTransport Ports ( 16-8 Bit ) Level2 Cache 256K -512 K 1 DDR Chanel 4 Dimms Sockel ( 754 Pins ) 2-3 HyperTransport Ports ( 16 Bit ) Level2 Cache >1M 2 DDR Chanels 8 Dimms Sockel ( 940 Pins ) Unterschiede der Varianten
AMD Athlon™ Processor 64k L1 Instruction Cache 512k or 256K Byte L2 Cache • X86-64 Bit 1P Desktop Prozessor • ein 72-bit DDR Kanal200, 266, and 333 MHz • 4GB DDR DRAM • Zukünftige Speicher-Technologien • werden unterstützt • Ein 16-bit HT Port • On chip L1 & L2 cache • 64K-Byte L1 Inst. • 64K-Byte L1 DATA • 256/512KB ECC protected L2 • 754-pin mPGA Package x86-64 Processor Core 64k L1 Data Cache DDR Memory Controller 64 wide DRAM 72 HyperTransport™ 1600MT/s 16 Ersetzt Address, Data und Control Bus
AMD Athlon™ Processor 64k L1 Instruction Cache 512k or 256K Byte L2 Cache • X86-64 Bit 2P Desktop Prozessoren • ein 72-bit DDR Kanal200, 266, and 333 MHz • 4GB DDR DRAM • Zukünftige Speicher-Technologien • werden unterstützt • Oder zwei 8-bit HT Ports • On chip L1 & L2 cache • 64K-Byte L1 Inst. • 64K-Byte L1 DATA • 256/512KB ECC protected L2 • 754-pin mPGA Package X86-64 Processor Core 64k L1 Data Cache DDR Memory Controller 64 wide DRAM 72 HyperTransport™ 8 8 1600MT/s
72 72 AMD Opteron™ Family Processors 64k L1 Instruction Cache 512K or 1M Byte L2 Cache • 64 Bit 2P Server Prozessoren • zwei 72-bit DDR Kanäle200, 266, and 333 MHz • 8GB DDR DRAM • Zukünftige Speicher-Technologien • werden unterstützt • zwei 16-bit HT Ports • On chip L1 & L2 cache • 64K-Byte L1 Inst. • 64K-Byte L1 DATA • 512/1024KB ECC protected L2 • 940-pin mPGA Package X86-64 Processor Core 64k L1 Data Cache Dual DDR Memory Controller 64 wide DRAM HyperTransport™ 16 16 1600MT/s
64k L1 Instruction Cache 1M or 2M Byte L2 Cache X86-64Processor Core 64k L1 Data Cache Dual DDR Memory Controller 72 72 64 wide DRAM HyperTransport™ 16 16 16 1600MT/s AMD Opteron™ Family Processors • 64 Bit 8P Server Prozessoren • zwei 72-bit DDR Kanäle200, 266, and 333 MHz • 8GB DDR DRAM • Zukünftige Speicher-Technologien • werden unterstützt • drei 16-bit HT Ports • On chip L1 & L2 cache • 64K-Byte L1 Inst. • 64K-Byte L1 DATA • 1M/2MB ECC protected L2 • 940-pin mPGA Package
Core Architektur • 5 Funktionsblöcke • Prozessor-Core, L1-Daten- und Befehls-Cache, L2-Cache, DDR-Memory-Controller und HyperTransport-Interface • 9 Ausführungseinheiten für Integer- und Floating-Point-Operationen
Instr’n TLB Level 1 Instr’n Cache Level 2 Cache 2kBranchTargets 16kHistoryCounter Fetch 2 - transit Pick RAS & Target Address Decode 1 Decode 2 Decode 1 Decode 1 Pack Pack Pack L2 ECC L2 Tags Decode Decode Decode Decode 2 Decode 2 L2 Tag ECC System Request Queue (SRQ) 8-entryScheduler 8-entryScheduler 8-entryScheduler 36-entryScheduler Cross Bar (XBAR) AGU ALU AGU ALU AGU ALU FADD FMUL FMISC Memory Controller&HyperTransport™ “Northbridge” Data TLB Level 1 Data Cache ECC Core Architektur
Pipeline • 32 Stufen sehr tief ausgeführte Pipeline • Stufe 1 bis 7: Fetch-Vorgang und Befehlsdekodierung • Stufe 8 bis 12: Befehlsausführung • Stufe 13 bis 19: L2-Pipeline • Stufe 20 bis 32: DRAM - Zugriffe • Hohe Taktfrequenz >2GHz • Probleme bei zb. bei Misprediciton (branch prediction) Zeit • SOI ( silicon on isolator )
Operating Modes • 64-Bit-Modus in 64-Bit-Betriebssystem • 32-Bit-Modus (Compatibility Mode) in 64-Bit-Betriebssystem • 32-Bit-Modus (Legacy Mode) in 32-Bit-Betriebssystem
Long Mode • Über Kontroll-Bit LMA (Long Mode Active) • 0 wie x86 Prozessor • 1 im 64 Bit Modus ( siehe Vorherige Folie ) • Im 64-Bit-Mode folgende neue Features: • 64-Bit-Adressraum • Register-Erweiterung der acht GPRs auf 64 Bit durch das Präfix R • Zusätzlich acht neue GPRs R8 bis R15 • Acht neue 128-Bit-SSE-Register XMM8 bis XMM15 • 64-Bit-Befehlszeiger (RIP) • Relative Datenadressierung mit 64-Bit-Offset
x86-64 vs. x86-32 Register Unterschiede Register-Ausbau: Die x86-64-Architektur des Hammer erweitert die 32-Bit-Register der IA32-Prozessoren auf 64 Bit.
Register • x86-64 • 64-bit integer registers • 48-bit Virtual Address • 40-bit Physical Address • REX - Register Extensions • 16 64-bit integer registers • 16 128-bit SSE registers • SSE2 Instruction Set • New • Double precision scalar and vector operations • 16*8, 8*16 way vector MMX operations • SSE1 already added with AMD Athlon XP
Speicherinterface • Durch integrierte Northbridge geringe Latenz • Maximaler Speicherausbau steigt in Multiprozessorsystemen • In MPS untereinander Austausch der Inhalte durch HyperTransport Schnittstellen • Bsp Opteron • Speicherbandbreite von 5,3 GByte/s • Xfire beträgt zusätzlich 3,53 GByte/s ( HTT zum anderem Speicher ) • ~ bei 2P = Speicherbandbreite 8,83 GByte/s (lokal + XFire) • Zusammenarbeit im NUMA Verband ( non uniform memory access ) • Kaum Unterschiede zwischen Near- und Far Memory Zugriff dank geringer Latenz
HyperTransport-Interface • Vereinheitlichtes Bussystem
HyperTransport-Interface • Hohe Bandbreite bei niedriger Latenzzeit • Einheitlicher Bus und gemeinsames Protokoll für alle Verbindungen auf dem Mainboard. • Flexible Geschwindigkeiten und variable Busbreite. • Unterschiedliche Geschwindigkeit je nach Richtung. • Möglichst wenige Leitungen und preiswertes Chip-Interface. • Geringer Energieverbrauch und Stromsparmechanismen. • Unterstützung von Multiprozessor-Systemen und "System Network Architecture„ - Bussen
Prozessoren mit mehreren HyperTransport Ports • Datentransfer über den HyperTransport Bus benötigt keine CPU Zeit. • Externe Betriebsmittel können zu jeder Adresse innerhalb des 40 Bit Adressraums des Prozessors schreiben ohne jegliche CPU Intervention. • Im Fall mehrerer HyperTransport Ports können die Daten auch ohne Intervention der CPU passieren.
Zusammenfassung • 20-25% mehr Geschwindigkeit zum AMD Athlon XP (32 bit Mode) • Integration der nächsten Generation von intelligenten Cache • Integrierter DDR Controller • Integration von HyperTransport • Abwärtskompatibilität • Kostenersparniss