1 / 23

AMD’s Next Generation

AMD’s Next Generation. Die Hammer Familie. Eine Kurzpräsentation von Frank Grümmert bei Herrn Prof. Dr.-Ing. Risse für das RST-Labor. AMD‘s achte Prozessorgeneration. Rechen Performance

lotte
Download Presentation

AMD’s Next Generation

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. AMD’s Next Generation Die Hammer Familie Eine Kurzpräsentation von Frank Grümmert bei Herrn Prof. Dr.-Ing. Risse für das RST-Labor

  2. AMD‘s achte Prozessorgeneration • Rechen Performance • Merkbare Leistungssteigerung auf aktuellen Entwicklungsstand durch Nutzung nichtexotischer Silizium Prozesse und allgemeiner Design Techniken • Software Performance • Leistungssteigerung existierender x86-32 Software – 100% Kompatibilität • Multiprocessing & High Performance Computing (HPC) • Neue Standards – ermöglicht 4P und 8P Server • Kosten-Vorteile • Geringe Kosten durch Migration vorhandener Software und der Herstellung des Prozessors auf aktuellem Stand der Technik.

  3. ClawHammer 1-2 Prozessoren In Desktopsystemen günstig ClawHammer-DP, SlegeHammer Multiprozessor fähig 2-8 Prozessoren >8 über Switches In HPC-Systemen ( High Performance Computing ) Auf Anwendung zugeschnitten

  4. 1-2 HyperTransport Ports ( 16-8 Bit ) Level2 Cache 256K -512 K 1 DDR Chanel 4 Dimms Sockel ( 754 Pins ) 2-3 HyperTransport Ports ( 16 Bit ) Level2 Cache >1M 2 DDR Chanels 8 Dimms Sockel ( 940 Pins ) Unterschiede der Varianten

  5. AMD Athlon™ Processor 64k L1 Instruction Cache 512k or 256K Byte L2 Cache • X86-64 Bit 1P Desktop Prozessor • ein 72-bit DDR Kanal200, 266, and 333 MHz •  4GB DDR DRAM • Zukünftige Speicher-Technologien • werden unterstützt • Ein 16-bit HT Port • On chip L1 & L2 cache • 64K-Byte L1 Inst. • 64K-Byte L1 DATA • 256/512KB ECC protected L2 • 754-pin mPGA Package x86-64 Processor Core 64k L1 Data Cache DDR Memory Controller 64 wide DRAM 72 HyperTransport™ 1600MT/s 16 Ersetzt Address, Data und Control Bus

  6. AMD Athlon™ Processor 64k L1 Instruction Cache 512k or 256K Byte L2 Cache • X86-64 Bit 2P Desktop Prozessoren • ein 72-bit DDR Kanal200, 266, and 333 MHz •  4GB DDR DRAM • Zukünftige Speicher-Technologien • werden unterstützt • Oder zwei 8-bit HT Ports • On chip L1 & L2 cache • 64K-Byte L1 Inst. • 64K-Byte L1 DATA • 256/512KB ECC protected L2 • 754-pin mPGA Package X86-64 Processor Core 64k L1 Data Cache DDR Memory Controller 64 wide DRAM 72 HyperTransport™ 8 8 1600MT/s

  7. 72 72 AMD Opteron™ Family Processors 64k L1 Instruction Cache 512K or 1M Byte L2 Cache • 64 Bit 2P Server Prozessoren • zwei 72-bit DDR Kanäle200, 266, and 333 MHz •  8GB DDR DRAM • Zukünftige Speicher-Technologien • werden unterstützt • zwei 16-bit HT Ports • On chip L1 & L2 cache • 64K-Byte L1 Inst. • 64K-Byte L1 DATA • 512/1024KB ECC protected L2 • 940-pin mPGA Package X86-64 Processor Core 64k L1 Data Cache Dual DDR Memory Controller 64 wide DRAM HyperTransport™ 16 16 1600MT/s

  8. 64k L1 Instruction Cache 1M or 2M Byte L2 Cache X86-64Processor Core 64k L1 Data Cache Dual DDR Memory Controller 72 72 64 wide DRAM HyperTransport™ 16 16 16 1600MT/s AMD Opteron™ Family Processors • 64 Bit 8P Server Prozessoren • zwei 72-bit DDR Kanäle200, 266, and 333 MHz •  8GB DDR DRAM • Zukünftige Speicher-Technologien • werden unterstützt • drei 16-bit HT Ports • On chip L1 & L2 cache • 64K-Byte L1 Inst. • 64K-Byte L1 DATA • 1M/2MB ECC protected L2 • 940-pin mPGA Package

  9. Core Architektur • 5 Funktionsblöcke • Prozessor-Core, L1-Daten- und Befehls-Cache, L2-Cache,  DDR-Memory-Controller und HyperTransport-Interface • 9 Ausführungseinheiten für Integer- und Floating-Point-Operationen

  10. Core Architektur

  11. Instr’n TLB Level 1 Instr’n Cache Level 2 Cache 2kBranchTargets 16kHistoryCounter Fetch 2 - transit Pick RAS & Target Address Decode 1 Decode 2 Decode 1 Decode 1 Pack Pack Pack L2 ECC L2 Tags Decode Decode Decode Decode 2 Decode 2 L2 Tag ECC System Request Queue (SRQ) 8-entryScheduler 8-entryScheduler 8-entryScheduler 36-entryScheduler Cross Bar (XBAR) AGU ALU AGU ALU AGU ALU FADD FMUL FMISC Memory Controller&HyperTransport™ “Northbridge” Data TLB Level 1 Data Cache ECC Core Architektur

  12. Pipeline • 32 Stufen sehr tief ausgeführte Pipeline • Stufe 1 bis 7: Fetch-Vorgang und Befehlsdekodierung • Stufe 8 bis 12: Befehlsausführung • Stufe 13 bis 19: L2-Pipeline • Stufe 20 bis 32: DRAM - Zugriffe • Hohe Taktfrequenz >2GHz • Probleme bei zb. bei Misprediciton (branch prediction)  Zeit • SOI ( silicon on isolator )

  13. Operating Modes • 64-Bit-Modus in 64-Bit-Betriebssystem • 32-Bit-Modus (Compatibility Mode) in 64-Bit-Betriebssystem • 32-Bit-Modus (Legacy Mode) in 32-Bit-Betriebssystem

  14. Operating Modes

  15. Long Mode • Über Kontroll-Bit LMA (Long Mode Active) • 0 wie x86 Prozessor • 1 im 64 Bit Modus ( siehe Vorherige Folie ) • Im 64-Bit-Mode folgende neue Features: • 64-Bit-Adressraum • Register-Erweiterung der acht GPRs auf 64 Bit durch das Präfix R • Zusätzlich acht neue GPRs R8 bis R15 • Acht neue 128-Bit-SSE-Register XMM8 bis XMM15 • 64-Bit-Befehlszeiger (RIP) • Relative Datenadressierung mit 64-Bit-Offset

  16. x86-64 vs. x86-32 Register Unterschiede Register-Ausbau: Die x86-64-Architektur des Hammer erweitert die 32-Bit-Register der IA32-Prozessoren auf 64 Bit.

  17. Register • x86-64 • 64-bit integer registers • 48-bit Virtual Address • 40-bit Physical Address • REX - Register Extensions • 16 64-bit integer registers • 16 128-bit SSE registers • SSE2 Instruction Set • New • Double precision scalar and vector operations • 16*8, 8*16 way vector MMX operations • SSE1 already added with AMD Athlon XP

  18. Speicherinterface • Durch integrierte Northbridge geringe Latenz • Maximaler Speicherausbau steigt in Multiprozessorsystemen • In MPS untereinander Austausch der Inhalte durch HyperTransport Schnittstellen • Bsp Opteron • Speicherbandbreite von 5,3 GByte/s • Xfire beträgt zusätzlich 3,53 GByte/s ( HTT zum anderem Speicher ) • ~ bei 2P = Speicherbandbreite 8,83 GByte/s (lokal + XFire) • Zusammenarbeit im NUMA Verband ( non uniform memory access ) • Kaum Unterschiede zwischen Near- und Far Memory Zugriff dank geringer Latenz

  19. HyperTransport-Interface • Vereinheitlichtes Bussystem

  20. HyperTransport-Interface • Hohe Bandbreite bei niedriger Latenzzeit • Einheitlicher Bus und gemeinsames Protokoll für alle Verbindungen auf dem Mainboard. • Flexible Geschwindigkeiten und variable Busbreite. • Unterschiedliche Geschwindigkeit je nach Richtung. • Möglichst wenige Leitungen und preiswertes Chip-Interface. • Geringer Energieverbrauch und Stromsparmechanismen. • Unterstützung von Multiprozessor-Systemen und "System Network Architecture„ - Bussen

  21. Prozessoren mit mehreren HyperTransport Ports • Datentransfer über den HyperTransport Bus benötigt keine CPU Zeit. • Externe Betriebsmittel können zu jeder Adresse innerhalb des 40 Bit Adressraums des Prozessors schreiben ohne jegliche CPU Intervention. • Im Fall mehrerer HyperTransport Ports können die Daten auch ohne Intervention der CPU passieren.

  22. Zusammenfassung • 20-25% mehr Geschwindigkeit zum AMD Athlon XP (32 bit Mode) • Integration der nächsten Generation von intelligenten Cache • Integrierter DDR Controller • Integration von HyperTransport • Abwärtskompatibilität • Kostenersparniss

More Related