1.05k likes | 1.16k Views
Σ υστήματα Παράλληλης Επεξεργασ ί ας, 9ο εξάμηνο ΣΗΜΜΥ α κ. έτο ς : 2003-2004 Ν εκτάρ ι ος Κοζύρης nkoziris@cslab.ece.ntua.gr http://www.cslab.ece.ntua.gr/courses/pps/. Εισαγωγή. Τ ι σημαίνει Παράλληλη Αρχιτεκτονική ; Π ου χρησιμο π οιο ύ με Π αράλληλε ς Αρχιτε κ τονικέ ς ;
E N D
Συστήματα Παράλληλης Επεξεργασίας, 9ο εξάμηνο ΣΗΜΜΥακ. έτος: 2003-2004Νεκτάριος Κοζύρης nkoziris@cslab.ece.ntua.grhttp://www.cslab.ece.ntua.gr/courses/pps/
Εισαγωγή • Τι σημαίνει Παράλληλη Αρχιτεκτονική ; • Που χρησιμοποιούμε Παράλληλες Αρχιτεκτονικές; • Εξέλιξη και σύγκλιση Παράλληλων Αρχιτεκτονικών • Βασικά Θέματα Σχεδιασμού
Τι σημαίνει Παράλληλη Αρχιτεκτονική; • Παράλληλη Αρχιτεκτονική είναι ένα σύνολο μονάδων επεξεργασίας που επικοινωνούν μεταξύ τους και συνεργάζονται για τη γρήγορη επίλυση ενός μεγάλου προβλήματος
Τι σημαίνει Παράλληλη Αρχιτεκτονική; • Μερικά ερωτήματα που προκύπτουν: • Κατανομή πόρων: • Πόσοι υπολογιστές αποτελούν την παράλληλη αρχιτεκτονική; • Πόσο ισχυρά είναι τα επιμέρους στοιχεία; • Πόση μνήμη έχουν; • Πρόσβαση στα δεδομένα, Επικοινωνία και Συγχρονισμός • Πώς επικοινωνούν και συνεργάζονται τα επιμέρους στοιχεία; • Πώς μεταδίδονται τα δεδομένα μεταξύ των υπολογιστών; • Ποιες αφηρημένες δομές και πρωτόκολλα πρέπει να υπάρχουν για την επικοινωνία; • Απόδοση και Επεκτασιμότητα • Πώς μεταφράζονται όλα τα παραπάνω σε «απόδοση» • Πόσο επεκτάσιμη είναι η αρχιτεκτονική;
Γιατί μελετάμε τις Παράλληλες Αρχιτεκτονικές; • Ο ρόλος του σχεδιαστή υπολογιστών είναι: • Να σχεδιάζει και να βελτιστοποιεί όλα τα επίπεδα ενός συστήματος υπολογιστών, ώστε να μεγιστοποιήσει την απόδοσηκαι την ευκολία προγραμματισμού με συγκεκριμένο κόστος και τεχνολογία. • Η παραλληλία: • Παρέχει εναλλακτικές λύσεις αντί του γρηγορότερου ρολογιού για μεγαλύτερη απόδοση • Εφαρμόζεται σε όλα τα επίπεδα σχεδιασμού συστημάτων • Παρέχει μια διαφορετική οπτική γωνία για την αρχιτεκτονική υπολογιστών • Είναιόλο και πιο αναγκαία για την επεξεργασία πληροφοριών
Η παράλληλη επεξεργασία είναι αναπόφευκτη • Απαιτητικές εφαρμογές: Έχουμε ακόρεστη ανάγκη για κύκλους επεξεργασίας • Επιστημονικές εφαρμογές: Μοριακή Βιολογία, Χημεία, Φυσική, ... • Άλλοι υπολογισμοί: Video, Γραφικά, CAD, Βάσεις Δεδομένων, ... • Τάσεις της τεχνολογίας: • Ο αριθμός των transistors σε ένα chip μεγαλώνει ταχύτατα • Η ταχύτητα του ρολογιού αυξάνει πιο αργά • Τάσεις της αρχιτεκτονικής υπολογιστών: • Η Παραλληλία σε επίπεδο εντολής (Instruction-level parallelism)είναι πολύτιμη, αλλά περιορισμένη • Η παραλληλία υψηλότερου επιπέδου, όπως στους παράλληλους επεξεργαστές, είναι η πιο βιώσιμη προσέγγιση
Η παράλληλη επεξεργασία είναι αναπόφευκτη • Σημερινές τάσεις: • Οι σημερινοί μικροεπεξεργαστές υποστηρίζουν την πολυεπεξεργασία (bit, instruction, thread level) • Οι εξυπηρετητές και οι σταθμοί εργασίας αποκτούν πολλούς επεξεργαστές • Οι αυριανοί μικροεπεξεργαστές θα είναι πολυ-επεξεργαστές (multiple CPU cores in a single chip) π.χΙΒΜ (π.χ.dual core Power4), Intel (dual core Itanium2-έρχεται, Sun, SGI, HP (ex DEC, COMPAQ)!...
New Applications More Performance Τάσεις των Εφαρμογών • Η ανάγκη για κύκλους επεξεργασίας τροφοδοτεί την πρόοδο του hardware, και ανάποδα • Οι κύκλοι επεξεργασίας οδηγούν σε εκθετική αύξηση της επίδοσης των μικροεπεξεργαστών • Οι πιο απαιτητικές εφαρμογές καθορίζουν τις παράλληλες αρχιτεκτονικές όλο και πιο πολύπλοκες παράλληλες αρχιτεκτονικές
Τάσεις των Εφαρμογών • Κλίμακα απαιτήσεων για απόδοση • Χρειάζεται κλιμακωτή αύξηση της απόδοσης με προοδευτική αύξηση του κόστους • Σχήμα Πυραμίδας: Πολλοί χρειάζονται χαμηλή απόδοση, λίγοι χρειάζονται ισχυρά μηχανήματα
Performance (p processors) Performance (1 processor) Time (1 processor) Time (p processors) Μέτρηση Απόδοσης • Στόχος της παράλληλης επεξεργασίας είναι η «Eπιτάχυνση (Speedup)» • Speedup (p processors) = • Για ένα πρόβλημα συγκεκριμένου μεγέθους (σύνολο δεδομένων εισόδου) : performance = 1/time • Speedup fixed problem (p processors) =
Then … • ENIAC (1943-1946) by Mauchly and Eckert • Dimension: 3 ft 8 ft 100 ft • 15,000 vacuum tubes + lots of switches • Memory : Twenty 10-digit decimal numbers • Speed: 800 operations/sec • 10 years of service – more calculations than done by the entire human race up to 1946.
“I think there is a world market for maybe • five computers.” • Thomas Watson, Chairman of IBM, 1943
Now … • “Earth Simulator” (2002) by NEC • Earth Simulator Center • 5120 Processors (640 Gflops at peak) • Memory: >20 TB ( 60 trillion bytes) • Speed: 40 trillion operations/sec • Cost: ??
Ανάγκες Επιστημονικών Υπολογισμών
Ανάγκες Εφαρμογών για Μηχανικούς • Τα μεγάλα παράλληλα συστήματα είναι γεγονός σε πολλούς βιομηχανικούς τομείς: • Ορυκτού Πλούτου-Πετρελαίου (Ανάλυση Αποθεμάτων) • Αυτοκινητοβιομηχανία (προσομοίωση συγκρούσεων, ανάλυση επιταχύνσεων, αποδοτικότητα καύσεων), • Αεροναυτική (ανάλυση ροής αέρα, απόδοση μηχανών, δομική μηχανική, ηλεκτρομαγνητισμός), • Σχεδίαση σε υπολογιστή • Φαρμακευτική (Μοντελοποίηση μορίων) • Οπτική αναπαράσταση • Σε όλα τα παραπάνω • ψυχαγωγία (ταινίες όπως το «Toy Story» Pixar co. SUN ) • Αρχιτεκτονική (3D visualisation, photorealism)
Εφαρμογές: Επεξεργασία λόγου και εικόνας 10 GIPS 5,000 Words Continuous Speech 1,000 Words Recognition 1 GIPS Continuous Speech HDTV Receiver Telephone Recognition Number CIF Video 100 MIPS Recognition ISDN-CD Stereo Receiver 200 Words Isolated Speech CELP Recognition 10 MIPS Speech Coding Speaker Verification 1 MIPS Sub-Band Speech Coding 1980 1985 1990 1995 • Επίσης: CAD, Βάσεις δεδομένων, . . . • 100 επεξεργαστές σου δίνουν 10 years, 1000 σου δίνουν 20 !
New Applications Data mining? Intelligent Systems? Fast Search?
BackgroundMoore’s Law and More Computing Power (tflops) MICROPROCESSORS 2x increase in performance every 18-24 months (“Moore’s Law”) PARALLELISM More processors per SMP More SMPs INNOVATIVE DESIGNS Specialized Computers Cellular Architectures Processors-in-Memory HTMT 1,000 100 ASCI Curve 10 1 Moore’s Law 0.1 1996 1998 2000 2002 2004
Trends in Microprocessor Transistors 100,000,000 10,000,000 R10000 Pentium 1,000,000 Transistors i80386 i80286 R3000 100,000 R2000 i8086 10,000 i8080 i4004 1,000 1970 1975 1980 1985 1990 1995 2000 2005 Year
Ρυθμός Ανάπτυξης Συχνότητας Ρολογιού • 30% το χρόνο
Ρυθμός Ανάπτυξης Αριθμού Transistors • Ο αριθμός των transistor αναπτύσσεται πολύ πιο γρήγορα από την ταχύτητα του ρολογιού • 40% το χρόνο, μία τάξη μεγέθους μεγαλύτερη αύξηση σε 2 δεκαετίες
Processor-Memory Gap processor 60%/yr 1000 CPU “Moore’s Law” 100 processor-memory performance gap:(grows 50% / yr) Speed (MHz) 10 memory 7%/yr DRAM 1 2000 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 Time
Ομοίως και για το χώρο αποθήκευσης • Απόκλιση μεταξύ χωρητικότητας μνήμης και ταχύτητας • Η χωρητικότητα αυξήθηκε 1000 φορές από 1980 έως 1995, η ταχύτητα μόνο 2 φορές • Οι μεγαλύτερες μνήμες είναι πιο αργές, ενώ οι επεξεργαστές γίνονται πιο γρήγοροι • Ανάγκη μεταφοράς περισσότερων δεδομένων παράλληλα • Ανάγκη για βαθύτερες ιεραρχίες μνήμης • Η παραλληλία αυξάνει το ενεργό μέγεθος κάθε επιπέδου ιεραρχίας της μνήμης, χωρίς να αυξηθεί ο χρόνος πρόσβασης
Trends in Parallel Computing Performance ASCI white ASCI red 1000 Paragon XP/S MP (6768) Cray T3D Paragon XP/S CM-5 MP(1024) 100 T932 Paragon XP/S CM-200 Delta CM2 C90 GFLOPS 10 MPP Cray VPP nCUBE/2 iPSC/860 Ymp/832 1 Xmp 0.1 2000 1985 1987 1989 1991 1993 1995
Τάσεις της Τεχνολογίας 100 Supercomputers 10 Mainframes Performance Microprocessors Minicomputers 1 0.1 1965 1970 1975 1980 1985 1990 1995 Το φυσικό δομικό συστατικό των πολυεπεξεργαστών είναι τώρα το πιο γρήγορο !
Τάσεις της Τεχνολογίας • Ηαπόδοση των μικροεπεξεργαστών αυξάνει κατά 50% - 100% το χρόνο • Οαριθμός των transistorδιπλασιάζεται κάθε 3 χρόνια • Το μέγεθος της DRAM τετραπλασιάζεται κάθε 3 χρόνια
Τάσεις της Τεχνολογίας Integer FP 180 160 140 DEC 120 alpha 100 IBM HP 9000 80 RS6000 750 60 540 MIPS MIPS 40 M2000 Sun 4 M/120 20 260 0 1987 1988 1989 1990 1991 1992
Τάσεις στην Αρχιτεκτονική Υπολογιστών • Η αρχιτεκτονική πρέπει να μετατρέψει την πρόοδο της τεχνολογίας σε απόδοση • Βρίσκει τη χρυσή τομή μεταξύ παραλληλίας και τοπικότητας • Η χρυσή τομή αλλάζει με την πρόοδο της τεχνολογίας • Η κατανόηση της αρχιτεκτονικής μικροεπεξεργαστών: • Βοηθά στην ανάπτυξη διαίσθησης σε θέματα σχεδίασης παράλληλων συστημάτων • Αναδεικνύει το βασικό ρόλο της παραλληλίας ακόμη και στους σειριακούς υπολογιστές
Τάσεις στην Αρχιτεκτονική Υπολογιστών • Έως το 1985: Παραλληλία σε επίπεδο bit: 4-bit -> 8 bit -> 16-bit • Μέσα δεκαετίας 1980s έως μέσα δεκαετίας1990: Παραλληλία σε επίπεδο εντολής (instruction level parallelism) • Επόμενο βήμα: Παραλληλία σε επίπεδο thread
u u u u u u u u u u u u R10000 u u u u u u u u u u u u u u u u u u u u u u u u u u u u u u u u u u u u u Pentium u u u u i80386 u u i80286 u R3000 u u R2000 u u u i8086 u i8080 u i8008 u u u i4004 u Eξέλιξη Παραλληλίας στους επεξεργαστές Bit-level parallelism Instruction-level Thread-level (?) 100,000,000 10,000,000 1,000,000 Transistors 100,000 10,000 1,000 1970 1975 1980 1985 1990 1995 2000 2005
A Petaflops Todayan Earth Simulator View • Cost: $8 Billion • By ASCI White, $10 Billion • Footpad: 600,000 square feet • 100 tennis courts • Flight decks of 3 Nimitz-class aircraft carriers • Power: almost 100 Mwatts • 5 X Sum(all Top-500 machines)
SC2002 Top500 list http://www.top500.org/top5/2002/11/five/
SC2002 Dinosaurs – The Earth Simulator • In April 2002, the Earth Simulator became operational. • Peak performance of the Earth Simulator is 40 Teraflops (TF). • The Earth Simulator is the new No. 1 on the Top 500 list based on the LINPACK benchmark set (www.top500.org), • it achieved a performance of 35.9 TF, or 90% of peak. • The Earth Simulator ran a benchmark global atmospheric • simulation model at 13.4 TF on half of the machine, • i.e. performed at over 60% of peak. • The total peak capability of all DOE (US Department of Energy) computers is 27.6 teraflops. • The Earth Simulator applies to a number of other disciplines • such as fusion and geophysics as well.
BackgroundJapanese Earth Simulator • World’s Most Powerful Computer • 640 nodes x 8 vector processors per node = 5,120 processors • 8 gflops peak per processor = 40.96 teraflops peak • 10.24 terabytes of memory • 640 x 640 single stage crossbar switch • Performance • LinPack Benchmark: 35.86 teraflops • Atmospheric Global Circulation Model: 26.58 teraflops (T1279L96) • Plasma Simulation Code (IMPACT- 3D): 14.9 tflops on 512 nodes
LLNL – Linux NetworX Cluster • Fastest Linux supercomputer • Installation at Lawrence Livermore National Laboratory • System integrator: Linux NetworX • Delivery in Fall 2002 • 1,920 Intel Xeon processors at 2.4 GHz • Peak performance = 9.2 Teraflops
Future Trends: Networks of Computers Having many slow computers is better than having a few fast computers.
The Expansion of Linux in the Top500 Berkeley NOW (Solaris)
How Fast Can You Go? • Intel Pentium 4 • Max Speed: >3 GHz • System Bus: >800 MHz • >100 M transistors • Power dissipation???
? How Efficient Are Linux Clusters? Cplant Aramco, 2048, eth
Ouch! (scaling could be a problem) Earth Simulator
Performance Development ASCI EarthSimulator My Laptop Entry 1 T 2005 and 1 P 2010