560 likes | 643 Views
Optimierungstechniken in modernen Compilern. Optimierungstechniken für superskalare Prozessoren. Optimierungstechniken für superskalare Prozessoren. Erzeugen feingranularer Parallelität. Erzeugen feingranularer Parallelität. Problem:
E N D
Optimierungstechniken in modernen Compilern Optimierungstechniken für superskalare Prozessoren
Optimierungstechniken für superskalare Prozessoren Erzeugen feingranularer Parallelität
Erzeugen feingranularer Parallelität • Problem: • Im Programmcode kann nicht genügend Parallelität gefunden werden, um alle Ausführungseinheiten eines superskalaren Prozessors auszulasten, weil: • Basisblöcke bilden Grenzen für lokale Schedulingalgorithmen. • Schleifen bilden für viele globale Schedulingalgorithmen Grenzen. • Lösungsansätze: • Zusammenfassen mehrerer Basisblöcke zu einem Basisblock und Anwendung lokaler Planungsverfahren. • Erzeugen von feingranularer Parallelität aus Schleifen durch parallele Abarbeitung verschiedener Iterationen.
Grundprinzipien der Erzeugung feingranularer Parallelität aus Schleifen Schleife ohne schleifengetragene Abhängigkeiten Parallelisierung von Anweisungen derselben Iteration Parallelisierung von Anweisungen aus verschiedenen Iterationen s1 Takt 1 s1 Takt 1 s2 s1 s1 s1 Takt 1 Iteration 1 … s2 Iteration 1 Takt 2 Takt 2 s3 s2 s2 s2 Takt 2 s3 Takt 3 s3 s3 s3 Takt 3 s1 s2 Takt 3 Iteration 2 s1 Takt 4 s3 Takt 4 Iteration 2 s2 Takt 5 … s3 Takt 6 s1 s2 … Iteration k s3 Takt 2k s1 Iteration k s2 s3 Takt 3k Anweisungen innerhalb des Schleifenkörpers können umgeordnet werden, solange dadurch keine schleifenunabhängigen Abhängigkeiten verletzt werden. Iterationen einer Schleife können parallel ausgeführt werden, falls es keine schleifengetragenen Abhängigkeiten zwischen den Iterationen gibt.
Grundprinzipien der Erzeugung feingranularer Parallelität aus Schleifen • Eliminierung von schleifengetragenen Abhängigkeiten in der innersten Schleife durch: • Loop Distribution, • Scalar Expansion, • Loop Interchange. • Anschließende Parallelisierung der Iterationen der innersten Schleife. Schleife mit schleifengetragenen Abhängigkeiten Ursprüngliche Schleife aufgeteilt in 2 Schleifen (Loop Distribution) Separate Parallelisierung beider Schleifen s1 Takt 1 s1 Takt 1 Iteration 1 s2 Iteration 1 s2 Takt 2 Takt 2 s3 Takt 3 s1 Takt 4 Iteration 2 s1 Takt 4 s2 Takt 5 Schleife 1 Schleife mit schleifengetragene Abhängigkeiten … Iteration 2 s2 Takt 5 Takt 6 s3 Takt 6 s1 s1 s1 s1 Takt 1 Iteration k … … s2 s2 s2 s2 Takt 2 s1 s3 s3 s3 Takt 3 Iteration k s2 s3 Takt 3k Iteration 1 s3 Takt 3k Iteration 2 s3 Schleife 2 … Iteration k s3
Anweisungen im Schleifenkörper sind parallelisierbar Maximal 2 gleichzeitige Multiplikationen Iterationen sind nicht parallelisierbar: Schleife trägt eine Abhängigkeit Iterationen jeder Schleife sind parallelisierbar: Bis zu N Multiplikationen können parallel ausgeführt werden! Loop Distribution bei vorwärts gerichteten schleifengetragenen Abhängigkeiten Quelltext Abhängigkeitsgraph Quelltext nach Loop Distribution for i = 1to N step 1 do (s) a[i+1] = b[i] * 3; (t) d[i] = a[i] * 5; od s for i = 1to N step 1 do (s) a[i+1] = b[i] * 3; od for i = 1to N step 1 do (t) d[i] = a[i] * 5; od {1}D t Ausführungsreihenfolge mit Abhängigkeiten Ausführungsreihenfolge mit Abhängigkeiten s1 s2 s3 sN s1 s2 s3 sN … … t1 t2 t3 tN t1 t2 t3 tN
Anweisungen im Schleifenkörper sind parallelisierbar Maximal 2 gleichzeitige Multiplikationen Iterationen sind nicht parallelisierbar: Schleife trägt eine Abhängigkeit Durch Vertauschung der Anweisungen (s) und (t) erhalten wir die Schleife von Folie 4. Iterationen jeder Schleife sind parallelisierbar: Bis zu N Multiplikationen können parallel ausgeführt werden! Loop Distribution bei rückwärts gerichteten schleifengetragenen Abhängigkeiten Abhängigkeitsgraph Quelltext nach Loop Distribution Quelltext for i = 1to N step 1 do (s) d[i] = a[i] * 3; (t) a[i+1] = b[i] * 5; od s for i = 1to N step 1 do (t) a[i+1] = b[i] * 3; od for i = 1to N step 1 do (s) d[i] = a[i] * 5; od {1}D t Ausführungsreihenfolge mit Abhängigkeiten Ausführungsreihenfolge mit Abhängigkeiten s1 s2 s3 sN t1 t2 t3 tN … … t1 t2 t3 tN s1 s2 s3 sN
Wann funktioniert Loop Distribution nicht? • Tauschen zweier Anweisungen s und t im Schleifenkörper führt nach Loop Distribution dazu, dass alle Instanzen von s nach den Instanzen von t ausgeführt werden. • Loop-Distribution nicht möglich, weil zyklische Abhängigkeit im Abhängigkeitsgraphen existiert. Diese entsteht, weil: • Es ex. eine rückwärtsgerichtete schleifengetragene Abhängigkeit von t nach s • es existieren schleifenunabhängige bzw. vorwärtsgerichtete schleifengetragene Abhängigkeiten von s nach t. • Dadurch: • können Anweisungen auf dem Pfad von s nach t nicht getauscht werden und • wegen der rückwärtsgerichteten Abhängigkeit können nicht alle Instanzen von s vor den Instanzen von t ausgeführt werden. Quelltext Abhängigkeitsgraph Ausführungsreihenfolge mit Abhängigkeiten for i = 1to N step 1 do (s) b[i] = a[i] * 3; (t) a[i+1] = b[i] * 5; od s1 s2 s3 sN s … t1 t2 t3 tN {1}D {0}D t
Planung mit Loop-Distribution und Paralleliserung von Schleifeniterationen • L sei das Schleifennest, das die zu parallelisierenden Anweisungen in der innersten Schleife enthält, wobei die innerste Schleife von 1 bis N läuft. • D ist der Abhängigkeitsgraph für die Anweisungen in L. • Berechne die Menge {C1,...,Cm} maximaler stark zusammenhängender Komponenten in D. • Konstruiere D' aus D durch Ersetzung der Knoten in jedem Ci durch einen einzelnen Knoten i, wobei alle Kanten, die adjazent mit genau einem Knoten in Ci sind, mit i adjazent gemacht werden. • Es seien P = {1,...,m} die m Knoten in D' • Solange P nicht leer ist: • Falls ein Knoten iP ohne Vorgänger existiert und Ci ein Zykel ist: • Plane die Anweisungen aus Si in eine Schleife. • Falls ein Knoten iP ohne Vorgänger existiert und Ci kein Zykel ist: • Erzeuge N parallele Anweisungen Ci (Ci enthält nur eine Anweisung). • Entferne i und seine adjazenten Kanten aus P.
Beispiel for i = 1to N step 1 do S0; od C1 S0 1 for i = 1to N step 1 do S1; S2; od {0}A C3 C2 S3 S1 3 2 S3;...;S3; S4;...;S4; S5;...;S5; {1}D {0}D C4 S4 S2 4 N-mal C5 S5 5 Abhängigkeitsgraph D Abhängigkeitsgraph D' Parallelisierter Programmcode
Loop Interchange • Loop Interchange permutiert die Schachtelung der Schleifen und tauscht die korrespondierenden Komponenten in den Richtungsvektoren: • Beweis: • Jede Abhängigkeit wird für zwei Anweisungen si und sk berechnet, indem zwei Belegung der Indexvariablen gesucht werden (Indexvektoren). • Richtungsvektor der Abhängigkeit ergibt sich aus dem Verhältnis der Komponenten der Indexvektoren. • Reihenfolge der Komponenten in den Indexvektoren hängt nur von der Reihenfolge der Schachtelung ab. • Vertauschen von Schleifen vertauscht entsprechende Komponenten in den Indexvektoren. • Damit: Tausch zweier Schleifen tauscht die korrespondierenden Spalten in der Abhängigkeitsmatrix. for i1 = L1 to U1step 1 do for i2 = L2to U2 step 1 do ... for id = Ldto Ud step 1 do s1;...;sn od ... od od for i2 = L2 to U2step 1 do for i1 = L1to U1 step 1 do ... for id = Ldto Ud step 1 do s1;...;sn od ... od od Richtungsvektor für eine Abhängigkeit: (<,=, <, ... ,>) Richtungsvektor für dieselbe Abhängigkeit: (=,<, <, ... ,>)
Gültigkeit einer Vertauschung • Bei Vertauschung der Schleifen auf Level i und j werden auch die Komponenten i und j in den Richtungsvektoren aller Abhängigkeiten vertauscht. • Falls jeder der daraus entstehenden Richtungsvektoren ein gültiger Richtungsvektor ist, dann ist die Vertauschung gültig. • Beispiel: for i = 1to N step 1 do for j = 1 to Mstep 1 do for k = 1 to Lstep 1 do a[i+1][j+1][k] = a[i][j][k] + a[i][j+1][k+1] od od od Richtungsvektoren Tausch von Level 1 und 2 Tausch von Level 1 und 3 (ungültig) [<,<,=] [<,=,>] [<,<,=] [=,<,>] [=,<,<] [>,=,<]
Beispiel for i = 1to N step 1 do for j = 1 to Mstep 1 do a[i][j+1] = a[i][j] + 2 od od Innere Schleife trägt die Abhängigkeit for j = 1to N step 1 do for i = 1 to Mstep 1 do a[i][j+1] = a[i][j] + 2 od od Äußere Schleife trägt die Abhängigkeit
Zyklen im Abhängigkeitsgraphen verhindern Parallelisierung von Schleifeniterationen. Zyklen im Abhängigkeitsgraphen sind eliminiert – Schleifeniterationen können parallelisiert werden. Scalar Expansion - Motivation for i = 1 to Nstep 1 do (s) t = a[i]; (t) a[i] = b[i]; (u) b[i] = t; od for i = 1 to Nstep 1 do (s) t[i] = a[i]; (t) a[i] = b[i]; (u) b[i] = t[i]; od {1}O s {0}A s {0}A t t {1}A {0,1}D {0,1}D {0}A {0}A u u
Überdeckende Definition • Eine Definition X einer skalaren Variablen S ist eine überdeckende Definition für die Schleife L, falls eine Definition für S, die am Beginn der Schleife L eingefügt wird, keine Verwendungen von S erreicht, ohne vorher X erreicht zu haben. • Eine Menge C von Definition einer skalaren Variablen S ist eine Menge überdeckender Definitionen für L, falls eine Definition für S, die am Beginn der Schleife L eingefügt wird, keine Verwendungen von S erreicht, ohne vorher eine Definition aus der Menge C erreicht zu haben. • Beispiele: for i = 1 to Nstep 1 do if anyCond then (s) t = a[i]; fi (u) b[i] = t; od for i = 1 to Nstep 1 do (s) t = a[i]; (u) b[i] = t; od Beispiel 1:s ist eine überdeckende Definition. Beispiel 2: Es existiert keine überdeckende Definition. for i = 1 to Nstep 1 do if anyCond then (s) t = a[i]+1; else (t) t = a[i]-1; fi (u) b[i] = t; od Beispiel 3: {s, t} sind eine Menge von überdeckenden Definitionen.
Berechnen Überdeckender Definitionen für ein SSA-Programm • Q sei die -Funktion am Beginn der Schleife L, die die Variable t definiert und eine SSA-Kante von außerhalb der Schleife nach Q führt. • Setze Menge der überdeckenden Definitionen C := ; Leere den Stack S. • D sei die erste Definition von t in L. C := C {D}. • Für jede -Funktion P, die verschieden von Q und SSA-Nachfolger von D ist: push(S,P) und markiere P. • Solange S nicht leer ist: • P = pop(S) • Füge alle SSA-Vorgänger von P, die keine -Funktion sind, zur Menge C hinzu. • Für jede unmarkierte -Funktion R (verschieden von Q), die ein SSA-Vorgänger von P ist: push(S,R) und markiere R. • Für jede unmarkierte -Funktion R, die SSA-Nachfolger von P ist und die nicht von P dominiert ist: push(S,R) und markiere R. • Falls ein SSA-Kantenweg von Q nach P existiert, dann füge eine Anweisung T = T als letzte Anweisung auf dem Pfad von Q nach P ein und füge diese Anweisung zu C hinzu. 1 t0 = 0; for i = 1 to Nstep 1 do 2 t1 = (t0,t3); 3 a[i] = t1; if anyCond then 4 t2 = t1 + b[i] + c[i]; fi 5 t3 = (t1,t2); 6 d[i] = t3; od t = 0; for i = 1 to Nstep 1 do a[i] = t; if anyCond then t = t + b[i] + c[i]; fi d[i] = t; od Q = 2 D = 4 C = {4} S = (5) P = 5 C = {4} 7 else t = t C = {4,7}
Scalar Expansion durchführen • Erzeuge für die skalare Variable t ein Feld T geeigneter Länge. • Für jede Anweisung S in C ersetze t auf der linken Seite durch T[i]. • Jede Verwendung von t, die vor den Definitionen in C liegt (direkte SSA-Nachfolger von Q): Ersetze t durch T[i-1]. • Jede andere Definition und Verwendung von t, ersetze durch T[i]. • Falls Q vorhanden, dann füge T[0] = t vor dem Beginn der Schleife ein. • Falls eine SSA-Kante von einer Definition von t nach außerhalb von L führt, dann füge t = T[N] nach dem Ende der Schleife ein, wobei N die obere Grenze der Schleife ist. • Beispiel: 1 t0 = 0; for i = 1 to Nstep 1 do 2 t1 = (t0,t3); 3 a[i] = t1; if anyCond then 4 t2 = t1 + b[i] + c[i]; else 7 t = t fi 5 t3 = (t1,t2); 6 d[i] = t3; od 1 t = 0; for i = 1 to Nstep 1 do 3 a[i] = t; if anyCond then 4 t = t + b[i] + c[i]; else 7 t = t fi 6 d[i] = t; od 1 t = 0; T[0] = t; for i = 1 to Nstep 1 do 3 a[i] = T[i-1]; if anyCond then 4 T[i] = T[i-1] + b[i] + c[i]; else 7 T[i] = T[i-1] fi 6 d[i] = T[i]; od
Optimierungstechniken für superskalare Prozessoren Schleifenfreie Ablaufplanung für superskalare Prozessorarchitekturen
Trace-Scheduling • Trace: Folge aufeinander folgender Basisblöcke. Steuerfluss führt an beliebigen Positionen in Traces hinein oder heraus: • Ein Split ist eine Verzweigung aus dem Trace heraus. • Ein Join ist eine Verzweigung in den Trace hinein. • Planung der Operationen in einem Trace durch einen List-Scheduling-Algorithmus. • Trace-Scheduling erlaubt: • Abwärtsverschiebung von Operationen hinter Splits. • Aufwärtsverschiebung von Operationen vor einen Split nur bei Operationen ohne Seiteneffekte. • Aufwärts-/Abwärtsverschiebung von Operationen vor/hinter Joins. • In praktischen Implementierungen (z.B. Multiflow-Compiler) wird die Reihenfolge von Sprunganweisungen in einem Trace nicht verändert. • Einfügen von Korrekturcode an solchen Positionen, an denen in einen gescheduleten Trace hineingesprungen oder herausgesprungen wird.
Algorithmus • Auswahl einer Folge von Basisblöcken (Trace), deren Operationen gemeinsam geplant werden sollen. Grenzen eines Traces: • Start-/Stoppknoten des Steuerflussgraphen. • Schleifen (kein Trace enthält Blöcke einer Schleife und Blöcke, die nicht zu dieser Schleife gehören). • Bereits geplante Blöcke. • Entfernen des Traces aus dem Steuerflussgraphen und Anwendung eines List-Scheduling-Algorithmus auf den Trace. • Einsetzen des Ergebnisses des List-Schedulers in den Steuerflussgraphen und Einfügen von Korrekturcode für solche Operationen, die hinter Splits oder vor/hinter Joins verschoben wurden. • Wiederholung dieser Schritte, bis alle Blöcke im Steuerflussgraphen verplant wurden. • Ausgabe des Codes im Steuerflussgraphen in einer geeigneten Reihenfolge.
Korrektur bei Verschiebung hinter Split • Korrekturcode: • Für jeden Split mit einem Sprungziel b: • Erzeuge einen neuen Vorgängerblock für b und kopiere jede Operation, die hinter den Split verschoben wurde, in diesen Block unter Beachtung der ursprünglichen Reihenfolge. Trace Schedule Korrekturcode Branch Op 2 Op 1 Op 4 Op 1 Op 1 Op 1 Op 3 Op 5 Op 2 Op 6 Op 3 Op 3 Op 3 Branch Op 4 b Op 5 b Op 6
Korrektur bei Verschiebung vor/hinter einen Join • Korrekturcode: • Für jeden Join Bestimme im Schedule die maximale Position p an der eine Operation ausgeführt wird, die im Trace vor dem Join ausgeführt wurde. • Bestimme alle Operationen, die im Trace nach dem Join ausgeführt wurden und im Schedule bis zur Position p ausgeführt werden. • Füge diese Operationen als neuen Nachfolgerblock von b in den Steuerflussgraphen ein. • Am Ende dieses Blocks wird an Position p+1 in den Schedule des Traces verzweigt. Trace Schedule b b Korrekturcode Op 1 Op 1 Op 2 Op 3 Op 3 Op 3 Op 4 Op 4 Op 3 Op 5 Op 5 Op 5 Op 1 Op 4 Op 6 Op 2 Op 6
Split-Operationen im Korrekturcode für Joins • Für Splits, die sich im Korrekturcode für Joins befinden, müssen die Operationen bestimmt werden, die im Trace vor dem Split ausgeführt wurden und sich im Schedule hinter dem Einsprung des Korrekturcodes für den Join befinden. Trace Schedule b b Op 1 Op 1 Op 3 Branch Op 1 Op 2 Branch Op 3 Op 3 Op 3 Op 5 Op 5 Op 2 Op 2 Op 4 Op 4 Op 3 Branch Op 4 Op 4 Op 5 b' b'
Beispiel für Explosion des Korrekturcodes Trace Schedule Korrekturcode, der zu n neuen Traces führt. ... C1 B1 Cn C1 A1 C2 A2 Cn-1 An-1 Bn A1 An ... C2 B2 Cn-1 C1 A1 C2 A2 Cn-2 An-2 Bn-1 A2 An-1 Cn ... ... An ... Cn Bn C1 B1 C2 A2 Cn An An A1
Superblöcke • Vereinfachung von Traces: • Trace darf nur am Anfang betreten werden. • Verlassen ist an beliebigen Positionen möglich. • Erzeugen von Superblöcken in 2 Schritten: • Auswählen eines Traces. • Tail-Duplication: Eliminierung von Eintrittspunkten durch Duplizierung des Resttraces nach dem Eintrittspunkt. • Vorteil: • Vereinfachung der Erzeugung des Korrekturcodes.
Superblock Scheduling • Auswahl eines Traces. • Tailduplication ausführen. • Konstruktion des Abhängigkeitsgraphen. • Anwendung eines List-Schedulers unter Beachtung des Abhängigkeitsgraphen. • Korrekturen ausführen: • Operation wurde vor einen Split verschoben, dann wird Operation spekulativ ausgeführt: • Nur dann möglich, wenn die Operation keine Exception verursacht und • wenn der definierte Wert vor dem Split nicht lebendig war. • Operationen wurden hinter einen Split verschoben, dann muss Korrekturcode wie bei Trace-Scheduling erzeugt werden.
Unterstützung zur Ausführung spekulativer Operationen • Bisher zwei wesentliche Probleme bei der spekulativen Ausführung einer Operation: • Operation mit Seiteneffekten kann Exception auslösen. • Falls die Operation eine load-Operation ist, muss der Compiler beweisen, dass keine RAW-Abhängigkeit zwischen dem load und einer vorangehenden store-Operation existiert, falls load vor dieses store verschoben werden soll.
Spekulative Ausführung von loads • Problem: • In einigen Fällen kann der Compiler nicht beweisen, dass es keine RAW-Abhängigkeit zwischen store- und load-Operation gibt, da die zugegriffene Adresse nicht statisch berechnet werden kann. • Spekulative Ausführung trotzdem möglich durch: • Einfügen von Test- und Korrekturcode ins Programm oder • Hardwareunterstützung (Memory Conflict Buffer) für das Programm.
Test- und Korrekturcode • load-Operation u wird spekulativ ausgeführt. • Nach jeder store-Operation v, für die es eine Datenabhängigkeit (v,u) geben kann, wird Programmcode eingefügt, der prüft, ob u und v dieselbe Adresse nutzen. • Falls ja, müssen alle von u datenabhängigen Operationen, die vor v ausgeführt wurden, wiederholt werden. • Deren Operanden dürfen nicht verändert worden sein. mul R2,R3 R1 load [R5] R4 store R11 [R9] jmpneq R9,R5 skip1 mov R11 R4 skip1: store R1 [R3] jmpneq R3,R5 skip2 mov R1 R4 skip2: add R4,R1 R6 mul R2,R3 R1 store R11 [R9] store R1 [R3] load [R5] R4 add R4,R1 R6 spekulative Ausführung des loads Originalcode
Hardwareunterstützung zur spekulativen Ausführung von load-Operationen • Memory-Conflict-Buffer (MCB) speichert Tripel mit Registernummer, Speicheradresse und Konfliktbit. • Unterscheidung im Befehlssatz des Prozessors zwischen spekulativem load und nicht-spekulativem load. • Spekulatives load von der Adresse a in ein Register berzeugt im MCB einen Eintrag (a,b,0). • store-Operation an eine Adresse c im Speicher ändert Konfliktbit in allen Einträgen (a,b,x) des MCB mit a = c auf 1. • Befehlssatz enthält eine Operation check r, label, wobei r ein Register und label die Adresse des Korrekturcodes ist. • Ausführung der check r, label Operation an der ursprünglichen Position des loads, wobei r Zielregister der load-Operation ist. • Falls Im MCB ein Eintrag (a,r,1) existiert, wird die Operation mit dem Label label angesprungen.
Integration in Superblock Scheduling • Erzeugen eines Superblocks. • Erzeugen des Abhängigkeitsgraphen. • check r, label_i nach jeder Operation i der Form load [a] reinfügen. • check-Operation übernimmt die Abhängigkeiten mit store-Operationen des zugehörigen loads und ist abhängig von der zugehörigen load-Operation sowie umgebenden Sprunganweisungen. • RAW-Abhängigkeiten für jede load-Operation entfernen, wodurch das load verschoben werden kann. • Superblock planen. • Korrekturcode einfügen: Quelloperanden der Operationen im Korrekturcode dürfen nicht überschrieben worden sein (es darf kein WAR-Abhängigkeiten zwischen den Operationen des Korrekturcodes geben).
Beispiel mul R2,R3 R1 load [R5] R4 add R4,R1 R6 store R11 [R9] store R1 [R3] check R4, Korrektur store R6 [R10] add R6,R12 R11 ... Korrektur: load [R5] R4 add R4,R12 [R11] jmp tailDup TailDup: store R6 [R10] add R6,R12 R11 ... mul R2,R3 R1 store R11 [R9] store R1 [R3] load [R5] R4 check R4, Korrektur add R4,R1 R6 store R6 [R10] add R6,R12 R11 ... mul R2,R3 R1 store R11 [R9] store R1 [R3] load [R5] R4 add R4,R1 R6 store R6 [R10] add R6,R12 R11 ... Originalcode mit möglichen Abhängigkeiten des loads von stores Abhängigkeiten der check-Operation Geplanter Superblock mit Korrekturcode und dupliziertem Ende, um Einsprung zu vermeiden.
Behandlung von Exceptions bei spekulativer Ausführung analog • Behandlung von Exceptions durch E-Tags in Registern: • Jede Operation ist in zwei Varianten vorhanden: • Auftretende Exception wird sofort ausgeführt, • Auftretende Exception wird verzögert. • Im Fehlerfall wird E-Tag im Zielregister gesetzt und PC in das Register kopiert. • Falls kein Fehler auftritt wird das Ergebnis der Operation ins Zielregister geschrieben und E-Tag gelöscht. • Falls eine spekulative Operation einen ungültigen Operanden verwendet (E-Tag gesetzt), wird dieser in das Zielregister kopiert. • An der Position, an der sich die Operation ursprünglich befunden hat wird durch eine check-Operation geprüft, ob eine Execption ausgelöst wurde. • Für Recovery wurde der PC gespeichert, außerdem müssen alle spekulativ ausgeführten Operationen wiederholt werden. • Operanden der Operation müssen an dieser Stelle auch noch zur Verfügung stehen, um Operation zu wiederholen.
Optimierungstechniken für Superskalare Prozessoren Ablaufplanung von Schleifen
Scheduling von Schleifen • Bisher konnten Operationen nicht über die Grenzen des Schleifenkörpers verschoben werden. • Lösung: • Schleife ausrollen, • Trace-Scheduling anwenden. • Bewegung der Operationen nur innerhalb derausgerollten Schleifenkörper. H B H H B B E B E
Prinzip Modulo-Scheduling • Aus dem gegebenen Schleifenkörper wird ein neuer Moduloschleifenkörper erzeugt, der die Länge II hat. • Die Operationen des Schleifenkörpers werden in II vielen Instruktionen geplant. • Dabei können Operationen, die in derselben Iteration des Schleifenkörpers ausgeführt werden, in eine andere Iteration der Moduloschleife verschoben werden, wenn dadurch keine Abhängigkeiten verletzt werden. • Gesucht ist somit ein Schedule (,), der einer Operation v einen Zeitpunkt 0 (v) < II und eine Iteration (v) zuordnet, in der v ausgeführt wird: Iteration 1 Iteration 3 Op10 Op20 Op12 Op22 Op30 Op32 Op1 Op2 Op40 Op42 Iteration 2 Op3 Iteration 1 Op11 Op21 Op10 Op20 Iteration 2 Op11 Op21 Op30 Op4 Op31 Iteration 3 Op12 Op22 Op31 Op40 Schleifenkörper, der keine schleifengetragenen Abhängigkeiten besitzt. Iteration 4 Op13 Op23 Op32 Op41 Op41 Iteration 5 Op13 Op23 Op32 Op41 Op1 Op2 Op3 Op4 Normale Ausführung Moduloschleifeniterationen für II = 1 Moduloschleifenkörper
Planung der Operation • Zunächst Einschränkung auf azyklische Abhängigkeitsgraphen. • Damit bei vorhandener Kante (v,w) keine Abhängigkeit verletzt wird, muss • (v) + d(v,w) (w), falls (w) = (v)oder • II * (v) + (v) + d(v,w) II * (w) + (w), was die erste Forderung überflüssig macht. • Konsequenz: Jede mögliche Position innerhalb von II kann zur Planung von v genutzt werden. • Einschränkung entsteht nur durch vorhandene Ressourcen. • Untere Schranke für II: Iteration (v) II v w d(v,w) Iteration (w) II w Potentieller Ausführungszeitpunkt für w ...
Schedulingalgorithmus für azyklische Abhängigkeitsgraphen Algorithmus: moduloSchedule Eingabe: Abhängigkeitsgraph G Länge II des Initiation Intervalls Ausgabe: Schedule (,) Es sei v1,...,vn eine topologische Sortierung der Knoten im Abhängigkeitsgraphen G. for i = 1 to n do earlyS = 0; earlyI = 0; foreach w mit (w,vi) E do thisS = (w) + d(w); thisI = (w); if(thisS II) then thisI = thisI + (thisS div II) thisS = thisS mod II; fi if(thisI > earlyI or thisS > earlyS) then earlyI = thisI; earlyS = thisS; fi od Versuche ab earlyS eine Position c mit freier Ressource für w zu finden. Falls das nicht möglich ist, dann ab Anfang des Moduloschleifenkörpers die Suche fortsetzen. (v) = c; if Suche wurde ab Schleifenanfang fortgesetzt then (v) = earlyI + 1; else (v) = earlyI; fi od
Beispiel Ursprünglicher Schleifenkörper Scheduling für II = 2 und 2 Ressourcen pro Takt. Topologische Sortierung: Op1, Op2, Op3, Op4. Op1 Op2 i = 1 und 2 (1) = 0, (2) = 0 Op3 Op1 Op2 i = 3 Op4 (1) = 0, (2) = 0 Op1 Op2 Op3 (3) = 0 i = 4 (1) = 0, (2) = 0 Op1 Op2 Op3 Op4 (3) = 0, (4) = 1
Interschleifenabhängigkeiten • Schleifen ohne Interschleifenabhängigkeiten sind unrealistisch: • Schreiboperationen auf skalare Variablen (Schleifenzähler, Zeiger in Felder) erzeugen WAW-Abhängigkeit zwischen aufeinander folgenden Iterationen. • Häufig auch Abhängigkeiten zwischen Zugriffen auf Feldelemente. • Beispiele: for(i = 1; i < n; i++) A[i] = A[i-1] + k; for(i = 2; i < n; i++) A[i] = A[i-2] + k; for(i = 0; i < n; i++) A[i] = A[i+2] + k; Iteration i = k Iteration i = k Iteration i = k load A[k-1] store A[k] load A[k-2] store A[k] load A[k+2] store A[k] Iteration i = k+1 Iteration i = k+1 Iteration i = k+1 RAW load A[k] store A[k+1] load A[k-1] store A[k+1] load A[k+3] store A[k+1] RAW WAR Iteration i = k+2 Iteration i = k+2 load A[k] store A[k+2] load A[k+4] store A[k+2]
Beachtung von Interschleifenabhängigkeiten • Es sei (w,v) eine Kante mit cross((w,v)) > 0. Wo muss v geplant werden? • w muss im Moduloschedule d(w,v) viele Takte vor der Operation v ausgeführt werden, die cross(w,v) viele Iterationen nach der Operation w im ursprünglichen Schleifenkörper ausgeführt wird:(w) * II + (w) + d(w,v) (v) * II + (v) + cross(w,v) * II • Es ergibt sich: (w) + d(w,v) (v) + ((v) – (w) + cross(w,v))*II Instruktion (v) * II + (v) vm ... (w) – (v) mal cross(w,v) mal Instruktion (w) * II + (w) wm cross(w,v) * II viele Instruktionen ... z = m + cross(w,v) vz
Welche Einschränkungen ergeben sich bei der Planung? • Es seien v1,...,vk die Knoten eines Zykels im Abhängigkeitsgraphen, wobei: • für alle Kanten (vi,vi+1) mit 1 i < kgilt: cross((vi,vi+1)) = 0 und • cross((vk,v1)) > 0. • Planung der Operationen v1,...,vk durch Moduloscheduling führt dazu, dass für Operation vk gilt: (vk) (v1). • Das bedeutet, dass bei Ausführung von v1 und vk in einer Moduloschleifeniteration, wobei v1 aus der Schleifeniteration m sein soll, die Operation vk aus der Schleifeniteration m – ((vk) – (v1)) ausgeführt wird. • Analog: Stammt vk aus der Schleifenitertion m, dann gehört v1 zur Schleifeniteration m + ((vk) – (v1)). • Damit (vk) + d(vk,v1) (v1) + ((v1) – (vk) + cross(vk,v1))*II erfüllt ist, darf vk nicht um mehr als cross(vk,v1) viele Iterationen nach v1 ausgeführt werden. • Beispiel: II = 1: II = 2: II = 2: Op4 muss einen Takt bevor Op3 aus der nächsten Iteration ausgeführt wird, ausgeführt worden sein. Op1 Op2 Op1 Op2 Op3 Op4 Op1 Op2 Op1 Op3 Op3 Op4 Op2 Op4 (1) = 0 (1) = 0 (1) = 0 Op3 <1,1> (2) = 0 (2) = 0 (2) = 0 <0,1> (3) = 1 (3) = 0 (3) = 1 (4) = 2 Op4 (4) = 1 (4) = 1
Weitere untere Schranke für II • Da bei einer Kante (vk,v1) vk nicht um mehr als cross(vk,v1) viele Iterationen nach v1 ausgeführt werden darf, müssen alle Operationen auf einem Pfad von v1 in diesen Iterationen der Moduloschleife verteilt werden. • Es ergibt sich für einen Zykel v1,...,vk,vk+1 mit v1 = vk+1 im Abhängigkeitsgraphen: • Und damit als weitere untere Schranke für II: <2,1> II = 2: II = 3: Op1 <0,1> Op2 Op1 Op3 Op5 Op1 Op4 <0,1> Op2 Op4 Op2 Op5 Op3 Op3 <0,1> Iteration n n–1 n–2 Op4 Iteration n n–1 <0,1> Op5
Schedulingalgorithmus für zyklische Abhängigkeitsgraphen Eingabe: Abhängigkeitsgraph G mit Knotenmenge N und Kantenmenge E Ausgabe: Schedule (,) MinII = max(ResII(G),RecII(G)) Es sei G' der Graph G, in dem alle Zyklen durch entfernen der Rückkante aufgebrochen wurden failed = true; for II = MinII to |N| do (,) = moduloSchedule(G',II) allOk = true; for each Zykel z in G do Es sei v1 die erste und vk die letzte Operation auf dem Zykel z in G if not ((vk) + delay(vk) (v1) + ((vk) – (v1) + cross(vk,v1))*II) then allOk = false fi od if allOk then return (,)fi od
Prologgenerierung • Prolog zum Initialisieren des Moduloschleifenkörpers. • Epilog zum Beenden der begonnenen Iterationen. • range(,) = max{(n) | n ist Operation im Schedule} ist die Anzahl der Iterationen, die ausgeführt werden müssen, bevor der Moduloschedule ausgeführt werden kann. • Es werden immer range(,) + 1 viele Iterationen ausgeführt. • Generierung des Prolog: • Einfügen von range vielen Kopien des Moduloschedules vor dem Moduloschedule und Ersetzen von allen Operationen v in Kopie k mit (v) k durch NOPs. • Generierung des Epilogs: • Einfügen von range vielen Kopien des Moduloschedules nach dem Moduloschedule und Ersetzen von allen Operationen v in Kopie k mit (v) < k durch NOPs. Moduloschedule Prolog Op1 nop Kopie 1 Op2 nop Op1 Op3 Op1 Op3 Moduloschleifenkörper Op2 Op4 Op2 Op4 (1) = 0 Epilog nop Op3 Kopie 1 (2) = 0 nop Op4 (3) = 1 (4) = 1
Beispiel für Prologgenerierung load [R1] R4 <0,1> add R3,R4 R5 <1,0> <0,1> <0,0> store R5 [R0] <0,0> <1,0> inc R1 <1,1> inc R0 dec R2 <1,0> <0,1> bne R2,L bne R2,L load [R1] R4 nop nop inc R1 nop nop nop load [R1] R4 add R3,R4 R5 nop inc R1 nop dec R2 nop L: load [R1] R4 add R3,R4 R5 store R5 [R0] inc R1 inc R0 dec R2 bne R2,L 0 1 2 0 2 1 2
Zusammenfassung Scheduling von Schleifen • Ausrollen einer Schleife zur Bildung längerer Traces: • Transformation relativ einfach, • Schleifenkörper darf keine Schleifen enthalten, • Bedingte Verzweigungen sind zulässig, • Es entsteht viel Programmcode, • Sprung zum Schleifenanfang stellt Grenze für den Schedulingalgorithmus dar, an der Ressourcen oft nicht ausgelastet werden. • Moduloscheduling: • Komplexe Transformation, • Schleifenkörper muss ein Basisblock sein, • Kompakter Programmcode, • Rücksprung ist keine Grenze für den Schedulingalgorithmus. • Transformation von Steuerfluss- in Datenabhängigkeiten, um bedingte Verzweigungen im Schleifenkörper zuzulassen.
Optimierungstechniken für superskalare Prozessoren Behandlung von Steuerflussabhängigkeiten
Bedingte Ausführung und If-Conversion • Technik zur Transformation von Steuerflussabhängigkeiten in Datenabhängigkeiten. • Prinzip: • Prozessorarchitektur unterstützt bedingt Ausführung (Guarded Statements). • Guard ist ein 1-Bit-Register, das als zusätzlicher Operand einer Operation genutzt werden kann. Falls Wert des Guard-Registers 1 ist, wird die Operation normal ausgeführt, sonst wird die Operation nicht ausgeführt. • Verzweigungsbedingungen im Programm werden negiert und nicht negiert in Guard-Register berechnet. • Alle steuerflussabhängigen Operationen erhalten dieses Register als zusätzlichen Operanden. • Spekulative Ausführung nicht mehr möglich, da dann Datenflussabhängigkeit verletzt wäre.