140 likes | 233 Views
Effiziente Implementierungen von iterativ arbeitenden Kanalcodierungsverfahren auf eingebetteten Multiprozessorarchitekturen. Norbert Wehn Frank Gilbert. Drahtlose Kommunikation. Herausforderungen aus Implementierungssicht Algorithmische Komplexität „Shannon‘s Law beats Moore‘s Law“
E N D
Effiziente Implementierungen von iterativ arbeitenden Kanalcodierungsverfahren auf eingebetteten Multiprozessorarchitekturen Norbert Wehn Frank Gilbert
Drahtlose Kommunikation Herausforderungen aus Implementierungssicht • Algorithmische Komplexität • „Shannon‘s Law beats Moore‘s Law“ • Programmierbarkeit/Flexibilität • QoS, „multi-mode“ Unterstützung • Geringer Energie-/Leistungsverbrauch • Aber: „Energy-Flexibility“ Lücke • Entwurfsraum: Algorithmen und Architektur • .... Neuartige Achitekturen: AP-MPSoC • skalierbar, programmierbar, energieeffizient • anwendungsspezifische Prozessorknoten • anwendungsspezifische Kommunikationsstrukturen
Energieverbrauch in AP-MPSoC • Hohe Parallelität • Einfache Knotenprozessoren (an Anwendung angepaßt) • Geringe Taktfrequenz • (dynamic) Voltage Scaling • (Skalierbarkeit) • Hohe Lokalität • Minimiert Kommunikation Transformationen • Bit-genaue Transformationen (z.B. Loop Merging) • anwendungsspezifische Transformationen • Kommunikationsstrukturen • Wires, Switches, FIFOs, Arbiter • Protokoll • Trade-off: Durchsatz versus Energieverbrauch anwendungsabhängig
Algorithmenauswahl • Intensive Matrixberechnungen z.B. „Interference Cancellation“ • Zahlreiche Publikationen z.B. systolische Arrays • Iterativ, blockorientiert, Datenverwürflung z.B. Turbo-Prinzip, LDPC • Abbildung auf Multiprozessorarchitekturen weitgehend unerforscht! PU - Latenz - Fläche - Energie 1 wort/cycle Block-Level PU Buffer PU Speed-Up sendtraffic PE1 av(rectraffic)~ av(sendtraffic) Subblock-Level PE2 peak(rectraffic)~ N*(sendtraffic) „Interleaver Bottleneck1“ PEN rectraffic Kommunikation: skalierbar, Durchsatz ! 1) M.J.Thul, N.Wehn, L.P.Rao „Enabling High-Speed Turbo-Decoding Through Concurrent Interleaving“, ISCAS02
Bus-basiertes AP-MPSoC N Anzahl der Prozessoren fR Datenerzeugungsrate pro Taktzyklus Durchsatzanforderung an Kommunikation: N * fR Daten pro Taktzyklus N ≤ 1/fR: Bus-Architektur möglich Prozessor an Anwendung angepasst „Message passing“ Kommunikation XLMI: „single cycle“ Speicherzugriff Bus-Architekturen nicht skalierbar, eingeschränkter Durchsatz Beispiel UMTS TC Kanaldecoder Blockgröße=5114, 5 Iterationen, f=133MHz, fR=1/5 • maximal N=5 Prozessorknoten bedienbar • maximaler Durchsatz=7.28 Mbit/s
P2 RIBB Left P6 Out Left In Buffer P3 P7 RIBB2 Local In Bus Switch RIBB3 RIBB1 Local Out P5 P1 RIBB0 Buffer Right Right In Out P4 Buffer P0 Heterogene Struktur Verwendung einer Ringarchitektur1 • Lokalität, keine globale Verdrahtung, einfacher Floorplan • Skalierbar Ring-Interleaver Bottleneck Breaker Zelle • Buffer • Routingdecision Units 1) M.J.Thul, F.Gilbert, N.Wehn „Optimized Concurrent Interleaving....“, ICECS02
Durchsatz Notwendige und hinreichende Bedingung für Kommunikationsnetzwerk, so daß Durchsatz des AP-MPSoC nicht reduziert wird • K Länge eines Datenblocks • NC Anzahl der Prozessoren in einem Buscluster • C Anzahl der Cluster = N/NC • pZugriff auf Prozessorknoten = 1/N (perfekter Interleaver) „Datentraffic“ auf einem Clusterbus • Grantnodes = C/(2C-1) • Grantbus-switch = 1-C/(2C-1) „Datentraffic“ auf Ringarchitektur („nearest neighbour routing“): Kommunikation erreicht Sättigung Verlängerungsantrag: weitere Strukturen z.B. chordale Ringe
UMTS TC Decoder (K=5114, 5 Iter) • Knotenprozessor „customized“ RISC der Firma Tensilica1 • Spezielle Befehle: Berechnung (Butterfly, max*), Datentransfers • 1.54 mm2 (0,18um Technologie), f=133 MHz • fR=1/9 (STM_ST120 fR=1/100, SC_140 fR=1/50, ADI_TS fR=1/27) (*) Validiert mit Tensilica Xtensa API Interface, Tensilica ISS Simulator 1) H.Michel, A.Worm, M.Münch, N.Wehn „Hardware/Software Trade-Offs for Advanced 3G Channel Coding“, DATE2002
Effizienzvergleich Architektureffizienz nimmt mit steigendem Parallelitätsgrad zu • Speicherdominante Anwendung • „Anwendungsspeichergröße“ bleibt konstant • Kommunikationsoverhead <10% der jeweiligen Gesamtfläche (*) Architektureffizienz (Block-Level)=1
Voltage Scaling Hochparallele Architektur erlaubt Anwendung von Voltage Scaling • Reduziere Versorgungsspannung bei gleichzeitigem Erhöhen des Parallelitäsgrad um Durchsatz konstant zu halten • „Hardwired“ Prozessorknoten mit maximalen Durchsatz i.e. fR=1 • Kommunikationsnetzwerk: reine Ringarchitektur VDD=1.8Volt VDD=1.3Volt VDD=1.3Volt VDD=1.8Volt Nahezu Halbierung des Energieverbrauchs Energiereduktion größer als Flächenzuwachs Architektureffizienz steigt
Zusammenfassung • Skalierbare Multiprozessorarchitektur • Effizientes Kommunikationsnetzwerk zur Auflösung des „Interleaverbottlenecks“ • große Architektureffizienz Nach bestem Wissen erstes bekanntes AP-MPSoC für diese Art von Anwendungen • Hochparalle Architektur • große Lokalität • Anwendungsoptimierte Prozessorknoten Geringer Energieverbrauch • Kommunikationsstrukturen bilden Engpass in AP-MPSoC • Durchsatz, Energie • großer Entwurfsraum Fortsetzungsantrag
Bisherige Arbeiten Optimierungen über alle Abstraktionsebenen Kanalcodierung System- ebene Turbo-Codes Anwendungsabhängig Transformation Lokalität/Parallelität Speicher- optimierungen2,6 Iterations- kontrolle3,4,6 Algorithmen- ebene Optimierungspotential Shutdown- Mode3,4 Voltage- Scheduling3,4 Performance- optimierter Code5,7 Loop-Merging2 Renormalisierung6 VLIW Prozessor3,4,5,7 konfig. RISC Prozessor5,8 AP-MPSoC Implementierungs- plattformen
Verlängerungsantrag • Kommunikation spielt in AP-MPSoC zentrale Rolle • Gesamtperformance • Energieverbrauch • Optimierte Kommunikationsstrukturen • Anwendungsabhängigkeit • Skalierbar • großer Entwurfsraum • Trade-off Latenz, Durchsatz versus Energie, Fläche, „DSM-Verträglichkeit“ Den Leistungsverbrauch und die Performance einer gewählten Kommunikationsstruktur in einem AP-MPSoC möglichst früh im Entwurfsprozess abschätzen zu können wird in Zukunft bei der Auswahl einer Zielplattform für Softwareimplementierungen auf AP-MPSoC eine immer wichtigere Rolle spielen
Arbeitsprogramm Zu betrachtetende Kommunikationsstrukturen • Bus-basiert: AMBA AHB-Bus • Arbitrierung, Split transactions, Burstlängen, Busbreiten, Bus-Splitting... • Heterogene Strukturen: direkte/indirekte, Busse • Topologie, Routingstrategie, Switchingstrategie, Arbitrierung, Pufferverwaltung, Datenbreiten... • Kostenfunktion zur Abschätzung des Energieverbrauchs • Bestimmung der relevanten Parameter (Architekturparameter, Implementierungsparameter) • Konstruktion der Kostenfunktion • Evaluierungsumgebung • Trade-off Latenz, Durchsatz versus Energie, Fläche, „DSM-Verträglichkeit“ • Automatische Generierung von Kommunikationstopologien • „Intelligentes Wachsen“ von Zufallsgraphen