1 / 14

Norbert Wehn Frank Gilbert

Effiziente Implementierungen von iterativ arbeitenden Kanalcodierungsverfahren auf eingebetteten Multiprozessorarchitekturen. Norbert Wehn Frank Gilbert. Drahtlose Kommunikation. Herausforderungen aus Implementierungssicht Algorithmische Komplexität „Shannon‘s Law beats Moore‘s Law“

Download Presentation

Norbert Wehn Frank Gilbert

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Effiziente Implementierungen von iterativ arbeitenden Kanalcodierungsverfahren auf eingebetteten Multiprozessorarchitekturen Norbert Wehn Frank Gilbert

  2. Drahtlose Kommunikation Herausforderungen aus Implementierungssicht • Algorithmische Komplexität • „Shannon‘s Law beats Moore‘s Law“ • Programmierbarkeit/Flexibilität • QoS, „multi-mode“ Unterstützung • Geringer Energie-/Leistungsverbrauch • Aber: „Energy-Flexibility“ Lücke • Entwurfsraum: Algorithmen und Architektur • .... Neuartige Achitekturen: AP-MPSoC • skalierbar, programmierbar, energieeffizient • anwendungsspezifische Prozessorknoten • anwendungsspezifische Kommunikationsstrukturen

  3. Energieverbrauch in AP-MPSoC • Hohe Parallelität • Einfache Knotenprozessoren (an Anwendung angepaßt) • Geringe Taktfrequenz • (dynamic) Voltage Scaling • (Skalierbarkeit) • Hohe Lokalität • Minimiert Kommunikation Transformationen • Bit-genaue Transformationen (z.B. Loop Merging) • anwendungsspezifische Transformationen • Kommunikationsstrukturen • Wires, Switches, FIFOs, Arbiter • Protokoll • Trade-off: Durchsatz versus Energieverbrauch anwendungsabhängig

  4. Algorithmenauswahl • Intensive Matrixberechnungen z.B. „Interference Cancellation“ • Zahlreiche Publikationen z.B. systolische Arrays • Iterativ, blockorientiert, Datenverwürflung z.B. Turbo-Prinzip, LDPC • Abbildung auf Multiprozessorarchitekturen weitgehend unerforscht! PU - Latenz - Fläche - Energie 1 wort/cycle Block-Level PU Buffer PU Speed-Up sendtraffic PE1 av(rectraffic)~ av(sendtraffic) Subblock-Level PE2 peak(rectraffic)~ N*(sendtraffic) „Interleaver Bottleneck1“ PEN rectraffic Kommunikation: skalierbar, Durchsatz ! 1) M.J.Thul, N.Wehn, L.P.Rao „Enabling High-Speed Turbo-Decoding Through Concurrent Interleaving“, ISCAS02

  5. Bus-basiertes AP-MPSoC N Anzahl der Prozessoren fR Datenerzeugungsrate pro Taktzyklus Durchsatzanforderung an Kommunikation: N * fR Daten pro Taktzyklus N ≤ 1/fR: Bus-Architektur möglich Prozessor an Anwendung angepasst „Message passing“ Kommunikation XLMI: „single cycle“ Speicherzugriff Bus-Architekturen nicht skalierbar, eingeschränkter Durchsatz Beispiel UMTS TC Kanaldecoder Blockgröße=5114, 5 Iterationen, f=133MHz, fR=1/5 • maximal N=5 Prozessorknoten bedienbar • maximaler Durchsatz=7.28 Mbit/s

  6. P2 RIBB Left P6 Out Left In Buffer P3 P7 RIBB2 Local In Bus Switch RIBB3 RIBB1 Local Out P5 P1 RIBB0 Buffer Right Right In Out P4 Buffer P0 Heterogene Struktur Verwendung einer Ringarchitektur1 • Lokalität, keine globale Verdrahtung, einfacher Floorplan • Skalierbar Ring-Interleaver Bottleneck Breaker Zelle • Buffer • Routingdecision Units 1) M.J.Thul, F.Gilbert, N.Wehn „Optimized Concurrent Interleaving....“, ICECS02

  7. Durchsatz Notwendige und hinreichende Bedingung für Kommunikationsnetzwerk, so daß Durchsatz des AP-MPSoC nicht reduziert wird • K Länge eines Datenblocks • NC Anzahl der Prozessoren in einem Buscluster • C Anzahl der Cluster = N/NC • pZugriff auf Prozessorknoten = 1/N (perfekter Interleaver) „Datentraffic“ auf einem Clusterbus • Grantnodes = C/(2C-1) • Grantbus-switch = 1-C/(2C-1) „Datentraffic“ auf Ringarchitektur („nearest neighbour routing“): Kommunikation erreicht Sättigung Verlängerungsantrag: weitere Strukturen z.B. chordale Ringe

  8. UMTS TC Decoder (K=5114, 5 Iter) • Knotenprozessor „customized“ RISC der Firma Tensilica1 • Spezielle Befehle: Berechnung (Butterfly, max*), Datentransfers • 1.54 mm2 (0,18um Technologie), f=133 MHz • fR=1/9 (STM_ST120 fR=1/100, SC_140 fR=1/50, ADI_TS fR=1/27) (*) Validiert mit Tensilica Xtensa API Interface, Tensilica ISS Simulator 1) H.Michel, A.Worm, M.Münch, N.Wehn „Hardware/Software Trade-Offs for Advanced 3G Channel Coding“, DATE2002

  9. Effizienzvergleich Architektureffizienz nimmt mit steigendem Parallelitätsgrad zu • Speicherdominante Anwendung • „Anwendungsspeichergröße“ bleibt konstant • Kommunikationsoverhead <10% der jeweiligen Gesamtfläche (*) Architektureffizienz (Block-Level)=1

  10. Voltage Scaling Hochparallele Architektur erlaubt Anwendung von Voltage Scaling • Reduziere Versorgungsspannung bei gleichzeitigem Erhöhen des Parallelitäsgrad um Durchsatz konstant zu halten • „Hardwired“ Prozessorknoten mit maximalen Durchsatz i.e. fR=1 • Kommunikationsnetzwerk: reine Ringarchitektur VDD=1.8Volt VDD=1.3Volt VDD=1.3Volt VDD=1.8Volt Nahezu Halbierung des Energieverbrauchs Energiereduktion größer als Flächenzuwachs Architektureffizienz steigt

  11. Zusammenfassung • Skalierbare Multiprozessorarchitektur • Effizientes Kommunikationsnetzwerk zur Auflösung des „Interleaverbottlenecks“ • große Architektureffizienz Nach bestem Wissen erstes bekanntes AP-MPSoC für diese Art von Anwendungen • Hochparalle Architektur • große Lokalität • Anwendungsoptimierte Prozessorknoten Geringer Energieverbrauch • Kommunikationsstrukturen bilden Engpass in AP-MPSoC • Durchsatz, Energie • großer Entwurfsraum Fortsetzungsantrag

  12. Bisherige Arbeiten Optimierungen über alle Abstraktionsebenen Kanalcodierung System- ebene Turbo-Codes Anwendungsabhängig Transformation Lokalität/Parallelität Speicher- optimierungen2,6 Iterations- kontrolle3,4,6 Algorithmen- ebene Optimierungspotential Shutdown- Mode3,4 Voltage- Scheduling3,4 Performance- optimierter Code5,7 Loop-Merging2 Renormalisierung6 VLIW Prozessor3,4,5,7 konfig. RISC Prozessor5,8 AP-MPSoC Implementierungs- plattformen

  13. Verlängerungsantrag • Kommunikation spielt in AP-MPSoC zentrale Rolle • Gesamtperformance • Energieverbrauch • Optimierte Kommunikationsstrukturen • Anwendungsabhängigkeit • Skalierbar • großer Entwurfsraum • Trade-off Latenz, Durchsatz versus Energie, Fläche, „DSM-Verträglichkeit“ Den Leistungsverbrauch und die Performance einer gewählten Kommunikationsstruktur in einem AP-MPSoC möglichst früh im Entwurfsprozess abschätzen zu können wird in Zukunft bei der Auswahl einer Zielplattform für Softwareimplementierungen auf AP-MPSoC eine immer wichtigere Rolle spielen

  14. Arbeitsprogramm Zu betrachtetende Kommunikationsstrukturen • Bus-basiert: AMBA AHB-Bus • Arbitrierung, Split transactions, Burstlängen, Busbreiten, Bus-Splitting... • Heterogene Strukturen: direkte/indirekte, Busse • Topologie, Routingstrategie, Switchingstrategie, Arbitrierung, Pufferverwaltung, Datenbreiten... • Kostenfunktion zur Abschätzung des Energieverbrauchs • Bestimmung der relevanten Parameter (Architekturparameter, Implementierungsparameter) • Konstruktion der Kostenfunktion • Evaluierungsumgebung • Trade-off Latenz, Durchsatz versus Energie, Fläche, „DSM-Verträglichkeit“ • Automatische Generierung von Kommunikationstopologien • „Intelligentes Wachsen“ von Zufallsgraphen

More Related