60 likes | 263 Views
Mauro Olivieri, Simone Smorfa – Università “La Sapienza”, Roma. Francesco Pappalardo – ST Microelectronics, Catania. Ottimizzazione ed analisi prestazionale dell ’ algoritmo Jpeg2000 su piattaforme hardware alternative per implementazioni System-on-Chip. Jpeg 2000 (1/2).
E N D
Mauro Olivieri, Simone Smorfa – Università “La Sapienza”, Roma Francesco Pappalardo – ST Microelectronics, Catania Ottimizzazione ed analisi prestazionale dell’algoritmo Jpeg2000 su piattaforme hardware alternative perimplementazioni System-on-Chip
Jpeg 2000 (1/2) • Elevati fattori di compressione • Compressione lossless & lossy • Scalabilità in risoluzione e qualità • Region-of-Interest Coding: versatilità • Promettente per sistemi embedded • con applicazioni multimediali
Jpeg 2000 (2/2) • La diffusione e commercializzazione di Jpeg2000 è vincolata alla soluzione • di problemi implementativi legati al meccanismo di codifica. • Il core computazionale è estremamente oneroso (DWT & EBCOT) • Sono state proposte diverse realizzazione ASIC (ottimizzate sfruttando • il parallelismo intrinseco di diversi stadi dell’encoder). • In sistemi basati su microprocessore (ad esempio System-on-Chip), le • implementazioni software e relativa ottimizzazione sono di particolare • interesse per l’estrema flessibilità.
Architetture HW • Processing Element: • Processore LX-ST231 • 4 ALU, 2 moltiplicatori, 1 unità di load/ • store, 1 unità di branch. • Architettura VLIW: fino a 4 istruzioni • eseguibili in parallelo. • Schedulazione statica
Ottimizzazioni • Ottimizzazione del codice -> miglioramento della gestione della • memoria, minimizzazione degli stalli negli accessi alla cache dati. • Partizionamento ed allocazione ottima dei task su architettura • multiprocessore. • Sfruttamento del supporto SIMD/vettoriale per l’esecuzione parallela di • più istruzioni su architettura multicluster.
Risultati • Speedup medio pari a 1.7 con l’ottimizzazione del codice per • l’architettura scalare. • Speedup medio pari a 2.6 per la codifica di immagini a colori su • architettura a 4 processori (1.6 per l’architettura a 2 processori). • Risparmio medio del 33% dei cicli di clock necessari all’esecuzione • della DWT su architettura SIMD/vettoriale.