400 likes | 579 Views
Komprese obrazu. Adolf Knoll Národní knihovna České republiky. Obecná schémata pro aplikaci komprese. Schémata jsou přizpůsobena charakteru reprezentovaných objektů: Bitonální obraz (1-bit, černobílý) Barevný fotorealistický obraz Smíšený dokument (obě výše uvedené komponenty). Trendy.
E N D
Komprese obrazu Adolf Knoll Národní knihovna České republiky
Obecná schémata pro aplikaci komprese Schémata jsou přizpůsobena charakteru reprezentovaných objektů: • Bitonální obraz (1-bit, černobílý) • Barevný fotorealistický obraz • Smíšený dokument (obě výše uvedené komponenty)
Trendy • Bitonální • od CCITT Fax Gr. 3 a 4 k variantám JBIG • Fotorealistický • Bezeztrátová komprese: PNG, TIFF/LZW • Ztrátová: od JPEG DCT k wavelet • Smíšený dokument • Aplikace obého (Mixed Raster Content – Smíšený rastrový obsah – obvykle vertikálně)
Jak jsou kompresní schémata zabudována do formátů? • Snahou je obvykle ISO TIFF (v něm jsou možné dokonce JPEG, LZW nebo PNG) – ale to nestačí, protože mohou chybět nástroje na konverze a zobrazení • Proto jsou používány jiné vhodnější formáty, například JPEG nebo PNG • Z tohoto důvodu jsme též svědky velkého rozvoje v oblasti smíšených formátů, přestože tyto si nekladou za cíl bát normou ISO
Relevantní směry • Bitonální obraz • JBIG2 (ISO) – pokusy jednotlivých firem, naoř. LuraTech; existují i odvozené aktivity (například bitonální kompresor v DjVu) • Fotorealistický obraz • wavelet JPEG2000 a některé další ne-ISO iniciativy (WI, LWF, IW44, SID, Imagepower IW, …) • Smíšený obsah • DjVu, LDF a další řešení LuraTech, v minulosti Imagepower MRC
Archivace obrazu standardizovaný archivní formát (TIFF, JPEG, PNG, …) Dodávání obrazů Účinnější moderní formát (JB2, MrSID, DjVu, LDF, …) Cíle Jak se vyrovnat s těmito dvěma cíli? Klíč je v zaměření projektu.
Komprese… • Předzpracování obrazu • Komprese • Zakódování do obrazového formátu • Dekódování z formátu • Dekomprese • Zobrazení - Tisk
Předzpracování bitonálního obrazu - I • Účinná schémata jsou stavěna na možnostech aplikace slovníků pixelových shluků: Např. text je obraz, který může být interpretován jako velké množství obrázků jednotlivých písmen, zatím co opakovaný výskyt každého písmene může být vyjádřen souřadnicemi (x,y) a odkazem na slovník, ve kterém je pouze jedna reprezentace podobných písmen (digitalizována jen jednou jako bitmapa) Tato metoda se nazývá PATTERN MATCHING (porovnávání se vzorem), ale…
Předzpracování bitonálního obrazu - II Naskenované texty obsahují však spoustu informačního šumu ve shlucích pixelů, představujících jedno písmeno v textu, i mimo ně Proto je vhodné omezit odchylky mezi identicky identifikovatelnými shluky • vyhlazování • obracení pixelů • odstranění šumu
Problémy v pattern matching Česká republika Originál nebo sken nízké kvality + špatné zpracování
Soft pattern matching • Lepší práce se slovníky; náhrada jen tam, kde je jistota, že nebude překročen kritický práh vedoucí k nežádoucí záměně shluků • Kdyby to hrozilo, je uložena další malá bitmapa • Vyladění těchto mechanismů je klíčem k úspěšné aplikaci ztrátové komprese bitonálního obrazu.
Jak to zjistit… • Knihovny mají dokumenty různé kvality vč. té velmi špatné • Tyto dokumenty se obtížněji zpracovávají než kvalitní vzorky prezentované softwarovými firmami • Je třeba testovat na typických materiálech, které chceme digitalizovat v knihovnách
Bitonální komprese • Bezeztrátová (LZW, PNG, …, CCITT Fax Group 3 and 4, JB2, JBIG, JBIG2, Algo Vision/Luratech • Moderní ztrátová schémata: • AT&T (Lizardtech) (JB2) – soft pattern matching • ImagePower Inc. JBIG2 (JB2) – v minulosti - pouze pattern matching • Summus Inc. (Lightning Strike), ...
GIF by byl mírně horší než PNG
Vliv kvality digitalizovaných originálů na výkonnost kompresních schémat
JB2 • Nejvýkonnějším kompresním schémat je JB2 z formátu DjVu (AT&T/Lizardtech). • Umožňuje kompresi: • bezeztrátovou • ztrátovou • agresivní – nastavitelná; zachovává vysokou čitelnost originálu • Zkuste si komprimovat do DjVu on-line: http://any2djvu.djvuzone.org/
JB2 jako komponenta formátu DjVu • Více souborů může být sloučeno a uloženo v jednom (jako v PDF) – mají společný slovník, takže jejich celkový objem bude menší než součet objemů individuálních souborů • Více souborů může být sloučeno virtuálně (na webu jsou volány dle potřeb uživatele) • Více výhod: display, odkazy, OCR, … (DjVu plug-in) • Drahý kódující software + řada řešení zdarma
Vzorky a résumé • Je třeba monitorovat a testovat nové způsoby zpracování obrazu • Nové přístupy mohou být velmi vhodné pro systémy dodávání dokumentů • Obrazové servery • Naskenovaný obsah • Klikněte, pokud máte zájem si přečíst speciální studii
Které formáty jsou vhodné pro bitonální obraz? • Jestliže chcete nejjednodušší řešení: • GIF • Jestliže chcete menší soubory, používejte PNG • Oba formáty jsou doporučeny pro web • Úspornějším řešením je však TIFF/CCITT Fax Gr. 4 • Používejte DjVu/JB2, pokud chcete velmi malé soubory
Problémy • Zavedený software pro práci s obrazem obvykle neobsahuje podporu pro TIFF s kódováním CCITT Fax Gr. 4 • Na druhé straně je uvedený TIFF dobře zobrazitelný elementárními nástroji Windows • GIF a PNG podporují též větší barevnou hloubku (GIF: 8 bitů / PNG: 24 bitů i více) – vyhněte se ukládání bitonálního obrazu ve větší barevné hloubce • DjVu – je vždy nezbytné mít na paměti výrobu a příjem obrazu v tomto formátu
Komprese barevného obrazu Bezeztrátová • LZW • GIF (pouze 8 bitů) • TIFF (od verze 5.0) • PNG • Wavelet • JPEG2000 (JP2) • … Ztrátová • DCT (JPEG) • Fraktální komprese • Wavelet • IW44 • LWF, WI • JPEG2000 (JP2) • MrSID, … V podstatě ale jde o střet klasických přístupů s technologií wavelet.
Barevný obraz DCT wavelet
Účinnost komprese – barevný obraz Referenční vzorek
Jak aplikovat kompresi? Záleží na charakteru objektů v obraze: • Fotorealistický obraz (JPEG, wavelet) • Text a jednoduchá černobílá grafika (Fax Group 4, JB2, …) • Barevná grafiky (problém ztrátové komprese; je lépe bezeztrátově v PNG nebo GIF – aplikační oblast vektorové grafiky - SVG) • Smíšený obsah (složená řešení: DjVu, LDF, …)
Nejúčinnější řešení Segmentace obrazu do dvou nebo více skupin objektů: • Objekty vhodné pro bitonální konverzi • Objekty vhodné pro barevnou reprezentaci Komprimovat každou skupinu zvlášť a potom je sloučit v jednom formátu.
Text Grafika Fotografie Imagepower Inc. Horizontální segmentace/zónování
Vertikální segmentace/zónování • popředí • pozadí Lizardtech Inc. (AT&T) Luratech GmBH DjVu, LDF
Další vlastnosti DjVu Více obrazů v jednom souboru: • jako TIFF, PDF, LDF, …, s použitím společného slovníku pixelových shluků • virtuálně: stránky zůstanou na serveru a dodána je jen ta strana, která je volána Příklad virtuálního DjVu
Obrazový soubor s několika rozlišeními MrSID • V jednom souboru je (až 9) obrazů v různých rozlišeních • Účinné ve spojení s obrazovým serverem Příklad MrSID(bez obrazového serveru)