320 likes | 435 Views
Digitális hang, kép és videóállományok. Kiss Attila Információs Rendszerek Tanszék kiss@inf.elte.hu. Digitális médiaállományok. A számítógép számára a hang, kép, videó ugyanolyan állomány mint egy közönséges szöveges állomány. Általában az állomány kiterjesztése utal a média típusára.
E N D
Digitális hang, kép és videóállományok Kiss Attila Információs Rendszerek Tanszék kiss@inf.elte.hu
Digitális médiaállományok • A számítógép számára a hang, kép, videó ugyanolyan állomány mint egy közönséges szöveges állomány. Általában az állomány kiterjesztése utal a média típusára. • Képek nevének kiterjesztése: • BMP, JPG, GIF, TIF, PNG, PPM, … • Hanganyagok nevének kiterjesztése • WAV, MP3, … • Viedók nevének kiterjesztése: • AVI, MOV, …
Egy képállomány tartalma • Szövegszerkesztővel megnyitva egy képállományt értelmes és értelmetlen sorozatokat kapunk: P6: (Portable Pixel Map - ppm kép) Felbontás: 512x512 Színek száma: 255
A képállomány tartalma hexadecimálisan Általában egy fejlécben leíró információkat találunk.
Multimédia állományok forrásai • Multimédia állományok sokféle eszköz használatával keletkezhetnek: • digitális fényképezőgép, képolvasó, • digitális hang, vagy filmfelvevő, • digitális kamera. • Ezeknek a következő feladatokat kell végrehajtaniuk: • Mintavételezés: A folytonos jelekből véges sok mintát választunk ki. • Digitalizálás: A folytonos mintát véges számsorozattá alakítják. • Tömörítjük a számsorozatot.
Egy hang audiójele • A hang audiójele megjeleníthető, nagyítható, szerkeszthető, transzformálható (erősíthető, halkítható, lemezkattogás eltávolítható, stb.)
A folytonos audiójelből szabályos időközönként mintákat veszünk Jelperiódus: T, f = 1/T Mintaperiódus Ts, fs =1/Ts T >= 2Ts kell, hogy legyen.
fs = 2.5f fs = 1.67f Egy másik jel A minta alapján nem különböztet-hetők meg. Torzítást eredményez. Eredeti jel
fs = 2f Végtelen sok szinuszhullámot lehet a pontokra illeszteni.
A frekvencia felbontása • A folytonos jelet véges vagy végtelen sok szinusz hullám összegeként lehet előállítani. • A szinusz komponenseket “Fourier-transz-formációval” lehet előállítani. • A felbontást és a továbbiakat tetszőleges jelre (nem csak audióra, hanem képekre, videóra) lehet alkalmazni. • Ha a jel frekvenciakomponensei {f1 < f2 < f3 … < fn}, akkor milyen minimális mintafrekvenciát kell használni?
Nyquist tétele • Nyquist tétel • Ahhoz, hogy a folytonos jel visszaállítható legyen a mintából, teljesülnie kell a következőnek fs > 2fmax ahol fmaxa jel komponensei közül a legnagyobb frekvenciájú jel frekvenciája. • Ha a jel komponenseinek frekvenciái [f1, f2] intervallumba esnek, akkor a visszaállíthatósághoz annak kell teljesülnie, hogy fs >2 (f2-f1).
Képek mintavételezése • A mintavételezési tétel 2D jelekre (képekre) is alkalmazható. Mintavételezés rácspontokon. Milyen sűrű legyen a rács?
A rossz mintavételezés miatt torzulás keletkezik Homályosabb a kép, és a kendő és nadrág csíkjaiban furcsa interferálás látható.
Digitalizálás • A mintavételezéssel kapott jel még folytonos, végtelen sok lehetséges értéket tartalmazhat. • A digitalizálás sorám ezt a végtelen sok értéket akarjuk fix számú számmal leírni, közelíteni. • N szám leírásához log2N bitre van szükségünk. • Mi határozza meg, hogy egy hang vagy kép esetén hány bittel kódoljuk a mintát?
Audiójelek digitalizálása • Mit jelent, hogy egy audiójel 16bites és 44kHz-es? • A 44KHz a mintavételezési frekvencia. A zenékben általában magasabb frekvenciakomponensek fordulnak elő mint a beszédben. A 8kHz mintavételezés a telefonminőségű beszéd rögzítéséhez szükséges mintavételezés. • 16bit azt jelenti, hogy minden mintát 16bites egészként ábrázolunk. • Arra is gondolni, kell, hogy a digitális audiójelek több csatornát is tartalmazhatnak.
Digitális képek Egy kép mintavételezése pixelenként történik. A pixelek mátrixot alkotnak.
A digitális képek típusai • Szürkeárnyalatos (Grayscale)kép • Általában 256 szintje lehet a pixeleknek. Így minden pixelt 8bittel tudunk megadni. • Az MRI orvosi képek 16 bittel írnak le egy pixelt.
Bináris kép A bináris kép csak 1 bitet használ pixelenként (0 vagy 1). A bináris képeknek fontos szerepük van a képelemzésekben, objektumok felismerésében.
Bitsíkok [ b7 b6 b5 b4 b3 b2 b1 b0] MSB LSB MSB – legszignifikánsabb bit az első LSB – legkevésbé szignifikáns bit az utolsó A 8 bit komponensei alapján 8 bináris képet (bitsíkot) kapunk.
Összemosás (Dithering) • Szürkeárnyalatos képet bináris képpel is reprezentálhatunk. Maredékos osztással a 256 érték 4 értékre konvertáljuk: I’ = floor(I/64) 1 0 2 3
Dithering mátrix • Egy Dithering mátrixszal reprezentáljuk a 4 szintet. Kevesebb színnel érjük el az eredeti hatást. 1 0 2 3 0 1 23 A mátrix ebben az esetben: Hasonlóan csak piros és kék váltakozása lila színt eredményez, ha elég kicsik a pontok.
A színes képek felbontása 3 színkomponensre bontjuk a képet. Mindegyik szín intenzitása egy szürkeárnyalatos képet definiál. r g b 24 bit image RGB – piros, zöld, kék Más színsémák: YUV, HSV.
Színtábla 256 színt használó kép Kevesebb szín használata is elég, ha klaszterezéssel meghatározzuk a képen az azonos színű csoportokat. b r g Színklaszterek
Az emberi szem érzékelése A szemben kétféle fényérzékelő sejt működik: a csapok és pálcikák. A pálcikák a fekete-fehér látványt érzékelik. A csapok a színeket érzékelik. Háromféle csap érzékeli a háromféle színt. Színinger-összetevők előállítása színinger-megfeleltető függvények és E sugárzáseloszlás alapján: R = s E(l) Sr(l)dl G = s E(l) Sg(l)dl B = s E(l) Sb(l)dl
A színek A színösszetevők meghatározása kísérlettel.
A Gamma korrekció • A képernyők fényessége I’ nem lineáris az input kép I fényességéhez viszonyítva. I’ = Ig • Hatványozással korrigáljuk a fényességet: (I’)1/g = I Például CRT esetén ag 2.2 körüli érték. 0,5 fényességű képet csak 0,218 fényességűnek mutat a képernyő.
A Gamma korrekció Lineárisan változó fényesség Gamma korrekció nélkül nem lesz egyenletes. Lineárisan változó fényesség Gamma korrekcióval már egyenletes lesz.
Videójelek • Analóg videójelek Páratlan frame Páros frame fehér fekete 0v 52.7us 10.9us
Digitalálisvideó N. Frame idő 0. Frame A digitális videó egy 3D függvénnyel írható le: f(x,y,t)
Színes videók (PAL) • YUV színsémát használ a PAL rendszer. • Az YUV és RGB közti transzformáció a következő: • Y a fényességi komponens Y = 0.299 R + 0.587 G + 0.144 B • U és V két színkomponens. U = B – Y V = R - Y Y U V
Színes videók (NTSC) • YIQ az NTSC sémája • YCbCr: A JPEG-ben használt színséma I Q