1 / 31

Föreläsning 1: Bild- och ljudkodning

Föreläsning 1: Bild- och ljudkodning. 1. Kursöversikt 2. Introduktion till bild- och ljudkodning - syfte - historik - antal bitar per bildpunkter/sampel 3. Två principiella klasser : distorsionsfri och distorderande kodning

Download Presentation

Föreläsning 1: Bild- och ljudkodning

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Föreläsning 1: Bild- och ljudkodning 1. Kursöversikt 2. Introduktion till bild- och ljudkodning - syfte - historik - antal bitar per bildpunkter/sampel 3. Två principiella klasser : distorsionsfri och distorderande kodning 4. Modeller för bild- och ljudsignaler samt därav inspirerade kodningsmetoder

  2. Kursöversikt - föreläsningar F1: Introduktion till bild- och ljudkodning F2: Informationsteoretiska begrepp F3: Källkodningsteori, Huffmankodning F4: Aritmetisk kodning, Lempel-Ziv-kodning F5: Analoga signaler, Skalär kvantisering F6: Vektorkvantisering F7: Prediktiv kodning F8: Transformkodning F9: Delband/Wavelet-kodning F10: Audiokodning F11: Videokodning F12: Talkodning, Modellbaserad videokodning, Video/audio över nätverk

  3. Kursöversikt - övrigt • 12 föreläsningar • 8 lektioner • 2 datorlektioner • 2 laborationer (varav en är schemalagd) Kurslitteratur: • K. Sayood, Introduction to Data Compression • Diskreta Markovprocesser (kurshemsidan) • Övningshäfte, formelsamling (kurshemsidan) • Kurshemsida: www.icg.isy.liu.se/courses/tsbk02/ • - labbokning, labbanvisningar, extramaterial

  4. Bild- och ljudkodning Syfte: effektiv (digital) representation av bilder, video, tal och musik. Bivillkor: - god kvalitet - tålighet mot kanalfel - realtidsprestanda - kostnadseffektiv

  5. Bild- och ljudkodning Telekommunikation Bildanalys Spektralanalys Bild/ Ljudkodning Psykoakustik Perception Talsyntes Datorgrafik Digital signalbehandling

  6. Tillämpningar Video Bildtelefoni Videokonferens Multimedia Videokameror Digital-TV DVD, Blu-ray Stillbilder Fax Teleradiologi Webb Digitalkameror Bilddatabaser Ljud CD Mobiltelefoner MP3-spelare DAB Film/video-ljud

  7. Telefoni g Smartphone 2014 Ericsson 1905

  8. Television Baird 1930 OLED 2014

  9. Den elektroniska bilden – analogt format Bilden avsöks linje för linje och ger upphov till en analog signal. I Bairds mekaniska TV-system användes 30 linjer och videobandbredd ca 10 kHz.

  10. Den elektroniska bilden – digitalt format En bildpunkt representeras med en eller flera databitar. Representationen kallas Pulskods-modulation (PCM).

  11. Bilder: hur många bildpunkter? Baird 30*50 (ca) TV (PAL) 720*576 HDTV 1920*1080 QFHD 3840*2160 Digitalkamera 2 - 40Milj.

  12. Hur många bitar per bildpunkt? Bitar/bildpunkt Bildtyper Exempel 1 4 8 12-16 8*3=24 8*4=32 binära fax enkel datorgrafik tidiga spel gråskalebilder telefoto högkontrast röntgen Färgbilder (RGB) digital foto RGB med alpha datorgrafik

  13. Ljud: antal bitar per sampel och per sekund (PCM-kodning) CD-kvalitet • 16 bitar per sampel • 44100 sampel per sekund • Två kanaler • =>1.4 Mbit/s • Betraktas ofta som referens (”okomprimerat ljud”) • Modern kodningsmetoder: 64 kbit/s med god kvalitet Digital telefoni • 8 bitar per sampel • 8000 sampel per sekund • =>64 kbit/s • Moderna kodningsmetoder: 4 kbit/s med god kvalitet

  14. Video: antal bitar per sekund (PCM-kodning) TV-kvalitet • 3*8 bitar (RGB) per bildpunkt • 720*576 bildpunkter per bild (PAL) • 25 bilder per sekund • =>250Mbit/s HDTV-kvalitet • 3*8 bitar (RGB) per bildpunkt • 1920*1080 bildpunkter per bild (1080i) • 25 bilder per sekund • =>1.24Gbit/s

  15. 8 16 64 384 1.5 5 20 kbit/s Mbit/s Low bitrate Medium bitrate High bitrate Very low bitrate Video: kodningsmetoder Model-based Video coding Video CD Digital TV, DVD HDTV 3G Mobilevideophone MPEG-4 H.264 H.263 H.261 MPEG-1 MPEG-2

  16. Distorsionsfri (”lossless”) kodning (Datakompression) Representera en digital signal med färre bitar än originalet på så sätt att signalen kan rekonstrueras exakt. Den undre begränsningen ges av entropin för data (baseras på Informationsteori). Exempel: ZIP, compress, GIF, PNG, FLAC

  17. Distorderande (”lossy”) kodning Representera en digital eller analog signal med så få bitar som möjligt så att signalen kan rekonstrueras med godtagbar kvalitet. Exempel: GSM, JPEG, MPEG-2, H.264, MPEG-1 layer 3 (mp3), AAC, WMA,...

  18. Typisk kodarstruktur Analog signal Digital Signal (PCM) Distorderad digital signal Distorsionsfri Kodning Sampling kvantisering Distorderande kodning

  19. Kodning av bild och ljud bygger på modeller S(t) t Genereringsmodeller Signalmodeller Syn/hörsel-modeller • spatio/temporal modeller • maskeringsegenskaper • 3D-objekt • belysning • kameraprojektion • ljudgenerering • determ. modeller • statistiska modeller Signalteoretiska kodningsmetoder Modellbaserade kodningsmetoder Perceptionsbaserade kodningsmetoder

  20. t t Statistiska signalmodeller Minnesfria signaler Varje signalvärde är oberoende av övriga signalvärden. Signaler med minne Signalvärden är beroende av ett eller flera övriga signalvärden.

  21. Autoregressiv modell - en amplitudkontinuerlig Markovmodell xk xk = S aixk-i + nk nk: minnesfri process Lämpar sig väl för att modellera ljudsignaler

  22. Korrelationsmodell För bilder kan 2-dimensionella korrelationsfunktioner vara användbara: xij eller xkl

  23. Exempel på kodning av minnesfri källa Gråskalebild med nivåer mellan 0 - 3. Statistisk redundans: de olika nivåerna förekommer olika ofta (se figur). Kodningsmetod: Variabel-längdkodning (VLC) PCM 0 - 00 1- 01 2 - 10 3 - 11 VLC 0 - 0 3 - 10 1 - 110 2 - 111 2 bitar/bildpunkt 1.75 bitar/bildpunkt i genomsnitt!

  24. Exempel på kodning av minneskälla Bildtyp: fax. Statistisk redundans: närliggande bildpunkter har ofta samma värde. Kodningsmetod: koda skurlängderna. Skurkod: 15,15,15,4,5,6,4,6,5,3,… Antag 4 bitar/skur: 45*4 = 180 bitar jfr. okodat: 15*15 = 225 bitar

  25. Prediktiv kodning (DPCM)(för AR-processer) Princip: • gissa (prediktera) hur bilden ser ut, • beräkna skillnaden (felbilden), • variabel-längdkoda felbilden.

  26. Transformkodning (för 2D-korrelerade källor) xij xkl

  27. Modellbaserade kodningsmetoder - används vid kodning av talsignaler - och för kodning av ansiktsbilder

  28. Perceptionsbaserade kodningsmetoder (är mer användbara för ljudkodning än för bildkodning) dB 40 30 20 Dämpningskurva 10 0 2 4 6 8 10 12 kHz

  29. sådan symmetri ger enkel matematisk beskrivning... Fraktalkodning Grundidé: sök självliknande delar i bilden...

  30. Fraktalkodning, forts. Varje bild kan göras självlik...

More Related