590 likes | 694 Views
Internetes médiakommunikáció Beszéd-kodekek. Takács György 3. előadás 2009. 03. 04. Ismétlés Beszéd-kodekek általában GSM beszéd-kodekek SPEEX kodekek. Alapfogalmak.
E N D
Internetes médiakommunikációBeszéd-kodekek Takács György 3. előadás 2009. 03. 04. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
Ismétlés • Beszéd-kodekek általában • GSM beszéd-kodekek • SPEEX kodekek T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
Alapfogalmak • Internetes médiakommunikáció = Szöveg, állókép, hang, beszéd, (strukturált) adat továbbítása Internet Protokoll alapú hálózatokon a megkívánt minőséggel, adatbiztonsággal, interaktivitással, megbízhatósággal. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
A beszédhangok folytonos és diszkrét természete T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
A beszéd szerkezete • A beszéd egymástól megkülönböztethető elemek szervezett időbeni egymásutánisága – soros szerkezet. • Elem lehet egy összefüggő mondanivaló, egy hosszabb szünetekkel elhatárolt beszédrész, egy mondat, egy szó, egy beszédhang. • Egy ötven beszédhangból álló nyelvben (leszámítva, hogy nem minden hang mondható egymás után) kb. egymillió különböző tíz hangból álló szó képezhető. • A beszéd szerkezete felülről gyakorlatilag nyitott, alulról zárt. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
Lineári predikció alapok A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az αilineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
A predikció pontatlanságát jellemzi az predikciós hiba A predikciós hiba általában mintáról mintára változik! Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az αi értékeket, hogy a predikciós hiba négyzetösszege minimális legyen. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
(a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már nem korlátoz? T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
Minek tömöríteni a beszédjelet – válaszaim: • Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél). • Nagy az árverseny a transzkontinentális összeköttetéseken • Korlátos és nem garantált az interneten rendelkezésre álló sávszélesség….. • Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…) • Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány) • A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál) T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
Mekkora redundancia van a beszédjelben?Hány bitet kell átvinni legalább elvileg? (A digitális telefonátvitelben 8kHz mintavétel és 8 bites minta a szabványos > 64kbit/s) T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
Mekkora a redundancia – válaszaim beszédkeltés, beszédszintézis megfontolásból: • A leggyorsabb beszéd átlagosan kb. 10 fonéma/s • A kb. 50 fonéma van nyelvenként (angolban kb. 25) • 1 fonéma információ tartalma kb. 0,5 bit (az egyes fonémák előfordulási gyakorisági értékei miatt) • Eredmény kb. 250 (angolban 125) bit/s (de ez nem tartalmazza a beszélő személyét, hangulatát, a hangsúlyokat stb….) T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
Mekkora a redundancia – válaszaim beszédérzékelés, beszédfelismerés megfontolásból: • Az emberi agy teljes folyamatos információ feldolgozó képessége kb. 50 bit/s • Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s (hivatkozott cikk lásd 2. előadás) T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
Miből fakad a nagyságrendi eltérés? T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
Miből fakad a nagyságrendi eltérés – válaszaim: • Amikor én Önök elé állok szerdán délután mit szoktam mondani első mondatban? • Mekkora új információt hordoz Önök számára, ha ismét elmondom? • A nyelv (mint jelrendszer) szintaktikája miatt (milyen szavak vannak a szótárban, milyen szabályok szerint kapcsolódhatnak egymáshoz, milyen a nyelvtani megkötöttségek) – mekkora már a lehetséges és tényleg használt szimbólum stringek aránya??? • Mekkora az egymás mellé sorsolható és a tényleg kimondható fonéma stringek aránya???? • Ha már a második magánhangzónál tartunk mekkora a magánhangzó rákövetkezésének esélye????? • Az eltérés mértéke attól függ, hogy milyen mély nyelvi elemzésbe megyünk bele, mennyire értjük az üzenetet, mennyire személyes az információs kapcsolat…. • Ha a tényleges legmélyebb, személyes szintre megyünk le – még a 30 bit/s is alig jön ki – tehát nincs eltérés!!!!! T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
Mit várunk a beszédtömörítőktől? • Értse amit mondunk – nem! • Tudja milyen nyelven beszélünk – nem! • A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvaló a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket! T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
Hol tart ma a beszédtömörítés gyakorlata az elvi határértékhez képest? • A laboratóriumi rendszerek lementek 1 kbit/s alá! • Ami az Önök zsebében most ott lapul , az 5,6 kbit/s értéket tudja (half rate codec) • Nyilvános rendszerek alkalmazásaiban legyen szabványos, realizálható, hibatűrő, minőség/sávszélesség aránya szerint skálázható. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
Semmi tömörítés: DÉL Tömörítés abszolút nullára: ÉJFÉL GSM HALF RATE 23 óra 18 perc (5600 bit/s) GSM FULL RATE 22 óra 29 perc (13000 bit/s) Shannon szerinti telefon 13 óra (96000bit/s) Elvi kiejtési határ 23 óra 58 perc 250 bit/s Laboratóriumi csúcs 23 óra 51 perc 1000bit/s T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
"A lathe is a big tool. Grab every dish of sugar." Eredeti 2400 bit/s T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
A GSM rendszer -- áttekintés • Nyilvános cellás (analóg) rádiótelefon rendszerek működtek az 1980-as évek elejétől • Korlátaik: • sávszélesség pazarlás, • csak a saját hálózaton belül használható egy végberendezés, • nem tudott kialakulni a kritikus tömeg a magas árak miatt… T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
A GSM rendszer – áttekintés (2) • GSM Memory of Understanding -- 13 ország megállapodása 1987-ben, hogy kidolgozzák a közös technológiát 1991 július 1-re. • A rendszer legyen korszerű, hatékony, tegye lehetővé a bolyongást egész (nyugat) Európában. • A végberendezés legyen egységes, az előfizetés SIM kártyához kapcsolódik…. • Legyen versenylehetőség országon belül is….. • Először szabványosítás, utána gyártás…. • Szabványosítás az ETSI keretében… • Első változat 6000 oldal!!!! T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
A GSM rendszer – áttekintés (3) • Az európai megoldás eredménye: • Soha nem látott ütemű fejlődés, • Ma Magyarországon közel 11 millió előfizető (2008. április), • A világon több, mint 2 milliárd GSM előfizető volt 2007 végén • 2003-ban kb. 400 millió codec chip készült (több mint napi 1 millió darab!!!!) • Ma csak erről az „apróságról” lesz szó…. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
A GSM rendszer – áttekintés (4) • Egy GSM terminál funkciói: • Hány csip kell ehhez? T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
KODEK követelmények • Nagy tömörítés (64 kbit/s-ről kb. 10 kbit/s-re) • Tisztán digitális rendszer • Jó minőség • Hibatűrés (a rádiós átvitel sajátosságai miatt) • Stabilitás • Kis késleltetés (max. 50 ms) • Kis fogyasztás • Implementálhatóság • Full Rate, Half Rate, Enhanced Full Rate, Adaptive Rate változatok T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
GSM KODEK követelmények • Nagy tömörítés (64 kbit/s-ről kb. 13 kbit/s-re) • Tisztán digitális rendszer • Jó minőség • Hibatűrés (a rádiós átvitel sajátosságai miatt) • Stabilitás • Kis késleltetés (max. 50 ms) • Kis fogyasztás • Implementálhatóság • Full Rate, Half Rate, Enhanced Full Rate, Adaptive Rate változatok T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
GSM Kodek alapjellemzők • Mintavételi frekvencia 8kHz • Analízis keret 20ms (160 minta) • Reflexiós együtthatók száma 8 (prediktor fokszáma) kifejezése LAR (Log Area Reflexion) paraméterekkel • Reziduális hiba tovább bontva 4 db 40 mintás alszegmensre RPE (Regular Pulse Exitation) kódolás és LTP (Long Term Predictor) kódolással • 260 bit/20 ms (13000 bit/s) nettó bitsebesség T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
Kell-e egy mai mérnöknek CODEC programot írnia? • Nem, mert letölthető sok változat, kapható kész chipset! T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
Int. Headquarters • ISRAEL • AudioCodes Ltd. • 1 Hayarden Street, Airport City Lod, 70151 (Get Directions) • Tel: +972-3-976-4000 • Fax: +972-3-976-4040 T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
Egyik alapvető kodek termék: AudioCodes’ AC494/5/6/7 family of System on Chip (SoC) provides IP phone and Customer Premises Equipment (CPE) manufacturers with cutting-edge VoIP processing system capabilities. The AC494 family combines MIPS Controller, AC49x DSP Core and a rich set of peripherals such as Codecs, Ethernet MACs and Phys, integrated 3 Port Switch and more. Several silicon derivatives of this family allow cost optimization per application. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
AudioCodes’ AC494/5/6/7 Software Specifications • Channel Density: Up to 6 channels • Voice Coders: G.711, G.723, G.729, G.722.2, iLBC, G.722* • Echo CancellerG.168-2002 compliant; Full duplex acoustic EC • 3/4 Way Conferencing: 3/4 participants from PSTN or IP • Quality Enhancement: • Voice Activity Detection (VAD), • Comfort Noise Generation (CNG), • Packet Loss Concealment (PLC), • Adaptive Jitter Buffer (up to 300 msec) T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
A SPEEX kodek koncepciója • A fejlesztők egy nyílt forráskódú beszédkodeket terveztek, amelynél nem kell kodekenként díjat fizetni a szabadalom tulajdonosainak. Valami olyat terveztek, mint a Vorbis az audio (zenei) kodekek területén. • Nem a mobiltelefonok igényét tartották szemelött (persze abból már működik több, mint 2 milliárd darab), hanem kifejezetten az IP alapú hálózatok igényeit és a VoIP alkalmazásokat. Jól alkalmazható a SPEEX beszédjelek tömör tárolására is fájlokban. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
A SPEEX kodek koncepciója • Legyen rugalmas és széles beszédminőség-tartományban használható azaz különböző bitsebességeknél. Felöleli a szélessávú (16kHz mintavételes) jóminőségű beszédkódolástól a szokásos telefonminőségen át a 4,8 kbps tömörítésig. • A SPEEX jól tűri a csomagveszést, de nem működik jól bithibák esetén. Azt feltételezi, hogy a csomagok vagy megérkeznek rendben vagy elvesznek. • Mivel sokféle eszközben tervezték a felhasználását, ezért törekedtek a fejlesztésénél ara, hogy megvalósításánál a processzorteljesítmény és tárterület igény minimális legyen. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
A SPEEX kodek koncepciója • A követelmények alapján a legjobban illeszkedő kódolási technika a CELP (Code Excitation Linear Prediction). Ez a technika egyrészt bevált, megbízható, továbbá alkalmas széles minőségi tartományban hasonló algoritmusú működésre. • A SPEEX kódolás veszteséges, azaz a tömörítést beszédminőség rovására hajtja végre. A tömörítési arány beállítható és lehetséges az állandó (CBR) vagy változó (VBR) bitsebességű működés is. (2,15 kbps – 44kbps) • A kódolás komplexitása is változtatható. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
A SPEEX kodek koncepciója • Beszéddetektálás (VAD) a kodek eldönti, hogy jön-e beszédjel, vagy beszédszünet van (esetleg háttérzaj). Ha nincs aktív beszédjel, akkor nem kódol, hanem csak egy pár mintával reprezentált „komfort” zajt ad ki. • A SPEEX kodek elvi (CPU idő nélküli) késleltetése 8kHz mintavételezésnél 30 ms, 16 kHz-nél 34 ms. T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
SPEEX keskenysávú módban T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
SPEEX szélessávú módban T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
SPEEX kodek elemek - segédelemek • Zajcsökkentés • Automatikus szintszabályozás (AGC) • Beszéddetektálás (VAD) • Adaptív buffer • Visszhangzár T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
Visszhangzár elve (hangszórós működéskor fontos, hogy a partner ne hallja késleltetve vissza a saját hangját) T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
A CELP elv T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.