1 / 42

Beszédfelismerés és beszédszintézis Beszédjel-tömörítés

Beszédfelismerés és beszédszintézis Beszédjel-tömörítés. Takács György 8. előadás. Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már nem korlátoz?. Minek tömöríteni a beszédjelet – válaszaim:.

rollo
Download Presentation

Beszédfelismerés és beszédszintézis Beszédjel-tömörítés

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Beszédfelismerés és beszédszintézisBeszédjel-tömörítés Takács György 8. előadás T.Gy. Beszed 2014. 03. 18.

  2. Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már nem korlátoz? T.Gy. Beszed 2014. 03. 18.

  3. Minek tömöríteni a beszédjelet – válaszaim: • Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél). • Nagy az árverseny a transzkontinentális összeköttetéseken • Korlátos, de főként nem garantált az interneten rendelkezésre álló sávszélesség….. • Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…) • Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány) • A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál) T.Gy. Beszed 2014. 03. 18.

  4. Mekkora redundancia van a beszédjelben?Hány bitet kell átvinni legalább? (A digitális telefonátvitelben 8kHz mintavétel és 8 bites minta a szabványos > 64kbit/s) T.Gy. Beszed 2014. 03. 18.

  5. Mekkora a redundancia – válaszaim beszédkeltés, beszédszintézis megfontolásból: • A leggyorsabb beszéd átlagosan kb. 10 beszédhang/s • A kb. 50 beszédhang van nyelvenként (angolban kb. 25) • 1 beszédhang információ tartalma kb. 0,5 bit (az egyes beszédhangok előfordulási gyakorisági értékei miatt) • Eredmény kb. 250 (angolban 125) bit/s T.Gy. Beszed 2014. 03. 18.

  6. Mekkora a redundancia – válaszaim beszédérzékelés, beszédfelismerés megfontolásból: • Az emberi agy teljes folyamatos információ feldolgozó képessége kb. 50 bit/s • Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s T.Gy. Beszed 2014. 03. 18.

  7. Miből fakad a nagyságrendi eltérés? T.Gy. Beszed 2014. 03. 18.

  8. Miből fakad a nagyságrendi eltérés – válaszaim: • Amikor én Önök elé állok mit szoktam mondani első mondatban? • Mekkora új információt hordoz Önök számára, ha ismét elmondom? • A nyelv (mint jelrendszer) szintaktikája miatt (milyen szavak vannak a szótárban, milyen szabályok szerint kapcsolódhatnak egymáshoz, milyen a nyelvtani megkötöttségek) – mekkora már a lehetséges és tényleg használt szimbólum stringek aránya??? • Mekkora az egymás mellé sorsolható és a tényleg kimondható beszédhang stringek aránya???? • Ha már a második magánhangzónál tartunk mekkora a magánhangzó rákövetkezésének esélye????? • Az eltérés mértéke attól függ, hogy milyen mély nyelvi elemzésbe megyünk bele, mennyire értjük az üzenetet, mennyire személyes az információs kapcsolat…. • Ha a tényleges legmélyebb, személyes szintre megyünk le – még a 30 bit/s is alig jön ki – tehát nincs eltérés!!!!! T.Gy. Beszed 2014. 03. 18.

  9. Az emberi információ-feldolgozás egy általános modellje Forrás: Christopher D. Wickens and Justin G. Hollands, Engineering Psychology and Human Performance, Third ed. (Upper Saddle River, NJ: Prentice Hall, 2000) T.Gy. Beszed 2014. 03. 18.

  10. A természetes beszédlánc T.Gy. Beszed 2014. 03. 18.

  11. A beszédhangok folytonos és diszkrét természete T.Gy. Beszed 2014. 03. 18.

  12. T.Gy. Beszed 2014. 03. 18.

  13. A mai beszédtömörítőknek melyik beszédlánc-elem tulajdonságait kell kihasználniuk? • A nyelvi folyamatok szabályait és háttérismereteit? • A beszédkeltés folyamatának kötöttségét? • A hallási folyamat megkötöttségeit? • Az agyi beszédmegértési folyamat megkötöttségeit? • Miért???? T.Gy. Beszed 2014. 03. 18.

  14. Mit várunk a beszédtömörítőktől? • Értse amit mondunk – nem! • Tudja milyen nyelven beszélünk – nem! • A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvalóan a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket! T.Gy. Beszed 2014. 03. 18.

  15. Hol tart ma a beszédtömörítés gyakorlata az elvi határértékhez képest? • A laboratóriumi rendszerek lementek 1 kbit/s alá! • Ami az Önök zsebében most ott lapul , az 5,6 kbit/s értéket tudja (half rate codec) • Nyilvános rendszerek alkalmazásaiban legyen szabványos, realizálható, hibatűrő, minőség/sávszélesség aránya szerint skálázható – és ésszerű áron megvalósítható!!!!. T.Gy. Beszed 2014. 03. 18.

  16. Semmi tömörítés: DÉL Tömörítés abszolút nullára: ÉJFÉL GSM HALF RATE 23 óra 18 perc (5600 bit/s) GSM FULL RATE 22 óra 29 perc (13000 bit/s) Shannon szerinti telefon 13 óra (96000bit/s) Elvi kiejtési határ 23 óra 58 perc 250 bit/s Laboratóriumi csúcs 23 óra 51 perc 1000bit/s T.Gy. Beszed 2014. 03. 18.

  17. "A lathe is a big tool. Grab every dish of sugar." Eredeti 2400 bit/s T.Gy. Beszed 2014. 03. 18.

  18. T.Gy. Beszed 2014. 03. 18.

  19. T.Gy. Beszed 2014. 03. 18.

  20. Közelítő feltételek után a csőben terjedő hanghullámokat leíró egyenletek: Ahol: p – hangnyomás, u -- térfogatsebesség ρ – a levegő sűrűsége c – a levegőben terjedő hang sebessége T.Gy. Beszed 2014. 03. 18.

  21. (a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization T.Gy. Beszed 2014. 03. 18.

  22. Egy állandó keresztmetszetű kis szakaszra: A(x,t)=A0 Emlékezzünk a sodrott érpárakat leíró egyenletek alakjára T.Gy. Beszed 2014. 03. 18.

  23. Egy keresztmetszetváltás és a csatlakozó csőszakaszok viszonyai T.Gy. Beszed 2014. 03. 18.

  24. Egy állandó keresztmetszetű szakaszon a haladó hullámok csak késleltetést szenvednek, ezért A keresztmetszetváltásnál felírható a folytonossági egyenlet Bevezetve a reflexiós tényezőt: T.Gy. Beszed 2014. 03. 18.

  25. Egy keresztmetszetváltás és a hozzá kapcsolódó szakaszok térfogatsebesség viszonyai folyamatábrában T.Gy. Beszed 2014. 03. 18.

  26. Térfogatsebesség viszonyok a cső végén T.Gy. Beszed 2014. 03. 18.

  27. Térfogatsebesség viszonyok a cső elején T.Gy. Beszed 2014. 03. 18.

  28. A toldalékcső modellje egyenletesen felosztott, állandó keresztmetszetű csőszakaszokkal T.Gy. Beszed 2014. 03. 18.

  29. Hogyan határozhatók meg a csőmodell paraméterei a beszédjel mintáiból? T.Gy. Beszed 2014. 03. 18.

  30. Lineáris predikció alapok A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az αilineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma T.Gy. Beszed 2014. 03. 18.

  31. A predikció pontatlanságát jellemzi az predikciós hiba A predikciós hiba általában mintáról mintára változik! Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az αi értékeket, hogy a predikciós hiba négyzetösszege minimális legyen. T.Gy. Beszed 2014. 03. 18.

  32. Ez a négyzetes hiba az [n0, n1] tartományra vonatkozik! A z eredeti jel, predikált jel, hibajel értelmezhető úgy is, mint a predikciós együtthatókkal leírt fizikai rendszerek be- és kimeneti jelei. T.Gy. Beszed 2014. 03. 18.

  33. T.Gy. Beszed 2014. 03. 18.

  34. T.Gy. Beszed 2014. 03. 18.

  35. A PARCOR eljárás T.Gy. Beszed 2014. 03. 18.

  36. T.Gy. Beszed 2014. 03. 18.

  37. Bevezetve az új kváltozót Az egyenleteket rendezgetve egy rekurzív formula nyerhető: Tehát nem nagy mátrix-egyenleteket kell megoldani, hanem α értékei rekurzív formulával számolhatók! T.Gy. Beszed 2014. 03. 18.

  38. Először kiszámoljuk k1-et minden n-re Majd e1(n) és f1(n) értékeit minden n-re és ez hasonlóan tovább ismételhető Fontos!!! |ki|≤1 T.Gy. Beszed 2014. 03. 18.

  39. Belátható, hogy az alábbi rács struktúrák ekvivalensek… Ezért a csőmodell azonos a PARCOR szintézis modellel, ha ri = ─ ki T.Gy. Beszed 2014. 03. 18.

  40. A beszédtömörítés alapvető modelljei 2013-ban • A beszédjel mintákból a lineáris predikció PARCOR együtthatói rekurzív képlettel kiszámolhatók. • Az együtthatók kis hibával leírják a beszédjel egy szakaszát. • A hibajel és az együtthatók pontos értékei a számítási hibán belül pontosan leírják az eredeti beszédjelet. • A modell stabilitási kritériumai garantálhatók számítási és átviteli hibák esetén is. • A predikciós együtthatók és a hibajelek jól kvantálhatók staisztikai jellemzőik és percepciós kísérletek eredményei alapján. • A predikciós paraméterek és hibajel paraméterek a beszédképzési modell jellemzőivel közvetlen fizikai kapcsolatban állnak. T.Gy. Beszed 2014. 03. 18.

  41. T.Gy. Beszed 2014. 03. 18.

  42. T.Gy. Beszed 2014. 03. 18.

More Related