710 likes | 803 Views
Beszédfelismerés és beszédszintézis Beszédkodekek. Takács György 9. beszédelőadás 2014. 03. 20. Definíció Ismétlés Általános kodek jellemzők G.729 kodek GSM kodek SPEEX kodek SILK kodek Kodek csipek. CODECS.
E N D
Beszédfelismerés és beszédszintézisBeszédkodekek Takács György 9. beszédelőadás 2014. 03. 20. T.Gy. Beszed ea. 2014. 03. 20 .
Definíció • Ismétlés • Általános kodek jellemzők • G.729 kodek • GSM kodek • SPEEX kodek • SILK kodek • Kodek csipek T.Gy. Beszed ea. 2014. 03. 20 .
CODECS • Codecs are used to convert an analog voice signal to digitally encoded version. Codecs vary in the sound quality, the bandwidth required, the computational requirements, etc. • Each VoIP service, program, phone, gateway, etc typically supports several different codecs, and when talking to each other, negotiate which codec they will use. T.Gy. Beszed ea. 2014. 03. 20 .
Minek tömöríteni a beszédjelet – válaszaim: • Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél). • Nagy az árverseny a transzkontinentális összeköttetéseken • Korlátos, de főként nem garantált az interneten rendelkezésre álló sávszélesség….. • Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…) • Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány) • A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál) T.Gy. Beszed ea. 2014. 03. 20 .
Mit várunk a beszédtömörítőktől? • Értse amit mondunk – nem! • Tudja milyen nyelven beszélünk – nem! • A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvalóan a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket! T.Gy. Beszed ea. 2014. 03. 20 .
"A lathe is a big tool. Grab every dish of sugar." Eredeti 2400 bit/s T.Gy. Beszed ea. 2014. 03. 20 .
(a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization T.Gy. Beszed ea. 2014. 03. 20 .
Egy keresztmetszetváltás és a csatlakozó csőszakaszok viszonyai T.Gy. Beszed ea. 2014. 03. 20 .
Egy állandó keresztmetszetű szakaszon a haladó hullámok csak késleltetést szenvednek, ezért A keresztmetszetváltásnál felírható a folytonossági egyenlet Bevezetve a reflexiós tényezőt: T.Gy. Beszed ea. 2014. 03. 20 .
A toldalékcső modellje egyenletesen felosztott, állandó keresztmetszetű csőszakaszokkal T.Gy. Beszed ea. 2014. 03. 20 .
Hogyan határozhatók meg a csőmodell paraméterei a beszédjel mintáiból? T.Gy. Beszed ea. 2014. 03. 20 .
Lineáris predikció alapok A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az αilineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma T.Gy. Beszed ea. 2014. 03. 20 .
A PARCOR eljárás T.Gy. Beszed ea. 2014. 03. 20 .
A beszédtömörítés alapvető modelljei 2012-ben • A beszédjel mintákból a lineáris predikció PARCOR együtthatói rekurzív képlettel kiszámolhatók. • Az együtthatók kis hibával leírják a beszédjel egy szakaszát. • A hibajel és az együtthatók pontos értékei a számítási hibán belül pontosan leírják az eredeti beszédjelet. • A modell stabilitási kritériumai garantálhatók számítási és átviteli hibák esetén is. • A predikciós együtthatók és a hibajelek jól kvantálhatók staisztikai jellemzőik és percepciós kísérletek eredményei alapján. • A predikciós paraméterek és hibajel paraméterek a beszédképzési modell jellemzőivel közvetlen fizikai kapcsolatban állnak. T.Gy. Beszed ea. 2014. 03. 20 .
VoIP CODEC Family • GIPS Family - 13.3 Kbps and up • GSM - 13 Kbps (full rate), 20ms frame size • iLBC - 15Kbps,20ms frame size: 13.3 Kbps, 30ms frame size • ITU G.711 - 64 Kbps, sample-based Also known as alaw/ulaw • ITU G.722 - 48/56/64 Kbps ADPCM 7Khz audio bandwidth • ITU G.722.1 - 24/32 Kbps 7Khz audio bandwidth (based on Polycom's SIREN codec) • ITU G.722.1C - 32 Kbps, a Polycom extension, 14Khz audio bandwidth • ITU G.722.2 - 6.6Kbps to 23.85Kbps. Also known as AMR-WB. CELP 7Khz audio bandwidth • ITU G.723.1 - 5.3/6.3 Kbps, 30ms frame size • ITU G.726 - 16/24/32/40 Kbps • ITU G.728 - 16 Kbps • ITU G.729 - 8 Kbps, 10ms frame size • Speex - 2.15 to 44.2 Kbps • LPC10 - 2.5 Kbps • DoD CELP - 4.8 Kbps • SVOPC – 20kbps • SILK 6-40 kbps T.Gy. Beszed ea. 2014. 03. 20 .
To use G.729 or G.723.1 you may need to pay a royalty fee!!!!!!!!!! • this code is available for you to download for education purposes only!!!!!!!!!!!! T.Gy. Beszed ea. 2014. 03. 20 .
In VoIP networks, codecs are used to compress regular audio (16 bit signed linear audio, usually sampled at 8000Hz). Codecs are usually `lossy'. This means that the output data does not have to be perfectly identical to the source data , it just has to sound the same when converted to sound. • If your VoIP network is on an office LAN and the signal doesn't ever traverse a WAN connection (internet, VPN, DSL, etc), then compression isn't critical. If your VoIP signals may need to traverse a WAN, then you need to compress the signal as much as possible. This allows you to fit more simultaneous phone calls into a single WAN connection. Compression also creates smaller packets. Smaller packets means less audible delay and lower risk of packet loss. T.Gy. Beszed ea. 2014. 03. 20 .
Many devices offer only 1 or 2 low bit rate codecs, usually G.729 and one other or just G.729. If you have bought phones that only support G.729, then you have little choice. • Some gateway providers will only allow you to talk to their gateway with G.729. • A good G.729 implementation uses less bandwidth and less CPU power than other low bit rate codecs such as iLBC. G.729 uses 8kbps, iLBC uses 13kbps. • Some people have observed their CPU performing up to 50% better when doing G.729 compression compared to iLBC. T.Gy. Beszed ea. 2014. 03. 20 .
Few phones implement iLBC (one such phone is Budgetone 101 and 102). Many others - Cisco 7940, Snom, Swissvoice - only offer G.729 • Most phones offer G.711 (ulaw/alaw) as well - that is actually 64kbps, eight times the bandwidth required by G.729. It is only for use on LANs. • G.723.1 is used for similar reasons to those just listed, but gives the benefit of using even less bandwidth but with a more noticable degradation of sound quality. T.Gy. Beszed ea. 2014. 03. 20 .
Features of G.729, G.729A & G.729AB Vocoder • Compresses 8 kHz CODEC or linear audio data to 8 kbps. • Operates on 10ms frames with short algorithm delays. • Short-term synthesis filter is based on a 10th order Linear Prediction (LP) filter. • Long-term, or pitch synthesis, filter is implemented using the adaptive-code book approach. T.Gy. Beszed ea. 2014. 03. 20 .
GSM KODEK követelmények • Nagy tömörítés (64 kbit/s-ről kb. 13 kbit/s-re) • Tisztán digitális rendszer • Jó minőség • Hibatűrés (a rádiós átvitel sajátosságai miatt) • Stabilitás • Kis késleltetés (max. 50 ms) • Kis fogyasztás • Implementálhatóság • Full Rate, Half Rate, Enhanced Full Rate, Adaptive Rate változatok T.Gy. Beszed ea. 2014. 03. 20 .
Kodek alapjellemzők • Mintavételi frekvencia 8kHz • Analízis keret 20ms (160 minta) • Reflexiós együtthatók száma 8 (prediktor fokszáma) kifejezése LAR (Log Area Reflexion) paraméterekkel • Reziduális hiba tovább bontva 4 db 40 mintás alszegmensre RPE (Regular Pulse Exitation) kódolás és LTP (Long Term Predictor) kódolással • 260 bit/20 ms (13000 bit/s) nettó bitsebesség T.Gy. Beszed ea. 2014. 03. 20 .
Speex is based on CELP and is designed to compress voice at bitrates ranging from 2 to 44 kbps. Some of Speex's features include: • Narrowband (8 kHz), wideband (16 kHz), and ultra-wideband (32 kHz) compression in the same bitstream • Intensity stereo encoding • Packet loss concealment • Variable bitrate operation (VBR) • Voice Activity Detection (VAD) • Discontinuous Transmission (DTX) • Fixed-point port • Acoustic echo canceller • Noise suppression • http://www.speex.org/samples/ T.Gy. Beszed ea. 2014. 03. 20 .
A SPEEX kodek koncepciója • A fejlesztők egy nyílt forráskódú beszédkodeket terveztek, amelynél nem kell kodekenként díjat fizetni a szabadalom tulajdonosainak. Valami olyat terveztek, mint a Vorbis az audio (zenei) kodekek területén. • Nem a mobiltelefonok igényét tartották szemelőtt (persze abból már működik több, mint 2 milliárd darab), hanem kifejezetten az IP alapú hálózatok igényeit és a VoIP alkalmazásokat. Jól alkalmazható a SPEEX beszédjelek tömör tárolására is fájlokban. T.Gy. Beszed ea. 2014. 03. 20 .
A SPEEX kodek koncepciója • Legyen rugalmas és széles beszédminőség-tartományban használható azaz különböző bitsebességeknél. Felöleli a szélessávú (16kHz mintavételes) jóminőségű beszédkódolástól a szokásos telefonminőségen át a 4,8 kbps tömörítésig. • A SPEEX jól tűri a csomagveszést, de nem működik jól bithibák esetén. Azt feltételezi, hogy a csomagok vagy megérkeznek rendben vagy elvesznek. • Mivel sokféle eszközben tervezték a felhasználását, ezért törekedtek a fejlesztésénél ara, hogy megvalósításánál a processzorteljesítmény és tárterület igény minimális legyen. T.Gy. Beszed ea. 2014. 03. 20 .
A SPEEX kodek koncepciója • A követelmények alapján a legjobban illeszkedő kódolási technika a CELP (Code Excitation Linear Prediction). Ez a technika egyrészt bevált, megbízható, továbbá alkalmas széles minőségi tartományban hasonló algoritmusú működésre. • A SPEEX kódolás veszteséges, azaz a tömörítést beszédminőség rovására hajtja végre. A tömörítési arány beállítható és lehetséges az állandó (CBR) vagy változó (VBR) bitsebességű működés is. (2,15 kbps – 44kbps) • A kódolás komplexitása is változtatható. T.Gy. Beszed ea. 2014. 03. 20 .
A SPEEX kodek koncepciója • Beszéddetektálás (VAD) a kodek eldönti, hogy jön-e beszédjel, vagy beszédszünet van (esetleg háttérzaj). Ha nincs aktív beszédjel, akkor nem kódol, hanem csak egy pár mintával reprezentált „komfort” zajt ad ki. • A SPEEX kodek elvi (CPU idő nélküli) késleltetése 8kHz mintavételezésnél 30 ms, 16 kHz-nél 34 ms. T.Gy. Beszed ea. 2014. 03. 20 .
SPEEX keskenysávú módban T.Gy. Beszed ea. 2014. 03. 20 .
SPEEX szélessávú módban T.Gy. Beszed ea. 2014. 03. 20 .
SPEEX kodek elemek - segédelemek • Zajcsökkentés • Automatikus szintszabályozás (AGC) • Beszéddetektálás (VAD) • Adaptív buffer • Visszhangzár T.Gy. Beszed ea. 2014. 03. 20 .
Visszhangzár elve (hangszórós működéskor fontos, hogy a partner ne hallja késleltetve vissza a saját hangját) T.Gy. Beszed ea. 2014. 03. 20 .