300 likes | 405 Views
A beszéd-technológia jövője – kihívások és stratégiák. Nyelvi áttörés A nyelv- és beszédtechnológia mint húzóágazat. Mihajlik Péter BME-TMIT. Áttekintés Bevezetés Helyzetkép Mit ől, hogyan működik? Kihívások és válaszlehetőségek A közeljövő alkalmazásai Összegzés. Bevezetés
E N D
A beszéd-technológia jövője – kihívások és stratégiák Nyelvi áttörés A nyelv- és beszédtechnológia mint húzóágazat Mihajlik Péter BME-TMIT
Áttekintés Bevezetés Helyzetkép Mitől, hogyan működik? Kihívások és válaszlehetőségek A közeljövő alkalmazásai Összegzés
Bevezetés A beszédtechnológiakét fő ága: Gépi beszédfelismerés (ASR: Automatic Speech Recognition) Beszéd (hangnyomás-időfüggvény) szöveg (írott szósorozat) Gépi beszédkeltés (TTS: Text To Speech) Az előző megfordítása Mellékágak: Beszélő-felismerés, -azonosítás, érzelem-felismerés, beszédminősítés, beszédterápia, beszéd-zene-zaj szétválasztás, beszédtisztítás, multimodális beszéd- felismerés, stb.
Bevezetés A beszédtechnológiakét fő ága: Gépi beszédfelismerés (ASR: Automatic Speech Recognition) Beszéd (hangnyomás-időfüggvény) szöveg (írott szósorozat) Gépi beszédkeltés (TTS: Text To Speech) Az előző megfordítása Mellékágak: Beszélő-felismerés, -azonosítás, érzelem-felismerés, beszédminősítés, beszédterápia, beszéd-zene-zaj szétválasztás, beszédtisztítás, multimodális beszéd- felismerés, stb.
Bevezetés II. Abeszéd-szöveg átalakítás kiemelt jelentőségű, mert Ami igazán fontos, élőszóban hangzik el Gyorsabban és könnyebben beszélünk, mint írunk „Kaputechnológia”, szűkkeresztmetszet. E nélkül nincs: beszédinformáció-kivonatolás, -visszakeresés, -strukturálás beszédértés (szűk értelemben se) beszédfordítás hanggal-, hangból keresés Nagyszámú alkalmazás épít(ene) rá A korszerű beszédkeltési technológiák is erre alapoznak
Helyzetkép: az áttörés megtörtént – a beszédtechnológia használható! A áttörés
A gépi beszédfelismerés is!!! Helyzetkép: az áttörés megtörtént – a beszédtechnológia használható!
A gépi beszédfelismerés is!!! Noha a beszédfelismerési technológia messze nem tökéletes, a használhatósága ma már nem kétséges! Helyzetkép: az áttörés megtörtént – a beszédtechnológia használható!
Az áttörés megtörtént – a beszédtechnológia használható! Használható: kisebb költséggel, többet tud a gép, mint az ember?! Igen! Ki tudja 200 óra hangzó híranyagban megtalálni a megadott 1000 kulcsszó ~50%-át 24 óra alatt? 2 db (4 magos) CPU képes rá! (RTF<1 /mag) 2 ember, > 2 hét – csak lehallgatás (RTF>1/fő) 12 ember,> 2 hét – teljes lejegyzés (RTF>6/fő) Áramdíj < 2 eFt Munkadíj > 200 eFt/ 1.2 MFt
Az áttörés megtörtént – a beszédtechnológia használható! Használható: többet tud a gép, mint az ember?! Igen! Ki képes egy nagyváros összes lakosának (~250.000) főnevét és lakcímét első hallásra 10 esetből min. 9-szer hibátlanul leírni? 1 db CPU képes rá (+ beszédtechnológia)! ~0 sec válaszidő!! Áramdíj, válaszidő: ~0 visszakérdezések, hibák
Az áttörés megtörtént – a beszédtechnológia használható! Használható: kisebb költséggel, többet tud a gép, mint az ember?! Igen,igen! A beszédszintetizátor bármit kimond Nem fárad el, nem reked be Ha kérik, gyorsabban beszél, ha kérik, lassabban Nem sértődik meg, ha a felmenőit emlegetik …
Az áttörés megtörtént – a beszédtechnológia használható! Mitől? Új kutatási eredmények? – Alapjait tekintve nem igazán, több éve kiforrott a technológia… Meg van oldva a probléma? – Határozottan nincs Inkább: A beszédtechnológia megtalálta az alkalmazásait! A számítástechnika fejlődése egyre inkább lehetővé teszi a megfelelő (jórészt már ismert) algoritmusok alkalmazását
Mitől, hogyan működik? „Megérti a gép, amit mondok?” Neeeemm! (A gép nem „ért meg” semmit, a gépi szövegértésnek az emberi kognícióhoz, gondolkodáshoz egyelőre nem sok köze van…) „Leírja, amit mondok?” Ez a cél, de általánosságban ez sem teljesül…
Mitől, hogyan működik? A gépi beszédfelismerés alapelve: Lényegkiemelés (jelfeldolgozás, normalizálások) Mintaillesztés (tárolt modellekhez történő összehasonlítás) Összetett beszédmodell Nyelvi, akusztikai információk Összehasonlítások!!! Órási keresési tér (akár > 1050 szósorozat) Mindig a legjobban illeszkedő modellekre-útvonalra döntünk! „eredmények a beszédtechnológiában”
Mitől, hogyan működik? Honnan vesszük a beszédfelismerési modelleket? Szinte minden statisztikai alapú! Lejegyzett beszédadatra van szükség a modelltanításhoz Mivel (nagyon) sok a modellparaméter, (nagyon) sok adatra van szükség a megfelelő becsléshez Nincs általános modell, minden feladatra külön kell gyűjteni Mindig számolni kell jelentős beszédfelismerési hibával A beszédfelismerési hiba főként attól függ, hogy akusztikailag, nyelvileg mennyire különböző lehetőségek közül választhatunk a mintaillesztés során Nem egyszerű feladat eldönteni, hogy az optimális felismerési eredmény (szósorozat) helyes is egyben
Kihívások és válaszlehetőségek Az ideális beszédfelismerő rendszer… … zajban sem rosszabb, az embernél … távoli mikrofonnal működik … témafüggetlen … beszélőfüggetlen (a beszédhibákat is kiküszöböli) … stílus-független (spontán beszédre is működik) … minden nyelvre könnyen adaptálható (…kis fogyasztású, olcsó eszközön fut) (…kézi átirat nélkül tanítható) …talán sosem fog működni… de azért….
Szófelismerésihiba % Kihívások és válaszlehetőségek Zajtűrő beszédfelismerés A zaj elmossa az akusztikai különb- ségeket Nem mindegy milyen (fehérzaj vs. háttérzene, -beszélgetés) Válasz: nemlineáris, idővariáns, nem- stacionárius megközelí- tések, fizikusok, agy- és halláskutatókkal közös kutatások, stb. Zajos Jel-zajviszony dB Tiszta Wall Street Journal – Olvasott hírek Humán vs Cambridge HTK LVCSR beszédfelismerő
Kihívások és válaszlehetőségek Távoli mikrofon (distant speech recognition) Probléma: a jelenlegi módszerek a közeli mikrofonokra, és/vagy csendes körülményekre használhatóak Távoli mikrofon: rossz jel-zaj viszony Válasz: a zajtűrő módszereken felül, mikrofon tömbök, adaptív karakterisztika szabályozás, önirányító mikrofonok
Kihívások és válaszlehetőségek Témafüggetlenség Probléma: a jelenlegi módszerek adott témakörökre igényelnek nagy mennyiségű tanítóanyagot, eltérő témára lényegesen nő a felismerési hiba Beszélőfüggetlenség Probléma: a jelenlegi módszerek a standard nyelvet kezelik, tájszólásra, beszédhibára kevésbé felkészültek Válaszok Minden eddiginél nagyobb mennyiségű tanítóadat használata Akusztikus/nyelvi modell adaptáció, felügyelet nélküli vagy félig felügyelt módszerek kutatása
Kihívások és válaszlehetőségek Beszédstílus-függetlenség Probléma: a jelenlegi módszerek a spontán (lazán artikulált, bennfentes, stb.) nyelvet kevéssé kezelik, jóval nagyobb a felismerési hiba Nagy a jelentősége, hiszen a hétköznapi beszéd alapvetően spontán Nyelvi adaptálhatóság – morfológiailag gazdag nyelvek (!) Arab, észt,finn, magyar, török: a szóalaki változatosság jóval nagyobb, mint az angol, spanyol, német, stb. nyelvekre Probléma: ritka szóalakok nagy száma, (nagyon) nagy szótár, rosszul becsülhető nyelvi modell paraméterek, szótáron kívüli szavak nagy száma alacsonyabb szófelismerési pontosság
Magyar (tervezett) Magyar (félig tervezett) Szóalaki változatosság – beszédstílus, nyelvek – kutatási eredmények Magyar (spontán)
Szóalaki változatosság – beszédstílus, nyelvek – kutatási eredmények Angol szavak ~ magyar morf(émák) Illusztráció: look at it ~ néz + d Építsük a nyelvi és kiejtési modelleket szó helyett morféma (szótő, rag, stb.) alapon Szó morféma leképezés? Nyelvi szabály alapon? Statisztikai felügyelet nélküli módszerrel? Kombináció? Szóhatár visszaállítás?
Magyar nyelvű beszédfelismerési eredmények Morféma alapú rendszerek Szófelismerési pontosság % Spontán Sajtótájékoztató Hírműsor Sp. St. Hír Szóalaki változatosság – beszédstílus, nyelvek Akusztikus adaptáció hatása Hibacsökkenés % Szótárméret: 20K-285K szó 2k – 80K morf Tisztán statisztikai (MB) morf-alapú rendszerek javulása
R=0,937 Szóalaki változatosság – beszédstílus, nyelvek – kutatási eredmények Morféma-alapú megközelítések általi felismerési hibacsökkenésnemzetközi összehasonlításban Javulás statisztikai morf modellezés által [%] Különböző szóalakok száma 160 ezer szavas korpuszban [x1000]
Kihívások és válaszlehetőségek Beszédstílus-függetlenség Nyelvi adaptálhatóság – morfológiailag gazdag nyelvek A nyelvfüggetlen statisztikai módszer hatékonysága nem elősorban nyelvfüggő és stílusfüggő, hanem a szóalaki változatosságtól függ Minél nagyobb a szóalak-változatossági probléma, annál jobban segít Mégsem ettől lesz kicsi a felismerési hiba Válasz? minden eddiginél több tanítóadat? minden eddiginél nagyobb memória?
Kihívások és válaszlehetőségek Tanítóadatbázis-méret növelés Kulcsfontosságú mind a kutatás, mind a fejlesztés szempontjából Ahol az adat, ott fejlődik(-het) a technológia… 3 éves gyerek 5M-20M szót hallott! Probléma: drága az előállítás (beszélt nyelvi korpuszokról van szó!), a kutatás-fejlesztési eszköztár is az… Google: akusztikus és nyelvi modell tanítás 35 CPU év! (áramköltség>1.5 MFt) – és ez csak a „voice search” alkalmazás… Válasz: könnyítsük, gyorsítsuk a kézi munkát, félig felügyelt módszerek kutatása, felügyelet nélküli módszerek kutatása
A közeljövő alkalmazásai Jó – közepes akusztikai viszonyokra készülnek Felismerési hiba tűrőek Az embert nem „lecserélni”, segíteni akarják Ezeknek megfelelő gyakorlati feladatok: audio indexálás, keresés hang (video)tárakban, információ kivonatolás hanganyagból, kategorizálás, infobányászat, audio minőségbiztosítás, ügyfélszolgálat részbeni automatizálása, …
A közeljövő alkalmazásai A folyamatos nagyszótáras beszédfelismerési technológia potenciális felhasználói általános beszédinformációs tárak: rádió, TV, mozi vállalati szféra: mindenféle szintű megbeszélések hanganyaga, ügyfélszolgálatok, sajtótájékoztatók állami szféra: felügyelő szervek, biztonsági szervek oktatás-kutatás: konferencia-, tanrendi előadások internetezők… Nem az a kérdés, hogy a beszédtechnológia alkalmazásérett-e, hanem, hogy ki kerül versenyhátrányba, mert későn ébredt….
Összefoglalás Az áttörés megtörtént – a beszédtechnológia használható! Az általános probléma még nincs megoldva A kutatás-fejlesztés számára létfontosságú az eddigieknél sokkal komolyabb adatbázis-infrastruktúra kialakítása Vannak olyan kutatási területek, melyek illeszkednek a hazai adottságokhoz és jól exportálhatóak
Köszönöm a figyelmet! „Az áttörés megtörtént – a beszédtechnológia használható!”