880 likes | 953 Views
Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Beszélő személy felismerés. Takács György 16. előadás 2014. 05. 15. A Markov modell előnyei. Kezelhetővé teszi a folyamatos beszédfelismerés problémáját,
E N D
Beszédfelismerés és beszédszintézisBeszédfelismerés neurális hálózatokkalBeszélő személy felismerés Takács György 16. előadás 2014. 05. 15. Beszedf 2014. 05. 15.
A Markov modell előnyei • Kezelhetővé teszi a folyamatos beszédfelismerés problémáját, • Szétválasztható az állapot rákövetkezések gyakoriságának és állapotok jellegvektorokkal kapcsolatos tulajdonságainak tanítása, • Szétválasztható a személyfüggő és személyfüggetlen elemek tanítása, • Kifinomult programrendszerek forráskódú formái rendelkezésre állnak, • A rendszerek értékelésére gazdag tanító- és teszt-adatbázisok rendelkezésre állnak a világnyelveken Beszedf 2014. 05. 15.
A Markov modell problémái • Diszkrét állapotok sorozatával modellez • Az állapotban maradás esélye dominál • Ha egy állapotsorozat = fonémasorozat, akkor milyen hosszú legyen a fonémasorozat • Nehezen kezelhetők a bizonytalan állapotok Beszedf 2014. 05. 15.
A beszédhangok folytonos és diszkrét természete Beszedf 2014. 05. 15.
A feladat: beszédjel bemenet – írott szöveg kimenet Beszedf 2014. 05. 15.
Az időben folytonos bemenő jel jön (néha szünet) • A kimenet diszkrét halmaz elemeinek egymás utáni (térbeli) füzére (néha szóközi szünet). • Az egyes halmazelemekre a megfigyelés alapján egy vagy több jelöltet állíthatunk. • A jelöltállítás történhet szabályos időközönként, vagy ha új jelölt bukkan fel. • A jelöltek akusztikai-fonetikai szinten leggyakrabban fonémák. • A feldolgozás több rétegben célszerű (akusztikai-fonetikai réteg, szintaktikai réteg, szemantikai réteg …) Beszedf 2014. 05. 15.
Modellek a folyamatos beszéd felismerési folyamatához • Kezelni legyenek képesek a folytonos folyamat diszkrét állapotokba átrendezését • Minél több összefüggés megtanítása a diszkrét reprezentáció alapján lehetséges legyen • Alkalmas modell egy olyan neurális háló, amely bemenetén fogadja a folyamatos beszédjelet előfeldolgozás után és kimenetén adja a diszkrét szimbólumokat • Alkalmas modell egy rejtett Markov folyamat, amely az állapotsorozatok kezelését lehetővé teszi. Beszedf 2014. 05. 15.
Ha nagyon sokat tudunk a beszédfolyamatról – mire lehet építeni a beszédfelismerőket? • A -- az agy beszédfelfogási folyamatait utánzó modellekre? • B -- beszédkeltési folyamatokat leíró modellekre? Beszedf 2014. 05. 15.
A mai bemutatott neurális hálózatos megoldás jellegzetességei • Nem pontos mása az agyban lejátszódó folyamatoknak, bár A típusú megoldásra tör! • Sok ötletet próbál átvenni azokból amit tudunk az emberi beszédérzékelési folyamatokról • Empirikus megoldásokat keres arra is, amire nincs átvehető és megvalósítható racionális módszer • A vázolt módszer csak az akusztikai-fonetikai szintet tartalmazza, a magasabb nyelvi szintek Prószéky Professzor Úr tárgyához kapcsolódnak….. Beszedf 2014. 05. 15.
Általános alapproblémák, amelyekre az NN alapú megközelítéstől megoldást remélünk • A beszéd folyamatos (nincsenek szóközönként szünetek) igazi szünetek csak nagyobb prozódiai egységek között vannak – folyamatosan adjon a kimenet fonéma jelölteket. Adjon egy hálózat kimenet akkor aktivitást, amikor fonéma váltás van, pedig a fonémaváltás folytonos! • Ugyanannak a diszkrét beszédhangnak gyakorlatilag végtelen sok reprezentációja elképzelhető (bemondó, tempó, hangerő, hanglejtés, hangkörnyezet, hasonulás….., érzelem függvényében) -- Mégis tanítsuk a hálózatot arra, hogy fonémajelölteket adjon, a jelöltek közül válogasson a rendszer magasabb nyelvi szinteket alapul véve • Elnagyolt ejtés, pontatlanság, ejtési hiba, beszédhiba, gyakran előfordul – kisebb hálózati aktivitás jelezze az elnagyolt jelöltet is. • „érteni” kell a mondandót ahhoz, hogy jól felismerhessük! Ez természetesen marad a nyelvi feldolgozó szintnek. Beszedf 2014. 05. 15.
A feladat: beszédjel bemenet – írott szöveg kimenet Beszedf 2014. 05. 15.
A rendszer elemei Beszedf 2014. 05. 15.
A kettős ablak elve: a szűrőkimenetek aktuális állapotát és a durva hálózat megelőző és rákövetkező állapotait egyszerre veszi figyelembe a fonémajelöltek számolásakor Beszedf 2014. 05. 15.
Az előfeldolgozó szűrő jellemzői Beszedf 2014. 05. 15.
A magyar fonéma készlet és az egyes fonémák durva (főbb) képzési jellemzői Beszedf 2014. 05. 15.
A fonéma jelölteket számoló hálózat a svéd és a magyar fonéma készletre Beszedf 2014. 05. 15.
Beszélő személy felismerésbeszélő személy azonosításbeszélő személy verifikálás Beszedf 2014. 05. 15.
Speaker recognition: who is speaking • Speaker verification (voice authentication) : the speaker claims to be of a certain identity and the voice is used to verify this claim . Speaker verification is a 1:1 match where one speaker's voice is matched to one template • Speaker identification is the task of determining an unknown speaker's identity. Speaker identification is a 1:N match where the voice is matched to N templates. Speaker identification problems generally fall into two categories: • Differentiating multiple speakers when a conversation is taking place. • Identifying an individual's voice based upon previously supplied data regarding that individual's voice. Beszedf 2014. 05. 15.
Személy azonosítás alapjai • Alapulhat az azonosítás olyan tárgyon, amit az adott személy birtokol (kulcs, kártya, igazolvány) • Alapulhat azon, amit az érintett személy tud (PIN, jelszó) • Alapulhat a személy statikus testi jellemzőin (magasság, testsúly, ujjlenyomat, kéz alakja, retina jellemzők, arc, egyes beszédjellemzők) • Alapulhat a személy tevékenységi, viselkedési jellemzőin (kézírás, gesztusok, arckifejezések, egyes beszédjellemzők) Beszedf 2014. 05. 15.
Személy azonosítás gyakorlati megvalósításai • A feladattól függően a birtokolt, a tudott, a statikus testi jellemzők és a viselkedési jellemzők együttese. • Tényleges letagadhatatlanok és utánozhatatlanok a bevett jellemzők? • Ujjlenyomat, aláírás, fényképes igazolvány, PIN … • Kellenek az újak? • Szem felvétel • DNS vizsgálat • Hanglenyomat • mozgásminták Beszedf 2014. 05. 15.
Mennyire megbízható a „hanglenyomat”? • Összemérhető az aláírással • biztonsági szempontból? • gépesítés szempontjából? • költség szempontjából? • Összemérhető az ujjlenyomattal • biztonsági szempontból? • gépesítés szempontjából? • költség szempontjából? Beszedf 2014. 05. 15.
2006.10.31 • This credit card might be too secure for you • I've been checking out a new high-tech credit card that reminds me of a security lesson I learned years ago. • Soon after I started a tech reporting job at the San Jose Mercury News in 1999, I was lucky enough to land a cubicle next to a guy named David L. Wilson. Dave, who covered the Microsoft anti-trust trial, was a geek's geek and a treasure trove of information. One of the things he explained to me early on was a basic concept in security — something called three-factor authentication. • If you want to make it hard to break into something — I mean, really lock it down — demand three unique pieces of information from people before they're allowed in. • Something they carry, like a key. • Something they know, like a password. • Something they are — a piece of biometric data like a fingerprint, a voice print or a retinal scan. Beszedf 2014. 05. 15.