1 / 88

Takács György 16. előadás 2014. 05. 15.

Beszédfelismerés és beszédszintézis Beszédfelismerés neurális hálózatokkal Beszélő személy felismerés. Takács György 16. előadás 2014. 05. 15. A Markov modell előnyei. Kezelhetővé teszi a folyamatos beszédfelismerés problémáját,

Download Presentation

Takács György 16. előadás 2014. 05. 15.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Beszédfelismerés és beszédszintézisBeszédfelismerés neurális hálózatokkalBeszélő személy felismerés Takács György 16. előadás 2014. 05. 15. Beszedf 2014. 05. 15.

  2. A Markov modell előnyei • Kezelhetővé teszi a folyamatos beszédfelismerés problémáját, • Szétválasztható az állapot rákövetkezések gyakoriságának és állapotok jellegvektorokkal kapcsolatos tulajdonságainak tanítása, • Szétválasztható a személyfüggő és személyfüggetlen elemek tanítása, • Kifinomult programrendszerek forráskódú formái rendelkezésre állnak, • A rendszerek értékelésére gazdag tanító- és teszt-adatbázisok rendelkezésre állnak a világnyelveken Beszedf 2014. 05. 15.

  3. A Markov modell problémái • Diszkrét állapotok sorozatával modellez • Az állapotban maradás esélye dominál • Ha egy állapotsorozat = fonémasorozat, akkor milyen hosszú legyen a fonémasorozat • Nehezen kezelhetők a bizonytalan állapotok Beszedf 2014. 05. 15.

  4. A beszédhangok folytonos és diszkrét természete Beszedf 2014. 05. 15.

  5. A feladat: beszédjel bemenet – írott szöveg kimenet Beszedf 2014. 05. 15.

  6. Az időben folytonos bemenő jel jön (néha szünet) • A kimenet diszkrét halmaz elemeinek egymás utáni (térbeli) füzére (néha szóközi szünet). • Az egyes halmazelemekre a megfigyelés alapján egy vagy több jelöltet állíthatunk. • A jelöltállítás történhet szabályos időközönként, vagy ha új jelölt bukkan fel. • A jelöltek akusztikai-fonetikai szinten leggyakrabban fonémák. • A feldolgozás több rétegben célszerű (akusztikai-fonetikai réteg, szintaktikai réteg, szemantikai réteg …) Beszedf 2014. 05. 15.

  7. Modellek a folyamatos beszéd felismerési folyamatához • Kezelni legyenek képesek a folytonos folyamat diszkrét állapotokba átrendezését • Minél több összefüggés megtanítása a diszkrét reprezentáció alapján lehetséges legyen • Alkalmas modell egy olyan neurális háló, amely bemenetén fogadja a folyamatos beszédjelet előfeldolgozás után és kimenetén adja a diszkrét szimbólumokat • Alkalmas modell egy rejtett Markov folyamat, amely az állapotsorozatok kezelését lehetővé teszi. Beszedf 2014. 05. 15.

  8. Ha nagyon sokat tudunk a beszédfolyamatról – mire lehet építeni a beszédfelismerőket? • A -- az agy beszédfelfogási folyamatait utánzó modellekre? • B -- beszédkeltési folyamatokat leíró modellekre? Beszedf 2014. 05. 15.

  9. A mai bemutatott neurális hálózatos megoldás jellegzetességei • Nem pontos mása az agyban lejátszódó folyamatoknak, bár A típusú megoldásra tör! • Sok ötletet próbál átvenni azokból amit tudunk az emberi beszédérzékelési folyamatokról • Empirikus megoldásokat keres arra is, amire nincs átvehető és megvalósítható racionális módszer • A vázolt módszer csak az akusztikai-fonetikai szintet tartalmazza, a magasabb nyelvi szintek Prószéky Professzor Úr tárgyához kapcsolódnak….. Beszedf 2014. 05. 15.

  10. Általános alapproblémák, amelyekre az NN alapú megközelítéstől megoldást remélünk • A beszéd folyamatos (nincsenek szóközönként szünetek) igazi szünetek csak nagyobb prozódiai egységek között vannak – folyamatosan adjon a kimenet fonéma jelölteket. Adjon egy hálózat kimenet akkor aktivitást, amikor fonéma váltás van, pedig a fonémaváltás folytonos! • Ugyanannak a diszkrét beszédhangnak gyakorlatilag végtelen sok reprezentációja elképzelhető (bemondó, tempó, hangerő, hanglejtés, hangkörnyezet, hasonulás….., érzelem függvényében) -- Mégis tanítsuk a hálózatot arra, hogy fonémajelölteket adjon, a jelöltek közül válogasson a rendszer magasabb nyelvi szinteket alapul véve • Elnagyolt ejtés, pontatlanság, ejtési hiba, beszédhiba, gyakran előfordul – kisebb hálózati aktivitás jelezze az elnagyolt jelöltet is. • „érteni” kell a mondandót ahhoz, hogy jól felismerhessük! Ez természetesen marad a nyelvi feldolgozó szintnek. Beszedf 2014. 05. 15.

  11. A feladat: beszédjel bemenet – írott szöveg kimenet Beszedf 2014. 05. 15.

  12. A rendszer elemei Beszedf 2014. 05. 15.

  13. Beszedf 2014. 05. 15.

  14. Beszedf 2014. 05. 15.

  15. Beszedf 2014. 05. 15.

  16. Beszedf 2014. 05. 15.

  17. Beszedf 2014. 05. 15.

  18. Beszedf 2014. 05. 15.

  19. A kettős ablak elve: a szűrőkimenetek aktuális állapotát és a durva hálózat megelőző és rákövetkező állapotait egyszerre veszi figyelembe a fonémajelöltek számolásakor Beszedf 2014. 05. 15.

  20. Az előfeldolgozó szűrő jellemzői Beszedf 2014. 05. 15.

  21. A magyar fonéma készlet és az egyes fonémák durva (főbb) képzési jellemzői Beszedf 2014. 05. 15.

  22. Beszedf 2014. 05. 15.

  23. Beszedf 2014. 05. 15.

  24. Beszedf 2014. 05. 15.

  25. A fonéma jelölteket számoló hálózat a svéd és a magyar fonéma készletre Beszedf 2014. 05. 15.

  26. Beszedf 2014. 05. 15.

  27. Beszedf 2014. 05. 15.

  28. Beszedf 2014. 05. 15.

  29. Beszedf 2014. 05. 15.

  30. Beszedf 2014. 05. 15.

  31. Beszedf 2014. 05. 15.

  32. Beszedf 2014. 05. 15.

  33. Beszedf 2014. 05. 15.

  34. Beszedf 2014. 05. 15.

  35. Beszedf 2014. 05. 15.

  36. Beszedf 2014. 05. 15.

  37. Beszedf 2014. 05. 15.

  38. Beszedf 2014. 05. 15.

  39. Beszedf 2014. 05. 15.

  40. Beszedf 2014. 05. 15.

  41. Beszedf 2014. 05. 15.

  42. Beszélő személy felismerésbeszélő személy azonosításbeszélő személy verifikálás Beszedf 2014. 05. 15.

  43. Speaker recognition: who is speaking • Speaker verification (voice authentication) : the speaker claims to be of a certain identity and the voice is used to verify this claim . Speaker verification is a 1:1 match where one speaker's voice is matched to one template • Speaker identification is the task of determining an unknown speaker's identity. Speaker identification is a 1:N match where the voice is matched to N templates. Speaker identification problems generally fall into two categories: • Differentiating multiple speakers when a conversation is taking place. • Identifying an individual's voice based upon previously supplied data regarding that individual's voice. Beszedf 2014. 05. 15.

  44. Személy azonosítás alapjai • Alapulhat az azonosítás olyan tárgyon, amit az adott személy birtokol (kulcs, kártya, igazolvány) • Alapulhat azon, amit az érintett személy tud (PIN, jelszó) • Alapulhat a személy statikus testi jellemzőin (magasság, testsúly, ujjlenyomat, kéz alakja, retina jellemzők, arc, egyes beszédjellemzők) • Alapulhat a személy tevékenységi, viselkedési jellemzőin (kézírás, gesztusok, arckifejezések, egyes beszédjellemzők) Beszedf 2014. 05. 15.

  45. Személy azonosítás gyakorlati megvalósításai • A feladattól függően a birtokolt, a tudott, a statikus testi jellemzők és a viselkedési jellemzők együttese. • Tényleges letagadhatatlanok és utánozhatatlanok a bevett jellemzők? • Ujjlenyomat, aláírás, fényképes igazolvány, PIN … • Kellenek az újak? • Szem felvétel • DNS vizsgálat • Hanglenyomat • mozgásminták Beszedf 2014. 05. 15.

  46. Mennyire megbízható a „hanglenyomat”? • Összemérhető az aláírással • biztonsági szempontból? • gépesítés szempontjából? • költség szempontjából? • Összemérhető az ujjlenyomattal • biztonsági szempontból? • gépesítés szempontjából? • költség szempontjából? Beszedf 2014. 05. 15.

  47. Beszedf 2014. 05. 15.

  48. 2006.10.31 • This credit card might be too secure for you • I've been checking out a new high-tech credit card that reminds me of a security lesson I learned years ago. • Soon after I started a tech reporting job at the San Jose Mercury News in 1999, I was lucky enough to land a cubicle next to a guy named David L. Wilson. Dave, who covered the Microsoft anti-trust trial, was a geek's geek and a treasure trove of information. One of the things he explained to me early on was a basic concept in security — something called three-factor authentication. • If you want to make it hard to break into something — I mean, really lock it down — demand three unique pieces of information from people before they're allowed in. • Something they carry, like a key. • Something they know, like a password. • Something they are — a piece of biometric data like a fingerprint, a voice print or a retinal scan. Beszedf 2014. 05. 15.

  49. Beszedf 2014. 05. 15.

  50. Beszedf 2014. 05. 15.

More Related