1 / 60

Multimodális beszéd

Pázmány Péter Katolikus Egyetem Információs Technológiai Kar. Multimodális beszéd. Facial Animation alapjai (szabványok, rendszerelemek, megvalósítások). Srancsik Bálint. Miért fontos a FA?. Többletinformációt adhat Érzelem kifejezése Zajos környezetben növeli az érthetőséget

eron
Download Presentation

Multimodális beszéd

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Pázmány Péter Katolikus Egyetem Információs Technológiai Kar Multimodális beszéd Facial Animation alapjai (szabványok, rendszerelemek, megvalósítások) Srancsik Bálint

  2. Miért fontos a FA? • Többletinformációt adhat • Érzelem kifejezése • Zajos környezetben növeli az érthetőséget • Hallók és siketek közti kommunikáció • stb…

  3. FA jellegzetességei Beszéd • Intonáció • Hangerő • Ritmus • Hangszín • Fonéma • 8000 - 48000 Hz • Vizuális beszéd • Ajak • Nyelv • Fogak • Arcpofa • Vizéma • 25 - 100 fps

  4. Magyar vizémakészlet

  5. Teszt

  6. Teszt eredmény (MSH)

  7. Mi köze a FA-nek az informatikához vagy a távközléshez? • Filmek • Játékok • Web • Videotelefon • Mesterséges intelligencia • Virtuális lények • stb…

  8. Kutató Modellezési és animálási eljárások Face tracking (real time) Beszélő fejek hang alapján stb… Művész FA csak egy része a projektnek A létező legjobb eljárást használják „Létező” azt jelenti, hogy a 3D-s szoftverbe be van építve FA – informatikai megközelítés 

  9. Kutató Művész FA – informatikai megközelítés MPEG-4 

  10. De az MPEG-4 nem a tömörítésről szól? • Főként! • A szabvány elkészítéséhez sok munkacsoportot hoztak létre • Az egyik a Synthetic Natural Hybrid Coding lett. (SNHC) Feladata pl. a 2D-s és 3D-s grafikák bevezetése a szabványba • SNHC egy része a Face and Body Animation (FBA) lett. Feladata az arc képének kódolás és dekódolása

  11. Encoder és decoder Encoder ? Decoder ? Adat formátum Az MPEG-4 FBA-ban nincs szabványosítva a kódoló és a dekódoló

  12. Paraméterezés

  13. Az ideális paraméterezés • Ábrázolhatóság • Használhatóság • Kidolgozottság • Orthogonalitás • Absztrakciós képesség • Megjósolhatóság • Hordozhatóság • Mérhetőség • Hatékonyság

  14. Az MPEG-4 FA ideális? Megvizsgáljuk! Előtte azonban néhány kifejezés: FDP – Face Definition Parameter FP – Feature Point FAP – Facial Animation Parameter FAPU – Facial Animation Parameter Unit (FAT – Face Animation Tables)

  15. FDP Feladata a 2 vagy 3 dimenziós modell alakjának, textúrájának leírása. Ezen felül alapot szolgáltat az animáláshoz, de magát a mozgatást nem ő végzi. Az FDP lényegében arra használják, hogy egy általános arcból egy egyedi arcot definiáljanak. Az arc alakjának definiálására használják az FP-ket.

  16. FP

  17. FP Az MPEG-4 84 FP-t határoz meg a természetes arc leírásához. Egy MPEG-4 kompatibilis modellhez az FP-k helyzetének pontos ismerete szükséges Az FP-ket két részre lehet osztani: • Külön mozgatott FP-k • FAP-ok mozgatják • Definiálnak és mozgatnak • Pl.: Ajak körvonalán lévők • Más FP-kel mozgatott FP-k • FAP-ok által mozgatott FP-k mozgatják • Csak definiálnak • Pl.: Hajon lévők

  18. FAP Az FP mozgatása a feladata. Tehát lényegében az animálás. Az encoder és a decoder között ezek mennek át. A szabvány 68 paramétert különböztet meg 10 csoporban. FAP-ok reprezentálják az alap arcmozgásokat.

  19. FAP Az első csoportba tartozó két FAP magas szintű paraméter -> előre definiált komplexebb mozgásokat lehet végrehajtani velük. 1. Vizéma Az angol fonémáknak megfelelő vizémákat állítják elő. 2. Arckifejezés A hat alapérzelem kifejezésére használják. (Ezek kombinálásából több is előállítható)

  20. FAP A többi 66 FAP alacsony szintű FAP. Ez azt jelenti, egy vagy több FP-t mozgat. (Akár az összes FP-t) Az alacsony szintű FAP-oknak nagyobb a prioritása. Egy FAP lehet egy- vagy többirányú. A szabvány miden egyes FAP-ra definiálja a pozitív irányú mozgást illetve hogy egy- (U) vagy többirányú (B).

  21. FAP • A mozgatás során a kívánt FAP-oknak megfeleltetünk egy-egy értéket. • Pl.: (FAP 17)=100 • De mit jelent, hogy 100? • mm? • egység? • pixel? • A válasz: hat féle mértékegység van: • IRISD; ES; ENS; MNS; MW; AU

  22. FAPU

  23. FAPU A konkrét mértékegységek a következők: IRISD=IRISD0/1024 ES=ES0/1024 ENS=ENS0/1024 MNS=MNS0/1024 MW=MW0/1024 AU=10E-5 rad

  24. FAPU A FAPU minden modellre más és más. A szabvány leírja, hogy melyik FAP-ot melyik FAPU-ban mérik. Tehát a FAPU modellfüggő, MPEG-4 szabványú modell mozgatásához elengedhetetlen ezek ismeret.

  25. FA megvalósítása Tehát az MPEG-4 szabvány leírja, hogy hogyan mozognak az FP-k a FAP-ok függvényében. De hogyan mozog a modell az FP-k függvényében?

  26. Grafikai alapok Vertex: pont 3D-ben, három koordinátával adott. Mesh: rács 3D-ben, tetszőleges két vertex össze vannak kötve. Polygon: felület 3D-ben, tetszőleges három (vagy több) vertex által meghatározott sík. Normál: irány 3D-ben, a polygon normálvektora. IndexedFaceSet: a vertexek sorozata, indexelve és megadva azok poziciója. coordIndex: mely három (vagy több) vertex határoz meg egy polygont, és hogy az merre néz; a vertex-indexekkel van megadva.

  27. FA megvalósítása Hatókör FP

  28. FA megvalósítása Egy FP csak a neki definiált hatókörön belüli vertex-eket mozgatja. De a vertex mozgatás nem lineáris. Az FP-től mért távolsággal arányos. Tehát azokra a vertexekre kevésbé hat, melyek a hatókör szélén vannak, míg a belsőkre jobban. De a vertex mozgása a távolság arányában sem lineáris. Általában koszinuszos.

  29. FA megvalósítása Probléma lehet a hatókör definiálása. Főleg a száj környékén. Hiszen az ajaknál nem biztos, hogy szabad mozgatni a közeli vertexeket. Megoldás: az FP-hez tartozó vertexeket fel kell sorolni!

  30. Az MPEG-4 FA ideális? • Ábrázolhatóság • Használhatóság • Kidolgozottság • Orthogonalitás • Absztrakciós képesség • Megjósolhatóság • Hordozhatóság • Mérhetőség • Hatékonyság          Nem ideális! (De minden eddiginél jobb)

  31. A Pázmány és más speech to animation rendszerek összehasonlítása

  32. Összehasonlítás Más rendszerek (speech to text; text to animation) Speech Text Aniamtion Pázmány rendszer (speech to animation) Speech Text Aniamtion

  33. Más rendszerek

  34. Pázmány rendszerek

  35. Szűrés MPEG4 pontok detektálása Audiovizuális- adatbázis Javítás Log mátrix MPEG4 pontok azonosítása 6D PCA 30-32D Koordináta transzformációk

  36. Audiovizuális adatbázis

  37. Szűrés • deinterlace az frame-ek közti átmenet „simítására” • HSV adjust a saturation eltolására, így a világosabb pontok jobban kiemelődtek

  38. MPEG4 pontok azonosítása

  39. Abszolút koordináta rendszer

  40. Relatív koordináta rendszer

  41. Szűrés MPEG4 pontok detektálása Audiovizuális- adatbázis Javítás Log mátrix MPEG4 pontok azonosítása 6D PCA 30-32D Koordináta transzformációk

  42. Eredeti

  43. Előállított

  44. Első négy főkomponens

  45. Idő

  46. Hanghullám

  47. Lucia

  48. Log to Lucia konverzió Log mátrix Normálás (referencia frame) Medián szűrő MPEG-4 szerinti megfeleltetés Skálázás és irány Lucia

More Related