380 likes | 488 Views
Beszédfelismerés és beszédszintézis. Takács György 1. előadás 2014. 02. 11. A beszédtárgy szerepe a PPKE informatikus képzésben. A jelelméletről, kódelméletről, jelfeldolgozásról általában, képfeldolgozásról speciálisan, kommunikációs rendszerekről általában már sok ismeret összegyűlt.
E N D
Beszédfelismerés és beszédszintézis Takács György 1. előadás 2014. 02. 11. T.Gy. Beszedfelism es szint. 2014.02.11.
A beszédtárgy szerepe a PPKE informatikus képzésben • A jelelméletről, kódelméletről, jelfeldolgozásról általában, képfeldolgozásról speciálisan, kommunikációs rendszerekről általában már sok ismeret összegyűlt. • Egy jellegzetesen szintetizáló tárgy. Sokrétű alapon, sokfelé kitekintéssel dolgozik. • A beszéd régebbi, hatékonyabb, emberibb kommunikációs forma, mint az írás! • Az emberi beszédfolyamat másként összetett, mint a számítógépek folyamatai. • A beszédtechnológiák másként összetettek, mint az írott-nyelv technológia. T.Gy. Beszedfelism es szint. 2014.02.11.
Mivel foglalkozik ez a tantárgy? • A beszéddel, mint akusztikai jelenséggel • A beszéddel, mint nyelvi jelenséggel • Az emberi beszédkeltés folyamatával • Az emberi beszédérzékelés folyamatával • Mesterséges beszédfunkciókkal és alkalmazásokkal • Beszéd gépi felismerése • Mesterséges beszéd, beszédszintézis • Beszélő személy felismerése • Beszédkódolással, beszédtömörítéssel T.Gy. Beszedfelism es szint. 2014.02.11.
Mivel nem foglalkozik ez a tantárgy (pedig szép és érdekes lenne -- s ha van komoly érdeklődő kutathat) • A beszédfeldolgozás történeti kérdéseivel • A szép beszéddel (eufonetika) • Beszédtisztítással (speech enhancement) • Beszédmanipulációval (voice transformation) • Beszédkiejtés-javítás gépi segédeszközeivel • Sérültek beszédkommunikációját segítő eszközökkel • Hangfájlok szerkezetével, kezelésével, szerkesztésével…. • Párbeszéd -rendszerekkel – amelynek elemei a természetes beszéd megértése, a dialógus irányítása, a válaszok és kérdések generálása és kimondása. • Beszéd gépi fordításával (spoken language translation) • Hallhatatlan beszéddel (silent speech) • Kulcsszavak keresésével a folyamatos beszédben (word spotting) • Magyar beszéd és a magyarok eredete……. T.Gy. Beszedfelism es szint. 2014.02.11.
Tantárgyprogram I. T.Gy. Beszedfelism es szint. 2014.02.11.
Tantárgyprogram II. T.Gy. Beszedfelism es szint. 2014.02.11.
Tankönyv, jegyzet, segédanyagok…. • Előadások (szokás szerint) a honlapon • Új tankönyv van, de nagyon vastag… A régi elavult és nem kapható! • Nagyon jó CD oktatóanyag van! Nyelvtudományi Intézet Fonetikai kutatólaboratóriuma készítette. Jogvédett! Csak korábbi böngészőkkel fut!!!! T.Gy. Beszedfelism es szint. 2014.02.11.
Tárgykövetelmények • Az előadásokat célszerű látogatni • A laboratóriumi gyakorlatok kötelezők • Minden mérési feladatot teljesíteni kell • Minden méréskor kicsi ZH (hogy ne jöjjenek felkészületlenül – felkészülés a vonatkozó előadás alapján) • Szóbeli vizsga magyar nyelven, az aláírás feltétele : eredményes ZH, teljesített mérések. • Lehet egyéni vállalást tenni (pl. mérés előkészítés stb.) • Érdeklődőknek korlátlan TDK lehetőségek • Önálló labor és szakdolgozat feladatok választhatók a témában T.Gy. Beszedfelism es szint. 2014.02.11.
Nehezen érthető beszéd Jól érthető beszéd, pedig énekelt….. Néhány beszédminta elmélkedésre T.Gy. Beszedfelism es szint. 2014.02.11.
Miért különleges információhordozó a beszéd? • Sötétben is mindent kifejez… • Álmunkban is megértjük….. Kb. 20dB szinttel halkabban elég a nevünket hallani az ébredéshez, mint egyéb szöveget…… • Az ember információ befogadó sebessége kb. 50 bit/másodperc!!!!!!!!!! Ebből kb. 2/3 rész a hallás!!!!!!!!!!!! • Óriási redundanciája van … a kabaré artikulálatlan hadarását is megértjük, de csak az anyanyelv és a háttérismeretek birtokosai!!!!!!!!!!! • A nyelv (beszéd) segítségével szinte minden kifejezhető. T.Gy. Beszedfelism es szint. 2014.02.11.
Feladatmegoldás különböző kommunikációs módoknál T.Gy. Beszedfelism es szint. 2014.02.11.
Massachusetts Institute of Technology T.Gy. Beszedfelism es szint. 2014.02.11.
Institut de la Communication ParléeUMR CNRS 5009 - INPG - Université StendhalINP Grenoble T.Gy. Beszedfelism es szint. 2014.02.11.
ELTE BTK • A Fonetikai Tanszékállandó (kötelező) és választható kurzusainak leírása • Fonetika (szeminárium) Óraszám: 2 Kreditszám: 2 • A fonetika vizsgálati területeinek, a beszéd szegmentális (beszédhangok rendszere és sajátosságai) és szupraszegmentális szerkezetének (intonáció, hangsúly, tempó, szünet, hangszínezet, hangerősség), az elemzési lehetőségek megismerése; a fiziológiai, akusztikai és percepciós beszédvizsgálatok összefüggéseinek bemutatása, a fonetikai elemzés sajátosságainak elsajátíttatása. T.Gy. Beszedfelism es szint. 2014.02.11.
Pszicholingvisztika (előadás) Óraszám: 1 Kreditszám: 2 • A pszicholingvisztika kialakulása, előzményei, kutatási területei, sajátos módszertana, elmélet és gyakorlat (pedagógia, pszichológia, mesterséges intelligencia) viszonya. A nyelv és a beszéd vezérlése: az agy, felépítése, agyműködési elméletek. T.Gy. Beszedfelism es szint. 2014.02.11.
Kísérleti és alkalmazott fonetika - előadás, heti 2 óra. • Bevezető és összegző előadás, amely megismerteti a hallgatót a tárgykörrel, a hazai és nemzetközi eredményekkel, kísérleti megközelítésekkel, valamint a megoldásra váró problémákkal. A tantárgy előkészíti a kísérleti fonetika artikulációs, akusztikai és percepciós vizsgálatának, valamint a beszédtechnológiai alapismereteknek (mesterséges beszédelőállítás, beszédfelismerés, a beszélő személy azonosítása, jelfeldolgozás stb.) az oktatását. T.Gy. Beszedfelism es szint. 2014.02.11.
Beszédképzés és akusztikum I. - szegmentális fonetika - szeminárium, heti 2 óra • A beszédhangok, hangkapcsolatok és hangsorok létrehozásának fiziológiai sajátosságait és annak akusztikai következményeit tárgyalja. A tantárgy a beszédhangok képzésével, a hangátmenetekkel, a koartikuláció jelenségével, illetőleg mindezek elemzési lehetőségeivel, kísérleti vizsgálatával foglalkozik. • Beszédképzés és akusztikum II. - szupraszegmentális fonetika - szeminárium, heti 2 óra • A kurzus a beszéd szupraszegmentumait (beszéddallam, hangsúly, tempó, ritmus, szünet, hangszínezet) tárgyalja a képzés és az akusztikai sajátosságok szempontjából, elemzési gyakorlatokkal. T.Gy. Beszedfelism es szint. 2014.02.11.
Beszédtechnológia - szeminárium, heti 2 óra • A beszédkutatás eredményeinek egyfajta gyakorlati alkalmazásaival foglalkozik. Kitér a beszédszintézis és a mesterséges beszédfelismerés fonetikai vonatkozásaira, a működő rendszerek ismertetésére, a jelfeldolgozás aktuális kérdéseire, valamint a beszélő személy felismerésének (azonosításának) fonetikai sajátosságaira. T.Gy. Beszedfelism es szint. 2014.02.11.
A tanegység neve: Hangtan (fonetika) A tanegység kódszáma: GL 110 A felelős oktató neve: Szende Tamás, Szépe Judit 1. A hangtani leírás szintje: Fonetika és fonológia, egység és elhatárolás, Beszédhang és fonéma, A fonetika tárgykörei: beszédképzés, beszédakusztika, beszédpercepció, A fonetika hagyományos módszerei: artikulációs és akusztikai vizsgálati eljárások – 2. A beszédképző szervek és a zöngeképzés mechanizmusa: A beszédképző szervek funkciói, A beszédcsatorna felépítése, Alaphang és magánhangzó-minőség – 3. Az akadályképzés – 4. A beszédképző szervek lehetséges működésmódjainak típusai: A forrás dimenziója, A képzőmozzanatok keletkezési helyének, ill. a képzőszervek konfigurációinak a dimenziója, A működésmód, a működésintenzitás dimenziója, A folyamatdimenzió – 5. A magánhangzók képzési dimenziói – 6. A mássalhangzók képzési dimenziói – 7. Artikulációs alapú mássalhangzó-osztályozás az akadály típusa, az akadályképzés helye szerint – 8. Fonetikai átírási rendszerek: Az IPA-átírás, A Setälä-féle átírás, Az egyezményes magyar átírás. Tankönyv, jegyzet: Kassai Ilona: Fonetika. Nemzeti Tankönyvkiadó, Budapest 1998. Szépe Judit: Hangtan. PPKE BTK, Piliscsaba 2000. T.Gy. Beszedfelism es szint. 2014.02.11.
Mik a főbb fejlődési irányok? • Meggazdagodott-e már valaki beszédfelismerés vagy beszédszintézis termékeken? T.Gy. Beszedfelism es szint. 2014.02.11.
Three Trends to Watch in 2013 [Speech Technology] • In smartphone use, there's mounting interest in effectively using speech technology in multimodal and cross-channel environments. This development requires voice user interface (VUI) and graphical user interface (GUI) designers to work together and create fully integrated applications. • The creation of voice-enabled virtual assistants for the enterprise. Unlike Siri, these virtual assistants are designed for business purposes. Siri is the intelligent personal assistant that helps you get things done just by asking. It allows you to use your voice to send messages, schedule meetings, place phone calls, and more. Siri is available for iPhone 5, iPhone 4S, iPad with Retina display, iPad mini, and iPod touch (5th generation). • Voice biometrics -- "Your Voice Is Your Password„ -- voiceprints (hanglenyomat?) T.Gy. Beszedfelism es szint. 2014.02.11.