1 / 26

A k onvergenciapiac K+F igényeinek egyik konkrét megvalósítása: Hangportál

A k onvergenciapiac K+F igényeinek egyik konkrét megvalósítása: Hangportál. Dr. Vinkovits László ügyvezető igazgató Laszlo.Vinkovits@t-systems.co.hu Elek Zsombor projektvezető Zsombor.Elek @t-systems.co.hu T-Systems RIC Kutatási Kft. Tartalom. Bevezető

africa
Download Presentation

A k onvergenciapiac K+F igényeinek egyik konkrét megvalósítása: Hangportál

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. A konvergenciapiac K+F igényeinek egyik konkrét megvalósítása: Hangportál • Dr. Vinkovits László • ügyvezető igazgató • Laszlo.Vinkovits@t-systems.co.hu • Elek Zsombor • projektvezető • Zsombor.Elek@t-systems.co.hu • T-Systems RIC Kutatási Kft.

  2. Tartalom • Bevezető • A Regionális Innovációs Centrum K+F feladatai • A T-Research Laboratórium projektjei • A beszédfeldolgozási technológiák áttekintése • Beszédfelismerés • Beszédszintézis • A két technológia konvergenciája: a Hangportál • Tipikus alkalmazásai • Előnyei, hátrányai • A technológia alapja: VoiceXML, dialógusok • Új alkalmazástípus: Személyreszabott portálok • Hagyományos és hangvezérelt elérés • Várható elterjedésük

  3. A kutatási irányok • Hosszútávú (5-10 éves) kutatások: • - Online fordítás ( tanulmány készítése ) • - Bioszenzorika ( tanulmány készítése ) • Prototípusok ( 1-2 év ): • - Peer to peer ( tanulmány + platform előállítása ) • - PeMAP ( a magyar nyelvű implementáció ) • - Telebusiness ( platform készítése ) • - PPPoE ( prototípus kifejlesztése ) • Rollout, SI-projektek: • - I-Partner ( felmérés, fejlesztés, teszt, oktatás, átadás ) • - Tudor ( felmérés, fejlesztés, teszt, oktatás, átadás )

  4. A kutatási irányok - projektek • Hosszútávú (5-10 éves) kutatások: • - Szabványosítás / Szabványosítási portál • - Intelligens beszédtechnológiák • Prototípusok ( 1-2 év ): • - Peer to peer folytatás • - Dynamic Networking • - Telebusiness folytatás • Rollout, SI-projektek: • - I-Partner II • - CRM ( Westel, Matáv )

  5. A terv 2003-ben: • Törzstőke: 121.500.000,-Ft • Árbevétel: 1.880.000.000,-Ft • Foglalkoztatottak száma: 120 fő • A projektek/témák száma: 29

  6. BMGE és RIC kooperáció • Kutató laboratóriumi program • Beszédinformációs rendszerek laboratórium • Peer-to-peer szolgáltatások laboratórium • Jellemzők: • A T-Systems RIC által elfogadott témák • Alap- és alkalmazott kutatás • Doktoranduszok és hallgatók bevonása, ösztöndíjak • Fix évi finanszírozás • Projekt alapú együttműködési program • Peer-to-peer rendszerek fejlesztése • Text-to-speech, speech-to-text rendszer fejlesztése • On-line fordítás (tanulmány) • Bioszenzorok alkalmazása INM rendszerekben (tanulmány) • Jellemzők: • A T-Systems RIC által definiált határidős feladatok • Alkalmazott kutatás-fejlesztés • Doktoranduszok és hallgatók bevonása, munkadíjak • Eseti finanszírozás

  7. A beszédfeldolgozási technológiák áttekintése • Beszédfelismerés (Automatic Speech Recognition, ASR) • Feladata: A beszédjelből az annak megfelelő szöveges átirat előállítása • Fő elvárások: valósidejűség, beszélőfüggetlenség, zajérzéketlenség • Beszédszintézis (Text-to-Speech, TTS) • Feladata: egy szövegből a neki megfelelő hangminta előállítása • Fő elvárások: megfelelő intonáció, sebesség, hangnem, hangsúly, különböző személyiségek megjelenítése

  8. Beszédfelismerés Beszédjel Mintavételezés, előfeldolgozás első szintű átirat: szavak Mintaillesztés második szintű átirat: mondatok Elemzés A beszédfelismerés lehetséges csak az első szint felhasználásával, a második szint nagyobb pontosságot tesz lehetővé

  9. Beszédfelismerés: első szint • Mintavételezés, frekvenciaanalízis • Lényegkiemelés • Mintailesztés • Dinamikus idővetemítés • Neurális hálózatok • Rejtett Markov modell ? x y=‘a’ a,b,…,z

  10. Beszédfelismerés: második szint • Az alapötlet: az emberi felismerés is ezt használja (ismeretlen nyelvű szöveg leírása nehéz feladat) • A fő eszköz: elemzés (megértés) • A cél: információ visszacsatolása az első szintre • Fő módszerek: • Szintaktikai elemzés • Valószínűségi: a felismart szavak sorrendje megadja annak a valószínűségét, hogy a mondat helyes-e • Nyeltani alapú: környezetfüggetlen nyelvtani elemés (Chomsky) • Szemantikai elemzés

  11. Beszédszintézis 1. Prozódiai tudás (+érzelmek) Szabály-adatbázis Fonéma átirat TTS Engine Előfeldolgozás „Text” + Fonéma szótár • Az emberi beszédképző szervrendszer modellezése • A beszédjel modelezése • Mintaadatbázis használata

  12. B(f) F1 F2 F3 f [Hz] Beszédszintézis 2. • A TTS Engine: • Az emberi beszédképző szervrendszer modellezése • A beszédjel modelezése: formánsok manipulálása • Minta-adatbázis használata: konkatenatív szintézis +

  13. A két technológia konvergenciája: a Hangportál Lehetővé válik a számítógéppel való beszéd alapú kommunikáció. A számítógépen tárolt tartalom olyan környezetből is elérhető, amiből hagyományos formában eddig nehézkes vagy tilos volt. ASR TTS

  14. Tipikus alkalmazások • E-mail üzenetek felolvasása • Nevek és címek • Hírek, időjárás • Pénzügyi információk: számlaegyenleg, részvényárfolyamok lekérdezése • Dinamikus weboldalak • Figyelmeztetések • Riasztások

  15. Előnyei, hátrányai • Hátrányok • Gyakori a visszakérdezés • Van esély félreértésre, rossz válasz rögzítésére • Könnyebben lerakják a telefont az emberek, mintha egy emberrel beszélnének • Szabad szöveget válaszként nem tud rögzíteni • Előnyök • Alacsony költség • Normál munkaidőn kívül is használható • Nincs szabadság, betegállomány

  16. Belföld Külföld Hír1 Hír1 Hír2 Hír2 HírN HírN Telefon hírmondó Új hívás • Aktuális hírek, óránként frissülve • Az egyes hírcsoportok külön előfizethetők • Tipikus parancsok: • Menüválasztás • Ismétlés • Előző hír • Következő Login Főmenü … Időjárás

  17. Az általános struktúra: VoiceXML (HTTP) Alkalmazás szerver Voice browser DB ASR VXML Interpr. TTS Tel Személyreszabott portálok A felhasználó azonosítása után lehetőség van személyre szabott tartalom megjelenítésére.

  18. VoiceXML • Voice eXtensible Markup Language • Feladat: audio dialógusok létrehozása • Fő funkciók: • Szintetizált beszéd és Hangfelvételek lejátszása • Beszéd és DTMF jelek felismerése • Telefonvonal kezelése (pl. átirányítás) • Célja: a webes fejlesztések és tartalomszolgáltatások átültetése hangvezérelt környezetbe Kérés VoiceXML Interpreter Implementációs platform Dokumentum szerver VXML file

  19. Form Main menu Kérem, töltse ki: Kérem, válasszon: Név: Menu1 Kovács Cím: Budapest Menu2 123-456 Tel.: Menu3 Menu4 OK Mégse Exit VoiceXML dialógusok Menu Form

  20. Egy működő architektúra • Partnerek: • BMGE, TMIT • T-Systems RIC • T-Systems Nova Berkom, Berlin • Felhasználás: • Hírportál

  21. Közvéleménykutatás 2002 • Főbb jellemzők • N=200 fős minta • Magas telefonköltségű egyéni Matáv ügyfelek • Kérdések • Információs eszközök elterjedtsége és használata • Vásárlási szokások, vásárlással kapcsolatos attitűdök • Információforrások preferenciája, igénybevételi jellemzők • Megközelítőleg mekkora összeget szánnának a bevezetni tervezett szolgáltatásra az interjúalanyok?

  22. Felkeltette az érdeklődését? • Közel a válaszadók felének (46,4%) érdeklődését egyértelműen felkeltette a szolgáltatás az elhangzott ismertető alapján. • A szolgáltatás a fiatalok érdeklődését jobban felkeltette, mint az idősebbeké

  23. Várható elterjedés • Közel a válaszadók tizede biztos abban, hogy előfizetne egy ilyen hírszolgáltatásra, míg nem egészen a felük valószínűnek tartja mindezt (47,6%).

  24. Várható használati gyakoriság • A válaszadók több mint fele biztos abban, hogy legalább hetente igénybe venne egy hasonló szolgáltatást.

  25. Fizetési hajlandóság • Az átlag a 3000Ft feletti kategória magas aránya miatt 3226Ft

  26. Vége • Köszönjük a figyelmet!

More Related