260 likes | 362 Views
A k onvergenciapiac K+F igényeinek egyik konkrét megvalósítása: Hangportál. Dr. Vinkovits László ügyvezető igazgató Laszlo.Vinkovits@t-systems.co.hu Elek Zsombor projektvezető Zsombor.Elek @t-systems.co.hu T-Systems RIC Kutatási Kft. Tartalom. Bevezető
E N D
A konvergenciapiac K+F igényeinek egyik konkrét megvalósítása: Hangportál • Dr. Vinkovits László • ügyvezető igazgató • Laszlo.Vinkovits@t-systems.co.hu • Elek Zsombor • projektvezető • Zsombor.Elek@t-systems.co.hu • T-Systems RIC Kutatási Kft.
Tartalom • Bevezető • A Regionális Innovációs Centrum K+F feladatai • A T-Research Laboratórium projektjei • A beszédfeldolgozási technológiák áttekintése • Beszédfelismerés • Beszédszintézis • A két technológia konvergenciája: a Hangportál • Tipikus alkalmazásai • Előnyei, hátrányai • A technológia alapja: VoiceXML, dialógusok • Új alkalmazástípus: Személyreszabott portálok • Hagyományos és hangvezérelt elérés • Várható elterjedésük
A kutatási irányok • Hosszútávú (5-10 éves) kutatások: • - Online fordítás ( tanulmány készítése ) • - Bioszenzorika ( tanulmány készítése ) • Prototípusok ( 1-2 év ): • - Peer to peer ( tanulmány + platform előállítása ) • - PeMAP ( a magyar nyelvű implementáció ) • - Telebusiness ( platform készítése ) • - PPPoE ( prototípus kifejlesztése ) • Rollout, SI-projektek: • - I-Partner ( felmérés, fejlesztés, teszt, oktatás, átadás ) • - Tudor ( felmérés, fejlesztés, teszt, oktatás, átadás )
A kutatási irányok - projektek • Hosszútávú (5-10 éves) kutatások: • - Szabványosítás / Szabványosítási portál • - Intelligens beszédtechnológiák • Prototípusok ( 1-2 év ): • - Peer to peer folytatás • - Dynamic Networking • - Telebusiness folytatás • Rollout, SI-projektek: • - I-Partner II • - CRM ( Westel, Matáv )
A terv 2003-ben: • Törzstőke: 121.500.000,-Ft • Árbevétel: 1.880.000.000,-Ft • Foglalkoztatottak száma: 120 fő • A projektek/témák száma: 29
BMGE és RIC kooperáció • Kutató laboratóriumi program • Beszédinformációs rendszerek laboratórium • Peer-to-peer szolgáltatások laboratórium • Jellemzők: • A T-Systems RIC által elfogadott témák • Alap- és alkalmazott kutatás • Doktoranduszok és hallgatók bevonása, ösztöndíjak • Fix évi finanszírozás • Projekt alapú együttműködési program • Peer-to-peer rendszerek fejlesztése • Text-to-speech, speech-to-text rendszer fejlesztése • On-line fordítás (tanulmány) • Bioszenzorok alkalmazása INM rendszerekben (tanulmány) • Jellemzők: • A T-Systems RIC által definiált határidős feladatok • Alkalmazott kutatás-fejlesztés • Doktoranduszok és hallgatók bevonása, munkadíjak • Eseti finanszírozás
A beszédfeldolgozási technológiák áttekintése • Beszédfelismerés (Automatic Speech Recognition, ASR) • Feladata: A beszédjelből az annak megfelelő szöveges átirat előállítása • Fő elvárások: valósidejűség, beszélőfüggetlenség, zajérzéketlenség • Beszédszintézis (Text-to-Speech, TTS) • Feladata: egy szövegből a neki megfelelő hangminta előállítása • Fő elvárások: megfelelő intonáció, sebesség, hangnem, hangsúly, különböző személyiségek megjelenítése
Beszédfelismerés Beszédjel Mintavételezés, előfeldolgozás első szintű átirat: szavak Mintaillesztés második szintű átirat: mondatok Elemzés A beszédfelismerés lehetséges csak az első szint felhasználásával, a második szint nagyobb pontosságot tesz lehetővé
Beszédfelismerés: első szint • Mintavételezés, frekvenciaanalízis • Lényegkiemelés • Mintailesztés • Dinamikus idővetemítés • Neurális hálózatok • Rejtett Markov modell ? x y=‘a’ a,b,…,z
Beszédfelismerés: második szint • Az alapötlet: az emberi felismerés is ezt használja (ismeretlen nyelvű szöveg leírása nehéz feladat) • A fő eszköz: elemzés (megértés) • A cél: információ visszacsatolása az első szintre • Fő módszerek: • Szintaktikai elemzés • Valószínűségi: a felismart szavak sorrendje megadja annak a valószínűségét, hogy a mondat helyes-e • Nyeltani alapú: környezetfüggetlen nyelvtani elemés (Chomsky) • Szemantikai elemzés
Beszédszintézis 1. Prozódiai tudás (+érzelmek) Szabály-adatbázis Fonéma átirat TTS Engine Előfeldolgozás „Text” + Fonéma szótár • Az emberi beszédképző szervrendszer modellezése • A beszédjel modelezése • Mintaadatbázis használata
B(f) F1 F2 F3 f [Hz] Beszédszintézis 2. • A TTS Engine: • Az emberi beszédképző szervrendszer modellezése • A beszédjel modelezése: formánsok manipulálása • Minta-adatbázis használata: konkatenatív szintézis +
A két technológia konvergenciája: a Hangportál Lehetővé válik a számítógéppel való beszéd alapú kommunikáció. A számítógépen tárolt tartalom olyan környezetből is elérhető, amiből hagyományos formában eddig nehézkes vagy tilos volt. ASR TTS
Tipikus alkalmazások • E-mail üzenetek felolvasása • Nevek és címek • Hírek, időjárás • Pénzügyi információk: számlaegyenleg, részvényárfolyamok lekérdezése • Dinamikus weboldalak • Figyelmeztetések • Riasztások
Előnyei, hátrányai • Hátrányok • Gyakori a visszakérdezés • Van esély félreértésre, rossz válasz rögzítésére • Könnyebben lerakják a telefont az emberek, mintha egy emberrel beszélnének • Szabad szöveget válaszként nem tud rögzíteni • Előnyök • Alacsony költség • Normál munkaidőn kívül is használható • Nincs szabadság, betegállomány
Belföld Külföld Hír1 Hír1 Hír2 Hír2 HírN HírN Telefon hírmondó Új hívás • Aktuális hírek, óránként frissülve • Az egyes hírcsoportok külön előfizethetők • Tipikus parancsok: • Menüválasztás • Ismétlés • Előző hír • Következő Login Főmenü … Időjárás
Az általános struktúra: VoiceXML (HTTP) Alkalmazás szerver Voice browser DB ASR VXML Interpr. TTS Tel Személyreszabott portálok A felhasználó azonosítása után lehetőség van személyre szabott tartalom megjelenítésére.
VoiceXML • Voice eXtensible Markup Language • Feladat: audio dialógusok létrehozása • Fő funkciók: • Szintetizált beszéd és Hangfelvételek lejátszása • Beszéd és DTMF jelek felismerése • Telefonvonal kezelése (pl. átirányítás) • Célja: a webes fejlesztések és tartalomszolgáltatások átültetése hangvezérelt környezetbe Kérés VoiceXML Interpreter Implementációs platform Dokumentum szerver VXML file
Form Main menu Kérem, töltse ki: Kérem, válasszon: Név: Menu1 Kovács Cím: Budapest Menu2 123-456 Tel.: Menu3 Menu4 OK Mégse Exit VoiceXML dialógusok Menu Form
Egy működő architektúra • Partnerek: • BMGE, TMIT • T-Systems RIC • T-Systems Nova Berkom, Berlin • Felhasználás: • Hírportál
Közvéleménykutatás 2002 • Főbb jellemzők • N=200 fős minta • Magas telefonköltségű egyéni Matáv ügyfelek • Kérdések • Információs eszközök elterjedtsége és használata • Vásárlási szokások, vásárlással kapcsolatos attitűdök • Információforrások preferenciája, igénybevételi jellemzők • Megközelítőleg mekkora összeget szánnának a bevezetni tervezett szolgáltatásra az interjúalanyok?
Felkeltette az érdeklődését? • Közel a válaszadók felének (46,4%) érdeklődését egyértelműen felkeltette a szolgáltatás az elhangzott ismertető alapján. • A szolgáltatás a fiatalok érdeklődését jobban felkeltette, mint az idősebbeké
Várható elterjedés • Közel a válaszadók tizede biztos abban, hogy előfizetne egy ilyen hírszolgáltatásra, míg nem egészen a felük valószínűnek tartja mindezt (47,6%).
Várható használati gyakoriság • A válaszadók több mint fele biztos abban, hogy legalább hetente igénybe venne egy hasonló szolgáltatást.
Fizetési hajlandóság • Az átlag a 3000Ft feletti kategória magas aránya miatt 3226Ft
Vége • Köszönjük a figyelmet!