1 / 20

Research Activity in multimodal and BN systems

Research Activity in multimodal and BN systems. Ing. Matus PLEVA prof. Dr.h.c. Ing. Anton Cizmar, CSc. Email: Matus.Pleva@tuke.sk or Anton.Cizmar@tuke.sk Technic al U niver s it y of Kosice ( Slovak republic ). Past r esearch projects.

jeb
Download Presentation

Research Activity in multimodal and BN systems

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Research Activity in multimodal and BN systems Ing. Matus PLEVA prof. Dr.h.c. Ing. Anton Cizmar, CSc. Email: Matus.Pleva@tuke.sk or Anton.Cizmar@tuke.sk TechnicalUniversityofKosice(Slovak republic)

  2. Past research projects • Copernicus ISMAN :Integrated Services MAN, 1994-1997 • Copernicus MOCOMTEL :Mobile Computing Telematic Services, 1998-2000. • COST 249 :Continuous Speech Recognition over the Telephone, 1994-2000. • COST 278 :Spoken Language Interaction in Telecomunications, 2001-2005. • COST 275 :Biometric Based People Recognition over the Internet, 2001-2005. • COST 273 :Towards Mobile Broadband Multimedia Networks, 2001-2005. • IRKR :Smart Speech Interfaces, 2003-2006. • Slovak Telecom :Progressive Data Technologies and Services, 1998-99, 2000-02. • Skoda Auto Mlada Boleslav :Voice Driven Services in Skoda Auto MB, 2004-2005. • VSE :PLC Systems and Services, 2002. etc.

  3. New research projects • MOBILTEL :Mobile Multimodal Systems and Services, 2005-2007 • COST 2100 :Pervasive Mobile & Ambient Wireless Communications, 2007-2011. • COST 2102 :Cross-Modal Analysis of Verbaland Non-verbal Communication, 2007-2011 • VSE :PLC Systems and Services II, 2007 • ATVOS :Advanced Speech Technologies for Voice Operated Telecommunication Systems and Services in Slovak, APVV, ??? • VOTS :Voice Operated Telecommunication Systems and Services, AV MŠ, ???

  4. Smart Speech Communication Interface National Program R&D Buildig Information SocietyNo.2003 SP 20 028 01 03 doc. Ing. Jozef Juhár, CSc a kol. Email: Jozef.Juhar@tuke.sk TechnicalUniversityof Košice, Slovak Academy of Science, Slovak Technical University of Bratislava, Technical University of Žilina

  5. IRKR – Slovak Smart Speech Interface • Research and development of a spoken language dialogue system for information retrieval using voice interaction between human and computer • Attributes of the solution: • human-computer interaction (dialogue) in Slovak • an access to distributed information in the Internet • multi-user interaction through telephone (PSTN, GSM, VoIP) • modular architecture open for future extensions • two demonstration applications (Weather forecast for Slovakia, Timetable of Slovak Railways) • see http://irkr.tuke.sk/

  6. IRKR – Slovak Smart Speech Interface http://irkr.tuke.sk/ Voice Portal IRKR – SlovakSmart Speech Interface Information resources +421 55 6022297 – fixed line or +421 918 717491 – Orange cellular or +421 911 660038 – T-Mobile cellular or nickname: irkr_pub - Skype network 333 (with H323 Gateway -> 147.232.47.92) Interaction monitoring website: http://147.232.47.73:2297/index.php

  7. IRKR – Slovak Smart Speech Interface ASR (automatic speech recognition) server TTS server (text-to-speech) HUB – GalaxyHub open architecture http://irkr.tuke.sk/

  8. MOBILTEL Mobile Multimodal Telecommunications Systems andServices National Program R&D APVT-20-029004 prof. Dr.h.c. Ing. Anton Cizmar, CSc. Email: Anton.Cizmar@tuke.sk TechnicalUniversityof Kosice

  9. MobilTel • Research and development in the area of mobile multimodal telecommunication systems • Attributes of the solution: • human-computer interaction (dialogue) in Slovak with support of another mainly graphical modalities • except voice also keyboard or stylus pen feedback • interaction through PDA speaker, MIC, and GUI • modular architecture open for future extensions • two demonstration applications (Weather forecast for Slovakia, Timetable of Slovak Railways) • see http://mobiltel.tuke.sk/

  10. MobilTel In fact: multimodal extension to previous project – building GUI for PDA users ASR (automatic speech recognition) server TTS(text-to-speech) server TTM (Text To Multimodality) server WWW (World Wide Web) server speech from PDA SIP client speech over SIP network SIP client synthetized speech html GUI files PHP JavaScript

  11. examples

  12. Practical example of MobilTel communicator usage • We can try: offline version without voice (only GUI) • But connected with HUB and actual information server • Because voice module was written in VC++ 3.0 embedded and it could be run only on Pocket PC 2002!! • Then we was trying to write a new module in C++ .NET framerok 2005. • Know we are trying to compile small VoIP SIP stack, compatible with all windows mobile devices!

  13. Broadcast News Processing

  14. Databázy • TA3 – 3h • STV – 62h • Pod lampou – 10h • IRKR logy – 16h

  15. Cieľ • Automatická segmentácia a anotácia rečových dát • Tvorba audio-vizuálnych archívov s metadátami pre ľahšie a rýchlejšie prehľadávanie • Štandardy pre komplexne spracovanie metadát: MPEG7, MPEG21

  16. Conclusion • Thank you for your attention! • Questions? • http://kemt.fei.tuke.sk/ http://mobiltel.tuke.sk/ http://irkr.tuke.sk/

  17. Focus podmienky • F0: Základná vysielaná reč(baseline broadcast speech) - táto podmienka popisuje reč, ktorá je smerovaná priamo do vysielacieho reťazca, a je zaznamenaná v tichom štúdiu, s odstupom signálu od šumu viac ako 20dB. Predpokladáme tiež, že táto reč vznikla čítaním pripraveného textu. • F1: Spontánna vysielaná reč(spontaneous broadcast speech) - táto podmienka popisuje reč, ktorá je smerovaná jednému alebo viacerým konverzačným partnerom, teda odohráva sa spontánna konverzácia. Tento záznam je uskutočnený v tichom štúdiu, s odstupom signálu od šumu viac ako 20dB.

  18. Focus podmienky • F2: Reč cez telefónnu linku(speech over telephone channels) - táto podmienka popisuje reč, získanú zo zdroja s úzkym prenosovým pásmom, napríklad telefón, mobilný telefón, diktafón, záznamník alebo podobné médium so šírkou pásma maximálne 4kHz. • F3: Reč s hudbou v pozadí(speech in the presence of background music) - táto podmienka určuje reč, ktorá zodpovedá podmienkam F0 alebo F1, len s tým rozdielom že je vysielaná s hudbou v pozadí. Pomer výkonu signálu a hudby je taký, aby reč bola zrozumiteľná bežnému poslucháčovi, teda predpokladáme rozpätie medzi 10 až 20 dB.

  19. Focus podmienky • F4: Reč v degradovaných akustických podmienkach (speech under degraded acoustical conditions) - Táto podmienka popisuje reč, ktorá je degradovaná iným spôsobom ako hudbou v pozadí alebo použitím telefónnej linky. Zdroje degradácie môžu byť šum, šum prostredia, alebo nelineárne skreslenie. Odstup signálu od šumu (SNR) sa predpokladá v medziach 10 až 20 dB. • F5: Reč rečníka, hovoriaceho iným ako materinským jazykom (speech from non-native speakers) - táto podmienka určuje reč, ktorá zodpovedá podmienkam F0, ale je hovorená rečníkom, pre ktorého nie je táto reč prirodzenou materinskou rečou.

  20. Focus podmienky • F5 (pokračovanie): Táto reč je dostatočne zrozumiteľnou pre bežného poslucháča. Je hovorená plynulo rečníkom, ktorý má cudzozemský akcent. Napríklad britský rečník je cudzokrajným rečníkom pre americkú angličtinu. Ak rečník používa iný jazyk označuje sa to v texte spolu s jazykom aký používa. Nepoužíva sa však klasifikácia F5 ak to je jeho materinský jazyk. • FX: rôzne(miscellaneous) - Predstavuje reč, ktorá nespĺňa ani jednu predchádzajúcu podmienku, alebo reč, ktorá spĺňa viac ako jednu z podmienok F1 až F5. Napríklad cudzokrajný rečník s hudbou v pozadí.

More Related