1 / 17

Speech@FIT „ostatní jen drží slovo … my ho umíme chytit “

Speech@FIT „ostatní jen drží slovo … my ho umíme chytit “. Honza Černocký. ZRE, 11.2.2009. Co je Speech@FIT ?. >20- členná skupina zpracování řeči na Ú stavu po čítačové grafiky a multimédií FIT. Lid é …. PhD. r esearch assistants: Franti šek Grézl, Ph.D. PhD students

dunne
Download Presentation

Speech@FIT „ostatní jen drží slovo … my ho umíme chytit “

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Speech@FIT„ostatní jen drží slovo … my ho umíme chytit“ Honza Černocký ZRE, 11.2.2009

  2. Co je Speech@FIT ? >20-členná skupina zpracování řeči na Ústavu počítačové grafiky a multimédií FIT

  3. Lidé … • PhD. research assistants: • František Grézl, Ph.D. • PhD students • Igor Szöke, Martin Karafiát, Ondřej Glembek, Michal Fapšo, Oldřich Plchot, Jiří Kopecký, Tomáš Mikolov, Marcel Kockmann, Květoslav Malý • Pre-grad students • Valiantsina Hubeika, Jakub Kubalík, Pavel Tomášek, Karel Veselý, Stefan Kombrink • Administration • Sylva Otáhalová, Jana Slámová • Technical and support staff • Kamil Chalupníček, Tomáš Cipr, Tomáš Kašpárek, Josef Žižka • Dr. Jan “Honza” ČernockýExecutive direction • Prof. Hynek Heřmanský - (IDIAP Martigny, Switzerland) advisor and guru • Dr. Lukáš Burget – Scientific director • Sub-group leaders: • Petr Schwarz – phonemes, implementation • Pavel “Pája” Matějka – SpeakerID, LanguageID

  4. … Šrot a SW • 3 IBM Blade centras44 IBM Blade serverypo 2 CPU • Cca 120 počítačův laboratořích • 16 TB diskového prostoru • Profesionální správa SW: • Obecný: HTK, Matlab, SGE, QuickNet • Vlastní: STK, SNet

  5. Kategorie rozpoznávání řeči • „Co bylo řečeno“ – rozpoznávání řeči(speech recognition) • Celkový přepis – rozpoznávání plynulé řeči s velkým slovníkem (large vocabulary continuous speech recognition LVCSR) • Detekce klíčových slov nebo frází – keyword/keyphrase spotting • „Jakou řečí“ – rozpoznávání jazyka (language identification LID) • „Kdo to řekl“– rozpoznávání mluvčího • Výběr jednoho mluvčího z množiny – identifikace mluvčího – speaker identification • Ověření předpokládané identity – verifikace mluvčího– speaker verification.

  6. Evaluace – NIST • „Já jsem lepší než ti druzí“ – jen kecy, pokud nejsou stejná data a evaluační metriky • NIST – agentura vlády USA, http://www.nist.gov/speech • Její řečová skupina organizuje pravidelné evaluace řečových technologií (rozpoznávání řeči, řečníka, jazyka, …). • Všechny participující laboratoři obdrží stejná data a mají omezený čas na jejich analýzu a odeslání výsledků NISTu – objektivní srovnání výsledků. • Výsledky a detaily jednotlivých systémů se diskutují na následném workshopu. • Speech@FIT se evaluací účastní (Meeting recognition 2005, 2006, 2007, Language ID 2003, 2005, 2007, SpkVer 1998, 1999, 2006, 2008, Spoken term detection 2006)

  7. Identifikace jazyka - LID • Na základě řečového signálu (z mikrofonu či telefonu), určí systém jazyk (čeština, angličtina, čínština, arabština, …) • Akustický a fonotaktický přístup

  8. LID – výsledky • NIST LRE 2005 – systém Speech@FIT nejlepší ve 2 kategoriích a těsně druhý v jedné kategorii v konkurenci 13 laboratoří ze 4 kontinentů. • Potvrzení v NIST LRE 2007 – „viděli jste v TV…“  • Nejen výzkumný prototyp – reálná aplikace nasazená u složky MO ČR.

  9. Detekce klíčových slov a frází • Úkol KWS: detekce klíčových slov nebo frází: • On-line pro sledování např. meetingu v reálném čase. • Off-line pro prohledávání velkých audio archívů („audio-Google“).

  10. KWS – výsledky a implementace • Velmi dobré umístění v NIST STD 2006 – angličtina a arabština. • Aplikace nasazená u MO ČR, několik jazyků. • Real-time zpracování pro meeting room – CeBIT 2006. • Integrace s multimodálním prohlížečem JFerret

  11. Rozpoznávání mluvčího – SpkID, SpkVer Úkol SpkID: přiřadit řečový segment k jednomu z N mluvčích nebo prohlásit, že to není žádný. Úkol SpkVer: ověřit předpokládanou identitu „Je to opravdu pan Novák?“

  12. Výsledky NIST 2006 • Náš systém • STBU konsorcium: • FIT VUT • TNO Human Factors (Nizozemí) • Spescom DataVoice (Jižní Afrika) • University of Stellenbosch (Jižní Afrika) • + SRE 2008 -> NIST page

  13. Kdo to platí – ~10 mil/rok… • Fakulta(učitelé FIT a celofakultní výzkumné projekty) • EU projekty • Byly: SpeechDat-E, SpeeCon, M4, AMI, CareTaker. • Jsou: AMIDA, MOBIO, KIWI, weKnowIt. • Podávané:MPO, EU, … • České grantové agentury: GAČR, FRVŠ, MŠMT, MPO. • „Silová“ ministerstva– obrana, vnitro. • EU a česképrůmyslové projekty • Spin-off –Phonexia, s.r.o..

  14. Diplomka/PhD ve Speech@FIT ? • Připravte se na • Celkem drsnou matematiku • Celkem drsné programování • 100% úvazek • Dlouhou učící křivku („proč si na meetingu pořád připadám jako debil ?“) • Ale také na • Zpracování řeči má netriviální teorii, ale okamžitě jejaplikujeme v praxi. • Účast na mezinárodních projektech a evaluacích – zajímaví lidé, zajímavá místa (i na déle) a skutečné srovnání se světem. • Zahraniční konference • Příspěvek k fakultnímu stipendiu • Výkonnou administrativu a support FIT. • Příjemné lidi, kteří si pomáhají, a mimofakultní akce • I před PhD !

  15. Není to zas tak složitý… Zdroj:S. Young et al.: The HTK Book (for HTK Version 3.4), Cambridge University Engineering Department, 2006 Zdroj:T. Černocký: poznámky z předmětu Matematika pro 1. ročník, ZŠ Krásného Brno, školní rok 2006/2007.

More Related