170 likes | 337 Views
Speech@FIT „ostatní jen drží slovo … my ho umíme chytit “. Honza Černocký. ZRE, 11.2.2009. Co je Speech@FIT ?. >20- členná skupina zpracování řeči na Ú stavu po čítačové grafiky a multimédií FIT. Lid é …. PhD. r esearch assistants: Franti šek Grézl, Ph.D. PhD students
E N D
Speech@FIT„ostatní jen drží slovo … my ho umíme chytit“ Honza Černocký ZRE, 11.2.2009
Co je Speech@FIT ? >20-členná skupina zpracování řeči na Ústavu počítačové grafiky a multimédií FIT
Lidé … • PhD. research assistants: • František Grézl, Ph.D. • PhD students • Igor Szöke, Martin Karafiát, Ondřej Glembek, Michal Fapšo, Oldřich Plchot, Jiří Kopecký, Tomáš Mikolov, Marcel Kockmann, Květoslav Malý • Pre-grad students • Valiantsina Hubeika, Jakub Kubalík, Pavel Tomášek, Karel Veselý, Stefan Kombrink • Administration • Sylva Otáhalová, Jana Slámová • Technical and support staff • Kamil Chalupníček, Tomáš Cipr, Tomáš Kašpárek, Josef Žižka • Dr. Jan “Honza” ČernockýExecutive direction • Prof. Hynek Heřmanský - (IDIAP Martigny, Switzerland) advisor and guru • Dr. Lukáš Burget – Scientific director • Sub-group leaders: • Petr Schwarz – phonemes, implementation • Pavel “Pája” Matějka – SpeakerID, LanguageID
… Šrot a SW • 3 IBM Blade centras44 IBM Blade serverypo 2 CPU • Cca 120 počítačův laboratořích • 16 TB diskového prostoru • Profesionální správa SW: • Obecný: HTK, Matlab, SGE, QuickNet • Vlastní: STK, SNet
Kategorie rozpoznávání řeči • „Co bylo řečeno“ – rozpoznávání řeči(speech recognition) • Celkový přepis – rozpoznávání plynulé řeči s velkým slovníkem (large vocabulary continuous speech recognition LVCSR) • Detekce klíčových slov nebo frází – keyword/keyphrase spotting • „Jakou řečí“ – rozpoznávání jazyka (language identification LID) • „Kdo to řekl“– rozpoznávání mluvčího • Výběr jednoho mluvčího z množiny – identifikace mluvčího – speaker identification • Ověření předpokládané identity – verifikace mluvčího– speaker verification.
Evaluace – NIST • „Já jsem lepší než ti druzí“ – jen kecy, pokud nejsou stejná data a evaluační metriky • NIST – agentura vlády USA, http://www.nist.gov/speech • Její řečová skupina organizuje pravidelné evaluace řečových technologií (rozpoznávání řeči, řečníka, jazyka, …). • Všechny participující laboratoři obdrží stejná data a mají omezený čas na jejich analýzu a odeslání výsledků NISTu – objektivní srovnání výsledků. • Výsledky a detaily jednotlivých systémů se diskutují na následném workshopu. • Speech@FIT se evaluací účastní (Meeting recognition 2005, 2006, 2007, Language ID 2003, 2005, 2007, SpkVer 1998, 1999, 2006, 2008, Spoken term detection 2006)
Identifikace jazyka - LID • Na základě řečového signálu (z mikrofonu či telefonu), určí systém jazyk (čeština, angličtina, čínština, arabština, …) • Akustický a fonotaktický přístup
LID – výsledky • NIST LRE 2005 – systém Speech@FIT nejlepší ve 2 kategoriích a těsně druhý v jedné kategorii v konkurenci 13 laboratoří ze 4 kontinentů. • Potvrzení v NIST LRE 2007 – „viděli jste v TV…“ • Nejen výzkumný prototyp – reálná aplikace nasazená u složky MO ČR.
Detekce klíčových slov a frází • Úkol KWS: detekce klíčových slov nebo frází: • On-line pro sledování např. meetingu v reálném čase. • Off-line pro prohledávání velkých audio archívů („audio-Google“).
KWS – výsledky a implementace • Velmi dobré umístění v NIST STD 2006 – angličtina a arabština. • Aplikace nasazená u MO ČR, několik jazyků. • Real-time zpracování pro meeting room – CeBIT 2006. • Integrace s multimodálním prohlížečem JFerret
Rozpoznávání mluvčího – SpkID, SpkVer Úkol SpkID: přiřadit řečový segment k jednomu z N mluvčích nebo prohlásit, že to není žádný. Úkol SpkVer: ověřit předpokládanou identitu „Je to opravdu pan Novák?“
Výsledky NIST 2006 • Náš systém • STBU konsorcium: • FIT VUT • TNO Human Factors (Nizozemí) • Spescom DataVoice (Jižní Afrika) • University of Stellenbosch (Jižní Afrika) • + SRE 2008 -> NIST page
Kdo to platí – ~10 mil/rok… • Fakulta(učitelé FIT a celofakultní výzkumné projekty) • EU projekty • Byly: SpeechDat-E, SpeeCon, M4, AMI, CareTaker. • Jsou: AMIDA, MOBIO, KIWI, weKnowIt. • Podávané:MPO, EU, … • České grantové agentury: GAČR, FRVŠ, MŠMT, MPO. • „Silová“ ministerstva– obrana, vnitro. • EU a česképrůmyslové projekty • Spin-off –Phonexia, s.r.o..
Diplomka/PhD ve Speech@FIT ? • Připravte se na • Celkem drsnou matematiku • Celkem drsné programování • 100% úvazek • Dlouhou učící křivku („proč si na meetingu pořád připadám jako debil ?“) • Ale také na • Zpracování řeči má netriviální teorii, ale okamžitě jejaplikujeme v praxi. • Účast na mezinárodních projektech a evaluacích – zajímaví lidé, zajímavá místa (i na déle) a skutečné srovnání se světem. • Zahraniční konference • Příspěvek k fakultnímu stipendiu • Výkonnou administrativu a support FIT. • Příjemné lidi, kteří si pomáhají, a mimofakultní akce • I před PhD !
Není to zas tak složitý… Zdroj:S. Young et al.: The HTK Book (for HTK Version 3.4), Cambridge University Engineering Department, 2006 Zdroj:T. Černocký: poznámky z předmětu Matematika pro 1. ročník, ZŠ Krásného Brno, školní rok 2006/2007.