180 likes | 280 Views
Výsledky a srovnání systémů pro detekci klíčových slov v telefonních hovorech Speech@FIT Vysoké učení technické v Brně.
E N D
Výsledky a srovnání systémů pro detekci klíčových slov v telefonních hovorechSpeech@FITVysoké učení technické v Brně Lukáš Burget, Tomáš Cipr, Honza Černocký, Mišo Fapšo, Ondřej Glembek, František Grézl, Kamil Chalupníček, Martin Karafiát, Jiří Kopecký, Pavel Matějka, Tomáš Mikolov, Petr Schwarz, Igor Szöke ZRE, 29.4.2009
Osnova Použité zkratky Trénovací / testovací data Popis systémů FastLVCSR:KWS založený na LVCSR s vkládáním klíčových slov do jazykového modelu. HybridLVCSR: KWS založený na LVCSR s indexací a rychlým vyhledáváním. Ak. CD-GM: Akustický KWS založený na kontextově závislých fonémech a GMM/HMM akustickém modelu. Ak. CI-NN: Akustický KWS založený na kontextově nezávislých fonémech a akustickém modelu pomocí neuronové sítě. Porovnání systémů - Brno Závěr a porovnání všech systémů
Použité zkratky a termíny KWS - detektor klíčových slov Ak. KWS - Akustický KWS LVCSR - slovní rozpoznávač Hybrid LVCSR - slovně/podslovní rozpoznávač Lattice - (svaz/mřížka) dopředný acyklický graf hypotéz LM - jazykový model AM - akustický model RT - real time faktor (1 jádro v CPU) Term - klíčové slovo OOV - slovo mimo rozpoznávací slovník
Trénovací / testovací data • Trénování • Akustický model: 35.75h řeči • Jazykový model pro FastLVCSR: přednášky(251K) + telefonní nahrávky (513K) + PMKBMK(1,2M) + titulky(3M) + VOA (147K) = 5,4M slov • Jazykový model pro HybridLVCSR: FastLVCSR + CNK (0,5G) + webová data(0,8G) • Slovník FastLVCSR: 50K + Termlist, výslovnosti pomocí transc (ČVUT) • Slovník HybridLVCSR: 1 mil. slov + 2700 fonémových multigramů, výslovnosti pomocí transc (ČVUT) • Testování 2h dat, 502 termů, 1712 výskytů Termy lišící se pouze v jediném fonému: 39 (186 výskytů) Termy, které jsou podslovy jiných termů: 19 (90 výskytů) 4
FastLVCSR Rychlý LVCSR s malým slovníkem včetně hledaných termů. 2-gram LM,12G x-word, kont. závislé fonémy, CMN/CVN, VTLN, MLLT, MPE, CMLLR Start systému ~x minut. Při změně seznamu klíčových slov je třeba zpracovat všechny nahrávky znova. Paměťové nároky ~x00 MB RAM. Dobře zvládá krátká slova a podslova. RT: 0,5 (příznaky) + dekódování (údaj z grafu)
FastLVCSR Pruning výrazně ovlivňuje rychlost a množství detekcí, které systém produkuje. Pruning nemá velký vliv na přesnost.
HybridLVCSR LVCSR s velkým slovníkem (1 mil.) a schopností rozpoznat i slova, která nejsou ve slovníku. 12G x-word, kont. závislé fonémy, CMN/CVN, VTLN, MLLT, MPE, CMLLR Start systému ~x minut. Nahrávky se zpracovávají jen jednou a ukládají do indexu. Při změně seznamu klíčových slov lze rychle vyhledávat v indexu (~0.00001RT). Paměťové nároky ~1GB RAM, ~x0MB/h HDD pro index. Dobře zvládá krátká slova a podslova. RT: 0,5 (příznaky) + dekódování (údaj z grafu) + 0,05 (indexace)
HybridLVCSR Z 502 termů bylo 28 OOV (1 mil. slovník). Z 1712 výskytů bylo 35 OOV. Možnost detekce OOV zlepšilo úspěšnost o 1%. Podobně jako u FastLVCSR má pruning velký vliv na rychlost a počet detekcí. Pruning nemá velký vliv na úspěšnost.
Akustický CD-GM Akustický KWS, 12G x-word, kont. závislé fonémy, CMN/CVN, VTLN, MLLT, MPE. Používá stejné akustické modely jako LVCSR (pouze bez CMLLR). Start systému ~x sekund. Při změně seznamu klíčových slov je třeba zpracovat všechny nahrávky znova. Paměťové nároky ~x0MB RAM. RT: 0,3 (příznaky) + dekódování (údaj z grafu)
Akustický CD-GM Pruning má menší vliv na rychlost a vetší vliv na úspěšnost (v porovnání s LVCSR KWS). Akustický KWS produkuje mnohem větší množství detekcí.
Akustický CI-NN Rychlý akustický KWS, kont. nezávislé fonémy, CMN/CVN. Jako akustický model je použita neuronová síť. Start systému ~x sekund. Při změně seznamu klíčových slov je třeba zpracovat všechny nahrávky znova. Paměťové nároky ~x0MB RAM. RT: 0,5 (příznaky + dekódování)
Porovnání systémů - délka slov Akustické systémy mají mnohem menší úspěšnost pro krátká slova než pro slova dlouhá. 13
Porovnání systémů - 1fon. Termy lišící se pouze v jediném fonému: 39 (186 výskytů) Podobná slovasnižují úspěšnost akustických systémů. 14
Porovnání systémů - podslova Termy, které jsou podslovy jiných termů: 19 (90 výskytů) Slova která mohou být podslovy (auto - automobil) podstatně zvyšují falešné záchyty a tím snižují úspěšnost. 15
Porovnání systémů - rychlost Závislost úspěšnosti na rychlosti systému. LVCSR: +0.5RT (vtln, cmllr fast) Ak. CD-GM: +0.3RT (vtln)
Porovnání systémů - ak. modely Příklad vlivu technik akustického modelování na úspěšnost systému FastLVCSR (RT faktor pouze pro dekódování).
Shrnutí • Jsou k dispozici 4 systémy, 2 založené na slovním rozpoznávači a 2 akustické • FastLVCSR je vhodný prospolehlivou detekci klíčových slov (vč. krátkých a podslov). Rychlost kolem 1.5RT. Není vhodný pro velmi častou změnu klíčových slov. Nadetekuje kolem 79% výskytů klíčového slova při 1 falešném záchytu za hodinu. • HybridLVCSR je vhodný prospolehlivou detekci klíčových slov (vč. krátkých a podslov). Rychlost kolem 3.5RT. Je vhodný pro velmi častou změnu klíčových slov (vyhledávání slov v již zpracovaných datech za zlomek sekundy). Nadetekuje kolem 78% výskytů klíčového slova při 1 falešném záchytu za hodinu. • Akustický CD-GM je vhodný prospolehlivou detekci klíčových slov. Rychlost kolem 4.0RT (lze výrazně měnit). Nadetekuje kolem 68% výskytů klíčového slova při 1 falešném záchytu za hodinu. Lze snadno natrénovat na novém jazyku (není třeba velké množství textových dat pro jazykový model). Možnost přidat CMLLR. • Akustický CI-NN je vhodný pro velmi rychlou detekci klíčových slov. Rychlost kolem 0.5RT. Nadetekuje kolem 50% výskytu klíčového slova při 1 falešném záchytu za hodinu. Lze snadno natrénovat na novém jazyku (není třeba velké množství textových dat pro jazykový model). Potenciál velkého urychlení (až 0,01 RT).