1 / 55

Řečové technologie – výzkum a využití

Řečové technologie – výzkum a využití. Honza Černocký BUT Speech @FIT Fakulta informačních technologi í VUT v Brně ZRE #1 , 14.2. 201 4. Agenda. skupina S peech@FIT klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka

dash
Download Presentation

Řečové technologie – výzkum a využití

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Řečové technologie – výzkum a využití Honza Černocký BUT Speech@FIT Fakulta informačních technologií VUT v Brně ZRE #1, 14.2.2014

  2. Agenda • skupina Speech@FIT • klasifikace a rozpoznávání vzorů • jak to funguje - detekce pohlaví • rozpoznávání mluvčího • identifikace jazyka • přepis řeči na text • detekce klíčových slov • organisace a projekty ZRE#1, Honza Černocký 14.2.2014

  3. Kdo jsme - Speech@FIT • Fakultní posice • Výzkumníci na projektech • PhD a mladší studenti • Podpora Bosses: Výzkum: Lukáš Burget Management: Honza Černocký Guru: Hynek Heřmanský • Skupina založena v 1997 (1 člověk) • ~20 lidí v 2012 ZRE#1, Honza Černocký 14.2.2014

  4. Funding ~ 1 M$ / year – the usual slide • Faculty(faculty members, research funds) • EU projects (FP[4567]) • Past: SpeechDat, SpeeCon, M4, AMI, CareTaker, AMIDA, MOBIO, weKnowIt, DIRAC, GLOCAL • Running: ApiMod • US funding – Air Force EOARD, IARPA, DARPA • Local funding agencies - Grant Agency of CR, Technology Agency of CR, Ministries of Education, Trade and Commerce, Defense, Interior • IT4I supporting academia-industry cooperation ZRE#1, Honza Černocký 14.2.2014

  5. Steel and soft … HW • Blade centers with 2400 CPU cores + Many more computers in class-rooms + GPUs • >120 TB of disk space • Professional administration by Center of Computing Resources. SW • commercial (Matlab) • free (HTK, SGE) • own (TNet, STK, KALDI) ZRE#1, Honza Černocký 14.2.2014

  6. Co děláme ? Automatická extrakce informací ze spontánní řeči Rozpoznávání mluvčího Identita Jan Novák Rozpoznávání pohlaví Pohlaví Mužnebožena Řeč Rozpoznávání jazyka Jazyk Angličtina ? Němčina ? Rozpoznávání řeči Přepis Sejdeme se u Pavouka. Detekce klíčových slov Detekce “Pavouk” ZRE#1, Honza Černocký 14.2.2014

  7. Evaluace • “Úspěšnost 100% ? Jasně!” … pokud si sami definujeme data, podmínky a evaluační metriky. • NIST – agentura vlády USA http://www.nist.gov/speech • Pravidelné „benchmark campaigns“ – evaluace – řečových technologií • Všichni účastníci mají ta samá data a stejný časový rámec na jejich zpracování a zaslání výsledků => objektivní hodnocení • Výsledky a detaily systémů jsou diskutovány na NIST workshopech • BUT Speech@FIT se účastní … • Transcription 2005, 2006, 2007, 2009 • Language ID 2003, 2005, 2007, 2009, 2011 • Speaker Verification 1998, 1999, 2006, 2008, 2010, IARPA 2011 • Spoken term detection 2006 • Proč to děláme? • Porovnání s ostatními, zajištění (občas i definice )„state of the art“ • Nechceme dělat hovadiny, které lidé vyzkoušeli a nefungovaly.

  8. Agenda • skupina Speech@FIT • klasifikace a rozpoznávání vzorů • jak to funguje - detekce pohlaví • rozpoznávání mluvčího • identifikace jazyka • přepis řeči na text • detekce klíčových slov • organisace a projekty ZRE#1, Honza Černocký 14.2.2014

  9. Trochu detailněji – jak se dělá rozpoznávač ? Nasbírat data Zvolit parametry Zvolit model Natrénovat model • Podle obecného receptu z jakékoliv knihy o detekci nebo rozpoznávání … Apriorní znalost problému Evaluaovat klasifikátor nasazení ZRE#1, Honza Černocký 14.2.2014

  10. Klasifikace a rozpoznávání IKR pondělí 13:00 do 16:00, D0206 Lukáš Burget ZRE#1, Honza Černocký 14.2.2014

  11. A co je výsledkem ? Už jste asi viděli … Modely Výpočet příznaků Vyhodnocení pravděpodobností nebo věrohodností (skóre hypotéz) “Dekódování” vstup rozhodnutí ZRE#1, Honza Černocký 14.2.2014

  12. Agenda • skupina Speech@FIT • klasifikace a rozpoznávání vzorů • jak to funguje - detekce pohlaví • rozpoznávání mluvčího • identifikace jazyka • přepis řeči na text • detekce klíčových slov • organisace a projekty ZRE#1, Honza Černocký 14.2.2014

  13. Nejjednodušší případ – rozpoznávání pohlaví (GID) • Nejjednuší aplikace pro implementaci, trénování a nasazení. • … a také nejpřesnější (>96% na reálných kanálech) • Omezení vyhledávacího prostoru na 50%

  14. Jak se dělá ? Gaussian Mixture models – kluci, holky MFCC Vyhodnocení GMM skóre Rozhodnutí vstup kluk, holka ZRE#1, Honza Černocký 14.2.2014

  15. Parametry – Mel frekvenční cepstrální koeficienty • Signál není stacionární => rámce • A slyšení není lineární – banka filtrů a log. ZRE#1, Honza Černocký 14.2.2014

  16. Matice parametrů O – sada čísel každých 10ms ZRE#1, Honza Černocký 14.2.2014

  17. Vyhodenocení skóre kluků a holek • Směs Gaussovek se středními hodnotami, kovariančními maticemi a váhami • Vyhodnocení modelu nad maticí parametrů O: ZRE#1, Honza Černocký 14.2.2014

  18. Rozhodnutí - „dekódování“ ZRE#1, Honza Černocký 14.2.2014

  19. Agenda • skupina Speech@FIT • klasifikace a rozpoznávání vzorů • jak to funguje - detekce pohlaví • rozpoznávání mluvčího • identifikace jazyka • přepis řeči na text • detekce klíčových slov • organisace a projekty ZRE#1, Honza Černocký 14.2.2014

  20. Rozpoznávání mluvčího • Verifikace • Je pan Vopička v nahrávce opravdu pan Vopička ? • Enrollment • Test • Identifikace • Mám nahrávku, kdo to je ? • Search • Najít pana Vopičku v tisících hovorů Identifikace i search se dají převést na N krát verifikaci. ZRE#1, Honza Černocký 14.2.2014

  21. Základní schéma • 2 hypotézy • H0: mluvčí v testovací nahrávce není ten, kterého jsme viděli v enrollmentu. • H1: mluvčí v testovací nahrávce je ten, kterého jsme viděli v enrollmentu. • Log likelihood ratio ZRE#1, Honza Černocký 14.2.2014

  22. Parametry ZRE#1, Honza Černocký 14.2.2014

  23. GMM • Směs Gaussovek se středními hodnotami, kovariančními maticemi a váhami • Vyhodnocení modelu nad maticí parametrů O: ZRE#1, Honza Černocký 14.2.2014

  24. UBM – background model • Na co je ? • Produkuje likelihood hypotézy H0 „toto není cílový mluvčí“ – nutné pro normalizaci. • Adaptuje se z něj model cílového mluvčího, protože pro plné trénování není dost cílových dat. • Jak se trénuje ? • Ideálně na nahrávkách všech >8.000.000.000 lidí, každý z několika různých kanálů. • Reálně na stovkách mluvčích z dostupných databází (LDC, dotrénování na cílová data). ZRE#1, Honza Černocký 14.2.2014

  25. Inter-session variability • Popsaný systém • dokáže postavit průměrně zdatný student s Matlabem za půl dne (IKR). • Bude uspokojivě fungovat, pokud bude koherence mezi enrollmentem a testováním. • ALE ONA NENÍ    - Inter-session variabilita • Variabilita mluvčího • Jazyk • Emoce, stres, Lombard effect • Zdravotní stav • Obsah promluvy, atd • Variabilita mimo mluvčího • Šum • Přenosový kanál – mikrofon, kodek, záznamové zařízení… • Toto vše snižuje přesnost systému. • Vyhrává ten, kdo • Dokáže lépe popsat DOBROU VARIABILITU (rozdíly mezi mluvčími) • Dokáže lépe zničit ŠPATNOU (inter-session) VARIABILITU ZRE#1, Honza Černocký 14.2.2014

  26. Boj s inter-session variabilitou Feature domain Model domain Score domain Target model Adapt Front-end processing LR score normalization S L Background model • Speaker Model Synthesis • Eigenchannel compensation • Joint Factor Analysis • Nuisance Attribute Projection • Feature Mapping • Eigenchannel adaptation in feature domain 2006 • Noise removal • Tone removal • Cepstral mean subtraction • RASTA filtering • Mean & variance normalization • Feature warping • Z-norm • T-norm • ZT-norm ZRE#1, Honza Černocký 14.2.2014

  27. Princip kompensace ŠPATNÉ variability 1. Příklad: jedna Gaussovka s 2D parametry Model cílového mluvčího UBM Vysoká variabilita mezi mluvčími Vysoká inter-session variabilita 27 ZRE#1, Honza Černocký 14.2.2014

  28. Princip kompensace ŠPATNÉ variability 2. Rozpoznávání: nech oba modely pohybovat ve směru vysoké inter-session variability a nastav je tak, aby dávaly co nejvíce pro testovací data Target speaker model Test data UBM Vysoká variabilita mezi mluvčími Vysoká inter-session variabilita 28 ZRE#1, Honza Černocký 14.2.2014

  29. Boj s inter-session variabilitou Feature domain Model domain Score domain Target model Adapt Front-end processing LR score normalization S L Background model • Speaker Model Synthesis • Eigenchannel compensation • Joint Factor Analysis • Nuisance Attribute Projection • Feature Mapping • Eigenchannel adaptation in feature domain • Noise removal • Tone removal • Cepstral mean subtraction • RASTA filtering • Mean & variance normalization • Feature warping • Z-norm • T-norm • ZT-norm 2008 ZRE#1, Honza Černocký 14.2.2014

  30. Od složitého k jednoduchému – total variability i-vectors Zjednodušená verze JFA, s jediným podprostorem, který definuje celkovou variabilitu (nerozlišujeme dobrou a špatnou) Podobně jako u speaker/channel faktorů nám jde o representaci nahrávky pomocí malého počtu parametrů. Už při jednoduchém skórování pomocí skalárního součinu i-vektorů dostáváme výsledky lepší než plná JFA iVectors? 2009-2010 i-vectors ! ZRE#1, Honza Černocký 14.2.2014

  31. Od jednoduchého zase ke složitému - PLDA Probabilistic LDA i-vectors jsou samy modelovány pomocí zjednodušené verze JFA. Inspirace [Prince ’07] PLDA pro verifikaci obličejů Model, který umožňuje Rychlé skórování Nejprve extrakce i-vectoru – “voice/print” Pak jednoduché srovnání Symetrické skórování – enrollment vs. test => skóre pro pár dvou nahrávek Funguje pro krátké nahrávky Velmi zajímavé pro masivní zpracování dat N nahrávek proti M mluvčím, Speaker clustering Dříve: 10ky – 100ky párů nahrávka/model za 1s na 1 CPU Nyní: desetitisíce Dá se ořezat, dokonce máme demo na mobilu. ZRE#1, Honza Černocký 14.2.2014

  32. NIST SRE 2006 - STBU • BUT • STBU consortium • BUT • Spescom datavoice • TNO ZRE#1, Honza Černocký 14.2.2014

  33. NIST SRE 2008 ZRE#1, Honza Černocký 14.2.2014

  34. NIST SRE 2010 ABC systém: • Agnitio (Jižní Afrika) • BUT • CRIM (Kanada) 2012 (také ABC) • Také moc dobré! ZRE#1, Honza Černocký 14.2.2014

  35. NIST SRE 2012 ABC system ZRE#1, Honza Černocký 14.2.2014

  36. Jak to ? • Umíme teorii klasifikace a rozpoznávání vzorů. • Jsme v kontaktu s lidmi, kteří jsou světovými špičkami – Patrick Kenny, Niko Brümmer, další. • dokážeme rychle implementovat nové nápady, a testovat • Analyzujeme výsledky a přemýšlíme o nich • Dokážeme se dívat mimo obor (uvnitř zpracování řeči – rozpoznávání jazyka, přepis, detekce klíčových slov) i jinde (grafika - Prince) a rychle aplikovat nápady. • A máme hodněPOČÍTAČŮ, takže kolegy občas pobijeme HRUBOU SILOU. ZRE#1, Honza Černocký 14.2.2014

  37. Spolupráce v rozpoznávání mluvčího Komunita • NIST SRE 2010 workshop na FITu. • Odyssey 2010: The Speaker and Language Recognition Workshop také na FITu. • BOSARIS – 5ti týdenní výzkumný workshop v červenci (incl. Patrick Kenny a Niko Brümmer) také na FITu. • Software pro svět: • JFA demo na http://speech.fit.vutbr.cz/software • BOSARIS toolkit http://speech.fit.vutbr.cz/workshops/bosaris2010 • Lidi, co se jezdí naučit JFA, i-vectors, a spol. ZRE#1, Honza Černocký 14.2.2014

  38. Agenda • skupina Speech@FIT • klasifikace a rozpoznávání vzorů • jak to funguje - detekce pohlaví • rozpoznávání mluvčího • identifikace jazyka • přepis řeči na text • detekce klíčových slov • organisace a projekty ZRE#1, Honza Černocký 14.2.2014

  39. Identifikace jazyka - LID LID • Jakým jazykem se mluvilo ZRE#1, Honza Černocký 14.2.2014

  40. Dva hlavní přístupy • Akustika – zase Gaussovky … • Fonotaktika – fonémový rozpoznávač + fonotaktický model. ZRE#1, Honza Černocký 14.2.2014

  41. Na čem trénovat LID ? • Nahrávky (mnoho) daného jazyka. • Možnost automatického získávání • detekce telefonních hovorů v internetových archívech vysílání • Pomoc LDC pro NIST LRE 2008 • Projekt US Air Force EOARD. • Dá se i u klienta na ostrých datech. • Současná práce • JFA, i-vectors a spol. – i v LID je nutné bojovat s inter-session (a tentokrát i s inter-speaker) variabilitou. ZRE#1, Honza Černocký 14.2.2014

  42. Agenda • skupina Speech@FIT • klasifikace a rozpoznávání vzorů • jak to funguje - detekce pohlaví • rozpoznávání mluvčího • identifikace jazyka • přepis řeči na text • detekce klíčových slov • organisace a projekty ZRE#1, Honza Černocký 14.2.2014

  43. Přepis řeči na text • Voice2text V2T • Speech2text S2T • Large vocabulary continuous speech recognition LVCSR Akustické modely Jazykový model Výslovnostní slovník Rozponávací SÍŤ Výpočet příznaků Vyhodnocení pravděpodobností nebo věrohodností (skóre hypotéz) “Dekódování” vstup rozhodnutí ZRE#1, Honza Černocký 14.2.2014

  44. Rozpoznávací síť ZRE#1, Honza Černocký 14.2.2014

  45. Na čem se trénuje V2T ? Korpus mluvené řeči + textové popisy Fonetická sada, výslovnostní slovník Textový korpus Systém pro rozpoznávání řeči • Závislé na jazyce a na doméně • Problémem je fonetická sada a slovník • Snaha o přístupy, které budou pracovat automaticky ZRE#1, Honza Černocký 14.2.2014

  46. BABEL • IARPA projekt • Jazyky pro 2013 • Cantonese • Turkish • Pashto • Tagalog • Surprise - Vietnamese • 2014 • Bengali • Assamese • Zulu • Haiti Creole • Lao • Surprise ?? ZRE#1, Honza Černocký 14.2.2014

  47. Agenda • skupina Speech@FIT • klasifikace a rozpoznávání vzorů • jak to funguje - detekce pohlaví • rozpoznávání mluvčího • identifikace jazyka • přepis řeči na text • detekce klíčových slov • organisace a projekty ZRE#1, Honza Černocký 14.2.2014

  48. Detekce klíčových slov - KWS • Co ? Kde ? S jakou konfidencí ? • Model klíčového slova vs. anti-model. • Volby: • Jaký je požadovaný poměr mezi rychlostí a přesností ? • Bude se zpracovávat jen jednou (taktické aplikace) nebo prohledávat (intelligence) ? • Vadí nám slova mimo slovník - Out of Vocabulary (OOV) words? • Přístupy • Akustický KWS • Prohledávání výstupu LVCSR • Prohledávání výstupu LVCSR s pod-slovními (sub-word) jednotkami

  49. Akustika • Model klíčového slova proti modelu pozadí • Bez modelu jazyka • J není problém s OOVs • Indexování není možné • J až 0.01xRT • Nemá sílu jazykového modelu, problém s krátkými slovy. ZRE#1, Honza Černocký 14.2.2014

  50. Prohledávání výstupu LVCSR • LVCSR, pak vyhledávání • V 1-best nebo lattici. • Možnost indexování ! • J rychlost vyhledávání • J přesnější na častých slovech • L limitován slovníkem LVCSR vocabulary – OOV problém • LVCSR je složitější a pomalejší než jen akustika. ZRE#1, Honza Černocký 14.2.2014

More Related