50 likes | 192 Views
Cvičení 1 Data pro experimentální práci. Potřeba dat. Data pro: trénování akustického modelu experimenty, testování, vyhodnocování Práce s daty v HTK. Trén. nahrávky. Přepisy. Trénovací nástroje. Modely. Testovací nástroje. Test. nahrávky. Aut. přepisy. Referenční přepisy. Skóre.
E N D
Potřeba dat Data pro: trénování akustického modelu experimenty, testování, vyhodnocování Práce s daty v HTK Trén. nahrávky Přepisy Trénovací nástroje Modely Testovací nástroje Test. nahrávky Aut. přepisy Referenční přepisy Skóre
Trénovací data pro fonémový akustický model Požadavky: • záznamy řeči v prostředí podobném cílové aplikaci • nahrávky musí obsahovat všechny fonémy (nejlépe s odpovídající frekvencí) • nahrávky musí pocházet od co největšího počtu osob • nahrávky musí být textově a akusticky různorodé • nahrávky by měly být foneticky jednoznačné (např. bez přeřeků) • naždá nahrávka musí být foneticky správně a přesně přepsána Ke každé nahrávce musí existovat 3 soubory (jména bez diakritiky!) • zaznam1.wav (nahrávka) • zaznam1.txt (textový přepis) K obědu si dám pizzu a džůs. • zaznam1.phn (fonetický přepis) - k objedu si dám picu a Čús -
Jak zvolit a nahrávat trénovací věty • Vytvořit seznam 100 vět. • Věty by měly být snadno vyslovitelné, nejlépe najednou (bez pauzy). • Ideální věty obsahují 5 – 8 slov, číslovky jsou rozepsány. • Věty lze brát z tisku či z jiných zdrojů (vyvarovat se cizích slov). • Ve větách by se měly objevit všechny fonémy, ty nejméně časté alespoň 2 x. (Seznam fonémů na následující stránce.) • K nahrávání použít vhodný software (Audacity), dobrý mikrofon. • Nastavit si 16 kHz a 16 bit!!! • Větu si přečíst a pak v klidu nahrát. Zajistit, aby před řečí bylo cca 0,5 sekundy ticha, totéž za větou. • Uložit pod správným jménem *.wav a *.txt. • Vytvořit ke každé větě fonetický přepis – pozor na „y“, „ě“, „ďi“, „X“ • Pozor též na spodobu „muž je“ -> „muš je“ ale „muž byl“ -> „muž bil“
Fonémy v češtině – česká fonetická abeceda Nouza, J., Psutka, J., Uhlíř, J.: Phonetic Alphabet for Speech Recognition of Czech. In: Radio Engineering, vol. 6, no. 4, December 1997, pp. 16-20.