230 likes | 713 Views
Rozpoznawanie mowy. Konrad Żaba grupa UMSI. Język i mowa. Język – ukształtowany społecznie system budowania wypowiedzi w komunikacji interpersonalnej Ludzki język jest wyjątkowy Mowa – system artykułowania dźwięków Wykorzystanie języka w procesie komunikacji. Ludzki aparat mowy.
E N D
Rozpoznawanie mowy Konrad Żaba grupa UMSI
Język i mowa • Język – ukształtowany społecznie system budowania wypowiedzi w komunikacji interpersonalnej • Ludzki język jest wyjątkowy • Mowa – system artykułowania dźwięków • Wykorzystanie języka w procesie komunikacji
Ludzki aparat mowy • Aparat mowy składa się z trzech grup narządów: • Aparatu oddechowego • Aparatu fonacyjnego • Aparatu artykulacyjnego
Głos Głos ludzki to wibracje powietrza wytwarzane przez drgające struny głosowe • Rozpoznawanie głosu przez ludzi: • Artykulacja tworzy falę dźwięku • Fala trafia do ucha • Poddawana jest przetwarzaniu przez mózg
Rozpoznawanie mowy Technologia pozwalająca komputerowi wyposażonemu w urządzenie do próbkowania dźwięku interpretować ludzką mowę. Wyróżniamy trzy rodzaje rozpoznawanie mowy: • Rozpoznawanie pojedynczych fonemów • Rozpoznawanie izolowanych słów • Rozpoznawanie łączonych słów i mowy ciągłej
Historia • 1920r. - RADIO REX
Historia • 1936r. Laboratoria AT&T Bella – początek prac • 1939r. „Voder” – pierwszy syntezator głosu • 1952r. „Audrey” – rozpoznaje cyfry • 1960r. IBM „Shoebox” – rozpoznaje 16 słów • 1971r. DARPA Speech Understanding Research • 1978r. Texas Instruments - „Speak and spell” • Rewolucyjny chip odpowiadający za syntezę głosu • 1985r. Kurzweil – 1000 słów
Historia • 1987r. Kurzweil – 20000 słów • 1993r. – poprawność interpretacji 10% • 1995r. – poprawność interpretacji >50% • 1997r. Dragon NaturallySpeaking – rozpoznaje ciągłą mowę • 2001r. – poprawność interpretacji >80% • 2008r. – Google VoiceSearch • 2011r. – Apple,DARPA - SIRI
Wykorzystanie • Pomoc niepełnosprawnym • Rozpoznawanie osób • Armia • Telefonia • Gadżety • Gry
Algorytmy • Liniowe kodowanie predykcyjne • Jednoprzebiegowa metoda Bridle’a i Browna • Niejawne modele Markowa • Nieliniowa transformacja czasowa (DTW) • Sieci neuronowe • …
Niejawne modele Markowa • Metoda statystyczna • Prawdopodobieństwo, że dźwięk w formie dyskretnego obrazu akustycznego jest słowem • Najczęściej stosowana metoda klasyfikacji
Niejawne modele Markowa Realizację możemy podzielić na dwie fazy: • Uczenie - estymacja parametrów zbioru modeli (w postaci automatów skończonych) za pomocą wypowiedzi uczących • Rozpoznanie – wyznaczenie transkrypcji fonetycznej rozpoznawanych wypowiedzi
Niejawne modele Markowa Przykładowy niejawny model Markowa
Sieci neuronowe Rozpoznawanie mowy zalicza się do problemów rozpoznawania wzorców. Wyróżniamy dwa rodzaje algorytmów: • Statycznej klasyfikacji fonemów • Dynamicznej klasyfikacji fonemów
Sieci neuronowe Sieci neuronowe dobrze radzą sobie z klasyfikacją obrazów, zatem można zaprezentować dyskretny obraz akustyczny jako spektrogram.
Spektrogram Reprezentuje zmiany w amplitudzie widma (spektrum) poprzez czas. • Trzy wymiary: • Oś X : czas • Oś Y: częstotliwość • Oś Z: intensywność kolorów reprezentuje wielkość
Nauka Cechą wspólną metod Niejawnych modeli Markowa i sieci neuronowych jest konieczność wstępnego procesu uczenia.
Rozpoznawanie mowy polskiej • Ogólnopolski projekt MSWiA • Instytut Monitorowania Mediów – system wyszukiwania oparty na słowach kluczowych • SkryBot – 90% skuteczność skrybot.sourceforge.net • MagicScribe • System rozpoznawania mowy AGH ASR • …