1 / 22

Кластеризація слів у диктувальній машині

Кластеризація слів у диктувальній машині. Микола Сажок. Word clusterizing in dictation machine Mykola Sazhok. Київ – Kyiv 20 1 3. Особливості диктувальної машини як системи розпізнавання. Словник системи охоплює якомога ширший лексикон

hu-ball
Download Presentation

Кластеризація слів у диктувальній машині

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Кластеризація слів у диктувальній машині Микола Сажок Word clusterizing in dictation machineMykola Sazhok Київ – Kyiv 2013

  2. Особливості диктувальної машини як системи розпізнавання Словник системи охоплює якомога ширший лексикон Розпізнавання мовлення відбувається в реальному часі Вимогливість системи до обчислю-вальних ресурсів має бути помірною

  3. Генеративна модель як найбільш продуктивний підхід

  4. Траєкторія сигналу у просторі первинних ознак

  5. Пофонемне розпізнавання злитого мовлення, що складається зі слів вибраного словника

  6. Лінгвістична складова системи розпізнавання Оцінка якості моделі: середній коефіцієнт розгалуженості <100 – дуже добре

  7. Введення кластерів слів: N = 2 w1 g1 w2 w3 w4 g2 w5 w6 w7 g3 w8 K 2K >> JJ 2 + K

  8. Об’єднання слів у класи методом кластеризації – критерій Див. Додаток А

  9. Об’єднання слів у класи методом кластеризації – базовий алгоритм O(IKJ3)

  10. Прискорення базового алгоритму

  11. Прискорення базового алгоритму

  12. Прискорення базового алгоритму – введення рекурсії

  13. Прискорення базового алгоритму – підсумки O(IKJ3) O(IKJ2) 100000 слів, 1000 класів: 7 годин на ітерацію, 240 МБ 3-грам 1200 МБ 4-грам 2000 класів: 47 годин 3000 класів: 85 годин без класів: 1300 МБ 3-грам

  14. Приклади класів

  15. Висновки • Автоматично сформовані класи слів узагальнюють граматичні, семантичні та фонетичні ознаки слів • Об’єднання слів у класи зберегло надійність розпізнавання • Відкрито шлях до: • охоплення всього лексикону • автоматичного поповнення словника розпізнавання • передбачення пунктуації та регістру • ускладнення структури лінгвістичної моделі • Цікаво дослідити: • омонімію • багатозначність класифікації • чи можлива більш точна кластеризація?

  16. Література • Т.К. Вінцюк. Структура машини для усного перекладу, автоматичного редагування та друку під диктовку. УкрОбраз’1994, с.18-22. • Young S.J. et al., The HTK Book Version 3.4, Cambridge University, 2006, 360 p. • S. Martin, J. Liermann, and H. Ney, “Algorithms for bigram and trigram word clustering,” in Proceedings of Eurospeech, vol. 2, pp. 1253–1256, Madrid, 1995. • A. Lee, T. Kawahara. "Recent Development of Open-Source Speech Recognition Engine Julius" APSIPA ASC, 2009. • М. Сажок. Кластеризация слов при построении лингвистической модели для автоматического распознавания речевого сигнала // Кибернетика и вычислительная техника. №4, 2012. • В. Робейко, М. Сажок. Розпізнавання спонтанного мовлення на основі акустичних композитних моделей слів у реальному часі // Штучний інтелект. – № 4’2012.

  17. Додаткова література • Ніна Васильєва, Валерій Пилипенко, Олекандр Радуцький, Валентина Робейко, Микола Сажок. Створення акустичного корпусу українського ефірного мовлення // УкрОбраз’2010. • В. Робейко. Моделирование особенностей спонтанной украинской речи в системах автоматического распознавания речевого сигнала // Кибернетика и выч. техника. №4, 2012. • Mykola Sazhok, Valentyna Yatsenko, Taras Vintsiuk. Interpretation of Continuous Ukrainian Pronunciation for Spoken Dictionary-Interpreter. // SpeCom’2007. • Mykola Sazhok, Nina Vasylieva, Taras Vintsiuk, Gerard Chollet. Acoustic-Phonetic Model Application for Syllable Speech Recognition Output Post-Processing // SpeCom’2007. • М. Сажок, Руслан Селюх, Олександр Юхименко. Адаптація до голосу диктора на основі гендернозалежних акустичних моделей фонем для української мови // УкрОбраз’2010. • Дмитро Федорин. Ідентифікація мови диктора з використанням акустичної та фонетичної інформації // УкрОбраз’2012

  18. Додатки

  19. Додаток А. Проміжні кроки виведення критерію FG

  20. Додаток Б. Приклади генерування речень • а також про нанесення той процес може стати виконання указів стаття двісті п'ятнадцять кримінального кодексу україни • на сонці його не дізнаємося • знайомий він у вас є інакше часу може зміцнювати одна любов гната і вважає рішення арбітражного конституційного суду україни про всі питання зони подолання зв'язків перенаправлено з німецьким доступом про кабінету міністрів україни • він відповів • повторюю її сліди змусять зробити менше аніж іноземні пояснив глава міліцейського комітету сергій тарасюк який сказав що мовляв та співала і спрямована в ім'я утворенню карають у пам'ять чемпіонату літні монастирські а ось комунікаційні відбитка навчаються до тоталітарного дня виходу з клубом чинність стаття одинадцять особа доводить над кількістю і не зупинити видання щороку з історії жителів польщі зокрема пропозицією голосування політології у студентському районі для ведення заходів з боку претендента з погоджувальної ради висновків запліднення релігії притаманна прикладі перебування в луганській губернії • в буенос- франківська дві тисячі шістсот вісімдесят дев'ять тисяча двісті п'ятдесят п'ять самогубців • міг був перейти за будь- які церемонії року альбом та об'єднання між транспортом що входить до розділення сонячних та дитячих регіонах міста • …лемки влади тримають свою частину стерлінгів без поділу зірки на яйця • я поговорила з королівством уряду

  21. Додаток В. Дослідна експлуатація www.cybermova.com/products/stt-demo.htm WER < 5% (112 слів)

  22. ДЯКУЮ ЗА УВАГУ!

More Related