180 likes | 332 Views
Семинар “Machine Learning” рук. проф.: Е.Л. Столов, В.Д. Соловьев. Учебник Бишопа http://research.microsoft.com/en-us/um/people/cmbishop/prml/ Стэнфордский курс http://videolectures.net/stanfordcs229f07_machine_learning/. Пример. Линейная аппроксимация.
E N D
Семинар “Machine Learning”рук. проф.: Е.Л. Столов, В.Д. Соловьев Учебник Бишопа http://research.microsoft.com/en-us/um/people/cmbishop/prml/ Стэнфордский курс http://videolectures.net/stanfordcs229f07_machine_learning/
Использование данных Google Labs для исследования эволюции лексики В.Д. Соловьев, Э.Ю. Лернер Казанский федеральный университет
GOOGLE BOOKS & Ngram Viewer GOOGLE BOOKS – хорошо известная электронная библиотека, содержащая 15 миллионов книг (12% всех опубликованных в мире книг) Для подсчета частоты слов выбрано подмножество из 5 миллионов книг, содержащих 500 миллиардов (!) слов, в том числе, русскоязычная часть – 35 миллиардов слов Реализован удобный интерфейс (Ngram Viewer), предоставляющий статистическую информацию в виде графиков
Частотность Прагматически мотивированные изменения частотности языковых элементов приводят к эволюции языка (и лексики, и грамматики) Межязыковые различия в частотности “являются значимыми с семантической и, в более общем плане, с общекультурной точки зрения” (А. Вежбицкая) Трудоемкость изучения частотности
Преобразование неправильных глаголов английского языка в правильные
Эволюция лексики Слова рождаются, распространяются и умирают Графики отражают характер этих процессов Задача 1: построить математические модели эволюционных процессов Задача 2: объяснить характер этих процессов
Пример: модель роста численности популяций
Динамика популярности личностей (продолжение)
Выводы по динамике распространения слов Частота входящих в активный оборот слов растет практически строго по линейному закону После короткого пребывания на пике частота падает Мало плавных кривых, переход от одной прямой к другой осуществляется быстро Также по линейному закону растет частота упоминаний людей или понятий, становящихся популярными Проблема. Почему это так?