E N D
Частотные словари • Частотный словарь, вид словаря(обычно одноязычного), в котором лексические единицы характеризуются с точки зрения степени их употребительности в совокупности текстов, представительных либо для языка в целом, либо для отдельного функционального стиля, либо для одного автора.
Частотные словари • Информацию о каких словах следует включать? • Как оценивать информацию о частотности слова, полученную на материале конкретного корпуса? • Как выделять значимые слова?
Частотные словари • F – частота • нормированная частота • где N — число исследованных слов текста • В большинстве Частотный словарь приводятся и абсолютные, и относительные характеристики.
Частотное поведение слова • ipm, wpm – количество употреблений на миллион • стандартное представление частоты токена или леммы (→ см.), вычисляемое относительно условного корпуса в миллион единиц независимо от объема реального корпуса • ipm(x)=freq(x)*1 000 000/corp, • где freq(x) – частота единицы в корпусе, • а corp – объем реального корпуса.
ОПРЕДЕЛЕНИЯ МОДЕЛИ «РАНГ-ЧАСТОТА» <ТЕКСТ> <ЧАСТОТНЫЙ СЛОВНИК> Позиция в частотном спектре: низкоранговое (высокочастотное) vs. низкочастотное
Функции частотных словарей • изучение иностранного языка (для чтения 2% слов могут быть незнакомы, 1000 наиболее частотных слов – без контекста) • усовершенствование различных кодовых систем • системы, основанные на статистических методах поиска информации, кластеризации документов и т.п. • изучение словаря отдельных литературных памятников или авторов на основе сведений о частотах употребления слов и словосочетаний • лексикографические исследования (отношения внутри семантического поля, выделение устойчивых словосочетаний) • контент-анализ
Примеры частотных словарей • Иоссельсон Г. [Josselson, H.] Словарь русского языка. Детройт, 1953. (Josselson Н. Н. The Russian word count... Detroit, 1953). Объем словника составляет 1700 слов. • ШтейнфельдтЭ. А. Частотный словарь современного русского литературного языка. Таллин, 1963. (2 500 наиболее употребительных слов) • Частотный словарь общенаучной лексики / Под общ. ред. Е. М. Степановой. М., 1970. • ГрузбергА. А. Частотный словарь русского языка второй половины XVI- начала XVII века. Пермь, 1974. • ОливерусЗденек Ф. Морфемы русского языка: Частотный словарь. Praha, 1976.
Примеры частотных словарей • Частотный словарь русского языка: Около 40 000 слов / Под ред. Л. Н. Засориной. М., 1977. (обработка средствами вычислительной техники 1 млн словоупотреблений (40 000 слов)) • ЛённгренЛ. Частотный словарь современного русского языка. Uppsala, 1993. • Ляшевская, Шаров. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009.
Примеры частотных словарей Английский: • Francis W. Kučera, H. Frequency Analysis of English Usage. Boston. 1982. • John B. Carroll, Peter Davies, & Barry Richman. The American HeritageWord Frequency Book • Mark Davies, Dee Gardner A Frequency Dictionary of American English: Word Sketches, Collocates, and Thematic Lists. published by Routledge. 2010.
Примеры частотных словарей • Для русского языка было разработано несколько частотных словарей. Пионером был словарь Г.Йоссельсона, изданный в 1953 году в Детройте на материале языка по преимуществу дореволюционной России. • Словари Э.А. Штейнфельд (1963), Л.Н. Засориной (1977), Л. Леннгрена (1993) и др. были созданы на основе относительно небольших коллекций текстов (400 тысяч - 1 миллион слов) и в большой степени отражают специфику русского языка советского периода: частоты слов товарищ и партия в них сопоставимы со служебными словами, а слово расческа отсутствует. Существуют также специализированные словари, в частности, словарь Е.М. Степановой (1976), посвященный общенаучной лексике. • Отдельную отрасль статистических словарей составляют словари языка Пушкина, Достоевского, Грибоедова, Цветаевой (Виноградов 1956-1961, Шайкевич и др. 2003, Поляков 1999, Белякова и др. 1996), которые полностью описывают язык данного писателя.
50 самых частотных слов в английском языке
Некоторые принципы при составлении частотных словарейДостоверность указанной частоты • Частоты слов, полученные по выборке, должны отличаться от частот слов, существующих в совокупности, не более чем на заданную величину относительной ошибки. • , N – объем выборки, δ - заданная относительная ошибка, p – частота, zp– константа • Пример: словарь Торндайка и Лорджа – указывали пределы pp
Сравнительная частота слов по частотным словарям
Частотные словари. Проблемы • Если слово встретилось в тексте один раз, то при нормальном распределении это не влияет на вероятность его употребления там во второй раз. • В реальности это не так. • Каждый текст имеет некоторую собственную тему, слова которой в этом тексте будут употребляться намного чаще среднего. • В тексте про хоббитов слово хоббит будет употребляться так же часто, как и многие служебные слова. • В результате частотный список, построенный на основе корпуса, отражает специфику тех текстов, которые попали в него при его составлении.
Частотные словари. Проблемы • Корпус большего размера, отражающий большее количество тем и функциональных стилей (корпус типа BNC или НКРЯ), • обеспечивает хорошую надежность для наиболее частотных элементов. • Но: дальнейшее увеличение объема текстов в ущерб их разнообразию, • например, проекты создания Гига-корпусов английского и китайского языков, содержащих более миллиарда словоупотреблений новостных текстов, Cieri & Liberman2002 • может приводить к меньшей надежности частотного списка на таких корпусах за счет сдвига их словаря в сторону новостной лексики.
Частотные словари. Значимая лексикаМеры распространенности • Задача частотного словаря: • не просто ранжировать слова по их частоте в отдельном корпусе, • но и определить лексическое ядро языка, • необходимо отделить слова, часто встречающиеся во многих текстах, от тех, чье лексическое поведение подобно словам Норьега или хоббит, и которые случайно оказались в той или иной позиции частотного списка.
Частотные словари. Значимая лексика Меры распространенности • коэффициент D, введенный А. Жуйаном (Juillandetal. 1970), который принимает во внимание как число документов, в которых встречается слово, так и его относительную частоту в этих документах: • где μ – средняя частота слова по всему корпусу, σ – среднее квадратичное отклонение этой частоты на отдельных документах, n – число документов, в которых встречается это слово. • Значение D у слов, встречающихся в большинстве документов, близко к 100, а у слов, часто встречающихся лишь в небольшом числе документов, близко к 0. • [Juliandetal. 1977]
Частотные словари. Значимая лексика Меры распространенности • показатель DP («deviationofproportions», «отклонение пропорций») • он определяет отклонение от ожидаемой величины и состоит в измерении сравниваемых частей корпуса, а также последующем вычислении разницы между ожидаемым и реальным распределением слова, которое затем делится на два. • DP, приближающееся к нулю означает полностью однородное распределение, а равное единице – ситуацию, когда слово встречается лишь в одной части корпуса. • [Gries 2008]
Частотные словари. Значимая лексика Меры распространенности • формула для измерения средней уменьшенной частоты («average reduced frequency», ARF) • В данном случае v – длина одной части, а за d взято расстояние между двумя словоформами лексемы в корпусе. di= ni – ni-1 n- позиция нужных слов, f - количество частей • [Savický et Hlaváčová 2002]
«Значимая» лексика. Меры распространенностиКоэффициент D • слова жуткий, специфический и сырье имеют примерно равную частоту (21 употребление на миллион слов), но при этом коэффициент D у специфический - 66, сырье - 18, а у жуткий - 78, что означает, что последнее слово значимо для большего числа предметных областей и (при прочих равных условиях) имеет большие шансы на место в неспециализированном словаре.
«Значимая» лексикаМеры распространенности • Частотные словари функциональных стилей составлены на основе подкорпусов художественной литературы, публицистики, другой нехудожественной литературы и устной речи. • В список включены 5 000 самых частотных лемм этих подкорпусов. Список наиболее типичных лемм для каждого типа текстов был выделен на основе сравнения частоты лемм в таких текстах и в остальном корпусе. • В качестве метрики сравнения был использован критерий отношения правдоподобия (log-likelihood), вычисляемый на основе следующей матрицы:
Частота лексемы • Информационный поиск (индексирование документа, поиск документа, близкого (наиболее релевантного) запросу); • Компьютерная лексикография (выделение «значимой» лексики, выделение коллокаций(MWE), разрешениесемантической неоднозначности (WSD)); • грамматическая разметка (снятие грамматической омонимии)