410 likes | 587 Views
8. 3 . WordNet : Проблемы. WordNet: проблемы использования в автоматической обработке. Отсутствие связей между частями речи Проблема отношений (недостаточно, а какие должны быть?) Искусственность построения (психолингвистический подход, перенос из словарей)
E N D
WordNet: проблемы использования в автоматической обработке • Отсутствие связей между частями речи • Проблема отношений (недостаточно, а какие должны быть?) • Искусственность построения (психолингвистический подход, перенос из словарей) • Несбалансированность состава (биология, медицина) • Нехватка словосочетаний • Как работать с конкретными предметными областями
Многозначность в WordNet • 25 значений прилагательного good • 41 значение глагола cut • Sense 19 cut -- (make a recording of: "cut the songs") => record, tape -- (register electronically) • Sense 20 cut -- (record a performance on; "cut a record") => record, tape -- (register electronically)
Проблема многозначности • Синтаксическая многозначность • Мать любит дочь • Мужу изменять нельзя • Лексическая многозначность • Катать шарики (делать или перемещать) • Вытравить рисунок (сделать или уничтожить) • Проехать остановку (покрыть расстояние или миновать точку)
Лексическая многозначность: полисемия и омонимия • Омонимия – случайное внешнее совпадение двух разных слов, нет общих элементов смысла: • Лук (оружие) – лук (растение) • Брак (изъян) – брак (женитьба) • Полисемия – имеется общий элемент смысла • Клапан мотора – клапан фагота – сердечный клапан – клапан кармана: «часть предмета, закрывающая отверстие в нем». • Класс (разряд) – класс (общественная группа) – класс (группа учащихся) – класс (комната для занятий)
Полисемия и диффузность значений • Разбиение на значения - дискретная организация лексических значений • Между значениями: неясная, размытая промежуточная область? • Разные словари – разное количество значений многозначных слов. • Идти • 30 значений (Большой толковый словарь) • 25 значений (Словарь Ожегова)
Регулярная многозначность • Действие – субъект действия: вахта, выделение • Действие – объект действия: ассигнование, вклейка, вложение • Действие – инструмент: ванна, вентиляция, гудок • Растение – плод: абрикос, малина • Животное – мех: белка, норка, лиса • Материал – изделие: бронза, гипс, стекло • Часть тела – часть одежды: талия, локоть, плечо • Сосуд – количество: ведро, стакан
Проблема лексической многозначности и информационный поиск • A Study of Sense Clustering Criteria for Information Retrieval Applications • Irina Chugur, Julio Gonzalo, and Felisa Verdejo • Слишком подробное разделение значений – проблема для приложений, в частности информационного поиска. Нет необходимости в таком тонком различении для решения этой задачи • Adam Kilgarriff. “I don’t believe in word senses”: Word senses exist only relative to a task”
Слишком тонкое разделение значений. Примеры • Bother - беспокойство 1.Smth or someone who causes trouble, a source of unhappiness 2. An angry disturbance • Amount - количество 2. How much of something is available 3. How much there is of anything
Разделение важно для других задач, но не важно для информационного поиска • Message - записка 1. A communication (usually brief) that is written or spoken or signaled 2. What a communication is about • Bet - ставка 1. The act of gambling 2. The money risked on a gamble • Information extraction
Возможное решение • Сгруппировать близкие смыслы, сократить излишнюю полисемию • Часто предлагаемое решение: • Учесть регулярную полисемию • Quantity/container, music/dance • Но: animal/food, plant/food, animal/skin, language/people встречаются в разных контекстах
Группировка значений на основе корпуса Semcor – корпус, размеченный значениями WordNet Смыслы группируются, если они встречаются в одних и тех же текстах Например, совместно встречаются Breath • The air that is inhaled or exhaled in respiration • The act of exhaling
Исследование зависимости возможности группирования смыслов от частотности совместной встречаемости • Число встреч Процент Прав. Групп • 2 52 • 3 64 • 4 65 • 5 75 • 6 75.5 • 8 82
Что общего между смыслами, которые можно сгруппировать 1) число общих синонимов между синсетами 2) число общих слов в определениях 3) число общих гиперонимов Любая комбинация этих трех величин находится в наборах смыслов, поддающихся группировке
Группирование значений: точка зрения машинного перевода • Важно различать те значения, которые имеют различные переводы: • Spring – (Spanish) • Primaviera (season) • Muelle (metal device) • Fuente (fountain) Parallel polysemy: Child – enfant - kind
Гипотеза • Можно ли использовать параллельную полисемию для группирования значений для целей информационного поиска. • Взяли 20 существительных (73 значения) • Эксперимент: рассмотреть для группирования те совокупности смыслов, которые имеют параллельные переводы хотя бы в одном из четырех языков (испанский, французский, голландский, немецкий)
Результат • 27 синсетов • 16 подходят для информационного поиска band (8, 9) • Behaviour (1,2,3) • Bet (1,2) • 11 не подходят • Band (2, 7) лента – банда • Rabbit (1,2) • Итого 56 процентов подходят
Комментарий. Ответ на вопрос не вписывается в структуру WordNet • Группирование Да • Container/volume, Music/dance, breath, bet • Группирование Нет • animal/food, plant/food, animal/skin, language/people • Ответ: анализ совместного существования значений
Tennis problem • Integrating Subject field codes into WordNet • Bernardo Magnini and Gabriela Cavaglia • Subject Field Codes (SFC) – field codes в словарях (Медицина, архитектура)
Tennis problem. Примеры • Tennis, lawn tennis – court game – athletic game • Tennis court – court – playing field • Tennis racquet – racquet – sports implement • Tennis player – player – contestant • Не установлено отношений между понятиями
Subject field codes • Соединяют различные части речи: медицина – врач, оперировать • Соединяют различные иерархические пути: спорт – спортсмен, спортплощадка, ракетка • Могут использоваться: • Расширение запроса, • Разрешение многозначности
Система разметки • 128 кодов, иерархия – 4 уровня • Agriculture 248 • Archeology 47 • Alimentation 2563 • Astrology 16 • Biology 20266 • Medicine 2660 • Veterinary 36
Положение вне области • Общие синсеты, которые трудно отнести к какой-либо области • Man 1 – an adult male person • Man 3 – the generic use of the word to refer to any human being • Date 1 – day of the month • Date3 – appointment, engagement • Располагаются высоко в иерархии • Очень многозначны
Положение вне области - 2 • Малоинформативные синсеты (Stop senses) – числа, дни недели, цвета • Выделена отдельная область Factotum: • 2780 stop senses • 3670 generics
Автоматизированная процедура разметки 1. Вручную размечается относительно небольшое количество синсетов верхнего уровня 2. Автоматически по связям (гипонимия, тропонимия, меронимия, антонимия) пометки распространяются на другие синсеты 3. Можно задать исключения – barber_chair – barbershop - COMMERCE
Продуктивность разметки • Отношение общего числа размеченного к количеству вручную размеченного для области: • Биология – 122 • Экономика – 6
Разметка для bank 1. Depository financial institution, bank Economy 2. Bank (sloping land) Geography, Geology 3. Bank (a supply or stock held in a reserve) Economy 4. Bank, bank building Architecture, economy 5. Bank (an arrangement of similar objects) Factotum 6. Savings bank, coin bank ( a container) Economy 7. Bank (a long ridge or pile) Geography, Geology 8. Bank (the funds held by a gambling house)Economy, play 9. Bank, cant, camber (a slope in the turn of a road) Architecture 10. Bank (a flight maneuver) Transport
Evaluation • Новостные сообщения • Классификация по 41 категории второго уровня • Ошибки связаны с перегенерацией на автоматическом шаге • Нечеткость категории – психология • Нехватка – понятий • Точность 0.95, полнота – 0.96
Комментарий • Наименования областей (domain) – это тоже слова со своими значениями • Если это просто этикетки, то смысл их может меняться от контекста • Разбиение на тематические области зависит от приложения
eXtended WordNet: progress report • Rada Michalchea and Dan Moldovan • Southern Methodist University • NSF grant
Толкования в WordNet -источник дополнительной информации The noun chair has 4 senses 1. chair -- (a seat for one person, with a support for the back; "he put his coat over the back of the chair and sat down") 2. professorship, chair -- (the position of professor; "he was awarded an endowed chair in economics") 3. president, chairman, chairwoman, chair, chairperson -- (the officer who presides at the meetings of an organization; "address your remarks to the chairperson") 4. electric chair, chair, death chair, hot seat -- (an instrument of execution by electrocution; resembles a chair; "the murderer was sentenced to die in the chair") The verb chair has 2 senses 1. chair, chairman -- (act or preside as chair, as of an academic department in a university; "She chaired the department for many years") 2. moderate, chair, lead -- (preside over; "John moderated the discussion")
XWN: основные этапы Обработка толкований 1. Preprocessing and parsing 2. Word Sense Disambiguation – все слова в толковании должны быть размечены по номерам значений WordNet 3. Logical form transformation – text inference, axiomatic proof 4. Topical relations
XWN формат (SGML разметка) • WordNet entry • 0155911 A_battery| battery used to heat the filaments of vacuum tube • XWN entry • <gloss> • <WSD> • <wf lemma=battery pos=NN wnsn=2>battery</wf> • <wf lemma=use pos=VBN wnsn=1>used</wf> • <wf pos=TO>to</wf> • <wf lemma=heat pos=VB wnsn=1>heat</wf>… • <wf lemma=vacuum_tube pos=VB wnsn=1>vacuum_tube</wf>…
Организация автоматизированной процедуры • Работают два таггера (распознают части речи) T1 T2 • Точность PT1и PT2 • Cov – количество случаев, в которых таггеры соглашаются • minPcov • Человек может проверять только случаи несогласия между таггерами • Part of speech taggers (3) – 98 %
Word Sense Disambiguation 1. Однозначные слова 2. Слово в толковании является вышестоящим для толкуемого слова Devolve1 - pass on or delegate to another. Delegate2 – принадлежит множеству гиперонимов 3. Параллельные отношения Aba2 – a fabric woven from goat and camel hair • Exert3 – make a great effort at a mental or physical task
WSD-2 4. SemCor биграммы – для каждого слова из толкования запоминаются два соседних слова, затем эти пары ищутся в корпусе Approval – commitee approval of (with the approval(1) of the Credit Association…) 5. Cross reference • Agora3, forum3, public_square2 – a place of assembly for the people in ancient Greece • Place14 – a public square with room for pedestrians
WSD-3 6. Расстояние между толкованиями - число общих слов в толкованиях различных значений слова и рассматриваемым толкованием Filament – 4 значения – только одно с heat 7. Общая область • Mental – (biology) of or relating to the chin- or lip-leke structure in insects and certain mollusks
Точность и полнота методов(1000 толкований) • Полнота точность • 1 21.3 100 • 2 13.2 99 • 3 11.9 85.7 • 4 16.2 92.2 • 5 4.2 80 • 6 17.9 89.2 • Комбинации методов
SENSEVAL • Hector lexicon • 34 лексемы • Для каждого собраны предложения, размечены аннотаторами – 90% согласия между аннотаторами • Training data – 100 предложений • Test data – 30 предложений
SENSEVAL - результаты • 24 системы • 75-85 точность и полнота • ROMANSEVAL • SENSEVAL2 – задания для 10 языков
Вопросы к лекции • Каковы проблемы, возникают при использовании WordNet для автоматической обработки текста? • Опишите проблему лексической многозначности. • Как в WordNet происходит разрешение многозначности?