230 likes | 492 Views
Синтаксическая разметка в ХАНКО: проблемы и решения. Михаил Копотев Отделение славистики и балтистики Хельсинский университет. Mihail.Kopotev@helsinki.fi. М. Копотев Синтаксическая разметка в ХАНКО www . slav . helsinki . fi / hanco.
E N D
Синтаксическая разметка в ХАНКО: проблемы и решения Михаил Копотев Отделение славистики и балтистики Хельсинский университет Mihail.Kopotev@helsinki.fi
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco Копотев М.В., Мустайоки А. Принципы создания Хельсинкского аннотированного корпуса русских текстов (ХАНКО) в сети интернет // Научно-техническая информация. Сер. 2: Информационные системы и процессы. № 6: Корпусная лингвистика в России. 2003. С. 33-37. Копотев М.В. Гурин Г.Б. Принципы синтаксической разметки Хельсинкского аннотированного корпуса русских текстов ХАНКО // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции Диалог–2006, Москва: изд-во РГГУ, 2006, с. 280–284.
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco • Три типа разметки • грамматика зависимостей (И. А. Мельчук, И. М. Богуславский, Л. Л. Иомдин и др.); • грамматика структурных схем (Н. Ю. Шведова, В. А. Белошапкова и др.); • традиционные синтаксические учения (А. А. Шахматов, В. В. Виноградов, Н. С.Валгина и др.).
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco • ХАНКО: • грамматика зависимостей и • традиционный синтаксис (по членам предложения). • Плюсы • подробное описание и узлов, и связей синтаксических структур; • Обе целевые группы: преподаватели русского языка, и профессиональные лингвисты; • Возможность представлять результаты альтернативных разметок как независимо, так и совместно.
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco Грамматика зависимостей А.С. Старостин, М.Г. Мальковский. Модель синтаксиса в системе морфосинтаксического анализа «Treeton» // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции Диалог–2006, Москва: изд-во РГГУ, 2006, с. 481-492.
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco • Грамматика зависимостей • Тринотации (treenotation=tree+annotation) • Агрегаты
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco • Грамматика зависимостей • Штрафы: • Переборный алгоритм • штрафы на повторение • Он играл эту симфонию всю ночь • штрафы на зацепление • штрафы на расщепление • Непроективностость • штрафы на применение правил • человек умныйVS умный человек
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco • ТРАДИЦИОННЫЙ СИНТАКСИС В ХАНКО • Плюсы • общеизвестность и простота; • возможность косвенным образом искать материал для исследований, даже опирающихся на другие синтаксические подходы (прежде всего, структурные схемы).
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco • ТРАДИЦИОННЫЙ СИНТАКСИС В ХАНКО • Минусы • несоответствие современным представлениям о природе синтаксических структур; • описание синтаксических узлов и игнорирование синтаксических связей; • невозможность разбиения массива данных на дискретные классы (напр., нечеткое разграничение разных типов второстепенных членов);
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco • ТРАДИЦИОННЫЙ СИНТАКСИС В ХАНКО • большое количество синтаксически слабо мотивированных решений (отсутствие предложных групп, вопрос о границах главных и второстепенных членов предложения, разграничение главного и второстепенного компонента в аппозитивных конструкциях и т.д.); • сложность автоматической обработки.
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco • Традиционный синтаксис в ХАНКО: проблемы применения • Нечеткость критериев выделения определенного члена предложения • Косвенное дополнение / несогласованное определение. • С мостов через Сену посрывало гирлянды иллюминации. • Косвенное дополнение / разные виды обстоятельства. • У дешевых дубленок шкуры могут быть плохо подобраны по цвету и плотности, непрокрашены, и тогда они будут линять при влажной погоде(косвенное дополнение/обстоятельство условия).
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco • Традиционный синтаксис в ХАНКО: проблемы применения • Нечеткость критериев выделения определенного члена предложения • Разные виды обстоятельств • Ничьей закончились и выборы в Сенат, который партии разделили ровно пополам (обстоятельство образа действия / меры и степени). • ..жестоко избивали хозяев при попытках возражать или жаловаться... (обстоятельство времени / обстоятельство условия). • Нечеткость разделения прямого объекта и части сказуемого. • Российский лидер соблюдает приличия…
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco Традиционный синтаксис в ХАНКО: проблемы применения 2. существенно больший список форм выражения разных членов предложения Подлежащее и главный член односоставного предложения. В стотысячной натовской группировке на Балканах уже выявилось почти два десятка смертельных случаев и до 50 заболевших. ...на покупателя, даже просто пришедшего взглянуть на дубленки, тотчас накидывались сразу с десяток продавцов. Стать матросом было его мечтой.
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco • Традиционный синтаксис в ХАНКО: проблемы применения • 3. Проблема вложенных членов предложения • Обстоятельства и определения • Холдинг NETBRIDGE заявил о $ 6 млн., потраченных на проекты List.ru <...>, и это не считая собственных проектов... • Вводные единицы и обращения, • Капиталисты всех стран, соединяйтесь! • Попризнанию менеджеров, кофейни - дело выгодное, быстро окупаемое и перспективное.
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco • Традиционный синтаксис в ХАНКО: проблемы применения • 3. Проблема вложенных членов предложения • Вводные предложения и вводные слова, • Известно, что он хороший парень (главная часть сложноподчиненного предложения). • Известно, он хороший парень (вводное предложение) • Он, известно, хороший парень (вводное слово) • …и вообще работать на комбинате - почти такое же везение, как жить в Москве.
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco • Традиционный синтаксис в ХАНКО: проблемы применения • 4. Разметка составного сказуемого • Они выводят из строя оптику. • Они выводят из тени неизвестных артистов. • 6. Единицы «малого» синтаксиса • И работы Минкульту и Михаилу Швыдкому хватит еще надолго. • Но все чаще и чаще президент проговаривается, обнаруживая истинные свои воззрения.
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco • Традиционный синтаксис в ХАНКО: этапы работы • В начале марта в Москве прошла конференция "Лоббизм в России - 10 лет теории и практики". • АОТ (www.aot.ru) • ПГ(В начале -> марта; "рд,") • ПГ(в -> Москве; "пр,") • ПГ(в -> России; "пр,") • ЧИСЛ_СУЩ(лет -> 10; "вн,рд,им,мн,") • ГЕНИТ_ИГ(лет -> теории; "вн,рд,им,мн,") • ОДНОР_ИГ(и -> теории; "им,мн,") • ОДНОР_ИГ(и -> практики; "им,мн,") • ПОДЛ(прошла -> конференция; "")
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco • Традиционный синтаксис в ХАНКО: этапы работы • В начале марта в Москве прошла конференция "Лоббизм в России - 10 лет теории и практики". • АОТ • В начале марта |дополнение или обстоятельство|пг • в Москве |дополнение или обстоятельство|пг • 10 лет |подлежащее или сказуемое | числительное - определение|числ_сущ • теории и практики Однор_иг • прошла – сказуемое • Конференция – подлежащее
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco
М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco
М. Копотев Синтаксическая разметка в ХАНКО • www.slav.helsinki.fi/hanco