220 likes | 422 Views
КОРПУСНОЕ ИССЛЕДОВАНИЕ РЕФЕРЕНЦИАЛЬНОГО ВЫБОРА : РОЛЬ РИТОРИЧЕСКОЙ СТРУКТУРЫ. А.А.Кибрик (Институт языкознания РАН) О.Н. Красавина (МГУ и ун-т им. Гумбольдта, Берлин). Референциальный выбор. Ralph Brown was 31,000 feet over Minnesota when both jets on his Falcon 20 flamed out.
E N D
КОРПУСНОЕ ИССЛЕДОВАНИЕ РЕФЕРЕНЦИАЛЬНОГО ВЫБОРА: РОЛЬ РИТОРИЧЕСКОЙ СТРУКТУРЫ А.А.Кибрик (Институт языкознания РАН) О.Н. Красавина (МГУ и ун-т им. Гумбольдта, Берлин)
Референциальный выбор • Ralph Brown was 31,000 feet over Minnesota • when both jets on his Falcon 20 flamed out. • At 18,000 feet, • he says, • he and his co-pilot "were looking for an interstate or acornfield" • to land. • At 13,000 feet, the engines restarted. • But Øknowing • that mechanics would probably ground him for repairs, • Mr. Brown skipped his stop in nearby Chicago • and Øset course • to get his load -- a few hundred parcels -- to the Memphis package-sorting hub on time.
Предшествующие работы • Kibrik 1999: • многофакторная количественная модель, интегрирующая около десятка дискурсивных факторов для объяснения референциального выбора в английском письменном тексте • Krasavina 2004: • разработка аннотационной схемы для моделирования реф. выбора в корпусе английских газетных текстов
Влияние структуры дискурса на референцию • Kibrik 1996, 1999: • Среди факторов референциального выбора есть несколько факторов, оценивающих расстояние до антецедента в клаузах, в том числе: • линейное расстояние • риторическое расстояние, определяемое на основе иерархической структуры дискурса (Mann and Thompson 1988) • Риторическое расстояние – самый сильный фактор референциального выбора • Это было подтверждено также в модели на основе нейронных сетей – Gruening and Kibrik 2005 • ср. Givon 1983, Grosz and Sidner 1986, Fox 1987, Cristea et al. 1998 и т.д.
Теория риторической структуры • Дискурс – это иерархическая структура • Минимальные сегменты (дискурсивные единицы) в целом совпадают с клаузами • Каждый узел связан с контекстом посредством одного из риторических отношений (РО) • РО бывают: • асимметричные / mononuclear (ядро – сателлит): условие • симметричные / multinuclear (ядро – ядро): конъюнкция • Одни и те же отношения функционируют на всех иерархических уровнях дискурса
Линейное vs. риторическоерасстояние
Линейный vs. риторический антецедент Ближайший риторический антецедент Ближайший линейный антецедент
Корпус • Корпус текстов из Wall Street Journal • Полностью размечен с точки зрения риторической структуры – см. http://www.isi.edu/~marcu/discourse/ • Не менее 6000 референциальных выражений, что достаточно для статистически осмысленного моделирования
Этап 1: аннотация • Идентификация референциальных выражений • Отношения между референциальными выражениями: кореферентность и др. • Характеристики референтов и референциальных выражений
Этап 2: база данных • После завершения аннотации на основе корпуса можно будет создать базу данных по всем потенциальным факторам референциального выбора • Разумеется, среди этих факторов должно быть риторическое расстояние • Есть несколько проблем, связанных с подсчетом риторического расстояния
Проблемы • Как считать RhD до антецедентов внутри симметричных структур? • Следует ли учитывать различия между разными типами риторических отношений (РО)? • Как выбирать между различными кандидатами в риторические антецеденты?
I. Антецедент внутри симметричной структуры • John was playing (B) and Mary was watching a movie. (C) Then she/Marysuddenly ranout. • RhD(CA) = RhD(CB) ?
Решение в Kibrik 1999 RhD(CA) = 2 RhD(CB) = 1 • То есть данная структура отождествляется со следующей: • ОДНАКО: • (A) John was playing (B) and Mary was watching a movie (C) because shewas through with her homework.
Отличие от асимметричных структур • Антецедент внутри симметричной структуры ведет себя иначе, чем антецедент в ядре или сателлите асимметричной структуры • Антецедент внутри симметричной структуры • менее доступен, чем антецедент в ядре асимметричной структуры (RhD=1) (A) John got out of the house late, (B) although the day was nice. (C)He walked towards the station • более доступен, чем антецедент в сателлите асимметричной структуры (RhD=2) (A) Mary dropped the vase, (B) although Dad had warned her against that. (C)Dad/??he managed to catch it. • Ср. (A) John was playing (B) and Mary was watching a movie. (C) Then she/Marysuddenly ranout. • Таким образом, при антецеденте внутри симметричной структуры 1 < RhD < 2
Предлагаемое решение • При проникновении в симметричную структуру RhD увеличивается на 0.5
II. Тип риторического отношения • Kehler 2002: отношения «сходства» обеспечивают большую близость клауз • Конструкции с сентенциальными актантами создают меньший «риторический» шаг, чем пары клауз, связанные собственно дискурсивными РО • Малые клаузы создают меньший «риторический» шаг, чем полноценныеклаузы
Решение • Ввести информацию о РО, соединяющих клаузу референта с клаузой антецедента, в базу данных • Рассмотреть тип РО как возможный фактор референциального выбора • Возможно, считать риторическое расстояние от сентенциального актанта или малой клаузы до ядра равным 0.5
III. Множественность антецедентов RhD=2.5 RhD=3.5 Ø
Решения • Считать риторическим антецедентом более близкий • Если есть два кандидата на равном расстоянии, то считать риторическим антецедентом тот, который: • линейно ближе • имеет более престижную синтаксическую роль • присоединяется более тесным РО
Выводы • Риторическое расстояние – один из наиболее трудно формализуемых факторов референциального выбора • Учитывая центральность этого фактора, с этими проблемами необходимо справляться • В докладе были предложены конкретные технические решения основных проблем, которые обнаружились в ходе работы с корпусом.