320 likes | 536 Views
Корпус спонтанной компьютерно-опосредованной коммуникации:. цель, принципы и методы формирования и разметки. Евгений Чухарев, РГПУ им. А. И. Герцена chukharev@gmail.com. План доклада. Определения Актуальность лингвистического исследования Обеспечение понимания
E N D
Корпус спонтанной компьютерно-опосредованнойкоммуникации: цель, принципы и методы формирования и разметки Евгений Чухарев, РГПУ им. А. И. Герцена chukharev@gmail.com
План доклада • Определения • Актуальность лингвистического исследования • Обеспечение понимания • Корпус как инструмент верификации гипотез • Контроль надёжности
Спонтанность • порождение речи: • латентный процесс (семиозис) – конструирование знаков • объективация • спонтанная письменная коммуникация продуктивна в квазисинхронных условиях
Компьютерно-опосредованная коммуникация • Алфавитно-цифровой канал связи • Объективация высказываний путём набора на клавиатуре • Считывание сообщений с экрана монитора • Технологический субстрат – взаимосвязь открытых систем
Синхронность • котемпоральность (cotemporality): задержка в канале связи субъективно мала • одновременность (simultaneity): дуплекс канала связи, одновременный приём и передача сигнала • квазисинхронность = котемпоральность – одновременность
Чат • Многокомнатные многопользовательские чаты • Системы мгновенного обмена сообщениями (Instant Messengers) • Многопользовательские ролевые игры (MUD)
Актуальность лингвистического исследования • Изучение характера речемыслительной деятельности по косвенным объективирующим показателям спонтанности • Фиксация в корпусе всей информации, которая передаётся в ходе коммуникации • Представление в форме, удобной для автоматической обработки
Обеспечение понимания • Зашумлённость на графематическом, морфологическом и синтаксическом уровнях • Широкий диапазон синтаксического варьирования при сохранении семантики (О.А.Лаптева) • Базовая синтаксическая единица – клауза (А.А.Кибрик)
Предикатное выражение • Языковая реализация пропозиции Примеры: • Инженеры выполняют работы по проведению эксплуатации системы • А я стою на тебя смотрю
Значение vs. смысл • Смысл – информация (мыслительное содержание), передаваемая от отправителя получателю в ходе коммуникации Пример: • Только Иван успешно сдал экзамен
Значение vs. смысл • Ну, ты что? • Да я вот, тут… • А, ну ладно…
Что? Где? Когда? • команды соревнуются в умении находить правильный ответ на поставленный перед ними вопрос в ограниченное время • игры проводятся в чате, без личного контакта игроков • время на обсуждение вопроса составляет четыре минуты, предупредительный сигнал подаётся за 30 секунд до окончания отведённого времени • количество игроков в команде не регламентируется
Корпус протоколов чата • 11518реплик (сообщений) • 50027 словоупотреблений (с/у) • ~14176 русских словоформ (с/ф) • 42 продуцента всего • 36 продуцентов (испытуемых) • с количеством реплик 10 • кроме исследователей
Распределение реплик по испытуемым
Виды разметки корпуса • токенизация(автоматически) • орфографическая нормализация (вручную) • морфологический анализ (автоматически) • выделение предикатных выражений(вручную)
Типы токенов • словоупотребление (W или L) • привет, кто-нибудь, д’Артаньян • пунктуатор (P) • цифровой комплекс (D) • 25, 10.02.21, 555-12-34 • электронный адрес(E) • ник одного из участников чата (A) • эмотикон(S)
Комбинированные типы • WL (Windows’ный) • WD(17й, 40-летний) • *LD (17-th) • *WLD • PS – непарная круглая скобка: Привет)
Орфографическая нормализация • нормативность определяется на основании собственной языковой интуиции и словарей • при отсутствии слова в словарях коррекция осуществляется по принципу аналогии (чегэкашник ~ кагэбэшник) • разделение нескольких нормативных слов, ошибочно объединённых в одно словоупотребление (незнаю; миру-мир) • объединение последовательности из нескольких токенов в одно словоупотребление (не навижу; кто - нибудь)
Орфографическая нормализация • все аббревиатуры и сокращения, кроме собственных имён (МГУ, ЧГК, ЖЖ, А.С.Пушкин), разворачиваются в соответствии с контекстом • иноязычные слова, в том числе сокращения, не корректируются и не переводятся на русский язык • междометия не подвергаются орфографической коррекции, однако особым образом помечаются для дальнейшего анализа • нормализуются иноязычные собственные имена (в том числе аббревиатуры), официально употребляемые в латинской графике
Орфографическая нормализация • в откорректированном варианте регистр букв выбирается согласно правилам для середины предложения • если единственным отклонением от нормы в исходном слове является употребление регистра, то оно не подлежит коррекции в случаях, когда заглавными является либо только первая буква (Молоток), либо все буквы слова (СТОЛ) • при наличии нескольких вариантов коррекции выбирается наиболее близкий корректируемому слову
Лингвистические решения • алгоритмические (принимаются лингвистическим автоматом по формализованным правилам) • экспертные (вручную, на основании собственной языковой интуиции эксперта) – необходимо обеспечить достоверность
Коэффициент надёжности – Reliability Index • инвариантен к количеству экспертов • основан на действительном распределении объектов по категориям • задаётся на численной шкале с двумя опорными точками • учитывает математическую природу параметра • характеризуется известным или по крайней мере вычислимым распределением
Коэффициенты надёжности • процент согласия • Bennet et al.’s S • Scott’s • Cohen’s • Fleiss’s K • Cronbach’s C • Krippendorff’s
Надёжность разметки предикатных выражений
Выводы • Выделение предикатных выражений в корпусе чата оказывается очень надёжным. • Реальность порождения спонтанной речи семантическими «порциями» – предикатными выражениями – может быть верифицирована психолингвистически. • В чате широко используются механизмы смыслопорождения, повышающие эффективность коммуникации.