360 likes | 597 Views
ПОДХОД К РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ. Загорулько Ю.А. , Боровикова О.И., Кононенко И.С., Соколова Е.Г. Институт систем информатики имени А.П. Ершова СО РАН, Новосибирск Российский государственный гуманитарный университет, Москва. Текущее положение.
E N D
ПОДХОД К РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ Загорулько Ю.А., Боровикова О.И., Кононенко И.С., Соколова Е.Г. Институт систем информатики имени А.П.Ершова СО РАН, Новосибирск Российский государственный гуманитарный университет, Москва
Текущее положение • Наблюдается значительный интерес к компьютерной лингвистике (КЛ), как к прикладной научной дисциплине, включающей знания о методах извлечения информации из текстов, индексирования и содержательного поиска документов, построения естественно-языковых, в том числе речевых, интерфейсов. • Возникла острая потребность в систематизированных знаниях по терминологии КЛ, которые, с одной стороны, способствовали бы повышению образовательного уровня, а с другой стороны, использовались для индексирования публикаций по КЛ с целью облегчения доступа к представленным в них знаниях по КЛ. • Однако в данный момент в КЛ отсутствует четкая и общепринятая система научной терминологии, причем многие термины современной КЛ не представлены на русском языке ни в одном из существующих лингвистических источников.
Текущее положение(сборники терминов) • Никитина С.Е. Тезаурус по теоретической и прикладной лингвистике. – М.: Наука, 1978. • Демьянков В.З. Англо-русские термины по прикладной лингвистике и автоматической переработке текста. Вып. 2. Методы анализа текста // Тетради новых терминов. № 39. – М.: ВЦП, 1982. • Лингвистический энциклопедический словарь. //Под ред. В. Н. Ярцевой. М.:Советская энциклопедия, 1990. — 685 с. [3 изд. 2002.] • Ахманова О.С. Словарь лингвистических терминов. – 3-е изд., стер. – М.: УРСС, 2005. – 576 с. • Онлайн Энциклопедия «Кругосвет»: [2001-2009]. URL: http://www.krugosvet.ru/. • Языкознание. Информационно-поисковый тезаурус ИНИОН РАН. – М., 2007. • Толковый словарь по искусственному интеллекту / Авторы-составители: А.Н. Аверкин, М.Г. Гаазе-Рапопорт, Д.А. Поспелов. – М.: Радио и связь, 1992. –256с. • Большой энциклопедический словарь (БСЭ) / гл. ред. А.М.Прохоров. - Изд. 2-е, перераб. и доп. – М. : Большая Российская энциклопедия; –– СПб.: Норинт, 2004. – 1456 с. • Интернет-энциклопедия «Википедия» http://ru.wikipedia.org
Цели разработки Русско-английский тезаурус по компьютерной лингвистике (КЛ) разрабатывается учеными из РГГУ, МГУ, СПбГУ, ИНИОН РАН, ИСИ СО РАН им. А.П.Ершова при финансовой поддержке РГНФ (проект № 10-04-12108в). Главная цель разработки • Построить тезаурус по КЛ двойного назначения, т.е. тезаурус, ориентированный на (1) непосредственное использование людьми, желающими обратиться к системе понятий из области КЛ, так и (2) решение задач индексирования и информационного поиска.
Цели разработки • Обеспечение возможности структурировать и накапливать информацию о терминологии КЛ, • Приведение терминологии КЛ в единую систему, создание представительного компактного собрания терминов современной КЛ и их толкований. • Поддержка решения задач индексирования и информационного поиска. • Повышение уровня профессиональной подготовки будущих специалистов в сфере КЛ и информационных технологий • Двуязычность тезауруса должна помочь отечественным ученым и специалистам (1) быстрее и эффективнее ориентироваться в мировой ситуации в области КЛ, (2) выявлять различия и сходства между понятиями, используемыми в отечественной и зарубежной науке, (3) создавать новые понятия и лингвистические термины, отсутствующие в русском языке и др.
Виды информационно-поисковых тезаурусов (ИПТ) По составу: По языковой направленности:
Стандарты для разработки ИПТ • Для разработки одноязычных ИПТ: • Международный стандарт ISO 2788-1986 • Межгосударственный стандарта ГОСТ 7.25-2001 • Американский стандарт Z39.19-2005 • Для разработки многоязычных ИПТ: • Межгосударственный стандарт ГОСТ 7.24-2007 • Международный стандарт ISO 5964-1985
Структура тезауруса • Тезаурус включает два типа терминов: дескрипторы(предпочтительные термины) и аскрипторы(остальные термины или текстовые входы), а также источники терминов. Дескрипторы могут использоваться при индексировании документов и в поисковых запросах, а аскрипторы при выполнении этих задач подлежат замене одним или несколькими дескрипторами. • Все дескрипторы снабжены определениями. • Термины, связаны между собой семантическими отношениями, отражающими место каждого термина в системе понятий КЛ. • Тезаурус включает одновременно две версии – русскоязычную и англоязычную. Для связи английской версии с русской служит отношение «Эквивалент на другом языке», которым связываются соответствующие дескрипторы из разных версий. • Для каждого термина задаются его связи с источниками, т.е. текстовыми документами или коллекциями текстовых документов, в которых данный термин встречается или определяется.
Структура тезаурусных статей Дескриптор: • Название термина • Релятор • Язык термина • Определения термина • Подобласть знаний • Признак корневого термина • Комментарий • Автор тезаурусной статьи Аскриптор: • Название термина • Язык термина • Комментарий • Автор тезаурусной статьи
Отношения между терминами Отношения между дескрипторами: • недифференцированная иерархическая связь Выше (Ниже) • родовидовая связь ВышеРод (НижеВид) • партонимическая связь ВышеЦелое (НижеЧасть) • для связи класса понятий и экземпляра этого класса ВышеКлассЭкземпляра (НижеЭкземпляр) • произвольная ассоциативная связь Ассоциируется с • эквивалентность дескрипторов из разных одноязычных версий Эквивалент на другом языке Отношения между дескрипторами и аскрипторами: • Синоним (Смотри) • Используй альтернативно (Сравни альтернативный выбор) • Используй комбинацию (Сравни комбинацию)
Описание источника терминов • Название источника • Тип источника • Язык источника • Описание • Библиографическая ссылка • URL • Количество документов (для коллекции текстов) • Количество словоупотреблений (для коллекции текстов) • Комментарий Отношения, задающие связи термина с источниками: • Встречается в, при которой можно указать частоту встречаемости термина в источнике; • Встречается в части документа, с помощью которой отмечается, что данный термин встречается в предметном указателе или глоссарии источника; • Дается определение в, позволяет связать термин-дескриптор с источником определения.
Пример описания дескриптора • Название термина акцент • Релятор просодия • Язык термина русский • Определение термина 1 Смысловое подчеркивание звуковыми средствами какого либо слога или слова во фразе. • Комментарий Многие авторы проводят довольно тонкое разграничение между акцентом (смысловым подчеркиванием или выделением, ср. термин Акцентное выделение) и ударением. • Автор статьи Кривнова О.Ф. • Источники термина Книга Трахтерова А.Л. • Источники определения термина Книга Трахтерова А.Л. • Ниже громкостной акцент, долготный акцент, тональный акцент • Синонимы АВ, акцентное выделение, логическое ударение, эмфатическое ударение • Эквивалент на другом языке accent(prosody)
Пример описания аскриптора • Название термина логическое ударение • Язык термина русский • Автор статьи Кривнова О.Ф. • Источники термина Энциклопедия РЯ • Смотри акцент(просодия)
Пример описания документа • Название источника Книга Трахтерова А.Л. • Тип источника книга • Язык источника русский • Описание Пособие направлено на повышение научного уровня преподавания общей фонетики и фонетики английского языка, координации русских и английских фонетических терминов, а также терминов из смежных дисциплин и областей науки, тесно связанных с фонетикой. • Библиографическая ссылка Трахтеров А.Л. Английская фонетическая терминология. М., Изд-во литературы на иностранных языках, 1962
Дескриптор человеко-машинный перевод язык русский определение 1 Системы человеко-машинного перевода выполняютперевод в интерактивном режиме. определение 2 Все методы и системы, автоматизирующие процессперевода, независимо от того, выполняет основную часть работы человек или компьютер. (перевод) автор словарной статьиКононенко И.С. Встречается дескриптор в ИсточникУчебник Баранова А.Н. Дается определение в Источникопределение 1Справочник по искусственному интеллекту Источник определение 2Статья Boitet Выше род Дескриптормашинный перевод Аспект деления иерархии участие человека Ниже вид Дескрипторавтоматизированный перевод Дескриптор машинный перевод с участием человекаАспект деления иерархии участие человека Синоним Аскрипторчеловекомашинный перевод АскрипторЧМП Эквивалент на другом языке Дескрипторmachine aided translation Общий пример Дескриптор автоматизированный перевод язык русский определение 1 Перевод текстов на компьютере с использованием компьютерных технологий. От машинного перевода он отличается тем, что весь процесс перевода осуществляется человеком, компьютер лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством. автор словарной статьи Кононенко И.С. Дается определение в Источник определение 1 Интернет энциклопедия «Википедия» Встречается дескриптор в Источник Коллекция текстов Диалог 2000-2010 Частота 8 Синоним Аскриптор человеческий перевод с участием машины Выше род Дескриптор человеко-машинный перевод Аспект деления иерархии участие человека Эквивалент на другом языке Дескриптор machine-aided human translation АскрипторЧМП язык русский автор словарной статьи Кононенко И.С. Встречается аскриптор в ИсточникУчебник Баранова А.Н. Смотри ДескрипторЧеловеко-машинный перевод
Пример описания дескриптора
Пример описания дескриптора
Пример описания аскриптора
Пример описания дескриптора
Реализация прототипа электронного тезауруса • Для разработки тезауруса по КЛ была использована методология и программные компоненты технологии построения порталов научных знаний, которая была ранее применена для создания порталов знаний по археологии и компьютерной лингвистике. • Данная технология базируется на онтологии и предоставляет средства настройки на предметную область, средства создания и редактирования контента информационной системы, а также средства навигации и поиска. • Средства настройки на предметную область достаточно хорошо подходят для разработки концептуальной схемы тезауруса, а остальные из перечисленных средств могут выполнять роль его основных программных компонентов. • Эта технология удобна для моделирования тезауруса, когда его структура и состав словарных статей еще окончательно не определены и могут меняться в процессе разработки.
Онтология представления знаний , где • –конечное непустое множество классов, описывающих понятия некоторой предметной или проблемной области; • – конечное множество бинарных отношений, заданных на классах (понятиях); • – множество стандартных типов; • – множество доменов ; • – конечное множество атрибутов, описывающих свойства понятий Cи отношений RA ; • – множество ограничений на значений атрибутов понятий и отношений, т.е. предикатов вида; • –множество аксиом, задающих дополнительную семантику классов и отношений онтологии.
Концептуальная схема тезауруса , где • –конечное непустое множество терминов, представляющих понятия некоторой предметной области; • – множество источников терминов; • – множество атрибутов, описывающих свойства источников и терминов; • – конечное множество отношений, заданных на терминах и источниках терминов; • – множество формальных свойств отношений ; • –множество аксиом, задающих дополнительные ограничения на связи между терминами.
Задание структурных единиц тезауруса, отношений и их свойств • В редакторе онтологий описывается концептуальная схема тезауруса, в которой определяется структура тезаурусных статей, вид и свойства отношений, задаваемых между терминами, а также характеристики источников терминов и их определений. • Для отношений могут быть заданы не только структурные свойства отношений (типы их аргументов и ограничения на существование (число) и обязательность связей), но и формальные (математические) свойства – симметричность, рефлексивность, транзитивность, асимметричность, антирефлексивность, а также обратные отношения. • Эти свойства используются встроенными в редактор данных механизмами контроля и вывода для поддержки логической целостности системы понятий тезауруса. В частности, на основе этих свойств происходит корректное установление связей между терминами тезауруса, при необходимости осуществляется их автоматическое добавление и/или удаление.
Обеспечение корректного установления связей между терминами Свойства отношения «Смотри»: - обратное отношение «Синоним», - возможна только одна связь данного типа для каждого термина-аскриптора. Смотри (АВТОМАТИЧЕСКИЙ ПЕРЕВОД, МАШИННЫЙ ПЕРЕВОД) + Синоним (МАШИННЫЙ ПЕРЕВОД, АВТОМАТИЧЕСКИЙ ПЕРЕВОД) Для аскриптора АВТОМАТИЧЕСКИЙ ПЕРЕВОД будет обеспечиваться запрет на создание связей «Смотри» и «Синоним» с другими дескрипторами.
Навигация по контенту тезауруса • Удобный доступ к терминам тезауруса обеспечивается пользовательским web-интерфейсом, предоставляемым технологией построения порталов научных знаний. • В этом интерфейсе содержимое тезауруса представляется пользователю в виде сети взаимосвязанных информационных объектов – элементов тезауруса: терминов и описаний источников терминов и их определений. • При навигации по тезаурусу обеспечивается возможность выбора необходимых пользователю терминов, детального просмотра их описаний (тезаурусных статей), а также источников (публикаций или коллекций текстов), в которых встречается термин и/или его определение.
Методика выбора терминов для включения в тезаурус Две проблемы: • подбор терминов – кандидатов на включение в тезаурус, • выбор терминов-дескрипторов из множеств синонимичных терминов.
Подбор терминов – кандидатов • В качестве основного источника русскоязычных терминов была выбрана коллекция текстов докладов, представленных на международной конференции «Диалог» в 2000-2010 гг. • Для английской части словника, с учетом русско-английской направленности создаваемого тезауруса выбирались переводные эквиваленты из доступных англоязычных источников по КЛ. • Чтобы дополнить картину российской части КЛ в тех ее разделах, где имеются пробелы, при сборе терминов по таким разделам пришлось опираться преимущественно на англоязычные источники: в частности, предметные указатели нескольких современных и наиболее авторитетных англоязычных книжных источников обзорно-учебного профиля и глоссарии, входящие в документацию известных звуковых анализаторов.
Выбор основного термина-дескриптора из множества синонимичных терминов • Эта проблема связана с появлением новых понятий и соответствующих им терминов. • Пример: термин translation memory (в сфере автоматизированного перевода); Практики-переводчики предлагают: память переводов, научное сообщество: переводческая память(синонимический ряд: переводческая память – 8, память переводов – 0, архив переводов – 1, накопитель переводов – 0, копилка переводов – 0) .
Выбор основного термина-дескриптора из множества синонимичных терминов • Развитие некоторых направлений КЛ привело к столкновению вариантов старых терминов. • Так, тезаурус ИНИОН и ЛЭС основным термином в паре автоматический перевод и машинный перевод считают автоматический перевод, присвоив ему статус дескриптора. Однако показатели встречаемости в коллекции «Диалог» говорят в пользу термина машинный перевод: машинный перевод – 318 vs. автоматический перевод – 58 . Интернет-энциклопедии «Википедия» и «Кругосвет», а также учебники придерживаются этой же традиции. • Таким образом, при выборе терминов дескрипторов мы опирались не только на статистику, но и на традиции словоупотребления, сложившиеся к настоящему времени в лингвистическом научном сообществе.
Текущее состояние Тезаурус включает термины из пяти основных терминологических областей: • 1. Автоматическая обработка текста. • 2. Речевые технологии. • 3. Корпусная лингвистика. • 4. Информационный поиск. • 5. Машинный перевод. • а также термины, которые могут быть отнесены к теоретической компьютерной лингвистике.
Текущее состояние Сейчас в тезаурусе • Терминов около 1150, из них • Дескрипторов – около 730 • Аскрипторов – около 420 • Видов связей между терминами – около 20 • Связей между терминами – около 3700 • Источников терминов и их определений – 128
Заключение • Представлен подход к разработке русско-английского электронного тезауруса по компьютерной лингвистике, общий состав и структура которого были разработаны на основе международных и отечественных стандартов. • В качестве инструмента разработки использовались ранее созданных в нашем коллективе инструментальные и программные средств, предоставляемые технологией построения порталов научных знаний. • Благодаря тому, что эта технология базируется на онтологии, с помощью которой описывается концептуальная схема тезауруса, обеспечивается не только целостность и непротиворечивость терминологической системы тезауруса, но и удобный доступ к его контенту. • Эта технология может быть использована для построения многоязычных тезаурусов для любых языков и предметных областей.