1 / 12

Лекция 7 . Корпусный менеджер как поисковая система

Лекция 7 . Корпусный менеджер как поисковая система. В.П. Захаров Санкт-Петербургский государственный университет. Лингвистические поисковые системы: корпусные менеджеры и конкордансеры. поиск конкретных словоформ и вывод результатов в виде конкорданса; поиск словоформ по леммам;

bruce-wade
Download Presentation

Лекция 7 . Корпусный менеджер как поисковая система

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Лекция 7.Корпусный менеджер как поисковая система В.П. Захаров Санкт-Петербургский государственный университет

  2. Лингвистические поисковые системы: корпусные менеджеры и конкордансеры • поиск конкретных словоформ и вывод результатов в виде конкорданса; • поиск словоформ по леммам; • поиск группы словоформ в виде разрывной или неразрывной синтагмы; • поиск словоформ по набору морфологических признаков; • отображение информации о происхождении, типе текста и т.п.; • вывод результатов поиска с указанием контекста заданной длины; • получение различных лексико-грамматических статистических данных; • сохранение отобранных строк конкорданса в отдельном файле на компьютере пользователя и др. Корпусная лингвистика

  3. Конкорданс • Конкорданс – список контекстов, где искомая единица представлена в ее лексическом окружении и характеризуется набором статистических данных. В простейшем случае представляет собой алфавитный список слов в тексте с теми контекстами, в которых они встречались. Пример конкорданса(KWIC – Key Word In Context) для слова “poor”: taste it is that such poor cattle always have in their mouths of sparing the poor child the inheritance of any part of small property of my poor father, whom I never saw--so long desolate, while your poor heart pined away, weep for it Miss, if the poor lady had suffered so intensely the love of my poor mother hid his torture from me Корпусная лингвистика

  4. Программы-конкордансеры • Concordance; • MicroConcord; • MonoCorc; • TACT (Text Analysis Computing Tools); • TACTWeb; • SARA Корпусная лингвистика

  5. MicroConcord(http://www1.oup.co.uk/oup/elt/software) • MicroConcord может строить лишь KWIC, но довольно быстро. DOS-интерфейс. • Пользователь определят КС (строка запроса), текстовые файлы, в которых должен производиться запрос, положение слова в предложении. Программа отображает имя каждого обработанного файла, количество вхождений КС. Существует возможность просмотра конкорданса в режиме прокрутки (scrolling), несколько режимов сортировки выдаваемого материала, просмотр полного текста для каждого вхождения КС в отдельном окне, сохранение в файл и печать результатов. MicroConcord поддерживает европейские языки. • Ограничения: невозможно запросить полный конкорданс; число выдаваемых строк ограничено (1662 на компьютере исследователя). Корпусная лингвистика

  6. Concordance (http://www.rjcw.freeserve.co.uk/) • Обладает высокой скоростью поиска. • Возможен вывод результатов на печать. • Существует поддержка большинства европейских языков. • Может преобразовывать полный конкорданс в html-файл. Корпусная лингвистика

  7. Concordance (2) Корпусная лингвистика

  8. MonoConс(http://www.camsoftpartners.co.uk/) • Способен создавать KWIC и полные конкордансы; • сортировать полученные списки по правому и левому контексту; • работать с аннотированными корпусами (форматы html и xml); • создавать сложные запросы по шаблонам (часть слова, позиция слова в предложении, поиск внутри тэгов и т.д.); • просматривать контекст КС в отдельной области окна программы, получать частотные данные. Корпусная лингвистика

  9. MonoConс Корпусная лингвистика

  10. Простой конкордансер может построить конкорданс отдельных слов, словосочетаний, частей слов, знаков пунктуации и т.д. в контекстном окружении. Но более сложные программы способны строить полные конкордансы, включающие в себя не только слова, но и другие элементы корпуса. Это лемма и морфологические характеристики слова; позиция слова в предложении и в структуре размеченного текста (HTML, XML); библиографические и типологические признаки документа, из которого выбран контекст (автор, название, источник, год издания, тип текста и т.д.); статистические данные и многое другое. Программы такого рода получили название ‘corpus manager’. От конкордансеров к корпусным менеджерам Корпусная лингвистика

  11. Корпусные менеджеры • Корпусным менеджером (или корпус-менеджером) (англ. corpus manager) называют специализированную поисковую систему управления текстовыми и лингвистическими данными, которая включает программные средства для поиска в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме. • Bonito; • CQP; • DDC; • WebCorp; • Xaira • ... Корпусная лингвистика

  12. Корпусный менеджер как поисковая система • Формальная релевантность • Информационно-поисковый язык фактографического типа • НО: умение работать с лексемами и словоформами. • Операции над запросами. • Сравнение с архитектурой поисковых систем в сети Интернет: роботы, программы загрузки индексов, собственно поисковые системы, с которыми работают пользователи. Их автономность (распределенность) и взаимосвязь. • Аналогичная картина в корпусах. Корпусная лингвистика

More Related