1 / 7

Лекция 2. Технология создания корпусов

Лекция 2. Технология создания корпусов. В.П. Захаров Санкт-Петербургский государственный университет. Циклы создания корпуса. Проектирование. Создание. Эксплуатация : 1) использование по назначению ; 2) сопровождение. Технологический процесс создания корпуса.

cira
Download Presentation

Лекция 2. Технология создания корпусов

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Лекция 2.Технология создания корпусов В.П. Захаров Санкт-Петербургский государственный университет

  2. Циклы создания корпуса • Проектирование. • Создание. • Эксплуатация: 1) использование по назначению; 2) сопровождение. Корпусная лингвистика

  3. Технологический процесс создания корпуса • Проектирование корпуса. Определение перечня источников. • Оцифровка текстов: • способы получения текстов в электронном виде; • проблема авторского права. • Анализ и предварительная обработка текстов. • Подготовка "технологического" описания. • Подготовка библиографического и экстралингвистического описания. • Конвертирование (если требуется). Корпусная лингвистика

  4. Технологический процесс создания корпуса(продолжение) • Удаление или преобразование нетекстовых элементов. • Экстралингвистическая разметка текста. • Графематический анализ. • Собственно лингвистическая разметка. Автоматизация лингвистической разметки. • Корректировка результатов автоматической разметки: исправление ошибок и снятие неоднозначности. Корпусная лингвистика

  5. Технологический процесс создания корпуса(продолжение) • Конвертирование размеченных текстов в структуру специализированной лингвистической информационно-поисковой системы (corpus manager), обеспечивающей быстрый многоаспектный поиск и статистическую обработку. • Хранение промежуточных данных. • Обеспечение доступа к корпусу. • Документационное обеспечение. Корпусная лингвистика

  6. Документационное обеспечение См. www.ruscorpora.ru Корпусная лингвистика

  7. Developing Linguistic Corpora: a Guide to Good Practice /Edited by Martin Wynne • PrefaceMartin Wynne (AHDS Literature, Languages and Linguistics, University of Oxford, UK) • Chapter 1Corpus and Text: Basic PrinciplesJohn Sinclair (Tuscan Word Centre) • Chapter 2Adding Linguistic AnnotationGeoffrey Leech (Lancaster University) • Chapter 3Metadata for Corpus WorkLou Burnard (University of Oxford) • Chapter 4Character Encoding in Corpus ConstructionAnthony McEnery and Richard Xiao (Lancaster University) • Chapter 5Spoken Language CorporaPaul Thompson (University of Reading) • Chapter 6Archiving, Distribution and PreservationMartin Wynne (University of Oxford) • Appendix to chapter one: How to make a corpusJohn Sinclair (Tuscan Word Centre) • Bibliography Корпусная лингвистика

More Related