80 likes | 317 Views
Лекция 2. Технология создания корпусов. В.П. Захаров Санкт-Петербургский государственный университет. Циклы создания корпуса. Проектирование. Создание. Эксплуатация : 1) использование по назначению ; 2) сопровождение. Технологический процесс создания корпуса.
E N D
Лекция 2.Технология создания корпусов В.П. Захаров Санкт-Петербургский государственный университет
Циклы создания корпуса • Проектирование. • Создание. • Эксплуатация: 1) использование по назначению; 2) сопровождение. Корпусная лингвистика
Технологический процесс создания корпуса • Проектирование корпуса. Определение перечня источников. • Оцифровка текстов: • способы получения текстов в электронном виде; • проблема авторского права. • Анализ и предварительная обработка текстов. • Подготовка "технологического" описания. • Подготовка библиографического и экстралингвистического описания. • Конвертирование (если требуется). Корпусная лингвистика
Технологический процесс создания корпуса(продолжение) • Удаление или преобразование нетекстовых элементов. • Экстралингвистическая разметка текста. • Графематический анализ. • Собственно лингвистическая разметка. Автоматизация лингвистической разметки. • Корректировка результатов автоматической разметки: исправление ошибок и снятие неоднозначности. Корпусная лингвистика
Технологический процесс создания корпуса(продолжение) • Конвертирование размеченных текстов в структуру специализированной лингвистической информационно-поисковой системы (corpus manager), обеспечивающей быстрый многоаспектный поиск и статистическую обработку. • Хранение промежуточных данных. • Обеспечение доступа к корпусу. • Документационное обеспечение. Корпусная лингвистика
Документационное обеспечение См. www.ruscorpora.ru Корпусная лингвистика
Developing Linguistic Corpora: a Guide to Good Practice /Edited by Martin Wynne • PrefaceMartin Wynne (AHDS Literature, Languages and Linguistics, University of Oxford, UK) • Chapter 1Corpus and Text: Basic PrinciplesJohn Sinclair (Tuscan Word Centre) • Chapter 2Adding Linguistic AnnotationGeoffrey Leech (Lancaster University) • Chapter 3Metadata for Corpus WorkLou Burnard (University of Oxford) • Chapter 4Character Encoding in Corpus ConstructionAnthony McEnery and Richard Xiao (Lancaster University) • Chapter 5Spoken Language CorporaPaul Thompson (University of Reading) • Chapter 6Archiving, Distribution and PreservationMartin Wynne (University of Oxford) • Appendix to chapter one: How to make a corpusJohn Sinclair (Tuscan Word Centre) • Bibliography Корпусная лингвистика