590 likes | 847 Views
Виды разметки. Метаразметка Е.Ю. Калинина, АвтОбрЕЯ 2007 / 2008. Пример разметки. <teiHeader id="TRIF1" target="TRIFONOW/dom.txt" type="text" lang="ru"> <fileDesc> <titleStmt> <title>Дом на набережной</title><author>Юрий Трифонов</author> <extent type="w">45238</extent>
E N D
Виды разметки Метаразметка Е.Ю. Калинина, АвтОбрЕЯ 2007/2008
Пример разметки • <teiHeader id="TRIF1" target="TRIFONOW/dom.txt" type="text" lang="ru"> • <fileDesc> • <titleStmt> • <title>Дом на набережной</title><author>Юрий Трифонов</author> • <extent type="w">45238</extent> • <extent type="u">4</extent> • <extent type="s">4132</extent> • </titleStmt> • <sourceDesc> • <respStmt><resp>Файл из Библиотеки Мошкова</resp></respStmt> • <address>http://www.lib.ru/PROZA/TRIFONOW/dom.txt</address> • </sourceDesc> • </fileDesc>
Максимы Лича (Geoffrey Leech) • 1. It should be possible to remove the annotation from an annotated corpus in order to revert to the raw corpus. • 2. It should be possible to extract the annotations by themselves from the text.
Максимы Лича • 3. The annoatation scheme should be based on guidelines which are available to the end user. • 4. It should be made clear how and by whom the annotation was carried out.
Максимы Лича • 5. The end user should be made aware that the corpus annotation is not infallible, but simply a potentially useful tool. • 6. Annotation schemes should be based as far as possible on widely agreed and theory-neutral principles.
Максимы Лича: самое главное • 7. No annotation scheme has the a priori right to be considered as a standard.
Метаразметка Метаданные – структурированные данные о данных: • основания для классификации текстов; • Служат для автоматического обнаружения и обработки данных.
Экстралингвистическая разметка • "внешняя", "интеллектуальная" разметка библиографические характеристики типологические характеристики тематические характеристики социологические характеристики • "формальная" структурная разметка текст, раздел, глава, часть, абзац, предложение … • технико-технологическая разметка кодировка даты обработки исполнители источник электронной версии
Внешняя разметка Нужна: • для выявления взаимосвязей в языке и изучения условий его существования; • для изучения отдельных подмножеств языка.
Метаразметка • <teiHeader id="TRIF1" target="TRIFONOW/dom.txt" type="text" lang="ru"> • <fileDesc> • <titleStmt> • <title>Дом на набережной</title><author>Юрий Трифонов</author> • <extent type="w">45238</extent> • <extent type="u">4</extent> • <extent type="s">4132</extent> • </titleStmt> • <sourceDesc> • <respStmt><resp>Файл из Библиотеки Мошкова</resp></respStmt> • <address>http://www.lib.ru/PROZA/TRIFONOW/dom.txt</address> • </sourceDesc> • </fileDesc>
Метаразметка • <person id="p1" role="interviewee" sex="f" age="mid"> • <birth date="1950-01-12"> • <date>12 Jan 1950</date> • <rs type="place">Shropshire, UK</rs> • </birth> • <firstLang>English</firstLang> • <langKnown>French</langKnown> • <residence>Long term resident of Hull</residence> • <education>University postgraduate</education> • <occupation>Unknown</occupation> • <socecStatus scheme="pep" code="b2"/> • </person>
Метаразметка • <revisionDesc> • <change><date>02/01/2003</date> • <respStmt><name key="y">Петров</name> • <resp>Annotator</resp></respStmt> • <item> морфологическая неоднозначность разрешена </item> • </change> • <change><date>01/01/2003</date> • <respStmt><name key="y">Петров</name> • <resp>Annotator</resp></respStmt> • <item> Текст обработан морфологическим анализатором Dialing </item> • </change> • <change><date>01/01/2001</date> • <respStmt><name key="x">Иванов</name> • <resp>Encoder</resp></respStmt> • <item> Сканирование исходного текста с помощью OCR</item> • <equipment> HP Scanjet, FineReader </equipment> • </change> • </revisionDesc>
Требование унификации: • многократное использование; • много пользователей; • совместимость с другими корпусами; • совместимость с другими лингвопроцессорами; • совместимость с общепринятыми научными теориями; • совместимость с общепринятыми классификациями; • возможность применения стандартных программных средств.
Объекты стандартизации • Структура формата • Наполнение формата Метаданные Классификаторы Лингвистическая разметка • Кодировки • Оценка корпусов
Международные проекты и стандарты • Проект TEI (Text Encoding Initiative); • рекомендацииEAGLES (Expert Advisory Group on Language Engineering Standards); • стандарт CES (Corpus Encoding Standard); • стандарт XCES (Corpus Encoding Standard for XML); • проект ISLE (International Standards for Language Engineering); • стандарт CDIF (Corpus Document Interchange Format, BNC).
Группастандартов TEI длякорпусов(TEI P4, TEI P5) Схема описания документа: • библиографическое описание текста, • собственно метаописание текста и • "технологическое" описание: кодировка текста, история создания электронной версии и т.п.
СтандартText Encoding Initiative (TEI) • формальное описание текста Название Автор Год Размер ……… • содержательное описание текста Жанр Стиль Целевая аудитория Время создания ………
TEI TEI – универсальное множество, из которого создатель корпуса может выбрать любое подмножество, релевантное для своей конкретной задачи.
Кодирование метаданных в TEI Предусмотрены следующие тэги: 1. <creation> — информация о времени и месте создания текста; 2. <textClass> — классификация текста; 3. <textDesc> — описание текста; 4. <particDesc> — описание автора илиучастников акта коммуникации; 5. <settingDesc> — условия, в которых происходил акт коммуникации. Внутри каждого тэга – большое количество вложенных уточняющих тэгов.
Классификаторы:пример тематической классификации EAGLES (1) natsci естественные науки mathematics математика physics физика chemistry химия … appsci прикладные науки medicine медицина engineering техника и технология computing вычислительная техника military военное дело marine мореплавание … socsci общественные науки anthropology антропология language лингвистика, филология
Классификаторы:пример тематической классификации EAGLES (2) religion религия (включая философию в БНК) politics политика inner внутренняя world внешняя … education образование commerce экономика finance финансы … life общество arts искусство literature литература architecture архитектура … leisure досуг reading чтение sports спорт travels путешествия
Пример схемы кодировки (см. Шаров 2002) <taxonomy id="domain"> <bibl>Источники: БНКи EAGLES</bibl> <category id="natsci"><catDesc>Естественныенауки</catDesc> <category id="mathematics"><catDesc>Математика</catDesc></category> .................................... </taxonomy> <taxonomy id="written"> <category id="printed"><catDesc>печатныеиздания</catDesc> <category id="books"><catDesc>книгиипроч.</catDesc></category> ........................................... </taxonomy> <taxonomy id="spoken"> <category id="on location"><catDesc>местныйразговор</catDesc> <category id="telephone"><catDesc>телефон</catDesc> <category id="studio"><catDesc>студия</catDesc> </taxonomy> <taxonomy id="aims"> <category id="information"><catDesc>Справочнаяинформация</catDesc></category> <category id="discussion"><catDesc>Обсуждение</catDesc> ........................................... </taxonomy>
Набор метаданных в Национальном корпусе русского языка Первый блок:ПАСПОРТ ТЕКСТА • автор текста: имя, пол, дата рождения (или примерный возраст); • название текста; • время и место создания текста (может указываться точно или приблизительно); • объем текста: для художественных произведений принято, что обычная длина рассказа – менее 5 тыс. слов; обычная длина повести– от 5до 15тыс. слов; обычная длина романа– более 15тыс. слов.
Набор метаданных в «Национальном корпусе русского языка» Второй блок: параметры метаописания основных массивов текстов корпуса: • художественных текстов; • нехудожественных текстов; • Драматургии • Устной речи • поэзии
Художественные тексты (в НКРЯ): • Жанр текста (включается также помета «нежанровая проза»): историко-приключенческая, криминальная, любовная литература, сатира и юмор, фантастика, и т.п.
Художественные тексты (в НКРЯ): • Тип текста (при обозначении типа широко используется самоидентификация текста; список типов в принципе открытый и дается в окне поиска в алфавитном порядке): анекдот, боевик, детектив, повесть, притча, рассказ, роман, сказка, триллер, эпопея, эссе и т.п.
Художественные тексты (в НКРЯ): • хронотоп текста приблизительное указание на место и время описываемых в тексте событий Реально предлагается следующее: древний Восток; Россия XVII в.; Россия XIX в.; Россия/СССР: советский период в целом; Россия, советский период– Германия 1920–1940-е годы; Россия/СССР– Европа 1960-1980-е годы; Россия/СССР: перестройка; Россия/СССР: советский и постсоветский период; Америка: современная жизнь; Израиль: современная жизнь; Средняя Азия: современная жизнь; ирреальный мир и др. Также может быть «хронотоп не определен».
Нехудожественные тексты(в НКРЯ): • Сфера функционирования текста: (параметр призван отражать в первую очередь языковые особенности): бытовая, официально-деловая, производственно-техническая, публицистическая, учебно-научная, церковно-богословская.
Нехудожественные тексты(в НКРЯ): • Тип текста: (при обозначении типа широко используется самоидентификация текста; список типов в принципе открытый и дается в окне поиска в алфавитном порядке; включается также помета «тип не определен»): автобиография, акт, дневник, договор, документ, закон, заметка, заявление, инструкция, информационное сообщение, кодекс, комментарий, листовка, обзор, объявление, отзыв, отчет, очерк, письмо, постановление, проповедь, путеводитель, резюме, реклама, рекомендация, рецензия, рецепт, сочинение, справочник, статья, учебник, характеристика, хроника, эссе, и т.п.
Нехудожественные тексты(в НКРЯ): • «текст-стиль», при этом выделяются академический, научно-популярный, официально-деловой, нейтральный, сниженный, сниженный с элементами грубого просторечия и жаргона, архаизованный, индивидуально-авторский, диалектный и пр. (всего 21);
Нехудожественные тексты(в НКРЯ): • 3. Тематика текста (в принципе, у одного текста тем может быть несколько; список открытый): бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом и домашнее хозяйство; здоровье и медицина; зрелища и развлечения; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производство; сельское хозяйство; спорт; природа; частная жизнь и т.п.
Факторы, влияющие на язык текстов два класса факторов, влияющих на язык текстов: • внешние, внеязыковые факторы (E - external); • внутренние факторы (I- internal). ( См. Sinclair (1996). Preliminary recommendations on text typology. EAGLES Document EAG-TCWG-TTYP/P. http://www.ilc.pi.cnr.it/EAGLES96/texttyp/texttyp.html)
Е-факторы • Е1 (origin) - факторы, относящиеся к созданию текста автором; • E2 (state) - факторы, относящиеся к внешним признакам текста (включая устную или письменную речь); • Е3 (aims) - факторы, относящиеся к причинам создания текста и его влиянию на аудиторию.
I-факторы • I1 (topic) - предметная область текста; • I2 (style) - стилистические особенности (стиль, жанр).
Внешние факторы • Е1 (параметры создания текста): время создания текста и возраст автора на этот момент • пол автора и регион происхождения автора. • Для региона важна грубая классификация на столичный (Москва и Санкт-Петербург), европейский, сибирский и южный, для возраста на детский, молодежный, взрослый и пожилой.
Внешние факторы: • Е2 (внешние признаки текста) - четыре режима речи: • устная • письменная • письменная, предназначенная для произнесения вслух • электронная коммуникация
Внешние факторы • Е2 (внешние признаки текста) • внешние признаки письменной речи: печатные издания, переписка • Внешние признаки устной речи: речь спонтанная, студийные записи, телефонные разговоры
Внешние факторы • Е3 – параметры аудитории • размер • близость аудитории говорящему • ограничения на пол, возраст и уровень образования аудитории
Внешние факторы • Е3 – цели создания текста • обсуждение (аргументация, полемика, изложение позиции и т.п.) • рекомендации (отчеты, предложения, законы и т.д.) • развлечение (сюда входят различные жанры художественной литературы, а также биографические и автобиографические тексты, дневники и мемуары) • обучение (в эту категорию входят как школьные или вузовские учебники, так и практические советы) • информация (в эту категорию входят только те тексты, целью которых является предоставление информации и которые не могут быть включены в другие категории, например, энциклопедии и справочные пособия).
Внутренние факторы: стиль • академический • научно-популярный • официально-деловой • нейтральный • сниженный • сниженный с элементами грубого просторечия и жаргона • архаизованный • индивидуально-авторский • диалектный и пр. (всего 21)
А.С. Пушкин. Капитанская дочка • Комендант расхаживал перед своим малочисленным строем. Близость опасности одушевляла старого воина бодростию необыкновенной. По степи, не в дальнемрасстоянии от крепости, разъезжали человек двадцать верхами. Они, казалося, казаки, но между ими находились и башкирцы, которых легко можно было распознать по их рысьим шапкам и по колчанам. Комендант обошел свое войско, говоря солдатам: "Ну, детушки, постоим сегодня за матушку государыню и докажем всему свету, что мы люди бравые и присяжные!" Солдаты громко изъявили усердие.
М.Ю. Лермонтов. Герой нашего времени • Тут он начал щипать левый ус, повесил голову и призадумался. Мне страх хотелось вытянуть из него какую-нибудь историйку - желание, свойственное всем путешествующим и записывающим людям. Между тем чай поспел; я вытащил из чемодана два походных стаканчика, налил и поставил один перед ним. Он отхлебнул и сказал как будто про себя: "Да, бывало!" Это восклицание подало мне большие надежды. Я знаю, старые кавказцы любят поговорить, порассказать; им так редко это удается: другой лет пять стоит где-нибудь в захолустье с ротой, и целые пять лет ему никто не скажет "здравствуйте" (потому что фельдфебель говорит "здравия желаю"). А поболтать было бы о чем: кругом народ дикий, любопытный; каждый день опасность, случаи бывают чудные, и тут поневоле пожалеешь о том, что у нас так мало записывают.
Н.В.Гоголь. Рим (отрывок) • Попробуй взглянуть на молнию, когда, раскроивши черные, как уголь, тучи, нестерпимо затрепещет она целым потопом блеска. Таковы очи у альбанки Аннунциаты. Всё напоминает в ней те античные времена, когда оживлялся мрамор и блистали скульптурные резцы. Густая смола волос тяжеловесной косою вознеслась в два кольца над головой и четырьмя длинными кудрями рассыпалась по шее. Как ни поворотит она сияющий снег своего лица -- образ ее весь отпечатлелся в сердце. Станет ли профилем -- благородством дивным дышит профиль, и мечется красота линий, каких не создавала кисть… Но чудеснее всего, когда глянет она прямо очами в очи, водрузивши хлад и замиранье в сердце.
Н.В. Гоголь. Шинель • В это время, когда даже у занимающих высшие должности болит от морозу лоб и слезы выступают в глазах, бедные титулярные советники иногда бывают беззащитны. Все спасение состоит в том, чтобы в тощенькой шинелишке перебежать как можно скорее пять-шесть улиц и потом натопаться хорошенько ногами в швейцарской, пока не оттают таким образом все замерзнувшие на дороге способности и дарованья к должностным отправлениям.
Л.Н. Толстой. Рубка леса • - тот самый бомбардир Антонов, который еще в 37-м году, втроем, оставшись при одном орудии, без прикрытия, отстреливался от сильного неприятеля и с двумя пулями в ляжке продолжал итти около орудия и заряжать его. "Давно бы уж ему быть фейерверкером, коли бы не карахтер его", говорили про него солдаты.
Л.Н. Толстой. Рубка леса • Наконец, перейдя неглубокий, но чрезвычайно быстрый ручей, нас остановили, и в авангарде послышались отрывчатые винтовочные выстрелы. Звуки эти, как и всегда, особенно возбудительно подействовали на всех. Отряд как бы проснулся: в рядах послышались говор, движение и смех. Солдаты кто боролся с товарищем, кто перепрыгивал с ноги на ногу, кто жевал сухарь или, для препровождения времени, отбивал на караул и к ноге. Притом туман заметно начинал белеть на востоке, сырость становилась ощутительнее, и окружающие предметы постепенно выходили из мрака.
Ф.М. Достоевский. Бесы • Это было в пятьдесят пятом году, весной, в мае месяце, именно после того как в Скворешниках получилось известие о кончине генерал-лейтенанта Ставрогина, старца легкомысленного…
Ф.М. Достоевский. Бесы • Это было одно из тех идеальных русских существ, которых вдруг поразит какая-нибудь сильная идея и тут же разом точно придавит их собою, иногда даже навеки. Справиться с нею они никогда не в силах, а уверуют страстно, и вот вся жизнь их проходит потом как бы в последних корчах под свалившимся на них и на половину совсем уже раздавившим их камнем… • Не прочь мы были и от городских сплетен, при чем доходили иногда до строгих высоко-нравственных приговоров. Впадали и в общечеловеческое, строго рассуждали о будущей судьбе Европы и человечества; докторально предсказывали, что Франция после цезаризма разом ниспадет на степень второстепенного государства, и совершенно были уверены, что это ужасно скоро и легко может сделаться.
А.П. Чехов. Скучная история • На свежего мальчика, приехавшего из провинции и воображающего, что храм науки в самом деле храм, такие ворота не могут произвести здорового впечатления. Вообще ветхость университетских построек, мрачность коридоров, копоть стен, недостаток света, унылый вид ступеней, вешалок и скамей в истории русского пессимизма занимают одно из первых мест на ряду причин предрасполагающих... Вот и наш сад. С тех пор, как я был студентом, он, кажется, не стал ни лучше, ни хуже. Я его не люблю. Было бы гораздо умнее, если бы вместо чахоточных лип, желтой акации и редкой, стриженой сирени росли тут высокие сосны и хорошие дубы. Студент, настроение которого в большинстве создается обстановкой, на каждом шагу, там, где он учится, должен видеть перед собою только высокое, сильное и изящное... Храни его бог от тощих деревьев, разбитых окон, серых стен и дверей, обитых рваной клеенкой.
А.П. Чехов. Остров Сахалин • Он рассказывает, что на Сахалине за все 22 года он ни разу не был сечен и ни разу не сидел в карцере. - Потому что посылают лес пилить - иду, дают вот эту палку в руки -беру, велят печи в канцерярии топить - топлю. Повиноваться надо. Жизнь, нечего бога гневить, хорошая. Слава тебе господи! Летом он живет в юрте около перевоза. В юрте у него лохмотья, каравай хлеба, ружье и спертый, кислый запах. На вопрос, для чего ему ружье, говорит- от воров и куликов стрелять - и смеется. Ружье испорчено и стоит тут только для виду. Зимою превращается он в дровотаска и живет в конторе на пристани.