1 / 30

Поливариантные параллельные тексты в рамках Национального корпуса русского языка

Национальный корпус русского языка http://ruscorpora.ru/ Дмитрий Сичинава ( mitrius@gmail.com ). Поливариантные параллельные тексты в рамках Национального корпуса русского языка. Параллельные корпуса в НКРЯ. Англо-русский, русско-английский Немецко-русский, русско-немецкий

Download Presentation

Поливариантные параллельные тексты в рамках Национального корпуса русского языка

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Национальный корпус русского языка http://ruscorpora.ru/ Дмитрий Сичинава (mitrius@gmail.com) Поливариантные параллельные тексты в рамках Национального корпуса русского языка

  2. Параллельные корпуса в НКРЯ Англо-русский, русско-английский Немецко-русский, русско-немецкий Украинско-русский, русско-украинский Белорусско-русский, русско-белорусский Польско-русский, русско-польский Итальянско-русский, русско-итальянский Французско-русский-русско-французский Испанско-русский, русско-испанский ГОТОВЯТСЯ Русско-болгарский, русско-армянский, латышский (оба направления)

  3. Многоязычные корпуса Частный случай (1): язык оригинала (A) не фиксирован Частный случай (2): N>1 (переводы на 2 и больше языков) Частный случай (3): несколько переводов на один язык

  4. «Массовые параллельные тексты» * Наиболее распостранённый тип параллельных корпусов * Переводы одного и того же текста на 20+ языков (Библия, Ленин, «Сторожевая башня», законы...) * Проблемы специфики жанра * Cysouw, Waelchli 2007 (спецвыпуск журнала STUF)

  5. Корпус слушаний Европарламента http://www.statmt.org/europarl/ 21 официальный язык ЕС Все подкорпуса выровнены по английскому XML, размечены говорящие, файл соответствует дню слушаний Свободный для скачивания

  6. Корпус европейского права The JRC-Acquis Multilingual Parallel Corpus http://langtech.jrc.it/JRC-Acquis.html Действующее право ЕС. 22 языка Общий объём – 1 млрд слов Автоматическое выравнивание (венгерская программа HunAlign; программа Vanilla). Для скачивания доступны 2 версии выравнивания

  7. PARASOL: Параллельный корпус славянских и других языков http://parasol.unibe.ch/ Р. фон Вальденфельс (Регенсбург – Бонн)

  8. PARASOL: Параллельный корпус славянских и других языков Поиск онлайн после регистрации 25 млн словоупотреблений, 32 языка Разметка с участием национальных корпусов разных языков Только художественная литература (максимум переводов – «Мастер и Маргарита», «Имя розы», «Гарри Поттер и философский камень», «Солярис», «Парфюмер»)

  9. InterCorp – параллельные корпуса ЧНК http://www.korpus.cz/intercorp/ Поиск онлайн после регистрации 92 млн словоупотреблений 23 языка Чешский язык – базовый (для каждого текста есть чешское соответствие) Художественные тексты и корпуса политических комментариев (Presseurop) Тексты из других параллельных корпусов. Морфология TreeTagger

  10. Норвежские параллельные корпуса http://www.hf.uio.no/ilos/tjenester/kunnskap/sprak/omc/index.html Университеты Бергена и Осло Шесть языков – норвежский, английский, французский, немецкий, нидерландский, португальский + небольшие корпуса финского и шведского Русско-норвежский корпус RuN отдельно (с особой разметкой и поиском) Поиск онлайн после регистрации

  11. ASPAC – Амстердамский параллельный корпус Авторский проект Адриана Барентсена, доступен по рассылке Более 100 текстов на 25 языках, только художественные Есть альтернативные переводы на один и тот же язык (4 польские и 6 русских «Алис») Выравнивание вручную по абзацам

  12. Многоязычный корпус НКРЯ Свободный доступ (но тексты нельзя скачать) 9 текстов, в основе из ASPAC, с собственными пополнениями Специальная программа, дополнительно делящая абзацы при выравнивании исходников ASPAC на предложения

  13. Многоязычный корпус НКРЯ «Алхимик» Коэльо (9 языков), «Алиса в стране чудес» ЛК (21 язык + доп. 2 русских и 1 польский перевод), «Алиса в Зазеркалье» ЛК (6 языков), «Код да Винчи» Д. Брауна (12 языков), «Собака Баскервилей» А. Конан Дойла (5 языков), «Винни-Пух» А. А. Милна (18 языков + доп. 1 русский и 1 украинский текст), «Мастер и Маргарита» Булгакова (15 языков + доп. 1 английский текст), «Пиноккио» К. Коллоди (10 языков), «Маленький принц» А. де Сент-Экзюпери (21 язык)

  14. Многоязычный корпус НКРЯ: языки Славянские (12): русский, украинский, белорусский, польский, чешский, словацкий, верхнелужицкий, словенский, хорватский, сербский, македонский, болгарский Неславянские (13): английский, немецкий, нидерландский, шведский, латинский, французский, итальянский, испанский, португальский, румынский, греческий, литовский, латышский

  15. Многоязычный корпус НКРЯ: разметка Имеется морфологическая разметка: русский, английский, немецкий, французский, испанский, португальский, украинский, белорусский, польский, чешский, болгарский Остальные языки – без морфологической разметки, поиск только по точному слову

  16. Многоязычный корпус НКРЯ: формат XML <p> <para> <se lang="en">"What a curious feeling!" said Alice. "I must be shutting up like a telescope!" </se> <se lang="de">"Was für ein komisches Gefühl!" sagte Alice. "Ich gehe gewiß zu wie ein Teleskop." </se> <se lang="nl">'Wat een gek gevoel,' zei Alice. 'Het is alsof ik als een telescoop in elkaar schuif.'</se> <se lang="sv">- En sådan underlig känsla! sade Alice. Jag håller bestämt på att skjutas ihop som en kikare.</se> <se lang="la">'Eia! Sensu quam insolito afficior!' inquit Alicia. 'Videor comprimi velut telescopium!' </se> <se lang="fr">"Quelle sensation bizarre! dit Alice. Je dois être en train de rentrer en moi-même, comme une longue-vue!"</se> <se lang="it">- Che curiosa impressione! - disse Alice, - mi sembra di contrarmi come un cannocchiale! </se> <se lang="es">- ¡Qué sensación más extraña! - dijo Alicia - . Me debo estar encogiendo como un telescopio.</se> <se lang="pt">"Que sensação estranha", disse Alice. "Eu devo estar encolhendo como um telescópio!"</se> <se lang="ro">"Ce straniu mă simt!" zise Alice. "De parcă aş fi pe cale să mă strâng ca o lunetă!"</se> <se lang="gr">- Τι περίεργο συναίσθημα! είπε η Αλίκη, νομίζω πως άρχισα να διπλώνομαι σαν τηλεσκόπιο.</se> </p>

  17. Многоязычный корпус НКРЯ: формат XML <se lang="ru">- Какое странное ощущение! - воскликнула Алиса. - Я, верно, складываюсь, как подзорная труба.</se> <se lang="ru_2">- Вот странное чувство! - воскликнула Аня. - Должно быть, я захлопываюсь, как телескоп.</se> <se lang="ru_3">- Ой, что же это со мной делается! - сказала Алиса.- Я, наверное, и правда складываюсь, как подзорная труба!</se> <se lang="uk">- Ой, що це зі мною діється! - скрикнула Аліса. - Мабуть, я складаюся, як підзорна труба.</se> <se lang="be">- Што за дзіўнае адчуваньне! - сказала Алеся. - Здаецца, я складаюся, нібы тэлескоп!</se> <se lang="pl">- Cóż za dziwne uczucie - rzekła Alicja - składam się zupełnie jak teleskop.</se> <se lang="pl_2">- Jakie dziwne uczucie! - powiedziała Alicja. - Na pewno wsuwam się w siebie jak luneta!</se> <se lang="cs">"To je mi divně," řekla Alenka. "Nejspíš se už sklápím jako dalekohled."</se> <se lang="sk">"Akosi mi je čudne!" povedala Alica. "Asi sa už sklápam ako ten ďalekohľad!"</se> <se lang="sl">"Kakšen čuden občutek!" je rekla Alica; "najbrž se zlagam ko teleskop!"</se> <se lang="hr">"Zaista, nešto mi se događa", reče Alica. "Kao da se uvlačim u sebe poput dalekozora."</se> <se lang="sr">"Како се чудно осећам!" - рече Алиса. "Изгледа ми да се увлачим као дурбин."</se> <se lang="mk">"Колку чудно се чувствувам!" си рече Алиса. "Изгледа дека се смалувам како што се смалува дурбинот."</se> <se lang="bg">Какво странно чувство! - си каза Алиса. - Сякаш се свивам като далекоглед."</se>

  18. Пример поисковой выдачи НКРЯ

  19. Пример грамматического запроса

  20. Поливариантный корпус Со второй половины 2012 года команда НКРЯ совместно с исследователями Института проблем информатики РАН и французскими лингвистами (университет Paris-13, Институт восточных языков INALCO) разрабатывает поливариантный параллельный русско-французский корпус. Одновременно на его материале строится база данных поливариантных соответствий (полиэквиваленций) глагольных аспектуальных и временных форм в русском и французском языках.

  21. Прецеденты * По нескольку вариантов перевода ряда текстов на один и тот же язык (например, «Алиса в стране чудес» — шесть переводов на русский и четыре на польский) находится в ASPAC и Регенсбургском корпусе * Поливариантный русско-немецкий корпус на материале выполненных в разное время переводов романов Достоевского, созданный в Австрийской академии наук в Вене

  22. Выбор переводов * Для поливариантного корпуса выбираются тексты, существующие не менее, чем в двух переводах на французский язык, причём эти переводы должны быть созданы, как правило, не ранее середины XX века. * Более ранние французские переводы русской литературы, особенно выполненные в XIX веке, устарели в языковом отношении, а главное, содержат много ошибок и сокращений исходного текста.

  23. Выравнивание Используется усовершенствованная версия программы «Евклид» (оболочка для HunAlign): тексты выравниваюся попарно и затем «склеиваются» в единый XML в соответствием с разделением предложений в оригинале

  24. Три перевода «Носа» <para id="2"> <se lang="ru" variant_id="0">Марта 25 числа случилось в Петербурге необыкновенно странное происшествие.</se> <se lang="fr" variant_id="1">Le 25 mars, un événement tout à fait étrange s'est produit à Pétersbourg.</se> <se lang="fr" variant_id="2">Ce jour-là, 25 mars dernier, Pétersbourg fut le théâtre d’une aventure des plus étranges.</se> <se lang="fr" variant_id="3">Le 25 mars il est arrivé à Pétersbourg un événement extrêmement bizarre.</se> </para>

  25. (Продолжение) <se lang="ru" variant_id="0">Приподнявшись немного на кровати, он увидел, что супруга его, довольно почтенная дама, очень любившая пить кофей, вынимала из печи только что испеченные хлебы.</se> <se lang="fr" variant_id="1">Se soulevant à demi sur son lit, il vit que son épouse, une dame assez respectable et qui appréciait beaucoup le café, retirait des pains du four.</se> <se lang="fr" variant_id="2">S’étant mis sur son séant, il vit que son épouse — personne plutôt respectable et qui prisait fort le café — défournait des pains tout frais cuits.</se> <se lang="fr" variant_id="3">S’étant quelque peu soulevé sur son lit, il vit que son épouse, dame assez digne dotée d’un fort penchant pour le café, tirait du four des pains qui venaient d’être cuits.</se>

  26. Разметка несоответствий в переводе 1) Добавление / замена / пропуск 2) На уровне слова / синтагмы / предложения 3) Упрощение / усложнение / комментарий

  27. Примеры (не)соответствий Упрощение: «Он позволял это себе потому, что чувствовал в себе силу всегда, когда ему понадобится, опять выделить одно служебное и откинуть человеческое» => «Il le faisait seulement parce qu'il se sentait de force à retablir à n'importe quel moment les barrières fatidiques» Комментарий: «Дверцу – тонкую цинковую пластинку — отвел в сторону, слез, пугливо поглядел на окна, потрогал простыню». => «Il ôta la mince plaque de zinc qui la fermait, posa celle-ci sur l'étagère, descendit de sa chaise, et alla à la fenetre vérifier d'un air inquiet que le drap et le plaid n'avaient pas bougé»

  28. Другие проблемы выравнивания * Культурноспецифическая лексика, фразеологизмы и т. п. – специально отмечаются * Совпадение языков оригинала и перевода (французский текст в оригинале)

  29. База данных грамматических соответствий * Происходит разметка и полуавтоматический поиск глагольных форм (TAM – tense-aspect-mood) * «модели перевода» – множество переводов {Fn...Fn+m} для русской формы R (например, НСВ переводится как present, imparfait или в известных ограничительных контекстах passé simple); «стимулы перевода» – множество «стимулов» {Rn...Rn+m}, «реакцией» на которые является французская форма F (например, passé antérieur может появиться для русских слов «немедленно» или «внезапно»).

  30. База данных грамматических соответствий База данных вручную редактируется (уточняется состав конструкции, грамматическая разметка) Строится кортеж (набор значений переводов) для вхождений каждой грамматической конструкции в текст Производится статистический анализ наиболее вероятных переводов формы (в тех или иных контекстах) Анализируются конкретные переводческие стратегии

More Related