PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …

PolUKRPolsko-Ukraiński Korpus Równoległyhttp://corpus.domeczek.pl2004 - … Natalia Kotsyba Zebranie naukowe IS PAN 2.XII.2008

Czy można mówić o lingwistyce korpusowej? • Metodologia, a nie osobna branża lingwistyki Rodzaje korpusów: • „surowy/łysy” – adnotowany: morfosyntaktycznie, semantycznie, banki drzew (składnia) • jednojęzyczny - dwu-/wielojęzyczne • równoległe - porównawcze • korpus referencyjny (benchmark korpus): BNC, ?IPI PAN

Czym jest korpus równoległy? • Zbiór par tekstów (eng. bitexts) w dwóch językach Запропонована модель виглядає доволі переконливо... Proponowany model wygląda dość przekonująco...

Czemu służy korpus równoległy • baza danych odpowiedników słów i wyrażeń oraz ich kontekstów dla tłumaczy • baza danych dla konfrontatywnej analizy lingwistycznej • punkt wyjścia do konstrukcji wiarygodnych słowników dwujęzycznych

Statystyki

Wyszukiwanie (obecnie) • Aktualny sposób wyszukiwania bazuje na wyrażeniach regularnych PERL • Poszukiwany ciąg należy ująć w znaki "/". Np.: /zimna wojna/ znajdzie wyłącznie akapity zawierające dokładnie tę frazę. Aby uelastycznić kryteria wyszukiwania, można skorzystać z następujących znaków specjalnych: . odpowiada każdemu znakowi (z wyjątkiem znaku nowej linii) Іalternatywa; )koniec fragmentu ciągu [ i ] początek i koniec oznaczania klasy znaków ? 1 albo 0 wystąpień; * 0 albo więcej wystąpień + 1 albo więcej wystąpień \sdowolny znak spacji, interpunkcji \wdowolna litera, liczba, znak podkreślenia \bkoniec wyrazu, \escape

Przykłady formuł wyszukiwania /jako/ „jako” /jako\s/ „jako, niejako, dwojako” /\bjako/ „jakość’ /norma\./ „norma” przed kropką

Metodologia tworzenia korpusu • zbieranie tekstów (Katarzyna Kotyńska, Anna Łazar, Helena Krasowska) • jeżeli są w postaci papierowej, to: • skanowanie, czyszczenie skanów od obrazków i czarnych pasków, numeracji stron; • OCRowanie, redakcja poOCRowa; • konwertowanie do tekstowego formatu (FineReader --> Word); wyrównywanie kolumn, wyczyszczenie od znaków podziałów stron, przypisów dolnych, znaków przeniesienia wyrazów; • jeszcze raz wyczytywanie błędów (FineReader wyświetla tylko miejsca, które są "podejrzane" dla niego samego); • sprawdzenie podziału na akapity (czy w ogóle są, czy nie są podwójne); • konwertowanie czcionek do wspólnego formatu (przyjęliśmy Unicode/UTF-8); • konwertowanie z MSWord .doc na .txt • dodawanie metadanych (tytuł, autor, tłumacz, rok napisania, rok i miejsce wydania oryginału, gatunek literacki, itd. ok. 20 pozycji); • konwertowanie z .txt do .xml • dodawanie do serwera

Co się dzieje na serwerze • Metadane są wpisywane automatycznie do bazy danych MySQL i potem pobierane z niej przy korzystaniu z korpusu • Wyrównywanie tekstów na poziomie akapitów, oznaczonych w tekstach <p>-</p> • Dynamicznie, zakładając, że ilość akapitów w tekstach jest jednakowa i każdy akapit w tekście oryginalnym ma odpowiednik w tekście tłumaczonym • Oprogramowanie: Magdalena Turska

W opracowywaniu: a) Dodawanie informacji gramatycznych • polski • ukraiński • sprowadzanie do wspólnego formatu metadanych gramatycznych (tagset) NB: stopnie porównania dla przymiotników i przysłówków ukraińskich b) Wyrównanie na poziomie zdań • problem podziału na zdania (skróty) • demonstracja programu TextAlign 1.1.1.1 • Hunalign (wymaga słownika oraz lematyzacji dla w miarę akceptowalnych wyników)

Źródła informacji morfosyntaktycznej • Język polski:tager TаKIPI, IPI PAN + Politechnika Wrocławska, ok. 200 tys. słów (Marcin Woliński, Adam Radziszewski i in.) • Lematyzator, morfologiczny analizator, ujednoznaczniacz (dezambiguator) • Język ukraiński: słownik gramatyczny ULIF NANU, 250tys. słów (Igor Szewczenko, Ołeksandr Rabulec) • Lematyzator, morfologiczny analizator, brak ujednoznacznienia (dezambiguacji)

Ukraiński tekst nietagowany • Львів розташований на етнічних українських землях і є одним з головних нервових вузлів українського народу, найважливішим клапаном його серця, вічним збудником честолюбства, гордості й потягу до волі.

Przykłady kodów gramatycznych ULIF (384)

Polski tekst nietagowany • W dzisiejszym posiedzeniu komisji uczestniczy ekspert komisji pan profesor Jan Gajewski.

PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …