190 likes | 331 Views
Wykład 2: Systemy klasy C.A.T. (Computer-Aided Translation). dr inż. Agenor Hofmann-Delbor. Plan wykładu. Omówienie technologii pamięci tłumaczeń Czym jest technika wyszukiwania rozmytego Jak działają algorytmy wyszukiwania rozmytego Czym są pliki bilingwalne
E N D
Wykład 2: Systemy klasy C.A.T. (Computer-Aided Translation) dr inż. Agenor Hofmann-Delbor
Plan wykładu • Omówienie technologii pamięci tłumaczeń • Czym jest technika wyszukiwania rozmytego • Jak działają algorytmy wyszukiwania rozmytego • Czym są pliki bilingwalne • Najistotniejsze komercyjne i darmowe narzędzia CAT
Tłumaczenie maszynowe MT a pamięć tłumaczeń • Oryginalny tekst angielski ze strony dużej korporacji: „Read the official press release“ • Tłumaczenie przy użyciu programu tłumaczącego: • „Przeczytany osoba urzędowa (oficjalny) ścisk (prasa) zwolnienie“
Pamięć tłumaczeń • Baza danych przechowująca tzw. segmenty, czyli fragmenty tekstu w języku źródłowym powiązane z odpowiadającym im fragmentom w języku docelowym • Mają z reguły ściśle określony „kierunek” językowy, wyszukiwanie odbywa się zwykle w języku źródłowym • Pełna automatyzacja procesu aktualizacji w trakcie pracy • Jak każda baza wymaga operacji administracyjnych, reorganizacji itp.. • Pamięć tłumaczeń to kapitał firm i organizacji • Korzystanie z pamięci tłumaczeń umożliwia wycenę projektu i ocenę jego czasochłonności przed jego rozpoczęciem
Czas tłumaczenia a wielkość pamięci tłumaczeń Czas Dokument • Tłumaczenie Publikacja 1rok Dokument Tłumaczenie Publikacja 2rok Dokument Tłumaczenie Publikacja 3rok
Typowy model pracy z pamięciami tłumaczeń Pamięć tłumaczeń Baza terminologii Każdy tłumacz dostaje podpowiedzi z całej bazy (tłumaczenia swoje i innych tłumaczy)
Tłumaczenie z użyciem pamięci tłumaczeń Podpowiedzi terminologii z bazy terminologii (słownika) Zdanie oryginalne wraz z tłumaczeniem zostaje wstawione do pamięci jako segment
Wyszukiwanie rozmyte • Segmenty w obrębie pamięci tłumaczeń są indeksowane, co umożliwia ich szybkie wyszukiwanie • Idea pamięci tłumaczeń (TM – Translation Memory) zakłada zwracanie wyników także o częściowej zgodności • Zgodnie z zasadami logiki rozmytej dane są przyporządkowywane do odpowiedniej klasy, tutaj zwane klasami podobieństwa. Oznaczają one procentową zgodność tekstu w dokumencie z najbardziej podobnym tekstem znalezionym w pamięci tłumaczeń. • Najbardziej pożądany przypadek to tzw. 100% match – pełna zgodność • Na podstawie liczby słów w danej klasie podobieństwa budowana jest ważona liczba słów i przygotowywana wycena
Analiza dokumentów Przedstawia faktyczną liczbę słów do przetłumaczenia i korekty w dokumencie lub jego zaktualizowanej wersji
93% podobieństwa: „częściowa zgodność” Wyszukiwanie w praktyce
Pliki bilingwalne • Pliki bilingwalne powstają w sytuacji, gdy edytujemy dokumenty za pomocą narzędzi CAT. Większość aplikacji tego typu zapisuje dokument w swoim formacie lub modyfikuje obecny format poprzez dodanie odpowiednich znaczników (tagów), dzięki którym możliwe jest bezpieczne powiązanie, ale i rozgraniczenie tekstu źródłowego i wynikowego • Obecnie większość plików bilingwalnych jest oparta na XML, standardem staje się powoli format XLIFF • Pliki bilingwalne można w łatwy sposób zapisywać w docelowym formacie, można także wprowadzać automatycznie ich zawartość do pamięci tłumaczeń. • Pliki bilingwalne pozwalają zidentyfikować format źródłowy oraz języki dokumentu.
Najważniejsze i najpopularniejsze narzędzia CAT • SDL Trados • WordFast • IBM Translation Manager • OmegaT • STAR Transit • LogoPort • MemoQ • Idiom
Przydatne linki http://pl.wikipedia.org/wiki/T%C5%82umaczenie_przy_u%C5%BCyciu_komputera http://en.wikipedia.org/wiki/Computer-assisted_translation http://en.wikipedia.org/wiki/Translation_memory http://www.issco.unige.ch/ewg95/node149.html
Pytania, kontakt agenorh@zpsb.szczecin.pl