110 likes | 229 Views
Wykład 8: Technologia tłumaczenia maszynowego. dr inż. Agenor Hofmann-Delbor. Plan wykładu. Na czym polega tłumaczenie maszynowe? Historia MT Jakie są najpopularniejsze platformy MT? Jak MT funkcjonuje w ramach projektów lokalizacyjnych Jakie jest powiązanie systemów CAT i MT.
E N D
Wykład 8: Technologia tłumaczenia maszynowego dr inż. Agenor Hofmann-Delbor
Plan wykładu • Na czym polega tłumaczenie maszynowe? • Historia MT • Jakie są najpopularniejsze platformy MT? • Jak MT funkcjonuje w ramach projektów lokalizacyjnych • Jakie jest powiązanie systemów CAT i MT
Zasada pracy MT (tłumaczenie maszynowe/automatyczne) korzysta z własnego algorytmu, aby przetłumaczyć treść z jednego języka na drugi, bez ingerencji człowieka. Istnieje kilka rodzajów systemów MT: MT oparte na systemie reguł (rules-based MT) w sposób analityczny korzysta z gramatycznej reprezentacji danego języka i za pomocą reguł i słownika generuje tekst wynikowy. Innym podejściem jest SMT, czyli mechanizm oparty na analizie statystycznej i umieszcza słowa w najbardziej prawdopodobnym miejscu w szyku zdania. Analiza opiera się na zestawach tekstów utworzonych przez człowieka, zwanych korpusami. Im większe zbiory, tym skuteczniejsza technologia. Obecnie największy potencjał SMT upatrywany jest w Google MT. Systemy oparte na przykładach (example-based MT) pracują w oparciu o analizę istniejących tekstów, które są traktowane jako przykłady dla systemu. Na ich przykładzie przetwarzany jest tekst źródłowy, a aplikacja dopasowuje do niego najbardziej podobny przykład. Przypominają w działaniu systemy CAT i ich użycie jest dość ograniczone. Stosowane są także systemy hybrydowe, będące połączeniem powyższych typów analizy.
Historia MT Tłumacze wyobrażali sobie automatyzację pracy już w XVII wieku, ale brak odpowiedniej technologii sprawił, iż próby jej realizacji odłożono o dwa wieki. Pierwsze proste konstrukcje tego typu pojawiły się w 1933 i miały, jak to zwykle bywa z nowymi technologiami, zastosowanie w wojskowości. Pierwsze duży projekt związany z MT stworzył IBM we współpracy z Georgetown University w latach 50-tych ubiegłego wieku. Choć nie mówi się o tym wprost, projekt miał wspomagać operacje kontrwywiadowcze – pierwsze tłumaczenia dotyczyły dokumentów w języku rosyjskim. Gdy maszyna wydrukowała przetłumaczony tekst, prasa obwieściła, iż już za kilka lat zmieni się cały świat. Niestety postępy prac nad MT zahamowała rzeczywistość – niska jakość i olbrzymie koszty sprawiły, iż w latach 60-tych odłożono większość prac. Dopiero w latach 80-tych popularyzacja komputerów w domach i w biurach sprawiła, że temat odżył na nowo. Obecnie systemy MT pracują zarówno w sektorze enterprise, jak i na typowych domowych komputerach (z różną skutecznością).
Przetwarzanie tekstu w MT Istnieje kilka metod przetwarzania tekstu przez MT: Tłumaczenie bezpośrednie – oparte na zamianie poszczególnych słów lub fraz. Nie nadaje się do profesjonalnego użytku, funkcjonuje poprawnie tylko dla bardzo zbliżonych języków. Tłumaczenie z analizą składni – efektem analizy jest drzewo składników, które przetwarzane jest w odniesieniu do zdefiniowanych w systemie reguł transferu do wynikowego zdania. MT oparte o powierzchniowy transfer semantyczny – systemy tego rodzaju analizują składnie i znaczenie w obrębie tekstu źródłowego. Realizowane jest to poprzez dołączenie do drzewa struktury syntaktycznej dodatkowych atrybutów ułatwiających określenie znaczenia. Systemy międzyjęzykowe - oparte są o uniwersalny język reprezentacji znaczenia (tzw. interlingwę), który jest niezależny od języków naturalnych, zawartych w systemie. Proces translacji składa się z dwóch etapów: tłumaczenia z języka źródłowego na interlingwę i tłumaczenia z interlingwy na język wynikowy. Podobnie realizowane są w informatyce niektóre procesy konwersji.
Jak MT „widzi” tekst System MT jest w stanie rozpoznać: Morfy –najmniejszy składnik języka posiadającymi znaczenie. Uogólniona postać morfów to morfemy. Wyrazy – mogą posiadać różne formy, które określane są jako wyrazy tekstowe. Uogólnienie to leksem. Przykład (za wikipedią): domem, domy to dwa wyrazy tekstowe jednego leksemu, z kolei wyraz domy składa się z dwóch morfemów: dom – budynku oraz końcówki y wskazującej, że jest ich więcej niż jeden. Frazy (związki frazeologiczne) – ich uogólnienie to schematy frazy. Zdania –podstawowa jednostka tekstu. Ich abstrakcjami są schematy zdań. Wypowiedź – jest po prostu ciągiem zdań. Niekiedy frazy i zdania traktuje się jako jedno i określa mianem sememów. Algorytm MT rozpoznaje zwykle struktury od ogólnych, dłuższych do krótszych, dzięki czemu możliwe jest uzyskanie wyższej jakości przekładu.
Przykłady z życia Izrealscy dziennikarze użyli dostępnego w Internecie programu MT celem przetłumaczenia listu do ministra spraw zagranicznych Danii. Efektem było omyłkowe przetłumaczenie hebrajskiego ha’im (jeżeli) jako ha’ima (matka). W dużym skrócie list obrażał matkę wspomnianego ministra, co prawie spowodowało skandal dyplomatyczny… Już teraz w korporacjach takich jak Chrysler, HP i Microsoft działają zaawansowane systemy MT. W Chryslerze powstają tak podręczniki do samochodów dzięki czemu zachowana jest spójność, tłumaczenie jest zawsze takie samo, a koszty lokalizacji spadły o 36%. Przy statystycznym MT im dłuższy tekst, tym lepsze efekty. CNH - producent sprzętu ogrodniczego i budowlanego wdrożył MT w dziale supportu międzynarodowego, łącząc je ze specjalistycznym słownikiem z tej dziedziny. MT działa w obie strony dzięki czemu z zadowalającą jakością klient końcowy jest w stanie zrozumieć inżyniera posługującego się innym językiem i vice versa. Popularne systemy: Freetranslations.com, babelfish.com, Google Translate, Systran, Microsoft MT, Language Weaver
MT w biznesie • Czy z racji niskiej jakości można powiedzieć, że MT nie nadaje się do biznesu? Nie, należy je tylko stosować z rozwagą i w obszarach, w których się sprawdza. • Korzyści z MT: przyspieszone efekty strategii „time to market”, niskie koszty wejścia na rynek. • Perspektywy: im więcej informacji w systemie i większe bazy, tym skuteczniejsze systemy. Komisja Europejska opublikowała swoje pamięci tłumaczeń w Internecie – 10 mln słów dostępnych za darmo. • Producenci skupiają się obecnie na systemach analizie tekstu źródłowego już w momencie jego powstawania. Rozwijane są systemy hybrydowe MT + TM. Dodając do nich ekstrakcję terminologii z automatycznym QA i korektą człowieka na samym końcu otrzymamy kierunek, w którym zmierza technologia najbliższych 5-10 lat. Dodać można regularne wyrażenia przed QA. • Ograniczenia: • MT działa dobrze na tekstach technicznych, podręcznikach, instrukcjach. Najgorzej sprawdza się w tekstach o swobodnym, nieszablonowym stylu. W biznesie najrzadziej stosuje się je w tekstach marketingowych. • Jakość wynikowego materiału zależy głównie od tego, czy przed rozpoczęciem przetwarzania była odpowiednio rozwiązana kwestia terminologii oraz czy post-editing został przeprowadzony poprawnie. • Minus - rozwój MT obniża stawki w branży lokalizacyjnej
Test Google MT Live demo…
Więcej informacji, odnośniki www.multilingual.com http://pl.wikipedia.org/wiki/Tłumaczenie_automatyczne Sebastian Kozłowski "Co to jest tłumaczenie maszynowe" Tłumaczenia maszynowe: krótka historia (John Hutchins; tłum. Anna Sosnowska) Tłumaczenie komputerowe: obiektywne spojrzenie oraz podstawy obsługi (Carol Luttrell; tłum. Karol Kowalski)
Pytania, kontakt agenorh@zpsb.szczecin.pl