1 / 11

Wykład 8: Technologia tłumaczenia maszynowego

Wykład 8: Technologia tłumaczenia maszynowego. dr inż. Agenor Hofmann-Delbor. Plan wykładu. Na czym polega tłumaczenie maszynowe? Historia MT Jakie są najpopularniejsze platformy MT? Jak MT funkcjonuje w ramach projektów lokalizacyjnych Jakie jest powiązanie systemów CAT i MT.

helmut
Download Presentation

Wykład 8: Technologia tłumaczenia maszynowego

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Wykład 8: Technologia tłumaczenia maszynowego dr inż. Agenor Hofmann-Delbor

  2. Plan wykładu • Na czym polega tłumaczenie maszynowe? • Historia MT • Jakie są najpopularniejsze platformy MT? • Jak MT funkcjonuje w ramach projektów lokalizacyjnych • Jakie jest powiązanie systemów CAT i MT

  3. Zasada pracy MT (tłumaczenie maszynowe/automatyczne) korzysta z własnego algorytmu, aby przetłumaczyć treść z jednego języka na drugi, bez ingerencji człowieka. Istnieje kilka rodzajów systemów MT: MT oparte na systemie reguł (rules-based MT) w sposób analityczny korzysta z gramatycznej reprezentacji danego języka i za pomocą reguł i słownika generuje tekst wynikowy. Innym podejściem jest SMT, czyli mechanizm oparty na analizie statystycznej i umieszcza słowa w najbardziej prawdopodobnym miejscu w szyku zdania. Analiza opiera się na zestawach tekstów utworzonych przez człowieka, zwanych korpusami. Im większe zbiory, tym skuteczniejsza technologia. Obecnie największy potencjał SMT upatrywany jest w Google MT. Systemy oparte na przykładach (example-based MT) pracują w oparciu o analizę istniejących tekstów, które są traktowane jako przykłady dla systemu. Na ich przykładzie przetwarzany jest tekst źródłowy, a aplikacja dopasowuje do niego najbardziej podobny przykład. Przypominają w działaniu systemy CAT i ich użycie jest dość ograniczone. Stosowane są także systemy hybrydowe, będące połączeniem powyższych typów analizy.

  4. Historia MT Tłumacze wyobrażali sobie automatyzację pracy już w XVII wieku, ale brak odpowiedniej technologii sprawił, iż próby jej realizacji odłożono o dwa wieki. Pierwsze proste konstrukcje tego typu pojawiły się w 1933 i miały, jak to zwykle bywa z nowymi technologiami, zastosowanie w wojskowości. Pierwsze duży projekt związany z MT stworzył IBM we współpracy z Georgetown University w latach 50-tych ubiegłego wieku. Choć nie mówi się o tym wprost, projekt miał wspomagać operacje kontrwywiadowcze – pierwsze tłumaczenia dotyczyły dokumentów w języku rosyjskim. Gdy maszyna wydrukowała przetłumaczony tekst, prasa obwieściła, iż już za kilka lat zmieni się cały świat. Niestety postępy prac nad MT zahamowała rzeczywistość – niska jakość i olbrzymie koszty sprawiły, iż w latach 60-tych odłożono większość prac. Dopiero w latach 80-tych popularyzacja komputerów w domach i w biurach sprawiła, że temat odżył na nowo. Obecnie systemy MT pracują zarówno w sektorze enterprise, jak i na typowych domowych komputerach (z różną skutecznością).

  5. Przetwarzanie tekstu w MT Istnieje kilka metod przetwarzania tekstu przez MT: Tłumaczenie bezpośrednie – oparte na zamianie poszczególnych słów lub fraz. Nie nadaje się do profesjonalnego użytku, funkcjonuje poprawnie tylko dla bardzo zbliżonych języków. Tłumaczenie z analizą składni – efektem analizy jest drzewo składników, które przetwarzane jest w odniesieniu do zdefiniowanych w systemie reguł transferu do wynikowego zdania. MT oparte o powierzchniowy transfer semantyczny – systemy tego rodzaju analizują składnie i znaczenie w obrębie tekstu źródłowego. Realizowane jest to poprzez dołączenie do drzewa struktury syntaktycznej dodatkowych atrybutów ułatwiających określenie znaczenia. Systemy międzyjęzykowe - oparte są o uniwersalny język reprezentacji znaczenia (tzw. interlingwę), który jest niezależny od języków naturalnych, zawartych w systemie. Proces translacji składa się z dwóch etapów: tłumaczenia z języka źródłowego na interlingwę i tłumaczenia z interlingwy na język wynikowy. Podobnie realizowane są w informatyce niektóre procesy konwersji.

  6. Jak MT „widzi” tekst System MT jest w stanie rozpoznać: Morfy –najmniejszy składnik języka posiadającymi znaczenie. Uogólniona postać morfów to morfemy. Wyrazy – mogą posiadać różne formy, które określane są jako wyrazy tekstowe. Uogólnienie to leksem. Przykład (za wikipedią): domem, domy to dwa wyrazy tekstowe jednego leksemu, z kolei wyraz domy składa się z dwóch morfemów: dom – budynku oraz końcówki y wskazującej, że jest ich więcej niż jeden. Frazy (związki frazeologiczne) – ich uogólnienie to schematy frazy. Zdania –podstawowa jednostka tekstu. Ich abstrakcjami są schematy zdań. Wypowiedź – jest po prostu ciągiem zdań. Niekiedy frazy i zdania traktuje się jako jedno i określa mianem sememów. Algorytm MT rozpoznaje zwykle struktury od ogólnych, dłuższych do krótszych, dzięki czemu możliwe jest uzyskanie wyższej jakości przekładu.

  7. Przykłady z życia Izrealscy dziennikarze użyli dostępnego w Internecie programu MT celem przetłumaczenia listu do ministra spraw zagranicznych Danii. Efektem było omyłkowe przetłumaczenie hebrajskiego ha’im (jeżeli) jako ha’ima (matka). W dużym skrócie list obrażał matkę wspomnianego ministra, co prawie spowodowało skandal dyplomatyczny… Już teraz w korporacjach takich jak Chrysler, HP i Microsoft działają zaawansowane systemy MT. W Chryslerze powstają tak podręczniki do samochodów dzięki czemu zachowana jest spójność, tłumaczenie jest zawsze takie samo, a koszty lokalizacji spadły o 36%. Przy statystycznym MT im dłuższy tekst, tym lepsze efekty. CNH - producent sprzętu ogrodniczego i budowlanego wdrożył MT w dziale supportu międzynarodowego, łącząc je ze specjalistycznym słownikiem z tej dziedziny. MT działa w obie strony dzięki czemu z zadowalającą jakością klient końcowy jest w stanie zrozumieć inżyniera posługującego się innym językiem i vice versa. Popularne systemy: Freetranslations.com, babelfish.com, Google Translate, Systran, Microsoft MT, Language Weaver

  8. MT w biznesie • Czy z racji niskiej jakości można powiedzieć, że MT nie nadaje się do biznesu? Nie, należy je tylko stosować z rozwagą i w obszarach, w których się sprawdza. • Korzyści z MT: przyspieszone efekty strategii „time to market”, niskie koszty wejścia na rynek. • Perspektywy: im więcej informacji w systemie i większe bazy, tym skuteczniejsze systemy. Komisja Europejska opublikowała swoje pamięci tłumaczeń w Internecie – 10 mln słów dostępnych za darmo. • Producenci skupiają się obecnie na systemach analizie tekstu źródłowego już w momencie jego powstawania. Rozwijane są systemy hybrydowe MT + TM. Dodając do nich ekstrakcję terminologii z automatycznym QA i korektą człowieka na samym końcu otrzymamy kierunek, w którym zmierza technologia najbliższych 5-10 lat. Dodać można regularne wyrażenia przed QA. • Ograniczenia: • MT działa dobrze na tekstach technicznych, podręcznikach, instrukcjach. Najgorzej sprawdza się w tekstach o swobodnym, nieszablonowym stylu. W biznesie najrzadziej stosuje się je w tekstach marketingowych. • Jakość wynikowego materiału zależy głównie od tego, czy przed rozpoczęciem przetwarzania była odpowiednio rozwiązana kwestia terminologii oraz czy post-editing został przeprowadzony poprawnie. • Minus - rozwój MT obniża stawki w branży lokalizacyjnej

  9. Test Google MT Live demo…

  10. Więcej informacji, odnośniki www.multilingual.com http://pl.wikipedia.org/wiki/Tłumaczenie_automatyczne Sebastian Kozłowski "Co to jest tłumaczenie maszynowe" Tłumaczenia maszynowe: krótka historia (John Hutchins; tłum. Anna Sosnowska) Tłumaczenie komputerowe: obiektywne spojrzenie oraz podstawy obsługi (Carol Luttrell; tłum. Karol Kowalski)

  11. Pytania, kontakt agenorh@zpsb.szczecin.pl

More Related