360 likes | 494 Views
TectoMT. Zden ěk Žabokrtský. Osnova. Základní vlastnosti TectoMT Novinky v TectoMT TectoMT jako investiční fond Statistiky z e z ákulisí Cíle pro rok 2010. (1) Základní vlastnosti TectoMT. What is TectoMT?. TectoMT is …
E N D
TectoMT Zdeněk Žabokrtský
Osnova • Základní vlastnosti TectoMT • Novinky v TectoMT • TectoMT jako investiční fond • Statistiky ze zákulisí • Cíle pro rok 2010
(1)Základní vlastnostiTectoMT
What is TectoMT? • TectoMT is … • a highly modular extendable NLP software system • composed of numerous (mostly previously existing) NLP tools integrated into a uniform infrastructure • aimed at (not limited to) developing MT system • TectoMT is not … • a specific method of MT (even if some approaches can profit from its existence more than others) • an end-user application (even if releasing of single-purpose stand-alone applications is possible and technically supported)
MT triangle: interlingua tectogram. surf.synt. morpho. raw text. source target language language Design decisions • Linux + Perl • set of well-defined, linguistically relevant layers of language representation • neutral w.r.t. chosen methodology ("rules vs. statistics") • accent on modularity: translation scenario as a sequence of translation blocks (modules corresponding to individual NLP subtasks) • reusability • substitutability
MT triangle Illustration: analysis-transfer-synthesis in TectoMT She has never laughed in her new boss's office. Nikdy se nesmála v úřadu svého nového šéfa.
WWW rozhraní k TectoMT • vytvořil Michal Novák
Vývoj kvality překladu • uzávěrka překladové soutěže při WMT'10 na dohled… • BLEU v posledních pěti týdnech
Nedávná zlepšení • důsledné ověřování změn překladu (zlepšení/"zlepšení") • vyřešení řady "banalit" • tokenizace, uvozovky... • nový překladový slovník/model • vyladění vah překladového a jazykového modelu (parallel hillclimbing) • bugfix v morfologické syntéze • pojmenované entity
Překladový model pro t-lemmata • překladový slovník + odhady pravděpodobností • 1. řešení (2006) – pravděpodobnostní slovník Jana Cuřína z PCEDT • 2. řešení (2007) – ad-hoc mix slovníku z PCEDT se slovníkem extrahovaným z CzEngu 0.5 a s lidským slovníkem z webu • 3. řešení (2009) – slovník Jana Rouše • 4. řešení (2009-2010) – pokus o systematickou kombinaci několika modelů
Nová soustava překlad. modelů • „statický“ překladový model vyextrahovaný z párů t-uzlů v CzEng 0.9 • psti aproximované relativní četností, 100 tis. hesel • P(T|S) = C(T,S)/ C(*|S) • „dynamický“ překladový model natrénovaný na CzEng 0.9 • psti aproximované maxentovým klasifikátorem, 14 tis. hesel • P(T|S) = 1/Z . exp(w.f) • „člověčí“ slovník • psti aproximované unigramovým jazykovým modelem z ČNK • 50 tis. hesel • derivační překladové modely • využití znalosti slovotvorby: (cut snížit) snížení • kombinované překladové modely • Interpolace • backoff
Hidden Tree Markov Model • nejvýznamnější jednotlivá příčina zlepšení tektopřekladu za rok 2009 • implementoval Martin Popel
Kombinace překl. systémů • 1. překlad věty více systémy • systém 1: A B C D • systém 2: E B F G H • 2. alignment hypotéz A B C D E B F G H • 3. vytvoření lattice • 4. nalezení optimálního průchodu skrz lattice A C D START B END E F G H
TectoMT jako podílový fond • (metafora, nebude řeč o penězích) • TectoMT je společná iniciativa, nikoli jeden konkrétní projekt krytý jedním konkrétním grantem TectoMT je závislé vnějších "investorech" • investoři: programátoři, šéfové grantů • náklady • programátorská práce • výnosy • ušetřená práce rychlejší vývoj • další výhody plynoucí ze sdíleného vývoje • budoucí výnosy: publikované články/data atd.
Investování v kostce • něco za něco, na vyspělém volném trhu neexistuje oběd zadarmo, nikdy • jeden z příkladů: obecný tradeoff výnos/riziko (výnost/investiční horizont) • existují různé třídy aktiv s různou kolísavostí • depozita - nízké riziko, nízký výnos • dluhopisy - střední riziko, střední výnos • akcie - vysoké riziko, vysoký výnos
Jak investovat s TectoMT? • "depozita" - nízký výnos, nízké riziko • náklady: naučte se využívat NLP nástroje dostupné v repozitáři • výnosy: ušetříte si práci • investiční horizont: dny až týdny • "dluhopisy" - střední výnos, střední riziko • náklady: přemístěte vývoj vašich nástrojů do repozitáře TectoMT • výnosy: • klasické výhody plynoucí ze sdílení • "dluhopisový kupón": budoucí spoluautorství • investiční horizont: měsíce • "akcie" - vysoký potenciální výnos, vysoké riziko • náklady: • přidejte se k vývoji překladu přes t-rovinu • dřina, dřina, dřina... • výnosy: pokud pobijeme Google Translate (sami nebo v kombinaci) • investiční horizont: měsíce až roky
Diverzifikace • lze se nějakou kombinací aktiv dostat "nad diagonálu"? • jedna z možností: diverzifikace množinou aktiv s nízkou korelací (H.M.Markowitz, Nobelova cena za ekonomii 1990); • diverzifikace v TectoMT: vedle tektopřekladu také integrace NLP nástrojů, podpora anotačních projektů, vydávání korpusů, Companion... • "z nouze cnost": investice do tektopřekladu je ve skutečnosti daleko riskantnější, než se zdálo v roce 2005 • riziko budoucího krachu TectoMT je diverzifikací snížené, ale nenulové • všechno může jednou převálcovat třeba "konekcionistické NLP" • budoucnost Perlu ?
Statistiky z repozitáře SVN • vývoj TectoMT probíhá v repozitáři verzovacího systému Subversion • veškeré jednotlivé příspěvky ("commity") jsou tedy zaznamenány (autor, čas, změněné soubory...) • sledované období: březen 2007 - leden 2009
Příspěvky jednotlivých vývojářů • graf 1: celkový počet příspěvků jednotlivých vývojářů • graf 2: počet "aktivních měsíců" • alespoň 10 příspěvků za měsíc
Aktivita za celou historie repozitáře • modrá - počet commitů za měsíc • vyhlazeno průměrováním s dvěma sousedními měsíci • normalizace na interval 0-100% mezi maximem a minimem
Aktivita za celou historii repozitářů • modrá - počet commitů za měsíc • vyhlazeno průměrováním s dvěma sousedními měsíci • normalizace na interval 0-100% mezi maximem a minimem • červená - průměrná teplota v daném měsíci v Austrálii • korelace: 0,63
Aktivita za celou historii repozitářů • modrá - počet commitů za měsíc • vyhlazeno průměrováním s dvěma sousedními měsíci • normalizace na interval 0-100% mezi maximem a minimem • červená - průměrná měsíční teplota v Austrálii WMT'10 WMT'09 Compan. Marathon WMT'08 diplomky
Hlavní cíle • pobít tektopřekladem Google Translate • zajistit světový mír
Dodělat drobné resty • dokumentace • vyčištění pml schématu • úklid nepoužívaných/zastaralých bloků • refaktoring některých knihoven • TectoMT pro neprogramátory (web) • optimalizace na pamět a rychlost • dotáhnout zkombinování s jiným překladovým systémem • zapojit TectoMT víc do výuky
Potenciál pro zlepšení tektopřekladu • překladový model pro slovesné diateze (...je věděn...) • koreference (např. kvůli reflexivitě) • Conditional Random Field místo MaxEnt+HMTM • milióny drobností...
Velký třesk (1) • jednorázové významné změny v designu, v historii TectoMT asi pátý :-) • některé změny povedou k přerušení zpětné kombatibility - poslední příležitost před přechodem na CPAN • kompletně odstínit práci s ídéčky • usnadnit přidávání dalších jazyků • datové struktury i bloky parametrizovatelné jazykem • umožnit více paralelních alternativ (spíš kvůli kombinování než kvůli rerankingu n-best)
Velký třesk (2) • zrušení m-roviny (resp. sloučení s a-rovinou) • výrazné zjednodušení struktur (mj.odpadnou backpointery) • úspora paměti/času/plochy v tredu... • dotažení automatické instalace (stahování modelů z části share, kompilace jinojazyčných komponent...) • přechod na tredí extension (místo tredu nakonfigurovaného z příkazové řádky) • překopání adresářové struktury (mj. kvůli extension)
Rebranding • rebranding = změna (obchodní) značky • TectoMT má v praxi nežádoucí asociace: • "TectoMT mě nezajímá, protože nepracuju s tektogramatikou." • "TectoMT mě nezajímá, protože nedělám překlad." • TectoMT Treex ?
TectoMT goes to CPAN (1) • s kůží na open-source trh... • CPAN = Comprehensive Perl Archive Network • "The gateway to all things in Perl" • všeobecně uznávané uložiště, de facto standard • až po velkém třesku a rebrandingu • potenciál na zvýšení počtu uživatelů TectoMT nejméně o řád... tedy pokud se vše povede :-)
TectoMT goes to CPAN (2) • "přechod na euro": zvýší se tlak na kvalitu kódu / otestovanost / přehlednou strukturu / existenci dokumentace/ stabilitu / releasing ... • neduživé ostrůvky NLP nástrojů už na CPANu nějakou dobu existují... • ... ale žádný reálný perlový konkurent GATE (NLP v Javě) tam zatím nevyrostl: šance pro nás!