1 / 36

TectoMT

TectoMT. Zden ěk Žabokrtský. Osnova. Základní vlastnosti TectoMT Novinky v TectoMT TectoMT jako investiční fond Statistiky z e z ákulisí Cíle pro rok 2010. (1) Základní vlastnosti TectoMT. What is TectoMT?. TectoMT is …

jaguar
Download Presentation

TectoMT

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TectoMT Zdeněk Žabokrtský

  2. Osnova • Základní vlastnosti TectoMT • Novinky v TectoMT • TectoMT jako investiční fond • Statistiky ze zákulisí • Cíle pro rok 2010

  3. (1)Základní vlastnostiTectoMT

  4. What is TectoMT? • TectoMT is … • a highly modular extendable NLP software system • composed of numerous (mostly previously existing) NLP tools integrated into a uniform infrastructure • aimed at (not limited to) developing MT system • TectoMT is not … • a specific method of MT (even if some approaches can profit from its existence more than others) • an end-user application (even if releasing of single-purpose stand-alone applications is possible and technically supported)

  5. MT triangle: interlingua tectogram. surf.synt. morpho. raw text. source target language language Design decisions • Linux + Perl • set of well-defined, linguistically relevant layers of language representation • neutral w.r.t. chosen methodology ("rules vs. statistics") • accent on modularity: translation scenario as a sequence of translation blocks (modules corresponding to individual NLP subtasks) • reusability • substitutability

  6. MT triangle Illustration: analysis-transfer-synthesis in TectoMT She has never laughed in her new boss's office. Nikdy se nesmála v úřadu svého nového šéfa.

  7. (2)Novinky v TectoMT

  8. WWW rozhraní k TectoMT • vytvořil Michal Novák

  9. Vývoj kvality překladu • uzávěrka překladové soutěže při WMT'10 na dohled… • BLEU v posledních pěti týdnech

  10. Nedávná zlepšení • důsledné ověřování změn překladu (zlepšení/"zlepšení") • vyřešení řady "banalit" • tokenizace, uvozovky... • nový překladový slovník/model • vyladění vah překladového a jazykového modelu (parallel hillclimbing) • bugfix v morfologické syntéze • pojmenované entity

  11. Překladový model pro t-lemmata • překladový slovník + odhady pravděpodobností • 1. řešení (2006) – pravděpodobnostní slovník Jana Cuřína z PCEDT • 2. řešení (2007) – ad-hoc mix slovníku z PCEDT se slovníkem extrahovaným z CzEngu 0.5 a s lidským slovníkem z webu • 3. řešení (2009) – slovník Jana Rouše • 4. řešení (2009-2010) – pokus o systematickou kombinaci několika modelů

  12. Nová soustava překlad. modelů • „statický“ překladový model vyextrahovaný z párů t-uzlů v CzEng 0.9 • psti aproximované relativní četností, 100 tis. hesel • P(T|S) = C(T,S)/ C(*|S) • „dynamický“ překladový model natrénovaný na CzEng 0.9 • psti aproximované maxentovým klasifikátorem, 14 tis. hesel • P(T|S) = 1/Z . exp(w.f) • „člověčí“ slovník • psti aproximované unigramovým jazykovým modelem z ČNK • 50 tis. hesel • derivační překladové modely • využití znalosti slovotvorby: (cut snížit)  snížení • kombinované překladové modely • Interpolace • backoff

  13. Hidden Tree Markov Model • nejvýznamnější jednotlivá příčina zlepšení tektopřekladu za rok 2009 • implementoval Martin Popel

  14. Kombinace překl. systémů • 1. překlad věty více systémy • systém 1: A B C D • systém 2: E B F G H • 2. alignment hypotéz A B C D E B F G H • 3. vytvoření lattice • 4. nalezení optimálního průchodu skrz lattice A C D START B END E F G H

  15. (3)Investujte do TectoMT

  16. TectoMT jako podílový fond • (metafora, nebude řeč o penězích) • TectoMT je společná iniciativa, nikoli jeden konkrétní projekt krytý jedním konkrétním grantem TectoMT je závislé vnějších "investorech" • investoři: programátoři, šéfové grantů • náklady • programátorská práce • výnosy • ušetřená práce rychlejší vývoj • další výhody plynoucí ze sdíleného vývoje • budoucí výnosy: publikované články/data atd.

  17. Investování v kostce • něco za něco, na vyspělém volném trhu neexistuje oběd zadarmo, nikdy • jeden z příkladů: obecný tradeoff výnos/riziko (výnost/investiční horizont) • existují různé třídy aktiv s různou kolísavostí • depozita - nízké riziko, nízký výnos • dluhopisy - střední riziko, střední výnos • akcie - vysoké riziko, vysoký výnos

  18. Jak investovat s TectoMT? • "depozita" - nízký výnos, nízké riziko • náklady: naučte se využívat NLP nástroje dostupné v repozitáři • výnosy: ušetříte si práci • investiční horizont: dny až týdny • "dluhopisy" - střední výnos, střední riziko • náklady: přemístěte vývoj vašich nástrojů do repozitáře TectoMT • výnosy: • klasické výhody plynoucí ze sdílení • "dluhopisový kupón": budoucí spoluautorství • investiční horizont: měsíce • "akcie" - vysoký potenciální výnos, vysoké riziko • náklady: • přidejte se k vývoji překladu přes t-rovinu • dřina, dřina, dřina... • výnosy: pokud pobijeme Google Translate (sami nebo v kombinaci) • investiční horizont: měsíce až roky

  19. Diverzifikace • lze se nějakou kombinací aktiv dostat "nad diagonálu"? • jedna z možností: diverzifikace množinou aktiv s nízkou korelací (H.M.Markowitz, Nobelova cena za ekonomii 1990); • diverzifikace v TectoMT: vedle tektopřekladu také integrace NLP nástrojů, podpora anotačních projektů, vydávání korpusů, Companion... • "z nouze cnost": investice do tektopřekladu je ve skutečnosti daleko riskantnější, než se zdálo v roce 2005 • riziko budoucího krachu TectoMT je diverzifikací snížené, ale nenulové • všechno může jednou převálcovat třeba "konekcionistické NLP" • budoucnost Perlu ?

  20. (4) Ze zákulisí

  21. Statistiky z repozitáře SVN • vývoj TectoMT probíhá v repozitáři verzovacího systému Subversion • veškeré jednotlivé příspěvky ("commity") jsou tedy zaznamenány (autor, čas, změněné soubory...) • sledované období: březen 2007 - leden 2009

  22. Příspěvky jednotlivých vývojářů • graf 1: celkový počet příspěvků jednotlivých vývojářů • graf 2: počet "aktivních měsíců" • alespoň 10 příspěvků za měsíc

  23. Aktivita v průběhu týdne (Po-Ne)

  24. Aktivita během dne (0.-23. hod.)

  25. Aktivita za celou historie repozitáře • modrá - počet commitů za měsíc • vyhlazeno průměrováním s dvěma sousedními měsíci • normalizace na interval 0-100% mezi maximem a minimem

  26. Aktivita za celou historii repozitářů • modrá - počet commitů za měsíc • vyhlazeno průměrováním s dvěma sousedními měsíci • normalizace na interval 0-100% mezi maximem a minimem • červená - průměrná teplota v daném měsíci v Austrálii • korelace: 0,63

  27. Aktivita za celou historii repozitářů • modrá - počet commitů za měsíc • vyhlazeno průměrováním s dvěma sousedními měsíci • normalizace na interval 0-100% mezi maximem a minimem • červená - průměrná měsíční teplota v Austrálii WMT'10 WMT'09 Compan. Marathon WMT'08 diplomky

  28. (5)Cíle pro rok 2010

  29. Hlavní cíle • pobít tektopřekladem Google Translate • zajistit světový mír

  30. Dodělat drobné resty • dokumentace • vyčištění pml schématu • úklid nepoužívaných/zastaralých bloků • refaktoring některých knihoven • TectoMT pro neprogramátory (web) • optimalizace na pamět a rychlost • dotáhnout zkombinování s jiným překladovým systémem • zapojit TectoMT víc do výuky

  31. Potenciál pro zlepšení tektopřekladu • překladový model pro slovesné diateze (...je věděn...) • koreference (např. kvůli reflexivitě) • Conditional Random Field místo MaxEnt+HMTM • milióny drobností...

  32. Velký třesk (1) • jednorázové významné změny v designu, v historii TectoMT asi pátý :-) • některé změny povedou k přerušení zpětné kombatibility - poslední příležitost před přechodem na CPAN • kompletně odstínit práci s ídéčky • usnadnit přidávání dalších jazyků • datové struktury i bloky parametrizovatelné jazykem • umožnit více paralelních alternativ (spíš kvůli kombinování než kvůli rerankingu n-best)

  33. Velký třesk (2) • zrušení m-roviny (resp. sloučení s a-rovinou) • výrazné zjednodušení struktur (mj.odpadnou backpointery) • úspora paměti/času/plochy v tredu... • dotažení automatické instalace (stahování modelů z části share, kompilace jinojazyčných komponent...) • přechod na tredí extension (místo tredu nakonfigurovaného z příkazové řádky) • překopání adresářové struktury (mj. kvůli extension)

  34. Rebranding • rebranding = změna (obchodní) značky • TectoMT má v praxi nežádoucí asociace: • "TectoMT mě nezajímá, protože nepracuju s tektogramatikou." • "TectoMT mě nezajímá, protože nedělám překlad." • TectoMT  Treex ?

  35. TectoMT goes to CPAN (1) • s kůží na open-source trh... • CPAN = Comprehensive Perl Archive Network • "The gateway to all things in Perl" • všeobecně uznávané uložiště, de facto standard • až po velkém třesku a rebrandingu • potenciál na zvýšení počtu uživatelů TectoMT nejméně o řád... tedy pokud se vše povede :-)

  36. TectoMT goes to CPAN (2) • "přechod na euro": zvýší se tlak na kvalitu kódu / otestovanost / přehlednou strukturu / existenci dokumentace/ stabilitu / releasing ... • neduživé ostrůvky NLP nástrojů už na CPANu nějakou dobu existují... • ... ale žádný reálný perlový konkurent GATE (NLP v Javě) tam zatím nevyrostl: šance pro nás!

More Related