1 / 30

Índex

El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals Jordi Atserias Batalla / Joaquim Moré López / Mercè Vázquez García. Índex. Participants Objectius Tipus d’eines Processos Obtenció de memòries de traducció Obtenció de terminologia (bilingüe) Explotació.

Download Presentation

Índex

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. El projecte RESTADEines per al buidatge automatitzat de corpus textualsJordi Atserias Batalla / Joaquim Moré López / Mercè Vázquez García

  2. Índex • Participants • Objectius • Tipus d’eines • Processos • Obtenció de memòries de traducció • Obtenció de terminologia (bilingüe) • Explotació

  3. Participants • Serveis lingüístics universitaris • Universitat Autònoma de Barcelona • Universitat de Girona • Universitat Oberta de Catalunya • Universitat Politècnica de Catalunya • Institucions públiques • DURSI (Departament d’Universitats, Recerca i Societat de la Informació)

  4. Objectius Disposar de materials multilingües • Desenvolupar recursos que facilitin i millorin la traducció automatitzada al català dels documents docents. • Facilitar que l’alumnat universitari pugui disposar dels materials docents almenys en català. Automatitzar els processos de treball • Homogeneïtzar i automatitzar els processos de treball fent servir les mateixes eines de suport lingüístic i compartint recursos (memòries de traducció i terminologia). • Reaprofitar la informació lingüística generada a les nostres universitats gràcies a eines informàtiques de suport lingüístic. Disposar de recursos gratuïts • Distribuir gratuïtament eines i recursos a totes les universitats, institucions, empreses que hi estiguin interessades (descàrregues des d’Internet). Les aplicacions informàtiques seran de programari lliure.

  5. Tipus d’eines • Eines bàsiques de buidatge • Alineador automàtic de textos • Extractor de terminologia • Utilitats: portabilitat (comunicació entre programes) • Base de dades terminològica => Lèxic sistema TA • Corpus paral·lel => Memòria de traducció • Creació de formats estàndard: text tabulat => TMX/TBX

  6. Flux de buidatge

  7. Eina d’alineació: AlinUOC • Article 80. Competències • 1. Són competències del secretari general: - Redactar i custodiar les actes de les sessions del Claustre, del Consell de Govern, de l’Equip de Govern i de la Junta Consultiva, així com expedir certificacions de llurs acords. • Artículo 80. Competencias • 1. Son competencias del secretario general: - Redactar y custodiar las actas de las sesiones del Claustro, del Consejo de Gobierno, del Equipo de Gobierno y de la Junta Consultiva, así como expedir certificaciones de sus acuerdos.

  8. Alineació de documents DOC DOC TXT Articles català Articles català Articles cat-ang alineats doc2txt Articles anglès AlinUOC Articles anglès Articles cat-esp alineats Articles espanyol Articles espanyol

  9. Alineació de documents HTML HTML TXT Articles català Articles català Articles cat-ang alineats html2txt Articles anglès AlinUOC Articles anglès Articles cat-esp alineats Articles espanyol Articles espanyol

  10. Alineació de documents PDF PDFTXT Resums cat-ang alineats Articles català Articles català Resums català Pdf2txt Resums anglès Articles anglès Articles anglès AlinUOC Articles espanyol Articles espanyol Resums espanyol Resums cat-esp alineats

  11. Tractament de documents PDF • Problemes per a tractar documents PDF • Recuperar paraules tallades per un salt de línia amb guionet. • Ajuntar línies separades per peus de pàgina, encapçalaments, peus de figura, etc.

  12. Tractament de documents PDF

  13. Tractament de documents PDF

  14. Creació de memòries de traducció DéjàVu Corpus paral·lel (Text tabulat) txt2tmx MT (TMX) ForeignDesk (Frog Translator) MT Access

  15. Què és un candidat a terme? El cinema digital i la televisió són el futur. • Una paraula (cinema) • Dues paraules consecutives (cinema digital) • Tres paraules consecutives (cinema digital i) • … • N-grams (subseqüència d’n paraules consecutives)

  16. Extracció de candidats a terme • Elaboració d’una llista de candidats a terme • “Morim d’èxit!” • Filtratge de la llista de candidats • Automàtic • Manual • Cerca d’equivalents en altres llengües

  17. Elaboració de la llista d’n-grams Corpus paral·lel (Text tabulat) StemTES n-grams Llista n-grams

  18. Selecció dels n-gram

  19. Filtratge de candidats a terme • De manera implícita ja hem explotat el corpus paral·lel • Aplicació de coneixement lingüístic • Eliminar unigrams per freqüència • ‘podem’, ‘anys’ • Eliminar unigrans emprant patrons morfosintàctics • ((els el DETMP) (artistes artista NMP) (volen voler (VERB3PP)) • Filtratge amb cerques a Internet • Cerques a Internet • net art + medicina + esports => nombre de pàgines • Directori de dominis

  20. Propostes de termes i equivalents de traducció Corpus paral·lel (Text tabulat) Llista n-grams Amb propostes d’equivalències StemTES n-grams Llista n-grams filtrats

  21. Propostes d’equivalents a terme: TOND

  22. Un cas pràctic • Espai en xarxa: Artnodes • Volum de text: • Unes 26.000 paraules • Nombre de candidats a terme sense filtratge previ • 2.884 • Nombre de candidats finals amb filtratge • 998

  23. Gràcies per la vostra atenció Gracias por vuestra atención Eskerrik asko zuen arretagatik Grazas pola vosa atención Thanks for your atention Merci pour votre attention

  24. Explotació

  25. Base de dades terminològica en una eina TAO

  26. Entrada lèxica sistema de TA Entrada transfer

  27. Entrada lèxica llengua origen

  28. Entrada lèxica llengua destí

  29. Creació automàtica de glossaris • Suport electrònic o paper • Requeriments • Format XML (TBX) • Eina de conversió text tabulat a TBX

More Related