510 likes | 618 Views
Seminari de Traducció Automàtica Aplicacions del PLN. Traducció basada en informació lingüística (2). Traducció basada en informació lingüística. Característiques tècniques dels sistemes de traducció automàtica (anàlisi, generació, lèxic, parser, etc.)
E N D
Seminari de Traducció AutomàticaAplicacions del PLN Traducció basada en informació lingüística (2) N. Bel & M. Marimon 2005-06
Traducció basada en informació lingüística • Característiques tècniques dels sistemes de traducció automàtica (anàlisi, generació, lèxic, parser, etc.) • L'arquitectura dels sistemes de traducció automàtica: • sistemes de transferència • d’interlingua • explotació estadística d’informació lingüística N. Bel & M. Marimon 2005-06
Traducció directe Nivell d’anàlisi Paraules Paraules Transferència Inf. sintàctica Inf. sintàctica Inf. semàntica Inf. semàntica INTERLINGUA N. Bel & M. Marimon 2005-06
TA amb informació lingüística Traduir és un procés de de-codificar un text en una llengua i tornar-lo a codificar en una altra llengua. • Analitzem el text en la LO • Transferim informació • Generem la informació en la LA N. Bel & M. Marimon 2005-06
Problemes Però assolir desxifrar el contingut d’un text en una llengua comportava problemes: • com es representava el “contingut”? b) com s’arribava a la representació d’aquest contingut? c) quina era la informació necessària per poder traduir? N. Bel & M. Marimon 2005-06
c) Informació necessària per traduir • Coneixement equivalències entre llengües • Diccionari bilingüe • Construccions sintàctiques diferents: • Subj Verb Predicat => Subj Predicat Verb • Passiva => Activa • Coneixement llengua origen: • Reconèixer els constituents i les funcions: subj. • Coneixement llengua meta: • Construir oracions correctes: la duda / el dubte N. Bel & M. Marimon 2005-06
Un exemple senzill Anglès Català You like them Ells t’agraden 1 2 2 1 1= subjecte anglès 2= objecte anglès N. Bel & M. Marimon 2005-06
b) Obtenir una representació automàticament • arribar a una representació amb informació que ens permeti traduir • Necessitem un mecanisme, un programa que disposi de coneixement sobre la llengua. • Aquest programa rep una frase i ens torna una representació amb informació lingüística de la frase: una anàlisi gramatical N. Bel & M. Marimon 2005-06
Programa per analitzar • Necessitem: • Gramàtica: dades sobre com són les frases d’una llengua. Exactament, una definició formal del conjunt de frases que pertanyen a una llengua i solament aquestes (Formal = computacionalment tractable: que a partir de un nombre finit de símbols produeixi un nombre infinit d’expressions) N. Bel & M. Marimon 2005-06
Programa per analitzar.. • La gramàtica conté regles de re-escriptura per descriure el conjunt de les oracions d’una llengua. O -> PRO SV SV -> V PRO (Re-escriptura: si es dóna el cas que tenim el que hi ha a la banda dreta de la fletxa, ho podem substituir pel símbol de la banda esquerra) • Diccionari amb informació sobre les paraules: el lèxic(pot ser part de la gramàtica) PRO -> them, you V -> like, .. N. Bel & M. Marimon 2005-06
Programa per analitzar • Analitzador (parser): un mecanisme que llegeix, una per una, les paraules de l’oració que volem analitzar i construeix mitjançant les regles de re-escriptura la anàlisi de la frase Conceptualment l’analitzador i la gramàtica són dues coses diferents: la gramàtica és una definició d’un conjunt de frases; l’analitzador és un algorisme, una sèrie d’instruccions precises que compleixen les instruccions de la gramàtica N. Bel & M. Marimon 2005-06
Funcionament O -> PRO SV SV -> V PRO PRO -> they, you V -> like, .. N. Bel & M. Marimon 2005-06
Generació • Una gramàtica (amb el lèxic inclós) tal com l’hem definida, pot també fer l’operació inversa a l’anàlisis: genera oracions de la llengua descrita • O -> PRO SV • PRO -> you, them • SV -> V PRO • V -> like • PRO -> you, them N. Bel & M. Marimon 2005-06
Generador • Quan una gramàtica i l’analitzador construeixen cadenes de paraules, li direm generador i al procés generació La nostra gramàtica ha generat: 1. you like them 2. you like you 3. them like you 4. them like them • Necessitem més informació per poder generar frases correctes... N. Bel & M. Marimon 2005-06
Generador • Solament volem generar les oracions correctes. • Afegim informació de cas, per que és el que ens pot ajudar a definir les oracions correctes PRO_NOM -> you PRO_AC -> them O -> PRO_NOM SV SV -> V PRO_AC • “you like them” N. Bel & M. Marimon 2005-06
Gramàtica d’anàlisi/generació del català O -> PRO_NOM SV SV -> PRO_AC V PRO_NOM -> ells, elles PRO_AC -> te V -> agraden “ells t’agraden” “elles t’agraden” N. Bel & M. Marimon 2005-06
Arquitectures de TA N. Bel & M. Marimon 2005-06
Traducció basada en informació lingüística • Característiques tècniques dels sistemes de traducció automàtica (anàlisi, generació, lèxic, parser, etc.) • L'arquitectura dels sistemes de traducció automàtica: • sistemes de transferència • d’interlingua • explotació estadística d’informació lingüística N. Bel & M. Marimon 2005-06
Transferència i Interlingua • Transferència: tenen una component amb regles específiques per a cada parell de llengües que transformen la representació del text origen en una representació adequada per al generador de la llengua d’arribada • Interlingüe: l’anàlisi del text origen dóna una representació en un llenguatge de representació del significat, neutre pel que fa a les llengües N. Bel & M. Marimon 2005-06
Anàlisi Generació Text LO Representació LO Representació LA Text LA Lèxic LO->LA Regles de trànsferencia Gramàtica i Lèxic LA Gramàtica i Lèxic LO Sistemes de transferència N. Bel & M. Marimon 2005-06
Anàlisi Generació Text LO Representació Interlingüe Text LA Gramàtica i Lèxic LA Gramàtica i Lèxic LO Sistemes d’interlingua Lèxic LO->INT>LA N. Bel & M. Marimon 2005-06
Representació Interlingüe al sistema KANT N. Bel & M. Marimon 2005-06
Interlingua • La traducció és un procés de 2 passes: • Traduir el text origen a una representació del coneixement universal • Usar la representació per a generar el text d’arribada • Avantatges: • Per n llengües, necessitem n components (no n2) • Problemes: • Hem de construir un lèxic universal • Com representem el coneixement? N. Bel & M. Marimon 2005-06
Transferència • La traducció és un procés de 3 passes: • Analitzar el text origen • Transformar la representació lingüística que ens ha tornat l’anàlisi en una representació adequada per la generació de la llengua d’arribada • Usem la representació de la llengua d’arribada per generar una frase correcte N. Bel & M. Marimon 2005-06
Tractament de fenòmens gramaticals • Concordança: • Subjecte – Verb • Dintre el SN • Amb l’atribut • Canvi d’ordre dels elements • Diferències en l’estructura: • Afegir una preposició • Treure una preposició • Selecció lèxica: • Pel context sintàctic • Per trets semàntics N. Bel & M. Marimon 2005-06
Concordança • Informació morfològica i la concordança Subj-V • A la gramàtica de generació o_ca(o_ca(SN,SV)) --> sn_ca(Num,Gen,sn_ca(SN)), sv_ca(Num,Gen,sv_ca(SV)). • Resultat ?- trad([you,like,them],R). R = [ellas, te, gustan] ; R = [ellos, te, gustan] ; N. Bel & M. Marimon 2005-06
Concordança dintre el SN • Concordança dintre del SN • A la gramàtica de generació: sn_ca(Num,Gen,sn(Det,N)) --> d_ca(Num,Gen,Det), n_ca(Num,Gen,N). • Resultat: ?- trad([the,boys,work],R). R = [los, chicos, trabajan] ; trad([the,girls,work],R). R = [las, chicas, trabajan] ; N. Bel & M. Marimon 2005-06
Concordança amb l’atribut: • A la gramàtica de generació: sv_ca(Num,Gen,sv(V,SA)) --> v_ca(Num,_,V), sa_ca(Num,Gen,SA). • Resultat ?- trad([the,girls,are,pretty],R). R = [las, chicas, son, bonitas] ; N. Bel & M. Marimon 2005-06
Canvi d’ordre dels constituents • A la gramàtica de trànsfer: • Regla d’inversió d'adjectius sn(De,SAe,Ne) <=> sn(Dcas,Ncas,SAcas) • Resultat: ?- trad([the,old,tables,are,very,pretty],R). R = [las, mesas, viejas, son, muy, bonitas] ; N. Bel & M. Marimon 2005-06
Diferencies en l’estructura • Afegir / treure estructura: • Afegir preposicions al trànsfer: sv(Ve,SN1e,SN2e) <=> sv(Vcas,SN1cas,sp(p(_),SN2cas)):- Ve <=> Vcas, SN2e <=> SN1cas, SN1e <=> SN2cas. • Resultat ?- trad([sam,entered,the,elevator],R). R = [samuel, entró, en, el, ascensor] ; N. Bel & M. Marimon 2005-06
Diferències en l’estructura • Treure preposicions: sp(Pe,sn(Ne)) <=> sn(Ncas) :- Ne <=> Ncas. • Resultat: ?- trad([sam,looks,at,the,table],R). R = [samuel, mira, la, mesa] ; N. Bel & M. Marimon 2005-06
Selecció lèxica pel context • Selecció de ser/estar ?- trad([the,book,is,pretty],R). R = [el, libro, es, bonito] ; ?- trad([the,book,is,at,the,table],R). R = [el, libro, está, en, la, mesa] ; • Al trànsfer identifiquen les traduccions de les diferents lectures v(v5,_,_,be) <=> v(v5,_,_,ser). v(v6,_,_,be) <=> v(v6,_,_,estar). N. Bel & M. Marimon 2005-06
Selecció lèxica pel context • A la gramàtica d’anàlisi usem el context per assignar una lectura: • Regles a la gramàtica d’anàlisi: sv(e,sv(V,SA)) --> v(e,v5,V), sa(e,SA). sv(e,sv(V,SP)) --> v(e,v6,V), sp(e,SP). N. Bel & M. Marimon 2005-06
Selecció lèxica amb trets semàntics • Resultat: ?- trad([sam,works],R). R = [samuel, trabaja] ; ?- trad([the,elevator,works],R). R = [el, ascensor, funciona] ; • A la gramàtica de trànsfer v(_,_,hum,work) <=> v(_,_,_,trabajar). v(_,_,nhum,work) <=> v(_,_,_,funcionar). N. Bel & M. Marimon 2005-06
Nivell d’anàlisi i transferència • Transferència lèxica: la cerca del terme equivalent en la llengua d’arribada es realitza a partir d’informació que conté el diccionari. • Transferència sintàctica: l’arbre d’anàlisis de l’oració d’origen es transforma en un arbre de generació equivalent per a l’oració d’arribada. • Transferència semàntica: les oracions de la llengua de sortida es transformen en representacions profundes, com patrons de casos, o estructures lògiques. N. Bel & M. Marimon 2005-06
Transfer semàntic • Planteja la traducció com establir la relació entre representacions que encara són dependents de cada llengua, però on s’ha aconseguit informació semàntica que afavoreix la transferència. • Les representacions estan orientades cap a la semàntica, per exemple en representacions semàntiques com a Forma Lògica: N. Bel & M. Marimon 2005-06
Problemes dels sistemes basats en la transferència • Tenir informació suficient per prendre decisions: • Know => saber – conèixer “I know him” vs. “I know the answer” • Diferents lexicalitzacions i solapaments de significats de paraules Luisa got up early => Luisa madrugó • Paraules que tenen traduccions complexes Ich esse gern => M’agrada menjar N. Bel & M. Marimon 2005-06
Problemes de la transferència • Frases fetes i col·locacions: I made a decision => Tomé una decisión I made a cake => Hice un pastel N. Bel & M. Marimon 2005-06
Traducció basada en informació lingüística • Característiques tècniques dels sistemes de traducció automàtica (anàlisi, generació, lèxic, parser, etc.) • L'arquitectura dels sistemes de traducció automàtica: • sistemes de transferència • d’interlingua • explotació estadística d’informació lingüística N. Bel & M. Marimon 2005-06
Explotació estadística d’informació lingüística • Hi ha informació que podem aconseguir de corpus per la selecció lèxica N. Bel & M. Marimon 2005-06
Sistema de Microsoft N. Bel & M. Marimon 2005-06
la extracción sanguínea y su análisis l'extracció sanguínia i la seva anàlisi Memòries de traduccióAutomaticTrans: • l'extracció sanguínia • i el seu posterior anàlisi • la extracción sanguínea • y su posterior análisis N. Bel & M. Marimon 2005-06
Sistemes amb informació lingüística de nivell baix (interNOSTRUM) • Finalmente y en relación con el cuarto de los hechos enjuiciados ... • Finalment i en relació amb lacambradelsfetsjutjats • Anàlisi: anàlisi morfològica, desambiguació estadística de categoríes • Trànsfer: cerca lèxica bilingüe, processament: concordança, re-ordenació, canvis lèxics. • Generació: generació morfològica, ortografía. N. Bel & M. Marimon 2005-06
cuyo = concordança dintre del seu SN SN N[f,p] SA Orel funciones típicas SN SV PR N V SP [m,s] [m,s] [m,s] cuyo análisis queda P SN reservado al tribunal N. Bel & M. Marimon 2005-06
les quals = concordança amb l’antecedent SN N[f,p] Orel funcions SN SV N SP V SP [f,s] P PR [f,s] P SN [f,p] l’anàlisis de les quals queda al tribunal reservada N. Bel & M. Marimon 2005-06
Sistemes de traducció automàtica amb informació lingüística Finalment i en relació amb lacambradelsfetsjutjats, que la seva*autorias'atribueix en l'escrit d'acusació als tres acusats, delaprova practicada no esdesprènl'existènciad'indicis suficientsaturaenervar respecte als mateixoslapresumpció constitucional d'innocència. Finalment i en relació amb el quart dels fets enjudiciats, la qual autoria s'atribueix a l'escrit d'acusació als tres acusats, de la prova practicada no es desprèn l'existència d'indicis suficients per enervar respecte dels mateixos la presumpció constitucional d'innocència Finalmente y en relación con el cuarto de los hechos enjuiciados, cuya autoria se atribuye en el escrito de acusación a los tres acusados, de la prueba practicada no se desprende la existencia de indicios suficientes para enervar respecto de los mismos la presunción constitucional de inocencia. N. Bel & M. Marimon 2005-06