130 likes | 274 Views
Università degli Studi di Modena e Reggio Emilia. Facoltà di Ingegneria – Corso di Laurea in Ingegneria Informatica. EXTRA Progetto e Sviluppo di un Ambiente per Traduzioni Multilingua Assistite. Riccardo Martoglia. Relatore: Prof. Paolo Tiberio Correlatore: Dott. Federica Mandreoli.
E N D
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea in Ingegneria Informatica EXTRAProgetto e Sviluppo di un Ambiente per Traduzioni Multilingua Assistite Riccardo Martoglia Relatore: Prof. Paolo Tiberio Correlatore: Dott. Federica Mandreoli Controrelatore: Prof. Sonia Bergamaschi Anno Accademico 2000/2001
Testo da tradurre Testo tradotto Traduttoreprofessionista Traduzione EBMT (Example-based)Translation Memory Ricerca di frasi (Pre-traduzione) Suggerimenti per la traduzione • esatta • approssimata Translation Memory ~ 50.000 frasi Allineamento
Progetto EXTRA(EXample-based TRanslation Assistant) Svolto in collaborazione con Logos S.p.A. • Metrica di similarità tra frasi • Flessibile (stemming) • Rigorosa (edit distance) • Efficace • Indipendente dalle lingue • Algoritmi di ricerca di similarità tra frasi • Completi (full-match e partial-match) • Efficienti (filtri ed indici ad hoc) • Portabili (query SQL / JDBC + stored procedure Java) • Algoritmi di allineamento • Allineamento frasi e parole • Automatici • Indipendenti dalle lingue • Ambiente integrato • Strumenti pergestione ed analisi Translation Memory • Interfaccia utente grafica
Metrica di similarità tra frasiEdit Distance L’editdistanceed(f1,f2) tra due frasi f1 e f2 è il minimo costo della sequenza di operazioni sulle parole (inserimenti, cancellazioni, sostituzioni) che trasformano f1 in f2. Esempio. f1:On completion of electrical connections, fit the cooktop in place from the top f2:After the electrical connection, fit the hob from the top stemming complete electric connect fit cooktop place top electric connect fit hob top O O O ed(f1,f2) = 3 distanza tra le frasi di 3 (parole)
Ricerca di similarità tra frasiFull match Dato un insieme di frasi da pre-tradurre Q, un insieme di frasi della Translation Memory TM, e una massima distanza relativa d, per ogni frase fq in Q di lunghezza |fq| si ricercano tutte le frasi fTM in TM (i suggerimenti) tali che ed(fq,fTM,round(d*|fq|))≥0 (ordinate sulla base del risultato dell’edit distance). INSERT INTO FULLMATCH SELECT R2.COD AS COD2, R1.COD AS COD1, R1.TARG_SENT AS SUGG, ed (R1.STEM_SENT, R2. STEM_SENT, round (d*R2.LEN)) AS DIST FROM TM R1, Q R2 WHERE <filtri> … AND ed (R1. STEM_SENT, R2.STEM_SENT, round (d*R2.LEN))>= 0 ORDER BY COD2, DIST, COD1 INSERT INTO FULLMATCH SELECT R2.COD AS COD2, R1.COD AS COD1, R1.TARG_SENT AS SUGG, ed (R1.STEM_SENT, R2. STEM_SENT, round (d*R2.LEN)) AS DIST FROM TM R1, TMq R1q, Q R2, Qq R2q WHERE R1.COD = R1q.COD AND R2.COD = R2q.COD AND R1q.Qgram = R2q.Qgram AND ABS (R1q.POS – R2q.POS) ≤ round (d*R2.LEN) AND ABS (R1.LEN – R2.LEN) ≤ round (d*R2.LEN) GROUP BY R2.COD, R1.COD, R1.STEM_SENT, R2.STEM_SENT, R1.LEN, R2.LEN HAVING COUNT (*) ≥ (R1.LEN – 1 – (round(d*R2.LEN) – 1) *q) AND COUNT (*) ≥ (R2.LEN – 1 – (round(d*R2.LEN) – 1) *q) AND ed (R1. STEM_SENT, R2.STEM_SENT, round (d*R2.LEN))>= 0 ORDER BY COD2, DIST, COD1 • Filtri: • basati sul concetto di q-gramma posizionale • garantiscono correttezza (assenza di false esclusioni) • garantiscono efficienza (pochi falsi positivi) • filtri di lunghezza, conteggio e posizione
Ricerca di similarità tra frasiFull match 31:On completion of electrical connections, fit the cooktop in place from the top and secure it by means of the clips as shown. (complete electric connect fit cooktop place top secure mean clip show) LEN = 11 d = 0.3 Massima distanza ammessa = 3 parole Frase Cercata: Frasi in Translation Memory: ed(31,3572) ed(31,4631) ed(31,5848) ed(31,41780) = 3
Ricerca di similarità tra frasiPartial match • Estensione del concetto di Full match. Si ricercano match di similarità: • tra qualunque sottoparte delle frasi da pretradurre (estratta automaticamente) • rispetto a qualunque sottoparte delle frasi della Translation Memory • non solo in modo esatto, ma anche approssimato • utilizzando la stessa metrica di similarità vista per le frasi intere Translation Memory Query 1: Ricerca parole uguali Query 2: Ricerca migliori partial match Partial Match • I Partial match devono essere: • di lunghezza superiore ad una soglia minima lMin • di distanza non maggiore a dSub • non contenuti in altri Partial Match più ampi • che soddisfano le condizioni precedenti • Nuovi filtri: • conteggio (partial match) • posizione (partial match) • lunghezza (partial match) • inclusione • ridondanza
Ricerca di similarità tra frasiEsempi di suggerimenti di pre-traduzione • Frase cercata: On completion of electrical connections, fit the cooktop in place from the top and secure it by means of the clips as shown. • Frase con parte simile 1: After the electrical connection, fit the hob from the top and hook it to the support springs, according to the illustration. • Traduzione completa 1: Dopo aver eseguito il collegamento elettrico, montare il piano cottura dall'alto e agganciarlo alle molle di supporto come da figura. • Suggerimento 1 (Dist=0.33): collegamento elettrico, montare il piano cottura dall'alto • Frase con parte simile 2: Secure it by means of the clips. • Traduzione suggerita 2 (Dist=0): Fissare definitivamente per mezzo dei ganci.
Uguaglianza (sigle, punteggiatura, parole) Somiglianza LCS (parole) AllineamentoAllineamento parole: esempio di funzionamento . riciclaggio del simbolo dal indicato come , 100% al riciclabile è imballo d' materiale Il The packing is 100% recyclable , as indicated by the recycling symbol . .
Efficacia Efficienza Prestazioni del sistema Tempi di pre-traduzione di 420 frasi (Translation Memory di 35000 frasi) Circa 1,5secondi per frase I filtri e gli indici permettono una riduzione dei tempi di circa 70% Collezione 1 (35000 frasi): copertura totale 99% Collezione 2 (1500 frasi): copertura totale 71%
EXTRAConclusioni Obiettivi conseguiti: • è stata definita una metrica di similarità tra frasi efficace ed indipendente dai linguaggi • è stato definito e affrontato il problema di ricerca di similarità tra frasi intere • è stata estesa la ricerca di similarità alle parti di frasi • sono stati mappati tali problemi in query SQL/JDBC portabili ed efficienti • sono stati implementati in Java una serie di algoritmi di allineamento, automatici ed indipendenti dalle lingue • è stato realizzato in Java un ambiente comune, che riunisce tali funzionalità sotto un’interfaccia comune e ne fornisce di aggiuntive Sviluppi futuri Proseguire il lavoro di ricerca: • studiando estensioni della ricerca di similarità in ambito semantico • migliorando ulteriormente le prestazioni (nuovi filtri …) • studiando l’applicabilità del sistema ad altri ambiti