500 likes | 699 Views
Statistical Phrased-Based Translation. GVHD : PGS. TS. Đinh Điền HVTH: Lê Quốc Hưng Nguyễn Hồng Bửu Long Nguyễn Đức Hoàng. Mục lục. Phrase-based SMT. 1. Improve Phrase-based SMT. 2. Tools & Demo. 3. Động lực. Dịch theo ngữ là cách tốt nhất để thực hiện dịch máy thống kê
E N D
Statistical Phrased-Based Translation GVHD: PGS. TS. ĐinhĐiền HVTH: Lê Quốc Hưng Nguyễn Hồng Bửu Long Nguyễn Đức Hoàng
Mục lục Phrase-based SMT 1 Improve Phrase-based SMT 2 Tools & Demo 3
Độnglực • Dịchtheongữlàcáchtốtnhấtđểthựchiệndịchmáythốngkê • Độthựcthitốtnhấttrongcácđánhgiá DARPA gầnđây • Kháđơngiản • Đãcócáccôngcụmiễnphí • Xâydựngmộtbảngdịchngữnhưthếnào?
Mụctiêu • So sánhcáccáchtiếpcậnhọcngữkhácnhau • Xemxétcáctínhchấtcủadịchtheongữ • Cúphápvàcácngữ
Tổngquan • Đánhgiá framework • Môhìnhhợpnhất • Bộgiảimã • Ngữliệu • Ba phươngpháphọcngữ • Cácngữcảmsinhliênkếttừ (word-alignment induced phrases) • Cácngữcúpháp (syntactic phrases) • Liênkếtngữ (phrase alignment) • Thínghiệm
Môhình Morgen fliege ich nachKanada ZurKonferenz in Canada will fly Tomorrow I to the conference
Môhình (2) • Luật Bayes: • Câunướcngoài f đượcphânđoạnthành ngữ • Mỗingữđượcdịchvới • Cácngữđượcsắpxếplạivới • Dùngmôhìnhngônngữvà word penalty
Bộgiảimã: Tìmkiếm Beam • Xâydựngtiếnganhbằngviệcmởrộnggiảthuyết • Từtrái sang phải • Khônggiantìmkiếmtheosốmũvớichiềudàicâu • giảmbớtbằngcáchlượcbỏgiảthuyếtyếunhờướclượng chi phítươnglai
Bộgiảimã: TìmkiếmBeam (2) e: … did • f: *--------- p: .122 e: Mary • f: *--------- p: .534 e: … slap • f: *-***----- p: .043 e: • f: ---------- p: 1 e: witch • f: --------*- p: .182
ĐánhgiátrênngữliệuEuroparl • Thu thậptừCácVụKiệnNghịSĩChâuÂu • Cósẵntrênhttp://www.isi.edu/~koehn/ • 11 ngônngữ, 20 triệutừmỗingônngữ • Tậpkiểmnghiệm • Đức-Anh • 1755 câucóchiềudài 5-15
Cácphươngpháphọcngữ • Cácngữcảmsinhliênkếttừ • Tươngtựvớicácmẫuliênkết[Och et al., 1999] • Cácngữcúpháp • Chỉcácngữcúphápđượchọc • Cùnghạnchếvớicácmôhìnhchuyểnđổicúphápđượcđềxuấtgầnđây • Liênkếtngữ • Môhìnhkết[Marcu and Wong, 2002]
Cácngữcảmsinhliênkếttừ • Liênkếttừđượcphátsinhbằngcáchdùngmôhình IBM 4 • Liênkếthaichiềuef, fe • Liênkếtphầngiao • Thêmcácđiểmliênkếtbổ sung với heuristic • Thu thậpcáccặpngữphùhợpvớiliênkếttừ • Đâylàcácmẫuliênkếtmàkhôngcầncáclớptừ[Och et al., 1999]
Cácngữcảmsinhliênkếttừ (2) • (Maria, Mary), (no, did not), (slap, dabaunabofetada), (a la, the), (bruja, witch), (verde, green), (Maria no, Mary did not), (no dabaunabofetada, did not slap), (dabaunabofetada a la, slap the), (brujaverde, green witch)
Cácngữcảmsinhliênkếttừ (3) • (Maria no dabaunabofetada, Mary did not slap), (no dabaunabofetada a la, did not slap the), (a la brujaverde, the green witch), (Maria no dabaunabofetada a la, Mary did not slap the),
Cácngữcảmsinhliênkếttừ (4) • (dabaunabofetada a la brujaverde, slap the green witch), (no dabaunabofetada a la brujaverde, did not slap the green witch), (Maria no dabaunabofetada a la brujaverde, Mary did not slap the green witch)
Cácngữcúpháp • Cácngữcúphápmởrộngtoànbộthànhphầntrongcâyphântích • Độnglực • Chỉnhữngngữnàyđượcdùngcácmôhìnhchuyểnđổicúpháp • Vd: [Yamada and Knight, 2002] • Cúpháplợihay hại? • Tríchcáccặpngữcúpháp • Phântíchcảhaiphía (vớicácbộphântíchthốngkê) • Sửdụngliênkếttừtrướcđó • Giớihạncácngữthànhcácthànhphầncúpháptrongcâyphântích
Liênkếtngữ Morgen fliege ich nachKanada ZurKonferenz 1 2 3 4 5 Tomorrow I will fly to the conference in Canada
Liênkếtngữ (2) • Liênkếtngữtrựctiếpcủangữliệu song song[Marcu and Wong, 2002] • Generative Story • Mộtsốkháiniệmđượctạora • Mỗikháiniệmphátsinhmộtngữtiếnganhvàngoạingữ
Thínghiệm • So sánhcácphươngphápchính • Chiềudàingữtốiđa • Trọngsốtừvựng • Các heuristic tríchxuấtngữ • Cácmôhìnhliênkếttừđơngiảnhơn • Cáccặpngônngữkhác
So sánhcácphươngphápchính • Cùngbộgiảimã, cùngdữliệuhuấnluyện, cùngmôhìnhngônngữ • Ngoạitrừmôhình IBM 4 sửdụngbộgiảimãtham lam [Germann et al., 2001]
So sánhcácphươngphápchính (2) • WAIPhtốtnhấtvàcácngữcúpháprấttệ • CácthínghiệmtiếptheochỉtrênWAIPh
Chiềudàingữtốiđa • Giớihạntốiđachochiềudàingữ • Giớihạncàngcao bảngdịchngữcànglớn • Tấtcảcácbảngvẫncònphùhợpvớibộnhớcủacácmáyhiệnđại
Chiềudàingữtốiđa (2) • Tácđộngcủagiớihạnlênchấtlượngdịch • Cảithiệnkhôngquánhiềunếuchiềudàitốiđavượtquá 3 • Độclậpvớikíchthướcngữliệuhuấnluyện
Trọngsốtừvựng • Tăng xácsuấtdịchngữvớidịchtừvựng • Trọngsốtừvựng
Trọngsốtừvựng • Tăngchấtlượngdịch
Các heuristic tríchxuấtngữ • Nhắclại: liênkếttừdựatrêngiaocủacácliênkếtmôhình IBM 4 haichiều + heuristic bofetada bruja daba a Maria no una la verde Mary did not slap the green witch
Các heuristic tríchngữ • Cácngữkhácnhauđượchọc, nếu heuristic tạoraliênkếttừđượcthayđổi • Nhữngthayđổitrongcác heuristic: • Chỉcholâncậntrựctiếp • Cũngcholâncậnchéo • Cũngchokhônglâncận • ThíchAnh-NgoạiNgữ hay NgoạiNgữ-Anh • Dùngxácsuất hay tầnsốtừvựng • Chỉmởrộngchonhữngtừchưađượcliênkết • …
Các heuristic tríchngữ • Khôngcócảitiếnrõràngđốivớicácchiếnlược • Chênhlệchlớn, nhưng … • … phụthuộcvàokíchthướcngữliệu • … phụthuộcvàocặpngônngữ
Cácmôhìnhliênkếttừđơngiảnhơn • Sửdụngcácmôhình IBM đơngiảnhơncholiênkếttừ • Khôngnhiềuvachạm, nếucácmôhìnhđơngiảnhơnđượcdùng • Cácmôhìnhđơngiảnhơntínhtoáníthơnnhiều
Cáccặpngônngữkhác • Tìmảnhhưởngchocáccặpngônngữkhác, ngữliệukhác • Dịchngữtốthơnmôhình IBM 4 • Cósựtrợgiúptừvựng (+ khoảng 0.01 BLUE)
Kếtluận • Dịchtheongữtốthơndịchtheotừ • Giớihạnngữcúphápcóhạirấtnhiều • Cácngữnhỏ (tăngtới 3 từ) đủtốt • Trọngsốtừvựnghữuích • Các heuristic tríchngữquantrọng, nhưngcác heuristic tốtnhấtthayđổitrênkíchthướcngữliệu, cặpngônngữ
Mục lục Phrase-based SMT 1 Improve Phrase-based SMT 2 Tools & Demo 3
Cải tiến Pharse-based SMT • Tinh chỉnh lại mô hình dịch phrase-based với 2 heuristic : • Word penalty : cho phép điều chỉnh chiều dài câu được dịch. • Phrase penalty : cho phép điều chỉnh chiều dài trung bình của những phrases được sử dụng trong quá trình dịch của mô hình dịch.
Cải tiến Pharse-based SMT • Tinh chỉnh lại mô hình dịch phrase-based với Word-based Lexicon : • Mục đích : Làm mượt xác suất dịch ngữ. • Mô tả : • Từ f của ngôn ngữ nguồn dịch thành ngữ trong ngôn ngữ đích. • Ta có phép xấp xỉ sau :
Cải tiến Pharse-based SMT • Monotone Search : • Q(j,e) : Xác suất lớn nhất của một ngữ kết thúc với từ e và kéo dài từ vị trí 1 đến j của câu nguồn. • Q(J + 1, $) : Xác suất của phép dịch tối ưu $ : là ký hiệu đánh dấu ranh giới câu • M : Chiều dài tối đa của ngữ trong ngôn ngữ nguồn • Ta có phép đệ quy :
Cải tiến Pharse-based SMT • Monotone Search : • Hiệu quả tính toán cao, độ phức tạp tuyến tính với chiều dài câu • Đặc biệt rất hiệu quả khi dùng với những ngôn ngữ có thứ tự từ tương tự nhau. • Ngược lại độ chính xác không tốt đối với trường hợp phải sắp xếp lại vị trí ngữ sau khi dịch.
Mục lục Phrase-based SMT 1 Improve Phrase-based SMT 2 Tools & Demo 3
Công cụ hỗ trợ Phrase-based SMT • Moses • GIZA++ • SRILM • IRSTLM
GIZA++ Aligned words GIZA++ Parallelcorpus sequences of words
SRILM, IRSTLM Training corpus ngram-count count file step1 Lexicon • ngram-count LM step2 Test data ngram ppl step3
Huấn luyện LM n-grams f*(w | x y) và xác suất của n-gram xyw tùy thuộc vào xy và yw p(w | x y) = f*(w | x y) + (x y)p(w | y)
Smoothing • Witten Bell: • Absolute discounting: • Kneser-Ney: • , ,