310 likes | 504 Views
Statistical Phrased-Based Translation. GVHD: TS Đinh Điền HVTH: Đức Hoàng Lê Quốc Hưng Nguyễn Hồng Bử u Long. Động lực. Dịch theo ngữ là cách tốt nhất để thực hiện dịch máy thống kê Độ thực thi tốt nhất trong các đánh giá DARPA gần đây Khá đơn giản Đã có các công cụ miễn phí
E N D
Statistical Phrased-Based Translation GVHD: TS ĐinhĐiền HVTH: ĐứcHoàng LêQuốcHưng NguyễnHồngBửu Long
Độnglực • Dịchtheongữlàcáchtốtnhấtđểthựchiệndịchmáythốngkê • Độthựcthitốtnhấttrongcácđánhgiá DARPA gầnđây • Kháđơngiản • Đãcócáccôngcụmiễnphí • Xâydựngmộtbảngdịchngữnhưthếnào?
Mụctiêu • So sánhcáccáchtiếpcậnhọcngữkhácnhau • Xemxétcáctínhchấtcủadịchtheongữ • Cúphápvàcácngữ
Tổngquan • Đánhgiá framework • Môhìnhhợpnhất • Bộgiảimã • Ngữliệu • Ba phươngpháphọcngữ • Cácngữcảmsinhliênkếttừ (word-alignment induced phrases) • Cácngữcúpháp (syntactic phrases) • Liênkếtngữ (phrase alignment) • Thínghiệm
Môhình Morgen fliege ich nachKanada ZurKonferenz in Canada will fly Tomorrow I to the conference
Môhình (2) • Luật Bayes: • Câunướcngoài f đượcphânđoạnthành ngữ • Mỗingữđượcdịchvới • Cácngữđượcsắpxếplạivới • Dùngmôhìnhngônngữvà word penalty
Bộgiảimã: Tìmkiếm Beam • Xâydựngtiếnganhbằngviệcmởrộnggiảthuyết • Từtrái sang phải • Khônggiantìmkiếmtheosốmũvớichiềudàicâu • giảmbớtbằngcáchlượcbỏgiảthuyếtyếunhờướclượng chi phítươnglai
Bộgiảimã: TìmkiếmBeam (2) e: … did • f: *--------- p: .122 e: Mary • f: *--------- p: .534 e: … slap • f: *-***----- p: .043 e: • f: ---------- p: 1 e: witch • f: --------*- p: .182
ĐánhgiátrênngữliệuEuroparl • Thu thậptừCácVụKiệnNghịSĩChâuÂu • Cósẵntrênhttp://www.isi.edu/~koehn/ • 11 ngônngữ, 20 triệutừmỗingônngữ • Tậpkiểmnghiệm • Đức-Anh • 1755 câucóchiềudài 5-15
Cácphươngpháphọcngữ • Cácngữcảmsinhliênkếttừ • Tươngtựvớicácmẫuliênkết[Och et al., 1999] • Cácngữcúpháp • Chỉcácngữcúphápđượchọc • Cùnghạnchếvớicácmôhìnhchuyểnđổicúphápđượcđềxuấtgầnđây • Liênkếtngữ • Môhìnhkết[Marcu and Wong, 2002]
Cácngữcảmsinhliênkếttừ • Liênkếttừđượcphátsinhbằngcáchdùngmôhình IBM 4 • Liênkếthaichiềuef, fe • Liênkếtphầngiao • Thêmcácđiểmliênkếtbổ sung với heuristic • Thu thậpcáccặpngữphùhợpvớiliênkếttừ • Đâylàcácmẫuliênkếtmàkhôngcầncáclớptừ[Och et al., 1999]
Cácngữcảmsinhliênkếttừ (2) • (Maria, Mary), (no, did not), (slap, dabaunabofetada), (a la, the), (bruja, witch), (verde, green), (Maria no, Mary did not), (no dabaunabofetada, did not slap), (dabaunabofetada a la, slap the), (brujaverde, green witch)
Cácngữcảmsinhliênkếttừ (3) • (Maria no dabaunabofetada, Mary did not slap), (no dabaunabofetada a la, did not slap the), (a la brujaverde, the green witch), (Maria no dabaunabofetada a la, Mary did not slap the),
Cácngữcảmsinhliênkếttừ (4) • (dabaunabofetada a la brujaverde, slap the green witch), (no dabaunabofetada a la brujaverde, did not slap the green witch), (Maria no dabaunabofetada a la brujaverde, Mary did not slap the green witch)
Cácngữcúpháp • Cácngữcúphápmởrộngtoànbộthànhphầntrongcâyphântích • Độnglực • Chỉnhữngngữnàyđượcdùngcácmôhìnhchuyểnđổicúpháp • Vd: [Yamada and Knight, 2002] • Cúpháplợihay hại? • Tríchcáccặpngữcúpháp • Phântíchcảhaiphía (vớicácbộphântíchthốngkê) • Sửdụngliênkếttừtrướcđó • Giớihạncácngữthànhcácthànhphầncúpháptrongcâyphântích
Liênkếtngữ Morgen fliege ich nachKanada ZurKonferenz 1 2 3 4 5 Tomorrow I will fly to the conference in Canada
Liênkếtngữ (2) • Liênkếtngữtrựctiếpcủangữliệu song song[Marcu and Wong, 2002] • Generative Story • Mộtsốkháiniệmđượctạora • Mỗikháiniệmphátsinhmộtngữtiếnganhvàngoạingữ
Thínghiệm • So sánhcácphươngphápchính • Chiềudàingữtốiđa • Trọngsốtừvựng • Các heuristic tríchxuấtngữ • Cácmôhìnhliênkếttừđơngiảnhơn • Cáccặpngônngữkhác
So sánhcácphươngphápchính • Cùngbộgiảimã, cùngdữliệuhuấnluyện, cùngmôhìnhngônngữ • Ngoạitrừmôhình IBM 4 sửdụngbộgiảimãtham lam [Germann et al., 2001]
So sánhcácphươngphápchính (2) • WAIPhtốtnhấtvàcácngữcúpháprấttệ • CácthínghiệmtiếptheochỉtrênWAIPh
Chiềudàingữtốiđa • Giớihạntốiđachochiềudàingữ • Giớihạncàngcao bảngdịchngữcànglớn • Tấtcảcácbảngvẫncònphùhợpvớibộnhớcủacácmáyhiệnđại
Chiềudàingữtốiđa (2) • Tácđộngcủagiớihạnlênchấtlượngdịch • Cảithiệnkhôngquánhiềunếuchiềudàitốiđavượtquá 3 • Độclậpvớikíchthướcngữliệuhuấnluyện
Trọngsốtừvựng • Tăng xácsuấtdịchngữvớidịchtừvựng • Trọngsốtừvựng
Trọngsốtừvựng • Tăngchấtlượngdịch
Các heuristic tríchxuấtngữ • Nhắclại: liênkếttừdựatrêngiaocủacácliênkếtmôhình IBM 4 haichiều + heuristic bofetada bruja daba a Maria no una la verde Mary did not slap the green witch
Các heuristic tríchngữ • Cácngữkhácnhauđượchọc, nếu heuristic tạoraliênkếttừđượcthayđổi • Nhữngthayđổitrongcác heuristic: • Chỉcholâncậntrựctiếp • Cũngcholâncậnchéo • Cũngchokhônglâncận • ThíchAnh-NgoạiNgữ hay NgoạiNgữ-Anh • Dùngxácsuấthay tầnsốtừvựng • Chỉmởrộngchonhữngtừchưađượcliênkết • …
Các heuristic tríchngữ • Khôngcócảitiếnrõràngđốivớicácchiếnlược • Chênhlệchlớn, nhưng … • … phụthuộcvàokíchthướcngữliệu • … phụthuộcvàocặpngônngữ
Cácmôhìnhliênkếttừđơngiảnhơn • Sửdụngcácmôhình IBM đơngiảnhơncholiênkếttừ • Khôngnhiềuvachạm, nếucácmôhìnhđơngiảnhơnđượcdùng • Cácmôhìnhđơngiảnhơntínhtoáníthơnnhiều
Cáccặpngônngữkhác • Tìmảnhhưởngchocáccặpngônngữkhác, ngữliệukhác • Dịchngữtốthơnmôhình IBM 4 • Cósựtrợgiúptừvựng (+ khoảng 0.01 BLUE)
Kếtluận • Dịchtheongữtốthơndịchtheotừ • Giớihạnngữcúphápcóhạirấtnhiều • Cácngữnhỏ(tăngtới3 từ) đủtốt • Trọngsốtừvựnghữuích • Các heuristic tríchngữquantrọng, nhưngcác heuristic tốtnhấtthayđổitrênkíchthướcngữliệu, cặpngônngữ