1 / 50

Statistical Phrased-Based Translation

Statistical Phrased-Based Translation. GVHD : PGS. TS. Đinh Điền HVTH: Lê Quốc Hưng Nguyễn Hồng Bửu Long Nguyễn Đức Hoàng. Mục lục. Phrase-based SMT. 1. Improve Phrase-based SMT. 2. Tools & Demo. 3. Động lực. Dịch theo ngữ là cách tốt nhất để thực hiện dịch máy thống kê

eithne
Download Presentation

Statistical Phrased-Based Translation

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistical Phrased-Based Translation GVHD: PGS. TS. ĐinhĐiền HVTH: Lê Quốc Hưng Nguyễn Hồng Bửu Long Nguyễn Đức Hoàng

  2. Mục lục Phrase-based SMT 1 Improve Phrase-based SMT 2 Tools & Demo 3

  3. Độnglực • Dịchtheongữlàcáchtốtnhấtđểthựchiệndịchmáythốngkê • Độthựcthitốtnhấttrongcácđánhgiá DARPA gầnđây • Kháđơngiản • Đãcócáccôngcụmiễnphí • Xâydựngmộtbảngdịchngữnhưthếnào?

  4. Mụctiêu • So sánhcáccáchtiếpcậnhọcngữkhácnhau • Xemxétcáctínhchấtcủadịchtheongữ • Cúphápvàcácngữ

  5. Tổngquan • Đánhgiá framework • Môhìnhhợpnhất • Bộgiảimã • Ngữliệu • Ba phươngpháphọcngữ • Cácngữcảmsinhliênkếttừ (word-alignment induced phrases) • Cácngữcúpháp (syntactic phrases) • Liênkếtngữ (phrase alignment) • Thínghiệm

  6. Môhình Morgen fliege ich nachKanada ZurKonferenz in Canada will fly Tomorrow I to the conference

  7. Môhình (2) • Luật Bayes: • Câunướcngoài f đượcphânđoạnthành ngữ • Mỗingữđượcdịchvới • Cácngữđượcsắpxếplạivới • Dùngmôhìnhngônngữvà word penalty

  8. Bộgiảimã: Tìmkiếm Beam • Xâydựngtiếnganhbằngviệcmởrộnggiảthuyết • Từtrái sang phải • Khônggiantìmkiếmtheosốmũvớichiềudàicâu • giảmbớtbằngcáchlượcbỏgiảthuyếtyếunhờướclượng chi phítươnglai

  9. Bộgiảimã: TìmkiếmBeam (2) e: … did • f: *--------- p: .122 e: Mary • f: *--------- p: .534 e: … slap • f: *-***----- p: .043 e: • f: ---------- p: 1 e: witch • f: --------*- p: .182

  10. ĐánhgiátrênngữliệuEuroparl • Thu thậptừCácVụKiệnNghịSĩChâuÂu • Cósẵntrênhttp://www.isi.edu/~koehn/ • 11 ngônngữ, 20 triệutừmỗingônngữ • Tậpkiểmnghiệm • Đức-Anh • 1755 câucóchiềudài 5-15

  11. Cácphươngpháphọcngữ • Cácngữcảmsinhliênkếttừ • Tươngtựvớicácmẫuliênkết[Och et al., 1999] • Cácngữcúpháp • Chỉcácngữcúphápđượchọc • Cùnghạnchếvớicácmôhìnhchuyểnđổicúphápđượcđềxuấtgầnđây • Liênkếtngữ • Môhìnhkết[Marcu and Wong, 2002]

  12. Cácngữcảmsinhliênkếttừ • Liênkếttừđượcphátsinhbằngcáchdùngmôhình IBM 4 • Liênkếthaichiềuef, fe • Liênkếtphầngiao • Thêmcácđiểmliênkếtbổ sung với heuristic • Thu thậpcáccặpngữphùhợpvớiliênkếttừ • Đâylàcácmẫuliênkếtmàkhôngcầncáclớptừ[Och et al., 1999]

  13. Cácngữcảmsinhliênkếttừ (2) • (Maria, Mary), (no, did not), (slap, dabaunabofetada), (a la, the), (bruja, witch), (verde, green), (Maria no, Mary did not), (no dabaunabofetada, did not slap), (dabaunabofetada a la, slap the), (brujaverde, green witch)

  14. Cácngữcảmsinhliênkếttừ (3) • (Maria no dabaunabofetada, Mary did not slap), (no dabaunabofetada a la, did not slap the), (a la brujaverde, the green witch), (Maria no dabaunabofetada a la, Mary did not slap the),

  15. Cácngữcảmsinhliênkếttừ (4) • (dabaunabofetada a la brujaverde, slap the green witch), (no dabaunabofetada a la brujaverde, did not slap the green witch), (Maria no dabaunabofetada a la brujaverde, Mary did not slap the green witch)

  16. Cácngữcúpháp • Cácngữcúphápmởrộngtoànbộthànhphầntrongcâyphântích • Độnglực • Chỉnhữngngữnàyđượcdùngcácmôhìnhchuyểnđổicúpháp • Vd: [Yamada and Knight, 2002] • Cúpháplợihay hại? • Tríchcáccặpngữcúpháp • Phântíchcảhaiphía (vớicácbộphântíchthốngkê) • Sửdụngliênkếttừtrướcđó • Giớihạncácngữthànhcácthànhphầncúpháptrongcâyphântích

  17. Liênkếtngữ Morgen fliege ich nachKanada ZurKonferenz 1 2 3 4 5 Tomorrow I will fly to the conference in Canada

  18. Liênkếtngữ (2) • Liênkếtngữtrựctiếpcủangữliệu song song[Marcu and Wong, 2002] • Generative Story • Mộtsốkháiniệmđượctạora • Mỗikháiniệmphátsinhmộtngữtiếnganhvàngoạingữ

  19. Thínghiệm • So sánhcácphươngphápchính • Chiềudàingữtốiđa • Trọngsốtừvựng • Các heuristic tríchxuấtngữ • Cácmôhìnhliênkếttừđơngiảnhơn • Cáccặpngônngữkhác

  20. So sánhcácphươngphápchính • Cùngbộgiảimã, cùngdữliệuhuấnluyện, cùngmôhìnhngônngữ • Ngoạitrừmôhình IBM 4 sửdụngbộgiảimãtham lam [Germann et al., 2001]

  21. So sánhcácphươngphápchính (2) • WAIPhtốtnhấtvàcácngữcúpháprấttệ • CácthínghiệmtiếptheochỉtrênWAIPh

  22. Chiềudàingữtốiđa • Giớihạntốiđachochiềudàingữ • Giớihạncàngcao bảngdịchngữcànglớn • Tấtcảcácbảngvẫncònphùhợpvớibộnhớcủacácmáyhiệnđại

  23. Chiềudàingữtốiđa (2) • Tácđộngcủagiớihạnlênchấtlượngdịch • Cảithiệnkhôngquánhiềunếuchiềudàitốiđavượtquá 3 • Độclậpvớikíchthướcngữliệuhuấnluyện

  24. Trọngsốtừvựng • Tăng xácsuấtdịchngữvớidịchtừvựng • Trọngsốtừvựng

  25. Trọngsốtừvựng • Tăngchấtlượngdịch

  26. Các heuristic tríchxuấtngữ • Nhắclại: liênkếttừdựatrêngiaocủacácliênkếtmôhình IBM 4 haichiều + heuristic bofetada bruja daba a Maria no una la verde Mary did not slap the green witch

  27. Các heuristic tríchngữ • Cácngữkhácnhauđượchọc, nếu heuristic tạoraliênkếttừđượcthayđổi • Nhữngthayđổitrongcác heuristic: • Chỉcholâncậntrựctiếp • Cũngcholâncậnchéo • Cũngchokhônglâncận • ThíchAnh-NgoạiNgữ hay NgoạiNgữ-Anh • Dùngxácsuất hay tầnsốtừvựng • Chỉmởrộngchonhữngtừchưađượcliênkết • …

  28. Các heuristic tríchngữ • Khôngcócảitiếnrõràngđốivớicácchiếnlược • Chênhlệchlớn, nhưng … • … phụthuộcvàokíchthướcngữliệu • … phụthuộcvàocặpngônngữ

  29. Cácmôhìnhliênkếttừđơngiảnhơn • Sửdụngcácmôhình IBM đơngiảnhơncholiênkếttừ • Khôngnhiềuvachạm, nếucácmôhìnhđơngiảnhơnđượcdùng • Cácmôhìnhđơngiảnhơntínhtoáníthơnnhiều

  30. Cáccặpngônngữkhác • Tìmảnhhưởngchocáccặpngônngữkhác, ngữliệukhác • Dịchngữtốthơnmôhình IBM 4 • Cósựtrợgiúptừvựng (+ khoảng 0.01 BLUE)

  31. Kếtluận • Dịchtheongữtốthơndịchtheotừ • Giớihạnngữcúphápcóhạirấtnhiều • Cácngữnhỏ (tăngtới 3 từ) đủtốt • Trọngsốtừvựnghữuích • Các heuristic tríchngữquantrọng, nhưngcác heuristic tốtnhấtthayđổitrênkíchthướcngữliệu, cặpngônngữ

  32. Mục lục Phrase-based SMT 1 Improve Phrase-based SMT 2 Tools & Demo 3

  33. Cải tiến Pharse-based SMT • Tinh chỉnh lại mô hình dịch phrase-based với 2 heuristic : • Word penalty : cho phép điều chỉnh chiều dài câu được dịch. • Phrase penalty : cho phép điều chỉnh chiều dài trung bình của những phrases được sử dụng trong quá trình dịch của mô hình dịch.

  34. Cải tiến Pharse-based SMT • Tinh chỉnh lại mô hình dịch phrase-based với Word-based Lexicon : • Mục đích : Làm mượt xác suất dịch ngữ. • Mô tả : • Từ f của ngôn ngữ nguồn dịch thành ngữ trong ngôn ngữ đích. • Ta có phép xấp xỉ sau :

  35. Cải tiến Pharse-based SMT • Monotone Search : • Q(j,e) : Xác suất lớn nhất của một ngữ kết thúc với từ e và kéo dài từ vị trí 1 đến j của câu nguồn. • Q(J + 1, $) : Xác suất của phép dịch tối ưu $ : là ký hiệu đánh dấu ranh giới câu • M : Chiều dài tối đa của ngữ trong ngôn ngữ nguồn • Ta có phép đệ quy :

  36. Cải tiến Pharse-based SMT • Monotone Search : • Hiệu quả tính toán cao, độ phức tạp tuyến tính với chiều dài câu • Đặc biệt rất hiệu quả khi dùng với những ngôn ngữ có thứ tự từ tương tự nhau. • Ngược lại độ chính xác không tốt đối với trường hợp phải sắp xếp lại vị trí ngữ sau khi dịch.

  37. Mục lục Phrase-based SMT 1 Improve Phrase-based SMT 2 Tools & Demo 3

  38. Công cụ hỗ trợ Phrase-based SMT • Moses • GIZA++ • SRILM • IRSTLM

  39. GIZA++ Aligned words GIZA++ Parallelcorpus sequences of words

  40. SRILM, IRSTLM Training corpus ngram-count count file step1 Lexicon • ngram-count LM step2 Test data ngram ppl step3

  41. Định dạng ARPA (SRILM, IRSTLM)

  42. Huấn luyện LM n-grams f*(w | x y) và xác suất của n-gram xyw tùy thuộc vào xy và yw p(w | x y) = f*(w | x y) + (x y)p(w | y)

  43. Smoothing • Witten Bell: • Absolute discounting: • Kneser-Ney: • , ,

  44. Huấn luyện LM (Bước 1)

  45. Huấn luyện LM (Bước 2)

  46. Huấn luyện LM (Bước 3)

  47. Huấn luyện LM (Bước 4)

  48. Huấn luyện LM (Bước 5)

  49. Demo

  50. Cảmơn anh chị đã lắngnghe

More Related