1 / 55

Example-based Machine Translation תרגום מכני מבוסס דוגמאות

סמינר בבלשנות חישובית – 236817 בהנחיית פרופ ' עוזי אורנן הפקולטה למדעי המחשב , טכניון. מיכאל זמדמל ארתור אומנסקי. Example-based Machine Translation תרגום מכני מבוסס דוגמאות. Harold Somers, Machine Translation vol. 14 (1999) pp. 113-158. מה מצפה לנו ?. קצת רקע שיטות דומות

holli
Download Presentation

Example-based Machine Translation תרגום מכני מבוסס דוגמאות

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. סמינר בבלשנות חישובית – 236817 בהנחיית פרופ' עוזי אורנן הפקולטה למדעי המחשב , טכניון מיכאל זמדמל ארתור אומנסקי Example-based Machine Translationתרגום מכני מבוסס דוגמאות Harold Somers, Machine Translation vol. 14 (1999) pp. 113-158.

  2. מה מצפה לנו ? • קצת רקע • שיטות דומות • הסבר כללי על EBMT • טיפול בדוגמאות • שלב התרגום – התאמה ויישור • שלב ההרכבה • סוגים שונים של EBMT • סיכום

  3. רקע • החל משנות התשעים, חל שינוי בתפיסה של שיטות תרגום מכניות. • השיטות הנהוגות עד אז היו מבוססות על חוקים בלשניים. • מחקר רב הושקע בחקר פרדיגמה חדשה: • גישות אמפיריות המבוססות על דוגמאות. (EBMT) • בשנת 98 במהלך כנס העוסק בתרגום מכני Peter Brown זעזע את הקהל כשהציג את הגישה "הטהורה סטטיסטית" של IBM. • “Every time I fire a linguist, my system’s performance improves”

  4. הצגת השיטה לראשונה • שיטה אשר עושה שימוש בקורפוס של דוגמאות תרגום במקום בסט של חוקים בלשניים. • תדהמה ועוינות מצד החוקרים: • היו רגילים לשיטות עבודה אחרות • ויכוח בין התומכים והמתנגדים לשיטה • Data-driven VS. Theory-driven • נוצר מצב של יריבות בין שיטות בלשניות לשיטה הנ"ל • יריבות שהפכה במהרה לשיתוף פעולה • יצירה של שיטות חדשות היברידיות • משלבות תרגום מבוסס חוקים (בלשני) עם תרגום מבוסס דוגמאות

  5. סקירת הגישה – שיטות שונות • קיימות שיטות שונות אשר עושות שימוש בתהליכים אופיינים ל-EBMT • קורפוס – מאגר דוגמאות מתורגמות לאחר שעברו עיבוד • תהליך של התאמת קלט לדוגמאות תרגום מתאימות מהקורפוס • הרכבה אנלוגית ליצירת התרגום הנכון • נפרט עליהן בהמשך.... • נחשיב את כולן כווריאציות של EBMT • Analogy-based • Memory-based • Case-based • Experience-guided

  6. "תרגום מבוסס זיכרון" – Translation Memory (TM) • זו גם גישה המבוססת על קיומו של קורפוס • קיים מאגר מידע המכיל טקסט מקור ותרגום • תרגום בעזרת TM מעלה מספר הצעות תרגום על סמך התאמות לטקסטים קיימים במאגר המידע. • התהליך הוא אינטרקטיבי • המשתמש מקבל הצעות תרגום לקלט שהוא מכניס למערכת • המשתמש מחליט אם להיעזר בתרגום המוצעובוחר את התרגום שהכי מתאים לדעתו.

  7. "תרגום מבוסס זיכרון" – Translation Memory (TM) • נהוג לקשר את EBMT לשיטת TM בגלל הדמיון בשימוש חוזר של דוגמאות תרגום קיימות מהקורפוס. • שתי השיטות התפרסמו באותה התקופה • לעתים תכופות שתי השיטות נחשבו כשיטות זהות • השוני בין TM ל-EBMT • TM הוא כלי עזר למתרגם אנושי בניגוד ל EBMT שהוא כלי אוטומטי • TM אינו מבצע פעולות אוטומטיות בניגוד ל EBMT המייצר אוטומציה של התרגום.

  8. EBMT – הרעיון הבסיסי • גישה המבוססת על קורפוס דוגמאות • קיים מאגר מידע המכיל דוגמאות מתורגמות • תהליך התרגום מזכיר תהליך תרגום אנושי • אין ניתוח לשוני עמוק. • פירוק משפט לחלקים , תרגום כל חלק בנפרד והרכבה מחדש. • הרעיון של תרגום המבוסס דימיון: • תרגום ע"י התאמת דוגמאות קיימות במקום שימוש בחוקים בלשניים • “Existing translations contain more solutions to more translation problems than any other available resource.” (P. Isabelle et al., TMI, Kyoto, 1993)

  9. EBMT – הרעיון הבסיסי עקרונות התרגום: התאמה (Matching) - מציאת הדוגמאות המתאימות ביותר • יש לנו קורפוס מוכן מראש עם דוגמאות בשפת מקור והתרגום שלהן לשפת יעד • בהינתן קלט שרוצים לתרגם, מחפשים דוגמא מתאימה בקורפוס סידור (Alignment) - זיהוי חלקים מתאימים ולא מתאימים • בחירה של חלקי משפט שמתאימים וניפוי של חלקי משפט שלא מתאימים הרכבה (Recombination)- הרכבה של התרגומים החלקיים

  10. EBMT – שיטת עבודה • מחלקים לפרגמנטים את משפט הקלט אשר ברצונינו לתרגם • מחפשים התאמה בין דוגמאות מהמאגר לבין הפרגמנטים • מתרגמים כל פרגמנט בנפרד • מרכיבים את הפרגמנטים השונים ליצירת משפט מתורגם בעל מבנה דקדוקי נכון תוך ביצוע תיקונים נדרשים (שינוי סדר מילים וכו'...)

  11. “Vauquois pyramid”

  12. EBMT – דוגמא • (Sato & Nagao 1990) • קלט • He buys a book on international politics • התאמות • He buys a notebook. • הוא קונה מחברת. • I read a book on international politics. • אני קראתי ספר על פוליטיקה בינלאומית . • תוצאה • הוא קונה ספר על פוליטיקה בינלאומית

  13. ה–"קורפוס" (מאגר של דוגמאות) • זהו אוסף של דוגמאות טקסט בשפת המקור הצמודות לתרגומן בשפת היעד. • אורך הדוגמאות אינו אחיד ויכול להשתנות • מספר הדוגמאות אינו קבוע גם כן • חוקרים יכולים ליצור לעצמם קורפוס משלהם או להשתמש במקורות טקסט קיימים , כגון: • הפרלמנט הקנדי וההונג-קונגי מספקים קורפוס דו לשוני גדול של תרגומים של החלטות פרלמטריות • האו"ם מספק מקור טוב למסמכים רב לשוניים • WWW – מספק מקור מצוין לתרגומים במגוון שפות (אתר חדשות למשל...)

  14. המגבלות של שימוש בקורפוס • קורפוסים קיימים מטבעם ממוקדים לרוב בנושאים מסוימים • מה שגורם ל EBMT להיות מתאימה יותר לתרגום של תתי שפות • תת שפה היא תחום מסוים בשפה (ספורט, כלכלה, מדע....) • קורפוסים קיימים אינם נמצאים לרוב בצורה המתאימה לתרגום ונדרש עיבוד על מנת להתאימם לצורה זו • חלוקה לסגמנטים • למשל התאמה של סגמנט (בדר"כ משפט) בשפת מקור לסגמנט המקביל בשפת יעד • קושי בחלוקה לסגמנטים בשפות בעלות טיפולוגיה שונה • עברית-אנגלית קשה • אנגלית-גרמנית קל

  15. יצירת הקורפוס • נרצה ליצור מאגר דוגמאות המחולקות לסגמנטים מתורגמים • נרצה לבנות מאגר בצורה שתקל עלינו למצוא התאמות כאלו • נוצרת השאלה מה הגודל האופטימלי לחלוקת המקטעים ? • משפט • חלקי משפט • מילים • אוסף של כמה משפטים

  16. האיזון בין אורך לדימיון של מקטעים • מהו האורך האופטימלי? • עבור מקטעים ארוכים מדי הסיכוי להתאמה מושלמת קטן • עבור מקטעים קצרים מדי הסיכוי לרב-משמעות גדל • לבחירה של אורך המקטעים תהיה השפעה על איכות התרגום • בחירה אינטואיטיבית תהיה מקטע באורך משפט • נראה כי בדר"כ הוא פשוט ולא מורכב (באורך פסוקית אחת Clause - ) • קל לזהות סיום והתחלת משפט • למרות שמחקרים מציעים מקטעים קצרים יותר • במציאות, משפטים הם מורכבים יותר ומהווים אורך מקטע ארוך מדי למטרות מעשיות • תהליך ההתאמה והרכבה דורש חלוקה למקטעים קצרים יותר • “the potential of EBMT lies in the exploitation of fragments of text smaller than sentences” Cranias (1994)

  17. דוגמא • נרצה לתרגם את המשפט הבא: Michael was next to present his work במאגר הדוגמאות הבאות: • We have to present our work tomorrow • אנחנו צריכים להציג את העבודה שלנו מחר • He bought the present yesterday • הוא קנה את המתנה אתמול • חלוקה למקטעים קטנים מידי עלולה להביא לתרגום לא נכון • אם החלוקה היית למקטעים של מילה היינו עלולים לקבל את התרגום הבא: • מיכאל היה הבא ל "מתנה" את עבודתו • במקום • מיכאל היה הבא להציג את עבודתו • לכן נדרשת חלוקה למקטעים יותר ארוכים למציאת ההקשר

  18. גודל המאגר • נשאלת השאלה , מה מספר הדוגמאות שיש לאחסן במאגר ? • הצורה בה הן יאוחסנו יכולה להשפיע על הכמות הנדרשת • המגמה הכללית היא שמאגרים גדולים יותר נותנים תוצאות טובות יותר • אבל מניחים שקיים גבול שאותו אין לעבור • הגדלה מעבר לא תשפר את התוצאות ויכולה אפילו להזיק • מקרה מיוחד הוא ניסוי של עבודה עם WWW כקורפוס • Grefenstette’s (1999) expiriment • אין מסקנה חד משמעית , רק שיש עוד מקום למחקר רב בנושא

  19. התאמה של דוגמאות • אילו דוגמאות עלינו לשלב במאגר ? • אין הסכמה גורפת • קיימות מערכות העובדות עם מאגרים שנוצרו בצורה ידנית או ע"י סינון קפדני של סט דוגמאות "טבעיות" • מאגרי מידע גדולים המכילים טקסט "טבעי" יכולים להכיל: • דוגמאות חופפות שמתחרות זו בזו • דוגמאות זהות • דוגמאות שסותרות אחת את השנייה • כפילויות יכולות לעזור למערכת במידה והן מסכימות על התרגום ולהזיק במידה ויש קונפליקט.

  20. התאמה של דוגמאות (פתרונות) • משתמשים במדד דימיון המבוסס על תדירות תרגום • לדוגמאות תרגום שמופיעות באופן תדיר יותר יהיה סיכוי גבוה יותר להבחר בתור דוגמא שעליה יתבסס התרגום • ללא שימוש במדד דמיון ריבוי של דוגמאות זהות או חופפות גורמות לנזק • מבחינים בין דוגמאות כלליות ודוגמאות חריגות על מנת לדמות התנהגות של שיטות מבוססותו חוקים בלשניים.

  21. התאמה של דוגמאות - דוגמא • נרצה לתרגם את המשפט הבא לאנגלית: • "אני משתמש במחשבון" • במאגר נמצאות הדוגמאות הבאות: • אני חולק את השימוש במחשב • I share the use of a computer • אני משתמש במכונית • I use a car • אפשרויות התרגום על סמך הנ"ל יהיו: • I share the use of a calculator • I use a calculator • בגלל הקירבה בין מחשב ומחשבון יבחר תרגום מספר 1 על סמך דוגמא 1 למרות שהתרגום הנכון היה צריך להיות 2. • היה ניתן למנוע את זה ע"י הסרה של דוגמא 1 מהמאגר או הגדרתה כדוגמא חריגה.

  22. צורות אחסון של דוגמאות • בכדי שהמערכת תהיה יעילה נדרש לאחסן את התרגומים בצורה יעילה • קיימות צורות רבות של איחסון • String pairs • אחסון של טקסט בשפת מקור ממול מחרוזת תרגום בשפת יעד • Indexing • לקוח מעולם איחזור המידע (IR), עובד בדומה למנועי חיפוש באינטרנט • Tree structures • הדומאות מאוחסנות בזוגות של מבני עצים בעלי קשרים • יש לספק מידע נוסף על הדוגמא פרט לתרגום עצמו • לדוגמא המילה OK - פירושה משתנה כתלות בהקשר ("I agree", “I understand” ) • במקרה כזה נצטרך לאחסן אותה עם מידע נוסף

  23. 1. אחסון בעזרת מבני עצים • שיטת אחסון בה הדוגמאות מאוחסנות בעצים מתוייגים (בעלי מידע נוסף). • עץ דוגמא בשפת המקור מקושר לעץ דוגמא בשפת היעד • קיימות שיטות שונות לבניית העצים, מבוססות על חוקים מהעולם הבלשני . • שיטת אחסון זו דורשת ניתוח תחבירי של הדוגמא על מנת לבנות את העץ .

  24. 1. אחסון ע"י עצים • בשיטה זו מאחסנים את הדוגמאות בעצים. • ישנו עץ לדוגמא בשפת המקור ועץ לדוגמא בשפת היעד • יש מספר שיטות לבניית העצים, כולם מתבססים על חוקים תחביריים של השפה . • קישורים בין צמתים בשפת המקור לצמתים בשפת היעד. • שיטת אחסון זו מזכירה קצת תרגום מבוסס חוקים משום שהיא דורשת ניתוח תחבירי של הדוגמא , על מנת לבנות את העץ.

  25. have • nagai • subj • obj • wa • ga • hair • kanojo • kami • she • mod • long 1. אחסון ע"י עצים - דוגמא • Kanojo wa kami ga nagai. • SHE (topic) HAIR (subj) IS-LONG. • She has long hair. • Kare wa me ga aoi. • He has blue eyes. • aoi • he • eyes • me • kare • blue

  26. picks[v]up)p) (1-2+4-5/0-5) מרים (פועל) (1-2/0-5) • האינדקסים השמאליים מתארים את השלב בו נקראת המילה במעבר על העץ. • האינדקסים הימניים מתארים את התת עץ הנפרש ע"י הצומת (המילה) • קיימת בנוסף יחידת קישור בין 2 העצים אשר מקשרת בין תתי העצים הוא (ש"י) (0-1/0-1) כדור (ש"ע) (4-5/2-5) ball[n] (3-4/2-4) He [n] (0-1/0-1) ה (ידיעה) (3-4/2-4) the[det] (2-3/2-3) את (מ"י) (2-3/2-3) He picks the ball up 0-1 1-2 2-3 3-4 4-5 הוא מרים את ה כדור 1-0 2-1 3-2 4-3 5-4

  27. 2. אחסון ע"י דוגמאות מוכללות • סוג של תבניות לשוניות המייצגות קבוצה של דוגמאות דומות • דוגמאות דומות יכולות להיות משולבות לכדי דוגמא מוכללת • חלקים מהדוגמאות מוחלפים בסימנים שמהווים חלק מהתבנית • מזכיר מערכת של חוקי המרה • בכדי להכניס דוגמא חדשה צריכה להיבחר עבורה תבנית מתאימה ע"י שימוש במילון וסטטיסטיקה.

  28. 2. אחסון ע"י דוגמאות מוכללות במאגר נמצא התרגום הבא: תרגום מקורי משפת המקור לשפת יעד: John Miller flew to Frankfurt on December 3rd. John Miller ist am 3. Dezembernach Frankfurt geflogen. דוגמא מוכללת שבנינו מדוגמת התרגום לעיל: <1stname> <lastname> flew to <city> on <month><ord>. <1stname> <lastname>ist am <num>. <month>nach<city>geflogen. תרגום ע"י מציאת התאמה: Dr Howard Johnson flew to Ithaca on 7 April 1997. המשפט הנ"ל יכול להיות מתורגם ע"י שילוב הדוגמאות המוכללות הבאות: <person-m> flew to <city> on <date> . < person-m >ist am <date>nach<city>geflogen.

  29. 3. אחסון ע"י שיטות סטטיסטיות • לא מאחסנים את הדוגמאות עצמן • מאחסנים נתונים סטטיסטיים על מספר ההופעות של מילים ומחרוזות כנגד תרגומים בקורפוס עליו מתבססים • תהליך התרגום מורכב מחיפוש מחרוזת בשפת היעד אשר נותנת תוצאה אופטימלית בהנתן מחרוזות המקור

  30. התאמה - Matching • שלב מציאת הדוגמא המתאימה עבור הקלט • בעקרון השלב הפשוט בתהליך התרגום • תלוי בשיטת האחסון של הדוגמאות • יכול להתבצע בצורה יעילה עבור שיטות אחסון המכילות מידע נוסף (POS tags, semantic info, structural representations) • בשיטות סטטיסטיות מציאת ההתאמה היא משימה מתמטית • התאמת הדוגמא ע"י מציאת הסתברות מקסימלית • בשיטות יותר קונבנציונליות משימת ההתאמה בעלת אופי בלשני.

  31. התאמה מבוססת תווים • התאמה בין מחרוזות או תווים • מבוססת על דימיון מחרוזות ומרחקים בין מחרוזות • המאגר שלנו מכיל טקסטים מתורגמים משפה א' לשפה ב' • מחפשים התאמה של מחרוזת קלט למחרוזת במאגר הנתונים אשר קיים עבורה תרגום, ההתאמה תתבצע לפי שיויון של תווים ב-2 המחרוזות • בשיטת איחסון דוגמאות כמחרוזות ההתאמה נעשית ברמה של תווים • בתחילה היו נדרשות התאמות מדויקת בין 2 דוגמאות. • חוץ ממחרוזות אלפאנומריות – זוהי מחרוזת המשלבת אותיות ומספרים

  32. התאמה מבוססת תווים - דוגמא 1. a. This is shown as A in the diagram b. This is shown as B in the diagram • בדוגמא 1 תהיה התאמה בין a ל-b כיוון שיש התאמה מלאה פרט למחרוזות אלפא-נומריות (A ו-B) 2. a. The large paper tray holds up to 400 sheets of A3 paper.b. The small paper tray holds up to 300 sheets of A4 paper. • בדוגמא 2 לא תהיה התאמה בין a ל-b כיוון שלמערכת אין אפשרות לדעת שיש קשר בין large ל-small.

  33. התאמה מבוססת מילים • השיטה ה"קלאסית" למציאת דימיון בין מילים • שיטה שהייתה בשימוש נרחב במערכות מוקדמות • מבוססת על שימוש במילון למציאת דימיון בין מילים • ההתאמה מתקיימת גם כאשר מילים מסוימות אינן מופיעות אלא מופיעות מילים קרובות אליהן (על סמך תרגום מילוני) • מילים קרובות מתגלות ע"י מרחקים יחסיים במילונים הררכים או מדדים משותפים • בעיות מהשיטה הקודמת לא קיימות בשיטה זו • שיטה יעילה לבחירה בין דוגמאות דומות מתחרות

  34. התאמה מבוססת מילים - דוגמא • המאגר מכיל את הדוגמאות הבאות: • A man eats vegetables. אדם אוכל ירקות • Acid eats metal. חומצה מאכלת מתכת • הקלט לתירגום: He eats potatoes • המילה " “potatoes קרובה יותר למילה"vegetables" מאשר למילה “metal” . • המילה "He" קרובה יותר למילה “man” מאשר למילה “acid” • לכן, הפירוש של המילה eat יילקח מדוגמא מספר 1 • המשפט יתורגם ל: "הוא אוכל תפוחי אדמה"

  35. התאמה מבוססת מילים – דוגמא • המאגר מכיל את הדוגמאות הבאות: • A man eats vegetables. אדם אוכל ירקות • Acid eats metal. חומצה מאכלת מתכת • הקלט לתירגום: Sulphuric acid eats iron • המילה “iron” קרובה יותר למילה “metal” מאשר למילה “vegetables” • בגלל השימוש המשותף במילה “acid” הפירוש של המילה eat יילקח מדוגמא מספר 2 • המשפט יתורגם ל: "חומצה גפריתנית מאכלת ברזל"

  36. Caroll’s “Angle of Similarity” • מדד דמיון טריגונומטרי המבוסס על אורך יחסי ועל התוכן היחסי של המחרוזות המיועדות להיות מותאמות • מדד זה מחפש מילים דומות ולוקח בחשבון השמטות, הוספות והחלפות במסד הנתונים עבור דוגמא נתונה • מתבצעת הערכה של העלות ועלות זו יכולה לשקף הכללות לשוניות. • לדוגמא, עבור שני משפטים שהקלט מושווה מולם פסיק חסר במשפט אחד יהיה בעל עלות נמוכה יותר מאשר שם תואר או שם עצם חסר חסר במשפט השני • כלומר, משפט השונה בפסיק ממשפט הקלט יחשב קרוב יותר אליו

  37. Caroll’s “Angle of Similarity” : d מרחק בלשני • נחשב את d מרחק בלשני טריגונומטרי • המרחק בין 2 משפטים מתאים לפונקציה המרחק δ • פונקציה זו עובדת בצורה דומה לפונקצית התאמת מחרוזות • המשקל מוגדר על פי תחום התרגום של המערכת • נבחרת הזווית הקטנה ביותר

  38. דוגמא • הקלט למערכת יהיה המשפט הבא (a): a. Select “Symbol” in the insert menu. b. Select “Symbol” in the insert menu to enter a character from the symbol set c. Select “Paste” in the edit menu. d. Select “Paste” in the edit menu to enter some text from the clip board. • רוב שיטות ההתאמה יבחרו ב-c כהתאמה הטובה ביותר (הבדל רק ב-2 מילים) • אבל, אינטואיטיבית רואים כי b מתאים יותר עבור תרגום של a • בנוסף, בין b ל-d יש דמיון רב יותר מאשר בין a ל-c למרות שהבדל המילים בין b ל-d גדול יותר.

  39. דוגמא a. Select “Symbol” in the insert menu. [השקפים אינם מבהירים את השיטה כראוי ] b. Select “Symbol” in the insert menu to enter a character from the symbol set c. Select “Paste” in the edit menu. d. Select “Paste” in the edit menu to enter some text from the clip board. • הזווית 0 בטבלה מראה שההבדל בין a ל- b נובע מהבדלי אורך בלבד • הבדל כמותי ולא איכותי • בדומה השורות השנייה והשלישית מראות גם הבדל כמותי וגם איכותי בין המשפטים, אבל, ההבדל בין b ל-d קטן יותר (זווית קטנה יותר)

  40. התאמת מילים עפ"י חלקי דיבר • נתייג מילים על סמך חלקי דיבר (POS-Part Of Speech) • התג מכיל אינפורמציה על המילה (ש"ע, ש"ת, פועל...) • נעשה ניתוח על סמך חלקי דיבר • מה ההסתברות של כל חלק דיבר • בהינתן מילה נסתכל על כל ניתוחיה • לכל ניתוח מסתכלים על חלק הדיבר ונותנים את הניתוח הנפוץ ביותר • ההקשר לא נלקח בחשבון ועל כן התוצאות פחות טובות • ניתן לשפר את התוצאות אם ננסה לנתח גם את ההקשר (למשל לפני שם תואר יבוא בדר"כ שם עצם)

  41. הרכבה • לאחר שהתאמנו סט של דוגמאות והתרגומים שלהן, סיננו מהתרגומים את הפרגמנטים המתאימים, נשאלת השאלה כיצד נרכיב אותם לכדי משפט שיהיה נכון דקדוקית? • תלוי איך הדוגמאות מאוחסנות • צריך להרכיב את הפרגמנטים בצורה שתיצור תרגום נכון

  42. הרכבה – דוגמא טובה He buys a book on politics התאמות • He buys the notebook. הוא קונה את המחברת • He buys the pen. הוא קונה את העט • I read the book on politics. אני קורא את הספר על פוליטיקה • She wrote the book on politics. היא כתבה את הספר על פוליטיקה תוצאה הוא קונה את. הספר על פוליטיקה

  43. הרכבה – דוגמא לא טובה נרצה לתרגם את המשפט הבא לאנגלית: הוא הביט באישתו התאמות He cheated his wife. הוא בגד באישתו He looked at his watch. הוא הביט בשעונו תוצאה מקבלים תרגום שגוי He looked his wife בשפה העברית מציינים מושא בעזרת הקידומת "ב" בשני המקרים בשפה האנגלית ציון המושא מתרחש פעם על ידי הקידומת “the” ופעם על ידי הקידומת “at the” חוסר מידע בלשני גורם למערכת לתרגם את ציון המושא בצורה לא נכונה --> כדי לקבל תוצאות טובות צריך להכניס גם מידע בלשני !

  44. בעית - Boundary Friction • ישנן שפות בהן שמות עצם ,למשל, מקבלים צורה שונה בהתאם לתפקיד השם במשפט • כאן, דוגמא של תרגום מאנגלית לגרמנית כאשר השם עצם "the handsome boy" מקבל צורה שונה בתרגום לגרמנית במשפט השני כאשר הוא מקבל תפקיד תחבירי שונה (נשוא מושא במקום נושא) קלט: The handsome boy entered the room התאמות: The handsome boy ate his breakfast. Der schöne Junge aß seinFrühstück I saw the handsome boy. Ich sah den schönen Jungen.

  45. בעית - Boundary Friction • פתרון אפשרי לבעייה הוא השימוש בדקדוק של שפת היעד • ניתן להשתמש בכללי דקדוק על מנת לשכתב את המשפט שנוצר מחיבור המקטעים המתורגמים למשפט נכון דקדוקית • דבר זה אפשרי כאשר השימוש הוא במערכות היברדיות, המשלבות כללים בלשניים • פתרון זה אינו פשוט , ונכון לזמן כתיבת המאמר לא היה קיים המימוש המוצע כאן • פתרון אפשרי נוסף הוא [דרוש הסבר] L abelled fragments • שימוש בהקשר שבו הופיע הפרגמנט בזמן הרכבתו לפרגמנט נוסף

  46. מודל הסתברותי • שיטה נוספת להרכבת הפרגמנטים • הקורפוס יחזיק מידע סטטיסטיקות של צירופים שונים של פרגמנטים בשפת היעד • צירופים של 2 מילים, של 3 מילים (n-גרם) • ההסתברויות מחושבות מתוך הקורפוס • בחירת הצירוף בעלת ההסתברות הגבוה ביותר • אם יש יותר מאפשרות צירוף אחת , בוחרים את השכיחה ביותר

  47. בעיות חישוביות • בסופו של דבר מערכת אמיתית תהייה ממומשת על מערכות ממוחשבות דבר שגורר התחשבות במשאבי המערכת • מימוש מסובך דורש הקצאות גדולות של משאבים (מקום, זמן) מה שיכול להיות בעייתי • אלגוריתמים מסובכים • מבני נתונים מורכבים • התחזוקה של הדוגמאות ב EBMT תהייה מסובכת ותדרוש משאבי זכרון וזמן • לכן, המימוש חייב להיות יעיל מכיוון שזמן מהווה גורם מכריע במערכות תרגום real-time (לדוגמא כנסים באו"ם) • קיימים ניסיונות לפתור בעיות אלו ע"י מיקבול ואופטימיזציות • הכללה של מספר דוגמאות לדוגמא אחת כללית (תבנית)

  48. EBMT – when to use • ישנם מצבים בהם גישת EBMT היא עדיפה על פני גישות אחרות • במצבים הבאים יש יתרונות רבים ל EBMT • קושי ביצירת חוקי תרגום בין שפת המקור ושפת היעד • כאשר המערכת מיועדת לשמש תת שפה מסוימת • קיומם של מאגרי מידע גדולים היכולים לשמש כקורפוס • הרכבה של מילים לשפת היעד הינה קשה במיוחד

  49. Pure EBMT • כעקרון מערכות הנוקטות בגישה של תרגום על בסיס דוגמאות טהורה כמעט ולא נמצאות בשימוש • לרב מערכות תרגום משלבות בין השיטה הנ"ל לשיטות נוספות על מנת לספק פתרון טוב • היה ניסיון של המחבר לבדוק מערכת כזו שהסתיים במסקנה שעדיף להשתמש במערכות היברידיות

  50. EBMT – למקרים מיוחדים • אחד מהשימושים בשיטת ה- EBMT היה שימוש בה כמודול נוסף במערכת עבור מקרים מיוחדים, מקרים בהם הפעלת שיטה מבוססת חוקים היא מאד מסובכת • דוגמא לכך היא, השימוש במודול זה עבור תרגומים מאנגלית לשפה היפנית במקרים מיוחדים • דוגמא נוספת, היא שימוש בה עבור תרגומים של compound nouns ו- noun phrases מאנגלית • הינם בעלי מיבנה פשוט אבל ייחודי

More Related