1 / 30

עיבוד שפות טבעיות - שעור שני מורפולוגיה

עיבוד שפות טבעיות - שעור שני מורפולוגיה. יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון. מילים מילים. מהי מילה? יחידת המידע העצמאית הקטנה ביותר בשפה למשל: ספר, שולחן אבל לא: ה ( ספר ), ( walk ) -ed מילה? She'd בשפה כתובה, לא כל "מחרוזת" או "יחידה" המוקפת ברווחים היא מילה - למשל:

karik
Download Presentation

עיבוד שפות טבעיות - שעור שני מורפולוגיה

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. עיבוד שפות טבעיות - שעור שנימורפולוגיה יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון

  2. מילים מילים • מהי מילה? • יחידת המידע העצמאית הקטנה ביותר בשפה למשל: ספר, שולחן • אבל לא: ה(ספר), (walk)-ed • מילה? She'd • בשפה כתובה, לא כל "מחרוזת" או "יחידה" המוקפת ברווחים היא מילה - למשל: ואכלתיהו - ואני אכלתי אותו

  3. הברות • מילים מורכבות מהברות - morphemes שהן "יחידות המידע הקטנות ביותר הנושאות משמעות" • יש מילים שהן הברות: • car, fish • מילה יכולה להיות מורכבת מכמה מורפימות: • סוסיהם - סוס + י(ם) + הם • לכן שימוש מדויק יותר הוא במונח "לקסמה"lexeme שהיא המילה או הצורה הבסיסית ביותר בעלת משמעות מילונית.

  4. מוספיות(affixes) : תחילית, תוכית, וסופית • מילים מחולקות ל-stem ול-affixes • תחיליות - prefixes - הן המוספות בתחילת המילה • Un-believable, re-direction • סופיות - suffixes - מוספות בסוף המילה למשל: ing :having, eating • תוכיות infixes - - מורפמה המוכנסת לגזע או שורש - למשל אותיות הקובעות בניין בעברית - התפעל - התרחץ, התלכלך

  5. תהליכים מורפולוגיים נוספים • צורות נוספות של שינוי מילים או 'תהליך מורפולוגי' שעובר על מילים הן • גזירה derivation • הטייה inflection • מורפולוגיה היא מסובכת בגלל שיש הרבה יוצאי דופן, למשל: • שמות עצם: goose/geese, mouse/mice • פעלים:go/went eat/ate • ההתייחסות תהייה עם הביטוי: רגולריים regular ואי-רגולרי irregular

  6. הטיה inflection • שינוי בצורת המילה מתוך צרכים תחביריים - למשל • כשמסמנים מספר (יחיד/רבים) - number • נערה - נערות • מין gender • נער - נערה • גוף person • אני רצתי - אנחנו רצנו • בעברית מערכת ההטיות מורכבת

  7. הטיות באנגלית • באנגלית מערכת ההטיות פשוטה יחסית. כולה מורפולוגיה משורשרת concatenative morphology. • עבור שמות עצם: ריבוי ושייכות possessives . • יש חוקי כתיב spelling rules למשל שמלים שמסתיימות ב-x סימון לרבים יהיה -es ולא -s. • עבור פעלים: ההטיות מגוונות יותר

  8. הטיית פעלים באנגלית • שלושה סוגי פעלים: • Main verbs: eat, sleep, run • Modal verbs: can, will, should • Primary verbs: be, have, do • פעלים נקראים רגולריים regular אם כל הסיומות מסמנות אותה פונקציה עבור כולם. • ארבע צורות עקריות:

  9. גזירה derivation • גזירה היא יצירת לקסמות ממבנים בסיסיים או לשינוי חלק הדיבר של המילה. • בעברית: השורש ט.ב.ח וצורן הגזירה מִ__ָ_ מטבח • באנגלית: sweet - adjective sweetness - noun באנגלית מעט הטיות ומערכת גזירה ענפה.

  10. מורפולוגיה, חיפושים באינטרנט וכולי • למשל, חיפושים באיטנרנט • אם מילת החיפוש היא fox • האם אנחנו רוצים למצוא גם מסמכים בהם צורת הריבוי? למשל foxes • ומה במקרה של goose-geese?

  11. ניתוח מורפולוגי של מילה • Morphological parsing • ניתוח: קבלת קלט כלשהו ויצירת מבנה ממנו. • בתחום איחזור המידע IR נקרא: stemming • stemming הוא התהליך ש"מפשיט" מילים מורכבות לצורתן הבסיסית: foxes -> fox • ניתוח מורפולוגי יקבל כקלט מילה כ-goingויחזיר כפלט את הניתוח VERB-GO + GERUND-ing

  12. למה צריך ניתוח מורפולוגי • איחזור מידע • תרגום אוטומטי • תיקון שגיאות כתיב אוטומטי ומצד שני - חוקי הניתוח יכולים להיות ממומשים ליצירת מילים מוטות.

  13. מורפולוגיה היא פרודוקטיבית • לא יעיל לשים בלקסיקון את כל המילים על צורת ההטיה שלהן. • הסיומת, ing, למשל היא פרודוקטיבית כי היא ניתנת לצירוף לכל פועל באנגלית. • גם צורת הריבוי -s . • יש גם יצירה של מילים חדשות (fax -> faxing) • מצד שני, יש הרבה יוצאי דופן.

  14. Finite-State morphological Parsing • דוגמא פשוטה: ניתוח ריבוי פשוט של שמות עצם ו-verbal progressive (-ing). • המטרה: קלט: cats פלט: cat + N + SG קלט: geese פלט: goose + N+ PL קלט: merging פלט: merge + V + PRES-PART קלט: caught פלט: (catch + V + PAST-PART) or (catch + V + PAST)

  15. בניית מנתח מורפולוגי • כדי לבנות מנתח מורפולוגי יש צורך ב: • לקסיקון - רשימת שורשים stems ו-affixes, עם מידע כללי כגון האם ה-stem הוא שם עצם, פועל וכו'. • Morphotactics - המודל לסידור המורפמות (איזו מורפמה היא תחילית ואיזו סופית) • חוקים אורתוגרפיים orthographic rules חוקי הכתיב - שינויים החלים במילה למשל - y-> ie כמו במקרה שלcity + -s -> cities

  16. ניתוח מורפולוגי בעזרת finite state transducers (FSTs) - Two level morphology (Koskenniemi 1983) • הפרדת הרמה הלקסיקלית מהרמה שעל פני השטח • נקודת המוצא היא FSA פשוט • הוספת סרט tape לאוטומט • הוספת סמלים למעברים באוטומט • לדוגמא - אם על סרט אחד כתוב catsעל הסרט השני יהיה בהתאם cat+N+PL

  17. שימוש אופייני ב-FST • קריאת הסמל השני שעל המעבר על פי הקלט בסרט התחתון (ה-surface) • כתיבה בסרט העליון על פי הסמל הראשון במעבר (ה-lexical level). • a:b פירושו b בסרט התחתון מועתק לסמל a בסרט העליון. • a: פירושו ש-a בסרט העליון מתייחס ל"שום דבר" בסרט התחתון. • זוגות a:a הן זוגות 'ברירות מחדל' ושקולים ל-a. • FST להבדיל מ-FSA לא רק מגדיר שפה אלא מגדיר יחס בין מחרוזות.

  18. נקודות מבט על FST • מזהה - recognizer - מקבל זוג מחרוזות כקלט אותן 'מקבל' אם זוג המחרוזות שייך לשפת ה'זוגות' • מייצר - generator - מייצר זוגות מחרוזות השייכים לשפה, ו'כן' או 'לא' • FST - מכונה שמקבלת מחרוזת אחת ומחזירה פלט מחרוזת אחרת. • FST כמכונה המחשבת יחס בין קבוצות. • דומה ל-Mealy Machine

  19. מנתח מורפולוגי - גרסא I - מורפוטקטיקה

  20. הטמעת המילון באוטומט

  21. מודל לחוקי גזירה

  22. רב משמעות בניתוח מורפולוגי • יש משמעות למעבר • unionizeable: • un-ion-ize-able • union-ize-able • שניהם מעברים תקפים באוטומט שתוצאתם ניתוח שונה.

  23. רב משמעות בניתוח מורפולוגי - פתרונות אפשריים • קבל את הניתוח הראשון המוצלח • הרץ את המנתח עם כל המעברים האפשריים, כתיבת כל התוצאות בסרט הפלט.

  24. הוספת חוקי איות ל-FST • ישנם חוקי איות שהם תלויי הקשר • למשל - • cat + N + PL -> cats • fox + N + PL -> foxes

  25. Multi-level multi-tape machines • ניתן לצרף מכונות FST אחת לשנייה, כך שהפלט של האחת היא הקלט של השנייה. • טיפול בחוקי האיות מוסיף למעשה סרט נוסף ב-FST ויוצר שלוש שכבות: • Lexical • Intermediate • Surface

  26. Lexical to Intermediate Transducer

  27. Intermediate to Surface Transducer • צריך FST שבמעברים שלו יוסיפו e למילים המסתיימות ב-x, s, z לפני הוספת ה-s לריבוי.

  28. Lexicon-Free FSTs: Porter Stemmer • שיטה המשמשת בעיקר ב-IR, ללא שימוש בלקסיקון. • בהנחה שסיומות כגון אלה המציינות מספר אינן נושאות משמעות ביחס לרלוונטיות של מסמכים. • Stemmning algorithms - Porter 1980 • לאלגוריתם חוקים בצורה: • ATIONAL -> ATE • למשל relational -> relate • ING ->  if stem contains vowel

  29. ביצועים של stemmers • Krovetz מדגים סוגי טעויות • Omission - • Matrices - matrix • Comission- • Organization - organ • כמו כן הוא הראה ש-stemming משפר במידה מסויימת ביצועים בעיקר עבור מסמכים קטנים

More Related