300 likes | 602 Views
עיבוד שפות טבעיות - שעור שני מורפולוגיה. יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון. מילים מילים. מהי מילה? יחידת המידע העצמאית הקטנה ביותר בשפה למשל: ספר, שולחן אבל לא: ה ( ספר ), ( walk ) -ed מילה? She'd בשפה כתובה, לא כל "מחרוזת" או "יחידה" המוקפת ברווחים היא מילה - למשל:
E N D
עיבוד שפות טבעיות - שעור שנימורפולוגיה יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון
מילים מילים • מהי מילה? • יחידת המידע העצמאית הקטנה ביותר בשפה למשל: ספר, שולחן • אבל לא: ה(ספר), (walk)-ed • מילה? She'd • בשפה כתובה, לא כל "מחרוזת" או "יחידה" המוקפת ברווחים היא מילה - למשל: ואכלתיהו - ואני אכלתי אותו
הברות • מילים מורכבות מהברות - morphemes שהן "יחידות המידע הקטנות ביותר הנושאות משמעות" • יש מילים שהן הברות: • car, fish • מילה יכולה להיות מורכבת מכמה מורפימות: • סוסיהם - סוס + י(ם) + הם • לכן שימוש מדויק יותר הוא במונח "לקסמה"lexeme שהיא המילה או הצורה הבסיסית ביותר בעלת משמעות מילונית.
מוספיות(affixes) : תחילית, תוכית, וסופית • מילים מחולקות ל-stem ול-affixes • תחיליות - prefixes - הן המוספות בתחילת המילה • Un-believable, re-direction • סופיות - suffixes - מוספות בסוף המילה למשל: ing :having, eating • תוכיות infixes - - מורפמה המוכנסת לגזע או שורש - למשל אותיות הקובעות בניין בעברית - התפעל - התרחץ, התלכלך
תהליכים מורפולוגיים נוספים • צורות נוספות של שינוי מילים או 'תהליך מורפולוגי' שעובר על מילים הן • גזירה derivation • הטייה inflection • מורפולוגיה היא מסובכת בגלל שיש הרבה יוצאי דופן, למשל: • שמות עצם: goose/geese, mouse/mice • פעלים:go/went eat/ate • ההתייחסות תהייה עם הביטוי: רגולריים regular ואי-רגולרי irregular
הטיה inflection • שינוי בצורת המילה מתוך צרכים תחביריים - למשל • כשמסמנים מספר (יחיד/רבים) - number • נערה - נערות • מין gender • נער - נערה • גוף person • אני רצתי - אנחנו רצנו • בעברית מערכת ההטיות מורכבת
הטיות באנגלית • באנגלית מערכת ההטיות פשוטה יחסית. כולה מורפולוגיה משורשרת concatenative morphology. • עבור שמות עצם: ריבוי ושייכות possessives . • יש חוקי כתיב spelling rules למשל שמלים שמסתיימות ב-x סימון לרבים יהיה -es ולא -s. • עבור פעלים: ההטיות מגוונות יותר
הטיית פעלים באנגלית • שלושה סוגי פעלים: • Main verbs: eat, sleep, run • Modal verbs: can, will, should • Primary verbs: be, have, do • פעלים נקראים רגולריים regular אם כל הסיומות מסמנות אותה פונקציה עבור כולם. • ארבע צורות עקריות:
גזירה derivation • גזירה היא יצירת לקסמות ממבנים בסיסיים או לשינוי חלק הדיבר של המילה. • בעברית: השורש ט.ב.ח וצורן הגזירה מִ__ָ_ מטבח • באנגלית: sweet - adjective sweetness - noun באנגלית מעט הטיות ומערכת גזירה ענפה.
מורפולוגיה, חיפושים באינטרנט וכולי • למשל, חיפושים באיטנרנט • אם מילת החיפוש היא fox • האם אנחנו רוצים למצוא גם מסמכים בהם צורת הריבוי? למשל foxes • ומה במקרה של goose-geese?
ניתוח מורפולוגי של מילה • Morphological parsing • ניתוח: קבלת קלט כלשהו ויצירת מבנה ממנו. • בתחום איחזור המידע IR נקרא: stemming • stemming הוא התהליך ש"מפשיט" מילים מורכבות לצורתן הבסיסית: foxes -> fox • ניתוח מורפולוגי יקבל כקלט מילה כ-goingויחזיר כפלט את הניתוח VERB-GO + GERUND-ing
למה צריך ניתוח מורפולוגי • איחזור מידע • תרגום אוטומטי • תיקון שגיאות כתיב אוטומטי ומצד שני - חוקי הניתוח יכולים להיות ממומשים ליצירת מילים מוטות.
מורפולוגיה היא פרודוקטיבית • לא יעיל לשים בלקסיקון את כל המילים על צורת ההטיה שלהן. • הסיומת, ing, למשל היא פרודוקטיבית כי היא ניתנת לצירוף לכל פועל באנגלית. • גם צורת הריבוי -s . • יש גם יצירה של מילים חדשות (fax -> faxing) • מצד שני, יש הרבה יוצאי דופן.
Finite-State morphological Parsing • דוגמא פשוטה: ניתוח ריבוי פשוט של שמות עצם ו-verbal progressive (-ing). • המטרה: קלט: cats פלט: cat + N + SG קלט: geese פלט: goose + N+ PL קלט: merging פלט: merge + V + PRES-PART קלט: caught פלט: (catch + V + PAST-PART) or (catch + V + PAST)
בניית מנתח מורפולוגי • כדי לבנות מנתח מורפולוגי יש צורך ב: • לקסיקון - רשימת שורשים stems ו-affixes, עם מידע כללי כגון האם ה-stem הוא שם עצם, פועל וכו'. • Morphotactics - המודל לסידור המורפמות (איזו מורפמה היא תחילית ואיזו סופית) • חוקים אורתוגרפיים orthographic rules חוקי הכתיב - שינויים החלים במילה למשל - y-> ie כמו במקרה שלcity + -s -> cities
ניתוח מורפולוגי בעזרת finite state transducers (FSTs) - Two level morphology (Koskenniemi 1983) • הפרדת הרמה הלקסיקלית מהרמה שעל פני השטח • נקודת המוצא היא FSA פשוט • הוספת סרט tape לאוטומט • הוספת סמלים למעברים באוטומט • לדוגמא - אם על סרט אחד כתוב catsעל הסרט השני יהיה בהתאם cat+N+PL
שימוש אופייני ב-FST • קריאת הסמל השני שעל המעבר על פי הקלט בסרט התחתון (ה-surface) • כתיבה בסרט העליון על פי הסמל הראשון במעבר (ה-lexical level). • a:b פירושו b בסרט התחתון מועתק לסמל a בסרט העליון. • a: פירושו ש-a בסרט העליון מתייחס ל"שום דבר" בסרט התחתון. • זוגות a:a הן זוגות 'ברירות מחדל' ושקולים ל-a. • FST להבדיל מ-FSA לא רק מגדיר שפה אלא מגדיר יחס בין מחרוזות.
נקודות מבט על FST • מזהה - recognizer - מקבל זוג מחרוזות כקלט אותן 'מקבל' אם זוג המחרוזות שייך לשפת ה'זוגות' • מייצר - generator - מייצר זוגות מחרוזות השייכים לשפה, ו'כן' או 'לא' • FST - מכונה שמקבלת מחרוזת אחת ומחזירה פלט מחרוזת אחרת. • FST כמכונה המחשבת יחס בין קבוצות. • דומה ל-Mealy Machine
מנתח מורפולוגי - גרסא I - מורפוטקטיקה
רב משמעות בניתוח מורפולוגי • יש משמעות למעבר • unionizeable: • un-ion-ize-able • union-ize-able • שניהם מעברים תקפים באוטומט שתוצאתם ניתוח שונה.
רב משמעות בניתוח מורפולוגי - פתרונות אפשריים • קבל את הניתוח הראשון המוצלח • הרץ את המנתח עם כל המעברים האפשריים, כתיבת כל התוצאות בסרט הפלט.
הוספת חוקי איות ל-FST • ישנם חוקי איות שהם תלויי הקשר • למשל - • cat + N + PL -> cats • fox + N + PL -> foxes
Multi-level multi-tape machines • ניתן לצרף מכונות FST אחת לשנייה, כך שהפלט של האחת היא הקלט של השנייה. • טיפול בחוקי האיות מוסיף למעשה סרט נוסף ב-FST ויוצר שלוש שכבות: • Lexical • Intermediate • Surface
Intermediate to Surface Transducer • צריך FST שבמעברים שלו יוסיפו e למילים המסתיימות ב-x, s, z לפני הוספת ה-s לריבוי.
Lexicon-Free FSTs: Porter Stemmer • שיטה המשמשת בעיקר ב-IR, ללא שימוש בלקסיקון. • בהנחה שסיומות כגון אלה המציינות מספר אינן נושאות משמעות ביחס לרלוונטיות של מסמכים. • Stemmning algorithms - Porter 1980 • לאלגוריתם חוקים בצורה: • ATIONAL -> ATE • למשל relational -> relate • ING -> if stem contains vowel
ביצועים של stemmers • Krovetz מדגים סוגי טעויות • Omission - • Matrices - matrix • Comission- • Organization - organ • כמו כן הוא הראה ש-stemming משפר במידה מסויימת ביצועים בעיקר עבור מסמכים קטנים