שיעור 2 - הפרדה למילים ומשפטים ( Tokenization ) - מורפולוגיה

שיעור 2- הפרדה למילים ומשפטים (Tokenization)- מורפולוגיה 89-680

רמות לשוניות עיקריות • מורפולוגיה • תחביר • סמנטיקה • פרגמטיקה/שיח בשיעורים הבאים נבחן את הרמות הלשוניות השונות והטיפול החישובי בהן 89-680

Tokenization • הבעיה הראשונית היא 'שבירת' הקלט למשפטים ולמילים. • במילים הכוונה גם למספרים וכד' • הגישה הנאיבית: • משפט מסתיים ב-'.','?','!‘ • מילה מופרדת ב- whitespace • אך המציאות:... 89-680

Tokenization Issues • מהעושיםבמקרהשלspeechinput? • East Asian Languanges 89-680

89-680

Sentence breaks • '.','?','!' ולפעמים גם ':',';','-','\n' • ~ 90% of periods are sentence breaks • State of the art: 99% accuracy (learning methods) • English capitalization can help • The Problem: period . • can denote a decimal point (5.6), an abbreviation (Mr.), the end of a sentence, thousand segment separator: 3.200 (three-thousand-two-hundred, in Europe),initials: A. B. Smith, ellipsis … 89-680

Sentence breaks… • "`Whose frisbee is this?' John asked, rather self-consciously. `Oh, it's one of the boys' said the Sen.“ • The group included Dr. J. M. Freeman and T. Boone Pickens Jr. • It was due Friday by 5 p.m. Saturday would be too late. • b. She has an appointment at 5 p.m. Saturday to get her car fixed. 89-680

Sentence Break Detection (“technical” algorithm - Manning & Schütze) • Hypothesize SB after all occurrences of . ? ! • Move boundary after immediately following quotation marks • Disqualify periods if: • Preceded by a known abbreviation that is not usually sentence final, but followed by a proper name: Prof. or vs. • Preceded by a known abbreviation and not followed by an uppercase word. • Disqualify a boundary with a ? or ! If: • It is followed by a lowercase letter. • Regard other hypothesized SBs as sentence boundaries. 89-680

מה זה "מילה"? • ערך מילוני (למה): יחידת המידע העצמאית הקטנה ביותר בשפהלמשל: ספר, שולחןאבל לא: ה(ספר), (walk)-ed • מילה? She'd • בשפה כתובה, לא כל "מחרוזת" או "יחידה" המוקפת ברווחים היא למה - למשל:ואכלתיהו - ואני אכלתי אותו • מקובל להתייחס ליחידה הלקסיקאלית המינימאלית בטקסט כ-token 89-680

הכל מילים מילים מילים... • $22.50, 02/02/94, • :-( {} • AT&T,@gentInteractive • U.N. in. Wash. • בית-ספר, בר-אילן, חבל-על-הזמן • Lebensversicherungsgesellschaftsangestellter Life insurance company employee • +972-52-901302 (202) 905-8026 • Model # RQ9038WF2-SR, Xen Steel Diamond Empathy 7.5-in Bracelet (.02 TW) 89-680

טבלאות וHTML • יש סוגי מידע נוספים שאינם טקסט טהור, אבל מכילים מרכיבים בשפה טבעית, שאותם רלוונטי לנתח בשיטות לעיבוד שפה טבעית • טבלאות זה עסק מסובך! • ב-HTML יש כבר mark-up 89-680

מורפולוגיה • מילים מורכבות מהברות - morphemes שהן "יחידות המידע הקטנות ביותר הנושאות משמעות" • יש מילים שהן הברות: • car, fish • מילה יכולה להיות מורכבת מכמה מורפימות: • סוסיהם - סוס + י(ם) + הם • לכן שימוש מדויק יותר הוא במונח "לקסמה"lexeme שהיא המילה או הצורה הבסיסית ביותר בעלת משמעות מילונית • מקובל גם המונח "למה" lemma – ערך מילוני (כניסה במילון) • מעוניינים במודל למורפולוגיה של השפה • ניתוח • יצירה • חשיבות: איות, אחזור מידע, תנאי מקדים לניתוח תחבירי (ליישומים דקדוקיים וסמנטיים) 89-680

מנגנונים מורפולוגיים - מוספיות(affixes) : תחילית, תוכית, וסופית • מילים מחולקות ל-stem(אינו בהכרח מילה) ול-affixes • תחיליות - prefixes - הן המוספות בתחילת המילה • Un-believable, re-direction • סופיות - suffixes - מוספות בסוף המילהלמשל: ing :having, eating • תוכיות infixes - - מורפמה המוכנסת לגזע או שורש - למשל אותיות הקובעות בניין בעברית • התפעל - התרחץ, התלכלך • Circumfix – שילוב של תחילית וסופית (למשל בגרמנית) • מבחינים בין מנגנון שרשורי (concatenative) למנגנון מבוסס תבניות (כגון שורש-בנין בשפות שמיות) 89-680

הטיה inflection • שינוי בצורת המילה מתוך צרכים תחביריים, שאינו משנה את הלמה (המשמעות) ואת חלק הדיבר.למשל : • מספר (יחיד/רבים) - number • נערה - נערות • מין gender • נער - נערה • גוף person • אני רצתי - אנחנו רצנו • זמן tense • מערכת ההטיה תלויה בחלק הדיבר (ש"ע, פועל, שם תואר, ...) • בעברית מערכת ההטיות מורכבת 89-680

הטיות באנגלית • באנגלית מערכת ההטיות פשוטה יחסית. מבוססת על מורפולוגיה משורשרת - concatenative morphology • עבור שמות עצם: ריבוי ושייכות possessives . • יש חוקי כתיב spelling rules למשל מלים שמסתיימות ב-x סימון לרבים יהיה -es ולא -s. • עבור פעלים: ההטיות מגוונות יותר:stem, 3rd person, -ing participle, past, past participle • בטורקית למשל – מערכת שרשורים ענפה (דוגמא עם 11 מרכיבים) 89-680

Regulary Inflected verbs (by rules) 89-680

גזירה • A writer is someone who writes, and a stinger is something that stings. But fingers don’t fing, grocers don’t groce and hammers don’t ham. • Vegetarians eat vegetables—I'm a humanitarian 89-680

גזירה derivation • גזירה היא יצירת לקסמות חדשות מלקסמות קצרות יותר, על פי כללים מורפולוגייםrelation - relationship • בדר"כ גורם לשינוי חלק הדיבר של המילהrelate – relation – relational – relationally • בעברית: השורש ט.ב.ח וצורן הגזירה מִ__ָ_ מטבח • באנגלית: sweet - adjective sweetness – noun • באנגלית מעט הטיות ומערכת גזירה ענפה. • הגזירה אינה אוטומטית – על כל מילה יכולים לפעול רק כללי גזירה מסוימים, או כלל לא 89-680

מידול חישובילמורפולוגיה – ניתוח ויצירה • Morphological analysis/parsing • ניתוח: קבלת קלט כלשהו ויצירת מבנה ממנו. • Lemmatization/stemming הוא התהליך ש"מפשיט" מילים מורכבות לצורתן הבסיסית:foxes -> fox • ניתוח מורפולוגי יקבל כקלט מילה כ-goingויחזיר כפלט את הניתוח VERB-GO + PARTICIPLE-ing 89-680

דוגמאות • דוגמא פשוטה: ניתוח ריבוי פשוט של שמות עצם ו-verbal progressive (-ing). • המטרה: קלט: cats פלט: cat + N + SG קלט: geese פלט: goose + N+ PL קלט: merging פלט: merge + V + PRES-PART קלט: caught פלט: catch + V + PAST-PART 89-680

מטרות מודל מורפולוגי • Recognizer: האם מילה היא תקנית או לא • Generator: מייצר מילים מניתוח מורפולוגי מסוים • Parser: נותן ניתוח מורפולוגי למלים • Lemmatizer/Stemmer: מזהה את צורתהבסיס (lemma/stem) של מילה 89-680

קוים מנחים לטיפול במורפולוגיה • לא יעיל ובהרבה שפות גם אי אפשר לייצג בלקסיקון את כל המילים עםכל צורות ההטיה שלהן • לכן – מחזיקים את הלמות בלקסיקון, ומפעילים מודל חישובי (דינאמי) לניתוח מורפולוגי (הפעלת חוקי המורפולוגיה) • יש הרבה יוצאי דופן – אותם נוסיף ללקסיקון.למשל: • שמות עצם: goose/geese, mouse/mice • פעלים:go/went eat/ate • גזירות – מאחר שאינן אוטומטיות, וכל גזירה מייצרת למה חדשה, מייצגים כל למה בנפרד בלקסיקון • ניתוח גזירות דינאמי רלוונטי לזיהוי למות חדשות/לא מוכרות, ולזיהוי אוטומטי של יחס סמנטי בין מילים (לא נפוץ) 89-680

בניית מנתח מורפולוגי • כדי לבנות מנתח מורפולוגי יש צורך ב: • לקסיקון - רשימת שורשים stems ו-affixes, עם מידע כללי כגון האם ה-stem הוא שם עצם, פועל וכו'. • Morphotactics - המודל לסידור המורפמות (איזו מורפמה היא תחילית ואיזו סופית) • חוקים אורתוגרפיים orthographic rules חוקי הכתיב - שינויים החלים במילה למשל - y-> ie כמו במקרה שלcity + -s -> cities 89-680

Finite-State Automaton for Recognizing English Nominal Inflection – Regular: fox, dog, city: add s – Irregular: goose, mouse, sheep (memorize) 89-680

הטמעת המילון באוטומט (זיהוי)(עדיין ללא טיפול בחוקים אורתוגרפיים) 89-680

שיעור 2 - הפרדה למילים ומשפטים ( Tokenization ) - מורפולוגיה