250 likes | 375 Views
עיבוד שפות טבעיות - שיעור שני. אורן גליקמן המחלקה למדעי המחשב אוניברסיטת בר אילן. ידע לינגויסטי. מורפולוגיה תחביר סמנטיקה פרגמטיקה בשיעורים הבאים נבחן את הרמות השונות. Tokenization. הבעיה הראשונית היא 'שבירת' הקלט למשפטים ולמילים. במילים הכוונה גם למספרים וכד' הגישה הנאיבית:
E N D
עיבוד שפות טבעיות - שיעור שני אורן גליקמן המחלקה למדעי המחשב אוניברסיטת בר אילן 89-680
ידע לינגויסטי • מורפולוגיה • תחביר • סמנטיקה • פרגמטיקה בשיעורים הבאים נבחן את הרמות השונות... 89-680
Tokenization • הבעיה הראשונית היא 'שבירת' הקלט למשפטים ולמילים. • במילים הכוונה גם למספרים וכד' • הגישה הנאיבית: • משפט מסתיים ב-'.','?','!‘ • מילה מופרדת ב- whitespace • אך המציאות:... 89-680
Tokenization Issues • מהעושיםבמקרהשלspeechinput? • East Asian Languanges 89-680
Sentence breaks • '.','?','!' ולפעמים גם ':',';','-','\n' • ~ 90% of periods are sentence breaks • State of the art: 99% accuracy • english capitalization can help • The Problem: period . • can denote a decimal point (5.6), an abbreviation (Mr.), the end of a sentence, thousand segment separator: 3.200 (three-thousand-two-hundred),initials: A. B. Smith, ellipsis … 89-680
Sentence breaks… • "`Whose frisbee is this?' John asked, rather self-consciously. `Oh, it's one of the boys' said the Sen.“ • The group included Dr. J. M. Freeman and T. Boone Pickens Jr. • It was due Friday by 5 p.m. Saturday would be too late. • b. She has an appointment at 5 p.m. Saturday to get her car fixed. 89-680
Algorithm: from Manning & Schütze • Hypothesise SB after all occurrences of . ? ! • Move boundary after following quotation marks • Disqualify periods if: • Preceded by a known abbreviation that is not usually sentence final, but followed by a proper name: Prof. or vs. • Preceded by a known abbreviation and not followed by an uppercase word. • Disqualify a boundary with a ? or ! If: • It is followed by a lowercase letter. • Regard other hypothesized SBs as sentence boundaries. 89-680
מה זה מילה? • יחידת המידע העצמאית הקטנה ביותר בשפהלמשל: ספר, שולחןאבל לא: ה(ספר), (walk)-ed • מילה? She'd • בשפה כתובה, לא כל "מחרוזת" או "יחידה" המוקפת ברווחים היא מילה - למשל:ואכלתיהו - ואני אכלתי אותו 89-680
הכל מילים מילים מילים... • $22.50, 02/02/94, • :-( {} • AT&T,@gentInteractive • U.N. in. Wash. • בית-ספר, בר-אילן, חבל-על-הזמן • Lebensversicherungsgesellschaftsangestellter Life insurance company employee • +972-52-901302 (202) 905-8026 • Model # RQ9038WF2-SR, Xen Steel Diamond Empathy 7.5-in Bracelet (.02 TW) 89-680
טבלאות וHTML • טבלאות זה עסק מסובך! • ב-HTML יש כבר mark-up 89-680
שעורי בית 89-680
מורפולוגיה • A writer is someone who writes, and a stinger is something that stings. But fingers don’t fing, grocers don’t groce and hammers don’t ham. • Vegetarians eat vegetables—I'm a humanitarian • A woman lands at Logan Airport in Boston. She gets her luggage and jumps into a cab. She tells the cabbie, "Take me to a place where I can get scrod." The cabbie turns around and says, "That's the first time I've heard it in the pluperfect subjunctive." 89-680
מורפולוגיה • מילים מורכבות מהברות - morphemes שהן "יחידות המידע הקטנות ביותר הנושאות משמעות" • יש מילים שהן הברות: • car, fish • מילה יכולה להיות מורכבת מכמה מורפימות: • סוסיהם - סוס + י(ם) + הם • לכן שימוש מדויק יותר הוא במונח "לקסמה"lexeme שהיא המילה או הצורה הבסיסית ביותר בעלת משמעות מילונית. 89-680
מוספיות(affixes) : תחילית, תוכית, וסופית • מילים מחולקות ל-stem ול-affixes • תחיליות - prefixes - הן המוספות בתחילת המילה • Un-believable, re-direction • סופיות - suffixes - מוספות בסוף המילהלמשל: ing :having, eating • תוכיות infixes - - מורפמה המוכנסת לגזע או שורש - למשל אותיות הקובעות בניין בעברית - התפעל - התרחץ, התלכלך 89-680
הטיה inflection • שינוי בצורת המילה מתוך צרכים תחביריים - למשל • כשמסמנים מספר (יחיד/רבים) - number • נערה - נערות • מין gender • נער - נערה • גוף person • אני רצתי - אנחנו רצנו • בעברית מערכת ההטיות מורכבת 89-680
הטיות באנגלית • באנגלית מערכת ההטיות פשוטה יחסית. כולה מורפולוגיה משורשרת - concatenative morphology • עבור שמות עצם: ריבוי ושייכות possessives . • יש חוקי כתיב spelling rules למשל שמלים שמסתיימות ב-x סימון לרבים יהיה -es ולא -s. • עבור פעלים: ההטיות מגוונות יותר 89-680
Regulary Inflected verbs 89-680
גזירה derivation • גזירה היא יצירת לקסמות ממבנים בסיסיים או לשינוי חלק הדיבר של המילה. • בעברית: השורש ט.ב.ח וצורן הגזירה מִ__ָ_ מטבח • באנגלית: sweet - adjective sweetness - noun באנגלית מעט הטיות ומערכת גזירה ענפה. 89-680
ניתוח מורפולוגי של מילה • Morphological parsing • ניתוח: קבלת קלט כלשהו ויצירת מבנה ממנו. • stemming הוא התהליך ש"מפשיט" מילים מורכבות לצורתן הבסיסית: foxes -> fox • ניתוח מורפולוגי יקבל כקלט מילה כ-goingויחזיר כפלט את הניתוח VERB-GO + GERUND-ing 89-680
מה לא עובד • לא יעיל ולפעמים גם אי אפשר לשים בלקסיקון את כל המילים על צורת ההטיה שלהן. • יש הרבה יוצאי דופן. למשל: • שמות עצם: goose/geese, mouse/mice • פעלים:go/went eat/ate • לא הכל פרודוקטיבי (כמו צורת הריבוי s או הסיומת ing) • ledge--mega, • דוגמאות מבלבלות: 89-680
Finite-State morphological Parsing • דוגמא פשוטה: ניתוח ריבוי פשוט של שמות עצם ו-verbal progressive (-ing). • המטרה: קלט: cats פלט: cat + N + SG קלט: geese פלט: goose + N+ PL קלט: merging פלט: merge + V + PRES-PART קלט: caught פלט: catch + V + PAST-PART 89-680
בניית מנתח מורפולוגי • כדי לבנות מנתח מורפולוגי יש צורך ב: • לקסיקון - רשימת שורשים stems ו-affixes, עם מידע כללי כגון האם ה-stem הוא שם עצם, פועל וכו'. • Morphotactics - המודל לסידור המורפמות (איזו מורפמה היא תחילית ואיזו סופית) • חוקים אורתוגרפיים orthographic rules חוקי הכתיב - שינויים החלים במילה למשל - y-> ie כמו במקרה שלcity + -s -> cities 89-680