1 / 26

שיעור 2 - הפרדה למילים ומשפטים ( Tokenization ) - מורפולוגיה

שיעור 2 - הפרדה למילים ומשפטים ( Tokenization ) - מורפולוגיה. רמות לשוניות עיקריות. מורפולוגיה תחביר סמנטיקה פרגמטיקה /שיח בשיעורים הבאים נבחן את הרמות הלשוניות השונות והטיפול החישובי בהן. Tokenization. הבעיה הראשונית היא 'שבירת' הקלט למשפטים ולמילים. במילים הכוונה גם למספרים וכד'

beata
Download Presentation

שיעור 2 - הפרדה למילים ומשפטים ( Tokenization ) - מורפולוגיה

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. שיעור 2- הפרדה למילים ומשפטים (Tokenization)- מורפולוגיה 89-680

  2. רמות לשוניות עיקריות • מורפולוגיה • תחביר • סמנטיקה • פרגמטיקה/שיח בשיעורים הבאים נבחן את הרמות הלשוניות השונות והטיפול החישובי בהן 89-680

  3. Tokenization • הבעיה הראשונית היא 'שבירת' הקלט למשפטים ולמילים. • במילים הכוונה גם למספרים וכד' • הגישה הנאיבית: • משפט מסתיים ב-'.','?','!‘ • מילה מופרדת ב- whitespace • אך המציאות:... 89-680

  4. Tokenization Issues • מהעושיםבמקרהשלspeechinput? • East Asian Languanges 89-680

  5. 89-680

  6. 89-680

  7. Sentence breaks • '.','?','!' ולפעמים גם ':',';','-','\n' • ~ 90% of periods are sentence breaks • State of the art: 99% accuracy (learning methods) • English capitalization can help • The Problem: period . • can denote a decimal point (5.6), an abbreviation (Mr.), the end of a sentence, thousand segment separator: 3.200 (three-thousand-two-hundred, in Europe),initials: A. B. Smith, ellipsis … 89-680

  8. Sentence breaks… • "`Whose frisbee is this?' John asked, rather self-consciously. `Oh, it's one of the boys' said the Sen.“ • The group included Dr. J. M. Freeman and T. Boone Pickens Jr. • It was due Friday by 5 p.m. Saturday would be too late. • b. She has an appointment at 5 p.m. Saturday to get her car fixed. 89-680

  9. Sentence Break Detection (“technical” algorithm - Manning & Schütze) • Hypothesize SB after all occurrences of . ? ! • Move boundary after immediately following quotation marks • Disqualify periods if: • Preceded by a known abbreviation that is not usually sentence final, but followed by a proper name: Prof. or vs. • Preceded by a known abbreviation and not followed by an uppercase word. • Disqualify a boundary with a ? or ! If: • It is followed by a lowercase letter. • Regard other hypothesized SBs as sentence boundaries. 89-680

  10. מה זה "מילה"? • ערך מילוני (למה): יחידת המידע העצמאית הקטנה ביותר בשפהלמשל: ספר, שולחןאבל לא: ה(ספר), (walk)-ed • מילה? She'd • בשפה כתובה, לא כל "מחרוזת" או "יחידה" המוקפת ברווחים היא למה - למשל:ואכלתיהו - ואני אכלתי אותו • מקובל להתייחס ליחידה הלקסיקאלית המינימאלית בטקסט כ-token 89-680

  11. הכל מילים מילים מילים... • $22.50, 02/02/94, • :-( {} • AT&T,@gentInteractive • U.N. in. Wash. • בית-ספר, בר-אילן, חבל-על-הזמן • Lebensversicherungsgesellschaftsangestellter Life insurance company employee • +972-52-901302 (202) 905-8026 • Model # RQ9038WF2-SR, Xen Steel Diamond Empathy 7.5-in Bracelet (.02 TW) 89-680

  12. טבלאות וHTML • יש סוגי מידע נוספים שאינם טקסט טהור, אבל מכילים מרכיבים בשפה טבעית, שאותם רלוונטי לנתח בשיטות לעיבוד שפה טבעית • טבלאות זה עסק מסובך! • ב-HTML יש כבר mark-up 89-680

  13. מורפולוגיה • מילים מורכבות מהברות - morphemes שהן "יחידות המידע הקטנות ביותר הנושאות משמעות" • יש מילים שהן הברות: • car, fish • מילה יכולה להיות מורכבת מכמה מורפימות: • סוסיהם - סוס + י(ם) + הם • לכן שימוש מדויק יותר הוא במונח "לקסמה"lexeme שהיא המילה או הצורה הבסיסית ביותר בעלת משמעות מילונית • מקובל גם המונח "למה" lemma – ערך מילוני (כניסה במילון) • מעוניינים במודל למורפולוגיה של השפה • ניתוח • יצירה • חשיבות: איות, אחזור מידע, תנאי מקדים לניתוח תחבירי (ליישומים דקדוקיים וסמנטיים) 89-680

  14. מנגנונים מורפולוגיים - מוספיות(affixes) : תחילית, תוכית, וסופית • מילים מחולקות ל-stem(אינו בהכרח מילה) ול-affixes • תחיליות - prefixes - הן המוספות בתחילת המילה • Un-believable, re-direction • סופיות - suffixes - מוספות בסוף המילהלמשל: ing :having, eating • תוכיות infixes - - מורפמה המוכנסת לגזע או שורש - למשל אותיות הקובעות בניין בעברית • התפעל - התרחץ, התלכלך • Circumfix – שילוב של תחילית וסופית (למשל בגרמנית) • מבחינים בין מנגנון שרשורי (concatenative) למנגנון מבוסס תבניות (כגון שורש-בנין בשפות שמיות) 89-680

  15. הטיה inflection • שינוי בצורת המילה מתוך צרכים תחביריים, שאינו משנה את הלמה (המשמעות) ואת חלק הדיבר.למשל : • מספר (יחיד/רבים) - number • נערה - נערות • מין gender • נער - נערה • גוף person • אני רצתי - אנחנו רצנו • זמן tense • מערכת ההטיה תלויה בחלק הדיבר (ש"ע, פועל, שם תואר, ...) • בעברית מערכת ההטיות מורכבת 89-680

  16. הטיות באנגלית • באנגלית מערכת ההטיות פשוטה יחסית. מבוססת על מורפולוגיה משורשרת - concatenative morphology • עבור שמות עצם: ריבוי ושייכות possessives . • יש חוקי כתיב spelling rules למשל מלים שמסתיימות ב-x סימון לרבים יהיה -es ולא -s. • עבור פעלים: ההטיות מגוונות יותר:stem, 3rd person, -ing participle, past, past participle • בטורקית למשל – מערכת שרשורים ענפה (דוגמא עם 11 מרכיבים) 89-680

  17. Regulary Inflected verbs (by rules) 89-680

  18. גזירה • A writer is someone who writes, and a stinger is something that stings. But fingers don’t fing, grocers don’t groce and hammers don’t ham. • Vegetarians eat vegetables—I'm a humanitarian 89-680

  19. גזירה derivation • גזירה היא יצירת לקסמות חדשות מלקסמות קצרות יותר, על פי כללים מורפולוגייםrelation - relationship • בדר"כ גורם לשינוי חלק הדיבר של המילהrelate – relation – relational – relationally • בעברית: השורש ט.ב.ח וצורן הגזירה מִ__ָ_ מטבח • באנגלית: sweet - adjective sweetness – noun • באנגלית מעט הטיות ומערכת גזירה ענפה. • הגזירה אינה אוטומטית – על כל מילה יכולים לפעול רק כללי גזירה מסוימים, או כלל לא 89-680

  20. מידול חישובילמורפולוגיה – ניתוח ויצירה • Morphological analysis/parsing • ניתוח: קבלת קלט כלשהו ויצירת מבנה ממנו. • Lemmatization/stemming הוא התהליך ש"מפשיט" מילים מורכבות לצורתן הבסיסית:foxes -> fox • ניתוח מורפולוגי יקבל כקלט מילה כ-goingויחזיר כפלט את הניתוח VERB-GO + PARTICIPLE-ing 89-680

  21. דוגמאות • דוגמא פשוטה: ניתוח ריבוי פשוט של שמות עצם ו-verbal progressive (-ing). • המטרה: קלט: cats פלט: cat + N + SG קלט: geese פלט: goose + N+ PL קלט: merging פלט: merge + V + PRES-PART קלט: caught פלט: catch + V + PAST-PART 89-680

  22. מטרות מודל מורפולוגי • Recognizer: האם מילה היא תקנית או לא • Generator: מייצר מילים מניתוח מורפולוגי מסוים • Parser: נותן ניתוח מורפולוגי למלים • Lemmatizer/Stemmer: מזהה את צורתהבסיס (lemma/stem) של מילה 89-680

  23. קוים מנחים לטיפול במורפולוגיה • לא יעיל ובהרבה שפות גם אי אפשר לייצג בלקסיקון את כל המילים עםכל צורות ההטיה שלהן • לכן – מחזיקים את הלמות בלקסיקון, ומפעילים מודל חישובי (דינאמי) לניתוח מורפולוגי (הפעלת חוקי המורפולוגיה) • יש הרבה יוצאי דופן – אותם נוסיף ללקסיקון.למשל: • שמות עצם: goose/geese, mouse/mice • פעלים:go/went eat/ate • גזירות – מאחר שאינן אוטומטיות, וכל גזירה מייצרת למה חדשה, מייצגים כל למה בנפרד בלקסיקון • ניתוח גזירות דינאמי רלוונטי לזיהוי למות חדשות/לא מוכרות, ולזיהוי אוטומטי של יחס סמנטי בין מילים (לא נפוץ) 89-680

  24. בניית מנתח מורפולוגי • כדי לבנות מנתח מורפולוגי יש צורך ב: • לקסיקון - רשימת שורשים stems ו-affixes, עם מידע כללי כגון האם ה-stem הוא שם עצם, פועל וכו'. • Morphotactics - המודל לסידור המורפמות (איזו מורפמה היא תחילית ואיזו סופית) • חוקים אורתוגרפיים orthographic rules חוקי הכתיב - שינויים החלים במילה למשל - y-> ie כמו במקרה שלcity + -s -> cities 89-680

  25. Finite-State Automaton for Recognizing English Nominal Inflection – Regular: fox, dog, city: add s – Irregular: goose, mouse, sheep (memorize) 89-680

  26. הטמעת המילון באוטומט (זיהוי)(עדיין ללא טיפול בחוקים אורתוגרפיים) 89-680

More Related