1 / 26

עיבוד שפות טבעיות - שיעור שלישי ניתוח מורפולוגי

עיבוד שפות טבעיות - שיעור שלישי ניתוח מורפולוגי. אורן גליקמן המחלקה למדעי המחשב אוניברסיטת בר אילן. יום הולדת שמח לאיתי שטרימברג!. בנית מנתח מורפולוגי. המטרות: Recognizer : האם מילה היא תקנית או לא (אפליקציה WORD ) Generator : מייצר מילים מניתוח מורפולוגי מסוים (תרגומון משפה לשפה).

minor
Download Presentation

עיבוד שפות טבעיות - שיעור שלישי ניתוח מורפולוגי

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. עיבוד שפות טבעיות - שיעור שלישיניתוח מורפולוגי אורן גליקמן המחלקה למדעי המחשב אוניברסיטת בר אילן 89-680

  2. יום הולדת שמח לאיתי שטרימברג! 89-680

  3. בנית מנתח מורפולוגי • המטרות: • Recognizer: האם מילה היא תקנית או לא (אפליקציה WORD) • Generator: מייצר מילים מניתוח מורפולוגי מסוים (תרגומון משפה לשפה). • Parser: נותן ניתוח מורפולוגי למלים (אספקט מסוים של תרגומון כאפליקציה). • Stemmer:נותן בסיס (stem) של מילה (מנועי חיפוש) • לא יעיל ולפעמים גם אי אפשר לשים בלקסיקון את כל המילים על צורת ההטיה שלהן. 89-680

  4. בניית מנתח מורפולוגי... • כדי לבנות מנתח מורפולוגי יש צורך ב: • לקסיקון - רשימת שורשים stemsו-affixes, עם מידע כללי כגון האם ה-stemהוא שם עצם, פועל וכו'. • Morphotactics - המודל לסידור המורפמות (איזו מורפמה היא תחילית ואיזו סופית)- יש מודל בשפה של איך להוסיף תחיליות וסופיות (ימאים ולא ימימאי) • חוקים אורתוגרפיים orthographic rules חוקי הכתיב - שינויים החלים במילה למשל - y-> ie כמו במקרה שלcity + -s -> cities 89-680

  5. Finite-State Automaton for English Nominal Inflection – Regular: fox, dog, city: add s – Irregular: goose, mouse, sheep (memorize) 89-680

  6. הטמעת המילון באוטומט 89-680

  7. Finite State Transducer • To go beyond mere recognition, we need a transducer • A transducer maps between one set of symbols and another; a finite state transducer does this via a finite automaton. • An FST can be seen as a recognizer, generator, translator or a set relator. 89-680

  8. Two-Level Morphology • Two-level morphology represents a word as a correspondence between a lexical level, which represents a simple concatenation of morphemes making up a word, and the surface level, which represents the actual spelling of the final word. 89-680

  9. FSTs 89-680

  10. English Nominal Inflection FST 89-680

  11. הוספת חוקי איות ל-FST • ישנם חוקי איות שהם תלויי הקשר • למשל - • cat + N + PL -> cats • fox + N + PL -> foxes 89-680

  12. “Three” level morphology • ניתן לצרף מכונות FSTאחת לשנייה, כך שהפלט של האחת היא הקלט של השנייה. • לטיפול בחוקי האיות יוצרים שלוש שכבות: • Lexical • Intermediate • Surface 89-680

  13. Orthographic Rules FST We need an FST to add an e between an x, s or z and intermediate before the s at morpheme boundary at the end of a word. A key point of this transducer is that irrelevant stuff passes that through unchanged. 89-680

  14. Composition of FSTs • Actually running a cascade as a cascade can turn out to be a pain... • it is hard to manage all the tapes • it fails to take advantage of the restricting power of all the machines • So... • it is better to compile the cascade into a single large machine with two tapes (input and output) 89-680

  15. English Derivation • Much more complex than inflectional • As an example, consider adjectives • Big, bigger, biggest • Cool, cooler, coolest, coolly • Red, redder, reddest • Clear, clearer, clearest, clearly, unclear, unclearly • Happy, happier, happiest, happily • Unhappy, unhappier, unhappiest, unhappily • Real, unreal, silly 89-680

  16. English Adjective Derivation 89-680

  17. What’s wrong? • Accepts all adjectives above, but • Also accepts unbig, readly, realest • Common problem: overgeneration • Solution? • Need classes of roots that say which can occur with which suffixes 89-680

  18. Revised FSA 89-680

  19. And it can get much morecomplex… 89-680

  20. Stemming • Lexicon Free • The stem is not the same as the morphological root (it is not necessarily a lexical item!) • In IR (Info. Retrieval) • the key is to acquire the stems, not to make any real use of morphological structure, hence the term • Small performance improvements in practice (if any!!!) • with larger documents, less needed • Introduces errors: e.g. organization  organ 89-680

  21. Porter Stemmer • Example Rules: • Step 1a • SSES -> SS (caresses  caress) • IES -> I (ponies  poni, ties  ti) • SS -> SS (caress  caress) • S  (cats  cat) • Step 1b • (m>0) EED  EE (feed  feed, agreed  agree) • (*v*) ED  (plastered  plaster, bled  bled) (*v*) ING   (motoring  motor, sing  sing) 89-680

  22. Porter Algoritm • Step 2 • (m>0) ATIONAL -> ATE relational -> relate • (m>0) TIONAL -> TION conditional -> condition • (m>0) ENCI -> ENCE valenci -> valence • (m>0) ANCI -> ANCE hesitanci -> hesitance • (m>0) IZER -> IZE digitizer -> digitize • (m>0) ABLI -> ABLE conformabli -> conformable (m>0) ALLI -> AL radicalli -> radical • (m>0) ENTLI -> ENT differentli -> different • Etc… 89-680

  23. Human Morphological Processing • How are multi-morphemic words represented in the minds of human speakers? • full-listing hypothesis vs. minimum redundancy hypothesis 89-680

  24. Experiments • Stanners et al. 1979: a word is recognized faster if it has been seen before (priming) • lifting  lift, burned  burn • selective / select • i.e. different representations for inflection and derivation. • Marsen-Wilson et al. 1994: spoken derived words can prime their stems, but only if their meaning is close: • government  govern, • department / depart 89-680

  25. Some more on Words • Type vs. token • Word senses • How many words are there in the following sentence: “If she is right and I am wrong then we are way over to the right of where we ought to be.” (22 tokens, 19 types) • Zipfs Law: f 1/r 89-680

  26. Summary • והמשפחה: 3 מילים • סוכריות:מורפולוגיה • גזירה: סוכר סוכריה • הטיה: סוכריה סוכריות,אכלנו • ניתן למדל מורפולוגיה ע"י FST • Stemming 89-680

More Related