280 likes | 477 Views
שיעור 17 – Lexical Semantics. יעל נצר מדעי המחשב. Lexical Semantics – התחום העוסק במערכת מבוססת המשמעות של המילים. Lexeme – "כניסה בלקסיקון" שהוא אוסף של זוגות, המצמד מחרוזת כתובה (צורה אורתוגרפית) וצורה פונולוגית, עם ייצוג כלשהו של משמעות (ה- sense של המילה).
E N D
שיעור 17 –Lexical Semantics יעל נצר מדעי המחשב
Lexical Semantics – התחום העוסק במערכת מבוססת המשמעות של המילים. • Lexeme – "כניסה בלקסיקון" שהוא אוסף של זוגות, המצמד מחרוזת כתובה (צורה אורתוגרפית) וצורה פונולוגית, עם ייצוג כלשהו של משמעות (ה-sense של המילה). • לקסיקון הוא קבוצה סופית של lexemes.
מילונים • מילונים מכילים בד"כ מעגליות בהגדרות והכתוב בהם הוא בד“כ אינו הגדרות אלא תיאור של המילים בעזרת מילים אחרות. Main Entry: 2leftFunction:nounDate: 13th century1 a : the left hand b : the location or direction of the left side c : the part on the left side2 a : LEFTFIELD b : a blow struck with the left fist3 often capitalized a : the part of a legislative
קשרים בין מילים • ובכל זאת, ניתן ללמוד הרבה על מילים מתוך ניתוח ותיוג הקשרים בינן ובין מילים אחרות. • הרעיון המנחה הוא שמילים אינן 'יחידות אטומיות' אלא יש להם מבנה פנימי שמשפיע, למשל, על האופי שבו הן יכולות להופיע למשל עם מילים אחרות וליצור משפטים. • יש כמובן דרכים רבות להסתכל להגדיר ולנתח יחסים סמנטיים, והגישה כאן היא 'אפליקטיבית' – ופחות בלשנית: איך נראים מקורות מידע על מילים, המספקים מידע סמנטי בצורה שימושית.
קשרים בין מילים • ניתן להגדיר יחסים בין מילים בצורות שונות, אבל לכמה יש ערך מוגבר ביישומים חישוביים. למשל, פעולה חשובה ביותר היא פעולה של החלפה substitution – אילו מילים, למשל , יכולות להחליף אחת את השנייה. • Homonymy • Polysemy • Synonymy • Hyponymy
Homonymy • הקשר בין מילים שלהן אותה צורה אך חסרות קשר במשמעותן. • דוגמא קלאסית: bank • Instead, a bank can hold the investments in a custodial account in the client’s name. • But as agriculture burgeons on the east bank, the river will shrink even more. • ניתן להחליף את המופע הראשון ב-bank1 ואת השני ב-bank2, לציין שאלו מילים שונות שרק במקרה יש להן אותה צורה אורתוגרפית.
כמה הערות על homonymy • יש מילים שנשמעות אותו דבר איך אינן נכתבות אותו דבר be vs. bee, שלא יחשבו homonymy אלא homophones. • כלומר, רק מילים שלהן יש בד"כ "אותה כניסה בלקסיקון" הן הומונימיות. • יש מילים הומונימיות בכתיבה שמבוטאות אחרת – אלה יקראו homographs ובד"כ לא יחשבו כהומונימיות. • וכידוע, יש מילים שנכתבות אותו דבר אך שייכות לחלקי דיבר אחרים – ונבדלות, למשל, בסביבה תחבירית שונה, וכן ההטיות והגזירות האפשריות שונות עבורן. • מצד רביעי, יכול להיות דמיון מוחלט בין הטיות למשלfind, found. ו-found (ייסד).
השפעת ההומונימיות באפליקציות • אם רוצים למצוא משמעות של מילה רב משמעית בהקשר מסוים, הגדרת הרב-משמעות היא תלוית אפליקציה: • תיקון שגיאות: למשל – found/founded • זיהוי קול: מלבד הומופונימיות (to, two, too) גם הומונימיות משפיעה: מאחר שמבוסס על מודל שפה n-gram – המילה הנפוצה יותר תקבל ניקוד גבוהה יותר מתוך הסביבה שהיא מופיעה בה, וההפך. • כמו גם באיחזור מידע או text to speech.
Polysemy • פוליסמיות היא כאשר למילה יש כמה משמעויות הקשורות זו לזו. • While some banks furnish sperm only to married women, others are much less restrictive. • לתת לבנק מסוג זה סימן bank3 יהיה בלתי עקבי עם מושג ההומונימיות. • לא תמיד זה כל כך ברור.. • ניתן לעיתים להסתמך על ההיסטוריה של המילה etymology. או לטעון לצירוף מקרים (?).
איך מוצאים Polysemy? • בהנתן מילה, אפשר לשאול: • מהן המשמעויות האפשריות של המילה? • האם הן קשורות אחת לשניה? • איך ניתן להבחין ביניהן (בצורה "מבוססת")? לקסיקוגרפים הבונים מילונים משתמשים בד"כ בקורפוס גדול של השפה. במילונים לשימוש על ידי אנשים בד"כ יש לכל מילה כניסות רבות עבור כל sense אפשרי (בין אם הומונימי או פוליסמי).
דוגמאות • They rarely serve red meat, preferring to prepare seafood, poultry or game birds. • He served as US ambassador to Norway in 1976 and 1977. • He might have served his time, come out and led an upstanding life.
Synonymy • מילים lexemes שונות בעלי אותה משמעות • (אבל מה זה בדיוק 'בעלי אותה משמעות'?) • החלפה substitutability – שתי מילים יחשבו כמילים נרדפות אם ניתן להחליף אותן במשפט בלי לשנות את המשמעות או את ה'נכונות' acceptability של המשפט. • How big is that plane? • Would I be flying on a large or small plane? • אולם, אם מושג ה'החלפה' צריך להיות תקף בכל מופע של המילה – אזי יש הרבה פחות מילים שהן נרדפות. • לכן, צריך להוסיף למושג ההחלפה שמילים הן ברות החלפה – נרדפות אם קיימות סביבות שבהן ניתן להחליפן זו בזו.
Synonymy • יכולת ההחלפה בהינתן זוג מילים מועמדות, תלויה בארבעה גורמים לפחות: • Polysemy • גוונים דקים במשמעות • אילוצי collocations • register
השפעת פוליסמיות על נרדפות • Miss Nelson, for instance, became a kind of a big sister to Mrs. Van Tassel’s son, Benjamin. • ?Miss Nelson, for instance, became a kind of a large sister to Mrs. Van Tassel’s son, Benjamin. • Big – polysemy =~ older, grown up
גוונים של משמעות – למילים נרדפות • What is the cheapest first class fare? • ?What is the cheapest first class price? • More of an intuition judgement. • Fare – more for ‘services’ • Price – more for ‘objects’ like tickets. • תיאור מדויק יותר של ההבדלים מצריך בדיקה מדוקדקת יותר בקורפוס גדול.
Collocational constraints • שתי ההשפעות הקודמות מתייחסות למשמעות של המילה. • ההשפעות האחרות אינן סמנטיות: • הכוונה בקולוקציות מתייחסת לקשרים או ל'משיכה' בין מילים כמו שניתן למשל לזהות במודלים n-גרמים. • We frustrate them and frustrate them and pretty soon they make a big mistake. • ?We frustrate them and frustrate them and pretty soon they make a large mistake.
Register • ההקשרים החברתיים המשפיעים על השימוש במילים נרדפות (ע.ע. סיים וגמר). • מילים לא ניתנות להחלפה בשל גורמים כגון נימוס, סטטוס, לחץ חברתי. • המשמעות החישובית של מילים נרדפות: תלוי באפליקציה, למשל ביצירת שפות טבעיות, תרגום אוטומטי. פחות חשוב, למשל, באיחזור מידע.
Hyponymy • היפונימיות היא זוג שבו מילה אחת מתייחסת לתת קבוצה של השניה. • למשל car ו-vehicle. • היחס אינו סימטרי והיחס ההפוך נקרא hypernymy • כמו ביחס המילים הנרדפות, ניתן לזהות היפונימיות על ידי החלפה מהסוג: • That is a x => That is a y • אם x הוא hyponym של y, אזי אם המשפט השמאלי נכון אז גם המשפט הימני נכון.
הקשרים חישוביים ל-hyponymy • אונטולוגיה – מתייחסת בד"כ לקב' האובייקטים המתארת תחום או 'עולם' (או תת עולם). • אונטולוגיה מסודרת בד"כ באיזשהו taxomony, איזשהו ארגון 'עצי'. • לא בהכרח היררכיה – למשל המילים hound, mutt and puppy הן היפונימיות למילה dog אך בסוג שונה של יחסים אחת מהשניה. • יחסי היפונימיות אינם בונים אונטולוגיה או מבנה היררכי, אך הם מספקים 'הערכה טובה' לכך.
Wordnet • הרעיון הוא לפתח לקסיקון ממוחשב המכיל את הקשרים בין המילים. מקורות אפשריים: מילונים קיימים, תזארוסים, או בניית הלקסיקון מ'דף חלק'. • Wordnet - נבנה בשיטה השנייה, ע"י Fellbaum ושות' 1998. • מורכב משלושה בסיסי נתונים: אחד לשמות עצם, אחד לפעלים, והשלישי לשמות תואר adverbs and adjectives. • מילים השייכות לקבוצה הסגורה closed class lexical items אינן קיימות ב-wordnet.
כניסות הן צורות אורטוגפיות ייחודיות, מלוות בקב' משמעויות senses לכל צורה. • בגירסא 1.6 יש: • Category Unique Senses • Nouns 94474 116317 • Verb 10319 22066 • Adjective 20170 29881 • Adverbs 4546 5677 • ניתן להשתמש בbrowser, בshell או מתוך ספריות c.
נתונים על wordnet • בגרסא המלאה, מכיל wordnet לכל כניסה - קב' של מילים נרדפות, הגדרה 'מילונית' , וכמה דוגמאות לשימוש. • אין הפרדה בין homonymy ובין polysemy. • משקף את ההנחה שהפרדה כזו קשה להגדרה ונתונה לעיתים לשיפוט.
הייחוד ב-wordnet והמבדיל אותו ממילונים רגילים הוא בשימוש שהוא עושה בקב' יחסים domain independent, בין המילים. • היחסים מוגדרים על מילים, משמעויות או קב' מילים נרדפות. היחסים מוגבלים לאותו בסיס נתונים (כלומר אותו חלק דיבר). • עמ' 604 טבלאות היחסים.
synsets • הבסיס ליחס ה-synonymy הוא יכולת ההחלפה בין מילים בהקשר כפי שהוגדר קודם. • Synset הוא קב' מילים נרדפות: • {chump, fish, fool, gull, mark, patsy, fall guy, sucker, schlemiel, shlemiel, soft touch, mug} • (בקיצור, פראייר.) • synsets בונים בעצם את המשמעות הנקשרת עם מילה. • כלומר, אפשר להתייחס ל-synset כאל המושג שמומש בעזרת מילה בשפה lexicalized.
יחס ה-hyponymy ב-wordnet • היחס, כפי שהוגדר קודם, קיים בwordnet ומאפשר בניית שרשראות של יחסי היפרנימיות (או היפונימיות) בין המילים. • הרצה ביוניקס: wn floor –hypen wn floor –hypon wn floor -synsn
Synonyms/Hypernyms (Ordered by Frequency) of noun floor 7 senses of floor Sense 1 floor, flooring => horizontal surface, level Sense 2 floor, level, storey, story => structure, construction Sense 3 floor => control Sense 4 floor => land, dry land, earth, ground, solid ground, terra firma Sense 5 floor => surface, Earth's surface Sense 6 floor => hall Sense 7 floor => room
Hyponyms of floor • Hyponyms of noun floor • 2 of 7 senses of floor • Sense 1 • floor, flooring • => bell deck • => dance floor • => floorboard • Sense 2 • floor, level, storey, story • => basement, cellar • => ground floor, first floor, ground level • => loft, attic, garret • => loft • => mezzanine, mezzanine floor
(some) Hypernyms of floor Sense 1 floor, flooring => horizontal surface, level => surface => artifact, artefact => object, inanimate object, physical object => entity Sense 2 floor, level, storey, story => structure, construction => artifact, artefact => object, inanimate object, physical object => entity