300 likes | 478 Views
עיבוד שפות טבעיות - שיעור ראשון. יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון. מבנה הקורס ודרישות. ארבעה או חמישה תרגילים (50%) מבחן (50%) אתר הקורס http://www.cs.bgu.ac.il/~yaeln/nlp011 yaeln@cs.bgu.ac.il שעות קבלה: יום ב' 14:00-16:00חדר 311. מקורות. Speech and Language Processing
E N D
עיבוד שפות טבעיות - שיעור ראשון יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון עיבוד שפות טבעיות
מבנה הקורס ודרישות • ארבעה או חמישה תרגילים (50%) • מבחן (50%) • אתר הקורס http://www.cs.bgu.ac.il/~yaeln/nlp011 yaeln@cs.bgu.ac.il שעות קבלה: יום ב' 14:00-16:00חדר 311
מקורות Speech and Language Processing By Daniel Jurafsky and James H. Martin http://www.cs.colorado.edu/~martin/SLP/slp-ch1.pdf Foundations of Statistical NLP Christopher D. Manning and Hinrich Schutze 1999, MIT Press. http://nlp.stanford.edu/fsnlp/promo/ • למקורות נוספים ינתנו הפניות באתר של הקורס.
מה זה בכלל עיבוד שפות טבעיות • NLP - Natural Language Processing תת תחום באינטליגנציה מלאכותית: "אוטומציה של השפה המדוברת": הבנה, תרגום, שיחה עם מחשב... (מדעי המחשב) • נקרא גם "בלשנות חישובית" (בדרך כלל מתייחס להיבטים התיאורטיים - שימוש בכלים חישוביים להבנה טובה יותר של השפה האנושית ("הטבעית")) -- בלשנות • זיהוי קול ושפהspeech recognition - הנדסת חשמל • פסיכולינגוויסטיקה חישובית
מה למשל נכלל ב-NLP? • תרגום אוטומטי (אחד הדברים הראשונים שנעשו בבלשנות חישובית) • ממשק עם מחשב (תכף תהיה דוגמא) • יצירת דוחות אוטומטים • תמצות אוטומטי של טקסט Text Summarization • איחזור מידע Information Retrieval וגם Information Extraction • זיהוי קול, זיהוי כתב
היבטים ב-NLP • הבנה של שפות טבעיות • NLU - Natural Language Understanding • (Part of Speech Tagging, Parsing, etc.) • הקלט בדרך כלל ברור, אך מהו הפלט? מה יחשב 'הבנה' של שפה? • יצירה של שפות טבעיות • NLG - Natural Language Generation - מהו הידע הנדרש כדי ליצר משפט או טקסט בשפה טבעית? איך הוא מיוצג? מה משותף לכל השפות ומה תלוי שפה?
סוגים של אפליקציות • אפליקציות 'קטנות' - ניבוי מילים word prediction, תיקון שגיאות כתיב, או טעיויות תחביריות (למשל כמו ב-Word)... • אפליקציות 'גדולות' - ממשק אדם/מחשב, תמצות אוטומטי, תרגום אוטומטי • אפליקציות כאלה כוללות בדרך כלל גם NLU וגם NLG.
I-Language vs. E-Language • שני אספקטים בשפה (ע"פ נועם חומסקי): • I-Language - השפה ה'מופשטת' - Language Competence (The knowledge that enables one to produce and comprehend a language). • E-Language - השפה כפי שהיא באה לידי ביטוי, הנאמרת, הנכתבת וכולי. Language Performance • הגישה האמפיריציסטית מתארת את השימוש האקטואלי בשפה.
גישות בעיבוד שפות טבעיות • הגישה הרציונליסטית - הידע הלשוני הבסיסי אינו נרכש על ידי החושים אלא קיים באדם מלידה. זוהי הגישה המקובלת של נועם חומסקי וממשיכי דרכו. • משמעות גישה זו במחקר: יצירת מערכות אינטליגנטיות על ידי קידוד ידני של ידע ומערכות היסק. • הגישה אפיריציסטית מניחה קיום יכולות במוח - כמו קישור, זיהוי תבניות והכללה, המיושמים על הקלט מהחושים. • משמעות גישה זו במחקר: צפייה באוסף גדול של טקסטים המייצג את ה"עולם". • חברת AI והתינוק שלה HAL
עוד קצת על השפה • לשפה טבעית יש מבנה • אנחנו יודעים להגיד האם משפט נכון בשפה או לא נכון בשפה • אבל בדיבור שלנו משתמשים כל הזמן במבנים לא דקדוקיים!
מה קשה ב-NLP? • השפה המדוברת מלאת רב משמעויות, ברמות שונות: מורופלוגיה: שם עצם נסמך הרכבת שם עצם והא הידיעה הא השאלה פועל ר.כ.ב בניין פעל עבר זכר יחיד פועל ר.כ.ב בניין הפעיל עבר נקבה יחיד פועל ר.כ.ב בניין הפעיל עבר זכר יחיד
רב משמעות - תחביר Time flies like an arrow like an arrow Time flies an arrow like Time flies
רב משמעות - לקסיקון I went to the bank to deposit my check. of the river
דוגמא קלאסית HAL Dave Bowman: Open the pod bay doors, HAL. HAL: I’m sorry Dave, I’m afraid I can’t do that. (Stanely Kubrick and Arthur C. Clarke, screenplay of 2001: A spce Odyssey)
אז מה נדרש כדי לקיים שיחה כזאת? • זיהוי דיבור speech recognition • הבנה של שפות טבעיות NLU • יצירה של שפה NLG • יצירת קול Speech Synthesis • איחזור מידע Information Retrieval • Information Extraction • היסק
ומבחינה לשונית? • ידע בפונטיקה ופונולוגיה - • זיהוי אותות קוליים והפיכתם לרצף מדויק של מילים - להבנת הנאמר. • HAL צריך גם מערכת ליצירת אותות קוליים הידע המתייחס לאופן בו מבוטאות המילים בשפה המדוברת.
ומה עוד? מורפולוגיה • הידע הנצרך לצורתם של מילים והתנהגותם בהקשר. • ידע מורפולוגי מאפשר יצירת ביטויים כגון I'm או can't
תחביר גם • תחביר או syntax מתייחס לאופן בו מלים מצורפות יחד ויוצרות מבנה למשל, סדר המלים במשפט: Sorry I'm dave, I do that can't
סמנטיקה • מבנה נכון של המשפט אינו מספיק כדי להבין את משמעותו. • יכולים להיות משפטים נכונים מבחינה תחבירית שאת המשמעות שלהם אין להבין (דוגמא קלאסית של חומסקי:) Colorless green ideas sleep furiously. המילים כולן באנגלית והמשפט נשמע נכון מבחינה תחבירית, Compositional semantics - המשמעות מתקבלת מהרכיבים colorless green ideas? - לא הגיוני.
עוד על משמעות • משמעות מתקבלת גם מתוך המילים עצמן - כמובן המשפט: החרצקים פילפנו את הקרנבים המחולים הוא משפט נכון מבחינה תחבירית אבל חסר משמעות באוצר המילים של רוב דוברי העברית.
ולסיום - פרגמטיקה • פרגמטיקה היא התחום העוסק בהקשרים של השפה לעולם ה'אמיתי'. • HAL מתבטא בנימוס ואומר I'm sorry Dave, I'm afraid I can't do that. כלומר - הוא מנומס, הוא מצטער -- אין תוספת מידע רלוונטית ל'מטרה' של הפעולה, פתיחה או סגירה של הדלתות.
תרגיל קטן בתמצות אוטומטי נניח שאתם צריכים עד מחר להגיש תמצית של מאמר בבולגרית אחרת..... • האם צריך להבין תוכן של מאמר כדי לתמצת אותו? • האם ניתן לתמצת מאמר בשפה שאנחנו לא מבינים? • מהם הרמזים המצויים בתוך המאמר שיכולים לעזור לנו לתמצת אותו?
תרגיל קטן בתמצות אוטומטי (המשך) • תרגום ותמצות (כלומר קודם הבנה של הטקסט ואחר כך תמצות) • שימוש במדדים הסתברותיים (נבחר את המשפטים שבהם המילים הכי נפוצות בטקסט) • איזושהי דרך ביניים? • ולסיום -- מהו תמצות טוב? איך מחשבים?
טיורינג • Turing Test: is a computer program intelligent? (1954)would a human find out that he speaks with a computer?
Eliza - (Weizenbaum 1966, MIT) Men Are all alike.IN WHAT WAY.They're always bugging us about something or another.CAN YOU BE MORE SPECIFIC.Well, my boyfriend made me come here.YOUR BOYFRIEND MADE YOU COME HERE.He says I'm depressed much of the time.I AM SORRY TO HEAR YOU ARE DEPRESSED.It's true. I'm unhappy.DO YOU THINK COMING HERE WILL HELP YOU NOT TO BE UNHAPPY.I need some help, that much is certain.WHAT WOULD IT MEAN TO YOU IF YOU GOT SOME HELP.Perhaps I could learn to get along with my mother.TELL ME MORE ABOUT YOUR FAMILY.
"שמונה שיחות אותנטיות עם מחשב" - דוד אבידן אבידן:הלו. אלייזה: מה שלומך. נא הצג את בעייתך. אבידן : אולי תואיל אתה להציג את עצמך? אלייזה : דיברנו עליך, לא עלי. אבידן : מוטב שנדבר עליך ולא עליי, אם מדובר באפשרות שנדבר עליי ולא עליך. אלייזה : אולי בהזיותיך נדבר זה על זה. • Amazingly: practicing psychiatrists believed ELIZA could be an automatic form of psychotherapy. • people became emotionally involved with the computer.
האמת על אליזה • שימוש ב-pattern matching <x> hello <y> How do you do. Please state your problem. <x> want <y> What would it mean to you if you got <y> | Why do you want <y> | Suppose you got <y> soon? • אם אף תבנית לא מתאימה, משתמשים במחרוזת ברירת מחדל כגון: Please go on| Very Interesting.
המגבלות של אלייזה • השיחות חוזרות על עצמן • טעויות כתיב נשמרות וחוזרות למשתמש • התשובות יכולות להיות בלתי-דקדוקיות בעליל • למרות שאנשים מוצאים בשיחה כזו יותר ממה שיש בה, אין בה עניין לאורך זמן. • מה קורה בעברית?