דקדוקים הסתברותיים חסרי הקשר

דקדוקים הסתברותיים חסרי הקשר מבוסס על פרק 11 ב-Manning & Schütze P=0.57 P=0.43 ראיתי את האיש עם המשקפת

יחוס הסתברויות לניתוח תחבירי המטרה: מודל כללי יותר לרב-משמעות תחבירית. ניתוח תחבירי הסתברותי – ייחוס הסתברויות לניתוחימשפטים ע"י עצי גזירה. קודם נראה כיצד ניתן לנתח משפטים: דקדוקים חסרי הקשר, עצי ניתוח, ואלגוריתם כללי למציאת ניתוח.

הגדרת CFG א"ב קלט (המילים בשפה) סימן תחילי חוקי גזירה נונטרמינלים (משתנים) נסמן את אברי R יהי X ξ כלל ב-R , תהי αXβ מחרוזת. גזירה היא החלפת αXβ ב- αξβ נסמן זאת αXβ αξβ

הגדרת CFL השפה שמוגדרת ע"י G S NP VP NPDet Noun | Det Noun that VP VPVerb NP Detthe|a Nounman | boy | pear Verbsaw | ate |finished S NP VP  Det Noun VP  the Noun VP  the man VP  the man Verb NP  the man ate NP  the man ate Det Noun  the man ate a Noun  the man ate a pear • SNP VP • DetNoun that VP NP VP • the man that ate a pear VP • the man that ate a pear Verb NP • the man that ate a pear Verb Det Noun • the man that ate a pear saw a boy * *

CNF – CNFChomsky Normal Form כל הכללים מהצורה או כאשר εהיא המילה הריקה או משפט חומסקי: לכל דקדוק חסר הקשר G קיים דקדוק שקול G’ בצורת חומסקי כך ש- L(G)=L(G’) להבא נניח שכל הדקדוקים הם בצורת חומסקי

אלגוריתם CKY (Cocke-Kasami-Younger) ל-parsing קלט: דקדוק G בצורת חומסקי, מילה האם ? יתירה מכך, אם התשובה חיובית, נרצה לקבל עץ ניתוח ל-w

A A’ C’ C B’ B * * Awi…wj A’wi…wj wi …wk’ wk’+1….…wj wi ……… wk wk+1…wj CKY קלט: מחרוזת w1...wn. דקדוק ח"ה ב-Chomsky Normal Form הרעיון: תכנות דינמי שבה בונים בהדרגה את עץ הניתוח של wi,j=wi...wjמתוך שני עצי הניתוח של wi,k ו-wk+1,j לכל k בטווח i..j-1. A’B’ C’ AB C מבנה נתונים: מטריצה t:[0..n]x[0..n] כאשר t[i,j] הוא אוסף הנונטרמינלים שגוזרים את wi,j=wi...wj. t[i,j]={A : Awi,j} *

האלגוריתם for i:=1 to n do t[i,i] = {A | Awi G}; for length =1 to n-1 do for i =1 to n do t[i,i+length] = ∅; for k=i to i+length-1 do ADD = {A|ABC G, B t[i, k] , C  t[k+1,i+length] }; t[i,i+length] := t[i,i+length]  ADD; if St[1,n]then accept else reject. סדר חישוב ADD כאשר i=2, j=5 סדר מילוי אברי t k=2 3 4 3

האלגוריתם for i:=1 to n do t[i,i] = {A | Awi G}; for length =1 to n-1 do for i =1 to n do t[i,i+length] = ∅; for k=i to i+length-1 do ADD = {A|ABC G, B t[i, k] , C  t[k+1,i+length] }; t[i,i+length] := t[i,i+length]  ADD; if St[1,n]then accept else reject. SAT SAS SAB TSB Aa Bb G: w15=aaabb

תכונות אלגוריתם CKY • סיבוכיות : O(|G|2n ) – כמעט אופטימלית. • חסרונות: • CNF – ייצוג לא נוח, או שצריך להמיר באופן אוטומטי מדקדוק חסר-הקשרבפורמט כללי. • המרת דקדוק ל-CNF עלולה להגדיל בריבוע את מספר הכללים בו, ולכן את סיבוכיות האלגוריתם כתלות בגודל G. • האלגוריתם מוצא כל תת-מחרוזת של המילה הנגזרת ע"י נונטרמינלA כלשהו. מיותר כאשר A אינו מקיים • S => w1…wk-1 A wk+1…wn 3

משפטי garden path = משפטים שבהם בני-אדם נוטים לטעות בניתוח לפני שהגיעו לסוף המשפט. יוסי הראה לילד משוגע תן לי דובדבן מתוק The raft floated down the river The horse raced past the barn מפתח. שלי. sank. fell.

דוגמא SNP VP משוגע |המפתח|ילד|יוסיNPVPV’ NP | VP NP NPNP JJ V’V PP משוגע JJהראהVPPPREP NP לPREP קלט: יוסי הראה ל ילד משוגע את המפתח 1 2 3 4 5 6

מתן הסתברויות לניתוח תחבירי • ראינו: • תיוג חלקי דיבר הסתברותי – ייחוס הסתברויות לסיווגימיליםלקטגוריות. • שימוש בעדיפויות לקסיקליות להתרת רב משמעות של הצמדת צירופי יחס. • המטרה: מודל כללי יותר לרב-משמעות תחבירית. • ניתוח תחבירי הסתברותי – ייחוס הסתברויות לעצי גזירה. HMM = הרחבה טבעית ל-FSA (לא דטרמיניסטי) PCFG = Probabalistic Context Free grammar הרחבה טבעית ל-CFG

הגדרת PCFG P היא התפלגות על R: ההסתברות של סדרת גזירות היא מכפלת ההסתברויות של כל גזירה R SAT SAB TSB Aa Bb P 0.8 0.2 1 1 1 0.8 1 1 0.2 1 1 1 P(SATaTaSBaABBaaBB aabBaabb) =0.8*1*1*0.2*1*1=0.16

שלוש הנחות אי-תלות • הסתברות גזירת תת-עץ T בתוך מחרוזת S אינה תלויה במיקום בתוך S של תת-המחרוזת הנפרשת ע"י T. • חוסר הֶקְשֵׁר: הסתברות גזירה של תת-עץ T אינה תלויה במילים שמחוצה לו. • הסתברות גזירה של תת-עץ T אינה תלויה בצמתים פנימיים מחוצה לו.

שלוש הנחות אי-תלות • הסתברות גזירת תת-עץ T בתוך מחרוזת S אינה תלויה במיקום בתוך S של תת-המחרוזת הנפרשת ע"י T. • חוסר הקשר: הסתברות גזירה של תת-עץ T אינה תלויה במילים שמחוצה לו. • הסתברות גזירה של תת-עץ T אינה תלויה בצמתים פנימיים מחוצה לו. 2+כלל השרשרת: P(A∩B)=P(A)P(B|A) 3 1

בעיות ל- PCFG(דומה לבעיות HMM) כמו ב-HMM יש 3 בעיות: • בהינתן PCFG, G, ומשפט (סדרת מילים) w מצא את ההסתברות של w, כלומר, P(S  w) • בהינתן PCFG, G, ומשפט w, מצא את הניתוח הסביר ביותר שלו. • בהינתן דוגמאות של משפטים, מצא PCFG המנתח אותם בהסתברות מכסימלית. * הסתברויות "חיצוניות" ו"פנימיות" - בהמשך

הסתברות חיצונית ופנימית

חישוב ההסתברות הפנימית β אלגוריתם מבוסס על אלגוריתם CKY ל-parsing בזמן מילוי הטבלה t מחברים את ההסתברויות של כל נונטרמינל שנמצא ב-t[i,j] כלומר, עבור A t[i,j] יהי βA[i,j]ההסתברות של A ב- t[i,j] t[i,i] = {A | Awi G}; βA[i,i] = P(Awi ) for k=i to i+length-1 do ADD = {A|ABCG, Bt[i, k] , Ct[k+1,i+length] }; t[i,i+length] = t[i,i+length] ADD; βA[i,i+length] += P(ABC)* βB[i,k]* βC[k+1,i+length] פעולות אלו אינן מגדילות את הסיבוכיות

תרגיל השתמשו ב-CKY להשלמת הטבלה בעמ' 394 לחישוב הסתברות הדוגמא בדקדוק PCFG שניתן:

מצא את עץ התחביר הסביר ביותר לניתוח סדרת מילים • אלגוריתם דומה לקודם, אך במקום סכום לוקחים מכסימום:

חישוב הסתברות לסדרת מילים באמצעות הסתברויות חיצוניות נגדיר הסתברויות חיצוניות איתחול S) הנונטרמינל התחילי)

A C B q p r חישוב הסתברות לסדרת מילים באמצעות הסתברויות חיצוניות A B D q p r

לימוד PCFG • נתון טכסט אימון. ברצוננו למצוא PCFG שממקסם את ההסתברות לקבל את טכסט האימון. • אם נתון קורפוס מנותח נוכל לחשב את ההסתברות של כל חוק: מה הקושי בגישה זו?

לימוד PCFG כאשר אין קורפוס מנותח • נניח שמספר הכללים ומספר הנונטרמינלים והנונטרמינל התחילי, S=N1, נתונים מראש. • מפעילים אלגוריתם EM:נתחיל בדקדוק ראשוני,ננתח כל משפט, ונעריך את תוחלת מספר הפעמים השתמשנו בכל חוק בכל ניתוח. • נשתמש בתוחלות אלו כמעריך להסתברויות של PCFG חדש. • אפשר להוכיח • נעצור כאשר השיפור • להלן הנוסחאות המדויקות ע"פ Manning & Schutze עמ' 398-401

נסתכל על מילה w=w1,m ותת מילה שלה wp,q.ההסתברות שנונטרמינלNjיופיע בניתוח ושהוא ייצור אתwp,q: • יהיπההסתברות ליצור את w N0 = S

(השתמשו ב- N j כדי לייצר את wE( כאשר N j אינו אבא של אות של Ʃ

תוחלת מספר הפעמים שהשתמשו בחוק ההסתברות להשתמש בחוק ההסתברות החדשה

כאשר הכלל הוא האות ה-k של Ʃ P(N ja k) ההסתברות החדשה

הרחבה מלימוד מתוך משפט בודד ללימוד ע"ס קורפוס W=W1…,Wω ההסתברות שבניתוח המשפט ה-i בקטע (p,q) השתמשנו בכלל ההסתברות שבניתוח המשפט ה-i האות ה-h יוצרה ע"יהכלל ההסתברות שבניתוח המשפט ה-i בקטע (p,q) השתמשנו במשתנה N j

הרחבה מלימוד מתוך משפט בודד ללימוד ע"ס קורפוס W=W1…,Wω ההסתברות שבניתוח המשפט ה-i בקטע (p,q) השתמשנו בכלל ההסתברות שבניתוח המשפט ה-i האות ה-l יוצרה ע"יהכלל ההסתברות שבניתוח המשפט ה-i בקטע (p,q) השתמשנו במשתנה N j

מכאן שההסתברויות החדשות הן: ההסתברות שבניתוח המשפט ה-i בקטע (p,q) השתמשנו בכלל מספר המשפטים בקורפוס אורך המשפט ה-i ההסתברות שבניתוח המשפט ה-i בקטע (p,q) השתמשנו במשתנה N j ההסתברות שבניתוח המשפט ה-i האות ה-h יוצרה ע"יהכלל

סיכום אלגוריתם inside outside • בכל איטרציה מחשבים את תוחלת הפעמים שהשתמשנו בכל כלל. • ההסתברויות החדשות הן MLEכלומר, המנה בין התוחלת להשתמש בכלל לביןהשימוש בכללים בכל הקורפוס. • בסוף האיטרציה מעדכנים את ההסתברויות וחוזרים על התהליך.

בעיות • הלימוד איטי: לכל משפט זמן • תופעת המקסימום לוקלי די נפוצה. • הדקדוק המתקבל אינו מייצג ידע בלשני. מספר הכללים בדקדוק מספר המילים במשפט ובכל איטרציה יש לעבור על כל משפטי הקורפוס!

נושאים נוספים • Tree bank • Lexilization • Chunking • Evaluation

Tree bank • אוסף של משפטים שנותחו סינטקטית • Penn Treebank4.5 מליון מילים של אנגלית אמריקאית (POS) • מחצית תויג גם תחבירית. • מספר תגים ירד מ-87 (Brown corpus) ל-36 העיקרון היה לאחד קטגוריות שניתן לשחזר (לפועל to be ניתנו 8 תגים – אוחדו ל-5 של פועל רגיל).בנוסף איחדו קבוצות סגורות (סגור = סופי וקטן).

Penn Treebank ( (S (NP Battle-tested industrial managers here) always (VP buck up (NP nervous newcomers) (PP with (NP the tale (PP of (NP (NP the (ADJP first (PP of (NP their countrymen))) (S (NP *) to (VP visit (NP Mexico))))…

כיצד תויג הקורפוס? • השיטה: • קודם ניתחו את הטכסט בעזרת תכנה Fiddichשנמנעת מניתוח כאשר אין היא בטוחה, כך שנוצר יער של עצים. • בשלב השני, מתייגים אנושיים השלימו ותיקנו את התיוג. • הגיעו לקצב של 375-475 מילים לשעה.

Size of Penn Treebank • Description Tagged for Skeletal Part-of-Speech Parsing (Tokens) (Tokens) • Dept. of Energy abstract 231,404 231,404 • Dow Jones Newswire stories 3,065,776 1,061,166 • Dept. of Agriculture bulletins 78,555 78,555 • Library of America texts 105,652 105,652 • MUC-3 messages 111,828 111,828 • IBM Manual sentences 89,121 89,121 • WBUR radio transcripts 11,589 11,589 • ATIS sentences 19,832 19,832 • Brown Corpus, retagged 1,172,041 1,172,041 • Total: 4,885,798 2,881,188

ניתוח משפט בעזרת treebank בהינתן משפט: • תייג את POS. • לכל תת סדרה של מילות המשפט, מצא תת-עץ מבנק העצים התואם לתת הסדרה. • החלף את תת הסדרה בנונטרמינל שבשורש התת-עץ. • חזור על התהליך כאשר נונטרמינלים מחליפים את חלקי המשפט שנותחו עד שהתקבל ניתוח של כל המשפט.

Lexilization • במודל של PCFG מניחים שההסתברות ליצור מילה מסוימת תלויה רק בקטגוריה הדקדוקית שיצרה אותה, לא במילים שמסביבה. • הנחה זו אינה נכונה: • Jack ate the apple. ? The apple ate Jack. • Jack thanked Mary. ? Jack gave Mary.

subcategorization • נחלק כל חלק דיבר לתת חלקים על-סמך תכונות תחביריות וסמנטיות: • תכונות תחביריות: • giveis a bitransitive verb vs. thank • נחלק את קבוצת הפעלים ע"פ המשלימים שלהם – מספרם ומילות היחס שהם מקבלים:פעלים יוצאים (עם מושא ישיר –"את")פעלים עומדים (שלא מקבלים "את")פעלים עם שני מושאים ישירים (באנגלית give)

Semantic subcategorization • נוסיף לכל שם עצם תכונות סמנטיות, לדוגמא: • Edible vs. non-edible • Animate vs. non animate • לכל פועל נציין אם הנושא שלו הוא animate,המושא edible וכו'. • מהיכן נקבל את הסיווג של שמות העצם לתת הקבוצות הללו? • קיימות היררכיות WordNet, Open directoryhttp://wordnet.princeton.edu))שמסווגות מילים.

קשיים ובעיות • WordNet מחלק את המובנים למספר רב של קבוצות. החלוקה עדינה מדי לצרכים מעשיים, מודרכת משיקולים בלשניים-מילוניים, לא מצרכים חישוביים. • החלוקה אינה חד משמעית: הכבשה אכלה את העשב. הזאב אכל את הכבשה. • לא פותר בעיות של מטפורות: מכונת הצילום אכלה את המסמך. התובע אכל את הנאשם בלי מלח. לאedible לאanimate

Subcategorization מאפשר להבדיל בין משמעויות שונות של פעלים: • להגיע ל-(אדם) • לעומת להגיע ל-(מקום) מגיע לי I deserve מגיע ללונדון Arrives at London

הערכת טיב המנתח • שיטת gold standardמנתחים טקסט בדיקה באופן ידני.ובודקים אם העץ של המנתח זהה לעץ הידני. • בפועל, לגבי משפטים ארוכים, זה כמעט ולא קורה.(גם מנתחים אנושיים לא תמיד מסכימים). • אפשר לבדוק איזה אחוז מהצמתים זהים. • אפשר לבדוק את מספר הצרופים שהמנתח זיהה(chunking). • מבחינים בין • Recall = % gold’s brackets correctly identified • Precision = % of parser’s brackets that appear in the gold

PARSEVAL • סטנדרט להערכת תרגומים שפיתח משרד ההגנה האמריקאי. • סופר recall , precision ו- crossover • The blue train stopped at the green trainstation at two O’clock gold(1(2 (3 )3)2 (2 (3 (4 (5 (6 X (1(2 (3 )3)2 (2 (3 (4 (5 )5 )6 )5 ) 4)3 (3 (4 )4 )3 )2)1 (5 (6 (7 )7)6 )5 )4 )3 )2)1 XX X

חסרונות PARSEVAL • לפעמים שגיאה אחת עלולה להיקנס בגדול, • לפעמים מספר שגיאות לא גורמות הרבה נזק. • אין שמות לצמתים, ועל כן, גם ניתוח שגוי עובר את מבחן ה-chunking

ביצוע chunkingבשיטת Abney • כדי לבצע chunking אין צורך לנתח ניתוח סינטקטי של כל המשפט. • ניתן להסתפק ב-"מומחים" להכרת chunks שונים. • לדוגמא: מומחה להכרת מספרים, מומחה לתאריכים, מקומות, שמות אנשים, צרופים שמניים, צרופי יחס וכו'. • את המומחים ניתן לתכנת בעזרת FST. • ע"י הרכבת כל ה-FST נקבל chunker שעובד בזמן ליניארי.

סיכום ניתוח תחבירי • משימה קשה שמידת ההצלחה בה מוגבלת. • שיטות: • יצירה ידנית של מנתח ע"י בלשנים • PCFG • בנק עצים • Chunking בעזרת FST • ניתן להשתמש ב-subcategorizationכדי לעדן את הדקדוק או כ-post-editor

דקדוקים הסתברותיים חסרי הקשר

דקדוקים הסתברותיים חסרי הקשר

Presentation Transcript