160 likes | 385 Views
Bayesian Sets. Ghahramani and Heller ’05 (@NIPS). הקדמה. על הבעיה אותה ג'אהרמאני והלר ניסו לפתור ועל הקשר של העבודה שלהם לקורס. הגדרת הבעיה. תהי קבוצה של עצמים הקלט: תת-קבוצה המסמלת "מושג" הפלט: השלמה של עם עצמים מ- השייכים לאותו ה"מושג". דוגמא.
E N D
Bayesian Sets Ghahramani and Heller ’05 (@NIPS)
הקדמה • על הבעיה אותה ג'אהרמאני והלר ניסו לפתור • ועל הקשר של העבודה שלהם לקורס רון בגליטר 2008
הגדרת הבעיה • תהי קבוצה של עצמים • הקלט: תת-קבוצה המסמלת "מושג" • הפלט: השלמה של עם עצמים מ- השייכים לאותו ה"מושג" רון בגליטר 2008
דוגמא • לדוגמא תהיה אוסף של סרטים • קלט: • פלט: ? רון בגליטר 2008
פתרון אפשרי • נדרג את העצמים ב: לפי "התאמתם" לקבוצה הנתונה • "ההתאמה:" • ראינו קבוצה שמייצגת "מושג" • עד כמה סביר ש- יהיה שייך לאותו המושג רון בגליטר 2008
דירוג עצמים • מדד הדירוג: • או לחילופין: רון בגליטר 2008
המשמעות של המדד • נניח: עצמים ב"מושג" מוגרלים באופן I.I.D. מ- • המדד הוא השוואה בין המודלים: רון בגליטר 2008
אלגוריתם: Bayesian Sets • רקע: • קבוצה • מודל פרמטרי ו-prior • קלט: שאילתא • לכל חשב את • פלט: סדר יורד על לפי תוצאות המדד רון בגליטר 2008
חישוב המדד מכנה: מונה: מניחים אי תלות: רון בגליטר 2008
מודל פרמטרי: ברנולי • העצמים הם ווקטורים בינאריים: • לכל קורדינטה נתאים מטבע ברנולי • התפלגות ברנולי: • ה-prior הוא: • Prior על : רון בגליטר 2008
נוסחא סגורה ל-score(x) • הצבה של הערכים ופישוט הנוסחא נותן: וקטור בינארי לכל קורדינטה משערך מטבע ניפרד קורדינטה j-ית של הוקטור רון בגליטר 2008
נוסחא סגורה ל-score(x) (המשך) • אפשר להמשיך ע"י לקיחת לוגריתם: כאשר, רון בגליטר 2008
הקוד של Bayesian Sets function s = r_bsets(X,query,alpha,beta) %matlab code M = length(query); Dc = X(:, query); c = sum(log(alpha+beta)-log(alpha+beta+M) + log(beta+M-sum(Dc,2)) - log(beta)); q = log(alpha+sum(Dc,2))-log(alpha) - log(beta+M-sum(Dc,2)) + log(beta); s = c + q‘ * X; רון בגליטר 2008
דוגמא אמפירית: המלצות סרטים • נעבוד עם נתוני אתר המלצת הסרטים MovieLens • 1700~ סרטים • 950~ מדרגים (כ"א דירג לפחות 20 סרטים) • הדירוג = ציון 1-5 • וקטור מציין סרט • תכונית מציינת דירוג של המדרג ה-i, הערך 1 אם הדירוג גדול מ:3, אחרת אפס • נזכיר: יש לנו משערך לכל תכונית (כלומר 950 משערכים) רון בגליטר 2008
דוגמאת הרצה • Hands-on • קוד התוכנית + הנתונים מצורפים רון בגליטר 2008
סיכום • ראינו שימוש של שיטות בייסיאניות לאיחזור מידע: • הגדרנו את הבעיה כבעיית "אי-תלות" • השתמשנו במודל הסתברות פרמטרי • השוואת סבירות מודל (מבנה) פתרה את אי-התלות • שימוש במודל פרמטרי מתאים = מימוש יעיל • הבחירות היו פשוטות • קשה להעריך את התוצאות באופן אובייקטיבי • אבל הן "נראות" סבירות רון בגליטר 2008