140 likes | 283 Views
מערכות המלצה / Collaborative Filtering. ד"ר אבי רוזנפלד. למצוא את הדמיון בין דברים. Supervised או Unsupervised. עדיין Unsupervised לא ברור מה ה " Objective truth " (אמת אובייקטיבי) מאוד קשה להעריך כמה טוב המערכת אחוזי קניות ( Click-through ) זמן חישוב Correlation
E N D
מערכות המלצה /Collaborative Filtering ד"ר אבי רוזנפלד
Supervised או Unsupervised • עדיין Unsupervised • לא ברור מה ה "Objective truth" (אמת אובייקטיבי) • מאוד קשה להעריך כמה טוב המערכת • אחוזי קניות (Click-through) • זמן חישוב • Correlation • SME (Square Mean Error)
שתי שיטות כלליות • Content-based recommendations: • The user will be recommended items similar to the ones the user preferred in the past (Item based) • Collaborative filtering (or collaborative recommendations): • The user will be recommended items that people with similar tastes and preferences liked in the past (user based) • Hybrids: Combine collaborative and content-based methods. CS583, Bing Liu, UIC
הרעיון הכללי • יש תלות בין ההתנהגות של אנשים: • יש אנשים שאוהבים לקנות גאדג'טים ואני יודע שאתה קנית גאדג'ט, אז מן הסתם אתה גם יקנה עוד גאדג'טים • Users Based Collaborative Filtering • יש תלות בין הדברים שבנאדם קונה • Item Based Collaborative Filtering • מי שקנה נייד מן הסתם יקנה תיק לנייד • פחות "קלאסי" אבל עדיין מאוד בשימוש • Amazon.com • http://www.cs.umd.edu/~samir/498/Amazon-Recommendations.pdf
User Based Collaborative Filtering • Nearest-Neighbor CF algorithm • kNN • Cosine distance • For N-dimensional vector of items, measure two customers A and B
Neighborhood formation phase • Let the record (or profile) of the target user be u(represented as a vector),and the record of another user be v (v T). • The similarity between the target user, u, and a neighbor, v, can be calculated using the Pearson’s correlation coefficient: CS583, Bing Liu, UIC
Recommendation Phase • Use the following formula to compute the rating prediction of item i for target user u where V is the set of k similar users, rv,i is the rating of user v given to item i, CS583, Bing Liu, UIC
Issue with the user-based kNN CF • The problem with the user-based formulation of collaborative filtering is the lack of scalability: • it requires the real-time comparison of the target user to all user records in order to generate predictions. • A variation of this approach that remedies this problem is called item-based CF. CS583, Bing Liu, UIC
שיטות אחרות -- Clustering • Work by identifying groups of consumers who appear to have similar preferences • Performance can be good with smaller size of group • May hurt accuracy while dividing the population into clusters
Association rule-based CF • Association rules obviously can be used for recommendation. • Each transaction for association rule mining is the set of items bought by a particular user. • We can find item association rules, e.g., buy_X, buy_Y -> buy_Z • Rank items based on measures such as confidence, etc. CS583, Bing Liu, UIC
יש עוד הרבה שיטות! • תחרות הNETFLIX • http://en.wikipedia.org/wiki/Netflix_Prize • $1,000,000! • מאמר מאת יהודה קורן לגבי הניצחון (המשותף) שלו • http://dl.acm.org/citation.cfm?id=1345465 • ויש כמה שיטות היברידיות • אחד מהם הוא שלי! • Tammar Shrot, Avi Rosenfeld, Jennifer Golbeck, Sarit Kraus: CRISP: an interruption management algorithm based on collaborative filtering. CHI 2014: 3035-3044