200 likes | 1.02k Views
I Introduction. I Introduction II SVD III Algorithme. Introduction : filtrage collaboratif. « méthodes qui visent à construire des systèmes de recommandation utilisant les opinions et évaluations d'un groupe pour aider l'individu. » - Wikipedia. I Introduction. I Introduction II SVD
E N D
I Introduction I Introduction II SVD III Algorithme Introduction : filtrage collaboratif « méthodes qui visent à construire des systèmes de recommandation utilisant les opinions et évaluations d'un groupe pour aider l'individu. » - Wikipedia
I Introduction I Introduction II SVD III Algorithme film j ( ) X 3 3 X X 4 … 2 … X 3 X 5 X 2 … X … Y= Utilisateur i Présentation du Netflix Prize • Quelques chiffres : • 480 000 utilisateurs • 17 770 films • 100 000 000 de votes • Matrice inconnue à 98,83% Trouver X, matrice pleine, minimisant la fonction de coût Fonction de coût : erreur sur un jeu de test (1.408.395 votes) RMSE=
I Introduction II SVD III Algorithme Application humour violence Le diner de con La guerre des roses Rocky ( ) Bill Bob Jack X= ( ) Le diner de con La guerre des roses Rocky Bill Bob Jack humour violence ( ) ( ) humour violence humour violence U= Δ= V’= Décomposition en valeurs singulières Factorisation matricielle X = U Δ V’ X quelconque, n x m U unitaire, n x k Δ diagonale, k x k V’ unitaire, k x m
I Introduction II SVD III Algorithme Algorithme d’apprentissage incrémental Generalized Hebbian Algorithm for Incremental Singular Value Decomposition in Natural Language Processing Genevieve Gorrell, Linkoping University • Pour la caractéristique p • Initialiser colonne p de U • Initialiser ligne p de V • Tant que progrès possible • Pour chaque exemple • fin • fin • fin
I Introduction II SVD III Algorithme • Fichiers binaires • Données d’apprentissage • Jeu de test (10 MB) • Modèle (20 MB) • Nom des films Implémentation 700 MB Accès difficile aux données d’apprentissage Solution : apprentissage incrémental
I Introduction II SVD III Algorithme Améliorations : quelle voie ?
I Introduction II SVD III Algorithme Améliorations possibles : régularisation Simon Funk tells all : « So yes, after reading this post, you too should be able to rank in the top ten or so. Ur... yesterday's top ten anyway. » Résultat atteignable : 10 features avec régularisation RMSE=0,92240 (résultat lu sur le forum)
I Introduction II SVD III Algorithme Quelques résultats : identifier les features Films qui ont la plus grande caractéristique 0 Battlestar Galactica: Season 1 5.481909 Lost: Season 1 5.4508333 Veronica Mars: Season 1 5.4267273 Arrested Development: Season 2 5.415515 The Lord of the Rings: The Fellowship of the Ring: Extended Edition 5.40693 Lord of the Rings: The Return of the King: Extended Edition 5.398191 Lord of the Rings: The Two Towers: Extended Edition 5.3902845 As Time Goes By: Series 9 5.3652744 The West Wing: Season 4 5.3289256 Anne of Green Gables: The Sequel 5.32691 The Sopranos: Season 5 5.321945 Harakiri 5.3180137 The West Wing: Season 3 5.30823 House 5.3061886 The West Wing: Season 2 5.306183 Six Feet Under: Season 4 5.3003864 As Time Goes By: Series 8 5.2995152 Ken Burns' Civil War 5.299475 Band of Brothers 5.2931848 The Simpsons: Season 6 5.292863 Films qui ont la plus grande caractéristique 1 Lost in Translation 3.2978275 The Royal Tenenbaums 3.0885363 Eternal Sunshine of the Spotless Mind 3.0147855 Dogville 2.8891826 Punch-Drunk Love 2.8003237 Before Sunset 2.6216521 The Life Aquatic with Steve Zissou 2.6115081 Adaptation 2.4682968 Napoleon Dynamite 2.465613 Primer 2.4137266 Sideways 2.3800454 Fahrenheit 9/11 2.290802 Sin City 2.2834427 Memento 2.2553234 Being John Malkovich 2.2227197 The Mother 2.2220323 Pulp Fiction 2.1952515 I Heart Huckabees 2.181567 American Beauty 2.137449 Oldboy 2.1004224
I Introduction II SVD III Algorithme Quelques résultats : les films les plus notés • Miss Congeniality (?) • Independence Day • The Patriot • The Day After Tomorrow • Pirates of the Caribbean
I Introduction II SVD III Algorithme Quelques résultats : les films haïs 1er résultat : les gens ne vont pas voir les films nuls
I Introduction II SVD III Algorithme Quelques résultats : les films haïs Hatred_factor=SQRT(rating_count) * POW(5 - (rating_avg + rating_stdev), 2) Mesure de déception (Miss Congeniality n°195)