120 likes | 304 Views
PCA para clasificación de películas con matrices sparse . Ejemplo con base de datos netflix. Pedro Concejero Grupo de usuarios R Madrid 31 octubre 2012. Referencias. Journal of Statistical Software: número especial sobre Psicometría y R http://www.jstatsoft.org/v20/i01
E N D
PCA para clasificación de películas con matrices sparse. Ejemplo con base de datos netflix Pedro Concejero Grupo de usuarios R Madrid 31 octubre 2012
Referencias • Journal of Statistical Software: número especial sobre Psicometría y R • http://www.jstatsoft.org/v20/i01 • Ejemplo de PCA con FactoMineR: • http://factominer.free.fr/classical-methods/principal-components-analysis.html
Referencias • El concurso Netflix: • http://www.netflixprize.com//community/viewtopic.php?id=1537 • La necesidad de utilizar matrices “sparse” (poco densas) para poder trabajar con netflix y SVD / PCA • http://www.r-bloggers.com/the-netflix-prize-big-data-svd-and-r-2/
Referencias • Muy buenos ejemplos y explicación (técnica) de SVD: • http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Dimensionality_Reduction/Singular_Value_Decomposition • Descripción detallada de algoritmos de recomendación (incluyendo SVD / PCA) • http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Dimensionality_Reduction/Singular_Value_Decomposition
Referencias • Ejemplo específico de factorización para clasificación de películas: • http://research.yahoo4.akadns.net/files/ieeecomputer.pdf
Ejemplo “Movielens”Películas más populares • Distribución de autovalores y varianza acumulada (eje Y) en el espacio de componentes
Ejemplo “Movielens”Películas con mayor varianza (164) • Distribución de autovalores y varianza acumulada (eje Y) en el espacio de componentes
Ejemplo “Movielens”Películas con mayor varianza (164) • Primeros 2 factores/componentes
Conclusiones • Trabajo todavía sin finalizar (con el datasetnetflix), pero prometedor • El uso de librerías para matrices “sparse” es esencial (maravillosa librería Matrix) • Múltiples posibilidades de librerías PCA, con muchas alternativas para probar: • Número de componentes • Tipo de extracción • Rotación
¡Muchas gracias por vuestra atención!Y sobre todo, gracias a los organizadores de estas reuniones • Datos de contacto: • E-mail: Pedro.concejero@tid.es • Twitter: @ConcejeroPedro