400 likes | 575 Views
Educational Data Mining : cerrando el círculo del proceso de aprendizaje en entornos virtuales. Julià Minguillón Universitat Oberta de Catalunya. Tabla de contenidos. Entornos Virtuales de Aprendizaje Educational Data Mining La UOC como laboratorio Niveles de análisis El proyecto MAVSEL
E N D
Educational Data Mining: cerrando el círculo del proceso de aprendizaje en entornos virtuales Julià Minguillón Universitat Oberta de Catalunya
Tabla de contenidos • Entornos Virtuales de Aprendizaje • Educational Data Mining • La UOC como laboratorio • Niveles de análisis • El proyecto MAVSEL • Ejemplo: repositorio institucional • Conclusiones • Trabajo futuro SPDECE 2011, 15-17 de Junio, Ciudad Real
Entornos Virtuales de Aprendizaje Proceso de aprendizaje SPDECE 2011, 15-17 de Junio, Ciudad Real
Entornos Virtuales de Aprendizaje EVA Actuar Analizar Capturar UI Interacción SPDECE 2011, 15-17 de Junio, Ciudad Real
Educational Data Mining • Desarrollo de métodos para explorar datos de escenarios educativos, para entender mejor el proceso de aprendizaje • Área reciente de interés creciente: • Learning Analytics and Knowledge (LAK, 1st Ed.) • 4th International Conference on EDM • Journal of EDM • SpecialissueJournal of Educ., Tech. & Soc. • Conjuntos de datos abiertos SPDECE 2011, 15-17 de Junio, Ciudad Real
Objetivos del EDM • Análisis y visualización de datos • Proporcionar feedback a docentes • Recomendaciones para estudiantes • Predicción del rendimiento de los estudiantes • Modelado de estudiantes • Detección de comportamientos indeseados • Agrupación de estudiantes • Análisis de redes sociales • Desarrollo de mapas conceptuales • Construcción de courseware • Planificación y organización C. Romero, S. Ventura. Educational Data Mining: A Review of the State-of-the-Art. IEEE Transaction on Systems, Man, and Cybernetics, Part C: Applications and Reviews. 40(6), 601-618, 2010. SPDECE 2011, 15-17 de Junio, Ciudad Real
Análisis de la interacción • N-tuplas: el usuario U accede al servicio S mediante el dispositivo D sobre el objeto O en el momento T con resultado R • Paradata: datos sobre un recurso generados durante su uso • Análisis realizado mayoritariamente off-line pero toma de decisiones on-line SPDECE 2011, 15-17 de Junio, Ciudad Real
Construcción del modelo EVA dispositivo usuario UI paradata modelo SPDECE 2011, 15-17 de Junio, Ciudad Real
Técnicas de minería de datos • Supervisadas: • Clasificación / Predicción • Regresión • No supervisadas: • Clustering • Reglas de asociación • Reducción de dimensionalidad SPDECE 2011, 15-17 de Junio, Ciudad Real
Selección de un modelo • No existe un “clasificador universal” • Aspectos importantes: • Número de parámetros (fine-tuning) • Coste computacional • Actualización on-line / off-line • Interpretación • Robustez • Combinación de modelos → soluciones ad-hoc SPDECE 2011, 15-17 de Junio, Ciudad Real
Datos educativos • Características: • Múltiples fuentes • Datos no estructurados (p.e. itinerarios) • Mayoritariamente categóricos • Valores perdidos • Imposible asumir independencia / normalidad • Distribuciones “longtail” • Es necesario adaptar los algoritmos clásicos SPDECE 2011, 15-17 de Junio, Ciudad Real
Privacidad y seguridad • Privacidad: • Los usuarios conocen que se recogen datos • Anonimización de los datos • No identificación de perfiles individuales • Atención a colectivos con necesidades especiales • El sistema recomienda, no obliga (poco intrusivo) • Seguridad: • Manipulación del perfil de usuario • “Gaming the system” SPDECE 2011, 15-17 de Junio, Ciudad Real
La UOC como laboratorio • 1994 → 200 estudiantes; 2011 → > 40000 • Completamente online / digital • Gestión de datos: • Servicios informáticos • Marketing • Área de planificación y evaluación • Extracción de datos semi-automatizada • Falta de un modelo de datos completo SPDECE 2011, 15-17 de Junio, Ciudad Real
Fuentes de datos • Logs del sistema: • Múltiples servicios / servidores • Análisis del contenido: • Manual / semi-automático • Perfil socio-demográfico • Proceso de captación • Historial de matrícula • Rendimiento académico • Encuestas SPDECE 2011, 15-17 de Junio, Ciudad Real
Niveles de análisis • Nivel de sesión: • ¿Qué hace el usuario cuando se conecta? • Nivel de actividad / curso / semestre: • ¿Qué hace el usuario en una serie de conexiones? • Nivel de grado / lifelonglearning: • ¿Cómo avanza el usuario en su carrera académica? SPDECE 2011, 15-17 de Junio, Ciudad Real
Nivel de sesión • ¿Qué hace el usuario cuando se conecta? • Datos y duración de la conexión • Dispositivo de acceso • Espacios visitados • Servicios utilizados • Patrón de navegación • Análisis de la carga del sistema • Detección de fraude • Adaptación del formato de los contenidos SPDECE 2011, 15-17 de Junio, Ciudad Real
Ejemplo: nivel de sesión • Página de inicio de la UOC: • Acceso a diferentes partes del Campus Virtual • Información / accesos duplicados • Plataforma como gestor de correo (25 %) • Espacios nunca accedidos (nada bajo scrolling) • Rediseño basado en widgets personalizables “Captura y análisis del comportamiento de los usuarios en entornos virtuales de aprendizaje: el Campus Virtual de la UOC”, Tesis presentada por Enric Mor, 16/6/2008 SPDECE 2011, 15-17 de Junio, Ciudad Real
Nivel de actividad • ¿Qué hace el usuario en una serie de conexiones? • Itinerario formativo • Seguimiento de la evaluación continuada • Visualización del grupo / individuo • Avisos y recordatorios • Detección de situaciones de riesgo SPDECE 2011, 15-17 de Junio, Ciudad Real
Ejemplo: nivel de actividad • Itinerarios formativos adaptativos: • Basados en IMS Learning Design • Sistema de recomendación de itinerarios • Perfiles de usuario: test inicial + intereses • Datos de seguimiento + rendimiento académico • Relación entre itinerario y rendimiento “La especificación IMS-LD para la descripción formal de itinerarios formativos adaptativos”, Tesis presentada por Ana-Elena Guerrero, 5/4/2011 SPDECE 2011, 15-17 de Junio, Ciudad Real
Nivel de grado • ¿Cómo avanza el usuario en su carrera académica? • Historial de matrícula • Rendimiento académico • Abandono • Recomendación de matrícula • Detección de cuellos de botella SPDECE 2011, 15-17 de Junio, Ciudad Real
Ejemplo: nivel de grado • Definición de abandono (educación on-line): • Pre-requisitos y co-requisitos sólo cómo recomendaciones • Normativa de permanencia muy laxa • Los estudiantes toman “descansos” de uno o más semestres consecutivos • Definición de abandono oficial no compatible • Diferencias por programa / estudios • Perfil del estudiante que abandona SPDECE 2011, 15-17 de Junio, Ciudad Real
El proyecto MAVSEL MAVSEL: Minería, Análisis y Visualización de datos basada en modelos Sociales en E-Learning • Referencia: TIN2010-21715-C02-01 / 02 • Proyecto conjunto UAH / UOC • Desde 1/1/2011 hasta 31/12/2013 • Actualmente: • Identificación de escenarios educativos relevantes • Literature review sobre Data Mining in E-Learning SPDECE 2011, 15-17 de Junio, Ciudad Real
MAVSEL • Objetivos: • Identificación de la interacción en escenarios educativos: • Modelo conceptual de datos generados (paradata) • Estándares y especificaciones • Una nueva variable: dispositivos móviles • Selección de técnicas de minería de datos • Integración en herramientas de software libre • Piloto: mejora del repositorio institucional SPDECE 2011, 15-17 de Junio, Ciudad Real
Escenarios Educativos • Definición: espacio (virtual / blended) donde confluyen usuarios, servicios y contenidos • Se recogen datos de la interacción generada durante el proceso de aprendizaje • ¿Cómo “actúan” los usuarios en el escenario? • ¿Cuáles son los puntos débiles del escenario? SPDECE 2011, 15-17 de Junio, Ciudad Real
Planteamiento • Conocer mejor a los usuarios: • “Tú no eres el usuario” • Conocer mejor el propio escenario educativo • Mejora de un escenario educativo mediante: • Perfiles de usuario → Personalización • Sistemas de recomendación • Esquemas de reputación • Visualización de la interacción SPDECE 2011, 15-17 de Junio, Ciudad Real
Ejemplos de escenarios • Curso en Moodle • Aula virtual UOC • Grupo en Facebook • Seguimiento de un evento en twitter • Compartir recursos mediante delicious • Repositorio institucional • Sistema de recomendación de matrícula • … SPDECE 2011, 15-17 de Junio, Ciudad Real
El modelo SIOC SemanticallyInterlinked Online Communities SPDECE 2011, 15-17 de Junio, Ciudad Real
Ejemplo: repositorio institucional • Basado en tecnología DSpace • Modelo de metadatos: Dublin Core (q) • Tres áreas: • Docencia • Investigación • Institucional • Gestionado por la Biblioteca pero los usuarios pueden “auto-archivar”, la Biblioteca valida SPDECE 2011, 15-17 de Junio, Ciudad Real
O2 http://openaccess.uoc.edu • Creado en Marzo de 2010 • Más de 2100 documentos en abierto (↑↑↑) • Mandato institucional desde Noviembre 2010 • Pero… (curso a personal docente colaborador): • 40 personas, ninguna conocía / usaba el repositorio • Algunas de ellas incluso tenían documentos (p.e. TFC) • … aunque gran interés por utilizarlo SPDECE 2011, 15-17 de Junio, Ciudad Real
Servicios disponibles • Búsqueda por: • Fecha de publicación • Título • Autor • Materias (palabras clave) • Resultados en orden ascendente / descendente • Listado de recursos recientemente subidos • Descarga del contenido seleccionado SPDECE 2011, 15-17 de Junio, Ciudad Real
Problemas conocidos • Dos objetivos contradictorios: • Preservación (conservar la momia) • Diseminación (compartir la momia) • Realidad: • Poco uso por parte de usuarios finales (profesores / estudiantes / público en general) • Falta de integración en el proceso de aprendizaje • Interfaz de usuario poco amigable • Materiales docentes que no acaban de encajar SPDECE 2011, 15-17 de Junio, Ciudad Real
Perspectiva docente • El repositorio institucional es un mero sistema de gestión de documentos, no es parte del proceso de aprendizaje • Ningún estudiante buscará por fecha o autor • No todos los recursos tienen un título claro • Recursos de granularidad y tipología diversas • Las palabras clave no están estructuradas • El rol del estudiante es completamente pasivo SPDECE 2011, 15-17 de Junio, Ciudad Real
Nuevos servicios • Añadir comentarios • Valorar • Marcar como favorito • Compartir / “re-publicar” un recurso • Etiquetar un recurso • Subscripción a un recurso • Recursos interesantes / relacionados • Búsqueda facetada • Promover navegación sobre búsqueda SPDECE 2011, 15-17 de Junio, Ciudad Real
Esquemas de reputación • Respecto a los recursos: • Recurso más accedido / con más actividad • Recurso mejor valorado • Respecto a los usuarios: • Usuario más activo • Usuarios “expertos” (aprendizaje P2P) SPDECE 2011, 15-17 de Junio, Ciudad Real
Sistemas de recomendación • Respecto a los recursos: • Recursos más “cercanos”: • Implícitamente: dc.relation • Explícitamente: descripción similar • Otros recursos visitados (p.e. Amazon) • Respecto a los usuarios: • “Colegas” • Expertos SPDECE 2011, 15-17 de Junio, Ciudad Real
Búsqueda facetada • Huir de búsquedas tipo Google • Búsqueda por diferentes parámetros al mismo tiempo (filtrado) • Contextualizada: • Perfil del usuario • Dispositivo de acceso / uso previsto • Calendario académico • Mejor 5 recursos realmente útiles que 50 SPDECE 2011, 15-17 de Junio, Ciudad Real
Interfaz de usuario • Adaptada al perfil del usuario • Uso de taxonomías y vocabularios • Vínculo entre recursos y competencias • Resultados ordenados por interés • Recursos relacionados • Potenciar la navegación • Incluir los nuevos servicios • Recordar el historial de búsquedas SPDECE 2011, 15-17 de Junio, Ciudad Real
Conclusiones • Evaluar el proceso de aprendizaje, no tan solo el resultado final • Proceso de mejora continua del escenario educativo • Incrementar el conocimiento sobre los estudiantes • Es necesario recoger y preparar los datos • Faltan herramientas de propósito general SPDECE 2011, 15-17 de Junio, Ciudad Real
Trabajo futuro • Calendario del proyecto MAVSEL: • Añadir servicios al repositorio institucional • Recoger datos durante un semestre • Construir esquemas de reputación / sistemas de recomendación • Evaluar y repetir • Extender el modelo SIOC • Mejorar la construcción de modelos para EDM SPDECE 2011, 15-17 de Junio, Ciudad Real
Muchas gracias! Contacto: jminguillona@uoc.edu twitter/@jminguillona http://mavsel.blastgroups.com http://personal.uoc.edu/MAVSEL CC-BY-NC-SA SPDECE 2011, 15-17 de Junio, Ciudad Real