280 likes | 476 Views
Propuesta doctoral. MSc. Airel Pérez Suárez. Asesores: Dr. José Francisco Martínez Trinidad Dr. José Eladio Medina Pagola. Contenido. Introducción Planteamiento del problema Trabajo relacionado Motivación Propuesta de investigación Preguntas de investigación Objetivos Metodología
E N D
Propuesta doctoral MSc. Airel Pérez Suárez Asesores: Dr. José Francisco Martínez Trinidad Dr. José Eladio Medina Pagola
Contenido • Introducción • Planteamiento del problema • Trabajo relacionado • Motivación • Propuesta de investigación • Preguntas de investigación • Objetivos • Metodología • Contribuciones • Cronograma • Resultados preliminares
Introducción El agrupamiento es el proceso de organizar o estructurar una colección de prototipos en clases o clusters de forma que: • Exista una semejanza relativamente alta entre los objetos del mismo grupo • Exista una semejanza relativamente baja entre los objetos de grupo diferentes Amplia variedad de aplicaciones: • Biología: estudios de secuencia de genes, enfermedades (cáncer). • Procesamiento de imágenes y datos espaciales. • Detección y seguimiento de tópicos en flujos de noticias y correos. • WWW: Personalización de sitios, determinación de comportamiento de usuarios. • Etc.
Introducción Nuevos requerimientos: • Necesidad de procesar colecciones que pueden variar producto de adición, eliminación o modificación de prototipos. • Posibilidad de obtener grupos con traslapes. • Necesidad de determinar relaciones entre los grupos obtenidos.
Planteamiento del problema Desarrollo de algoritmos para el agrupamiento de colecciones dinámicas de prototipos, de forma que estos algoritmos consideren: • La posible pertenencia de los prototipos a más de un grupo. • La organización del conjunto de grupos en jerarquías, permitiendo diferentes grados de abstracción.
Trabajo relacionado Algoritmos dinámicos Add Add + Subs Pasada simple Basados en grafo Basados en árboles Basados en densidad Basados en grafo • Single-Pass • GLC, • CI, • FCI • STC. • Star • DBSCAN
Trabajo relacionado • Incrementales: Single-Pass, GLC, Compacto-Incremental, Fuertemente-Compacto-Incremental y STC. • Asignación irrevocable de objetos a los grupos. • Grupos con baja cohesión interna. • Costosos para datos de gran dimensionalidad. • Elevado número de grupos, generalmente con pocos elementos. • Dinámicos: Star, DBSCAN. • Restricción a la medida de semejanza a utilizar • Incapacidad de procesar eficientemente datos de gran dimensionalidad. • Elevado número de grupos, generalmente con pocos elementos.
Trabajo relacionado Algoritmosjerárquicos Add Add + Subs Estáticos • Average-Link, • BKM, • ICT, • UMASS, • Zhao-Karypis, • HFTC, • FIHC, • HSTC • DC-Tree, • IHC • DHCA, • DHS
Trabajo relacionado • Estáticos: Clásicos: Average-Link, Bisecting K-means • Tienden a formar grupos esféricos. • No son capaces de formar jerarquías con diferentes grados de abstracción. Cons. aglom. alg: ICT, UMASS, Zhao & Karypis • Ajustar varios parámetros. • Baja cohesión interna • Ordenar cronológicamente. Basados en ítems frecuentes: HFTC, FIHC • Resultan costosos debido al cálculo de los frecuentes. • Dependen del valor de umbral de soporte, así como del orden de análisis de los frecuentes. • Pueden dejar elementos sin agrupar.
Trabajo relacionado • Estáticos: Basados en árboles: HSTC • Costoso computacionalmente para datos de gran dimensionalidad. • Pueden obtener grupos con baja cohesión producto del encadenamiento. • Incrementales: Basados en árboles: DC-Tree, IHC • Ajustar varios parámetros. • Pueden dejar elementos sin agrupar. • Dinámicos: Basados en grafos: DHCA, DHS • Problemas de escalabilidad. • Muchos grupos con pocos elementos. • Pueden obtener grupos con baja cohesión interna.
Motivación • La mayoría de las aplicaciones que utilizan técnicas de minería de datos como el agrupamiento, procesan colecciones dinámicas. • Aplicación de los algoritmos dinámicos y jerárquicos: • Meteorología, • Análisis del tráfico en las ciudades, • Aplicaciones médicas, • Estudios sociales, • Filtrado de información, • Personalización de sitios WWW, • Etc., • Los algoritmos reportados presentan deficiencias que pueden ser solucionadas.
Propuesta de investigación Preguntas de investigación: • ¿Cómo se puede desarrollar un algoritmo de agrupamiento que permita el traslape entre grupos, sea capaz de procesar colecciones dinámicas y alcance mejores resultados respecto a la calidad de los grupos obtenidos que los algoritmos reportados? • ¿Será posible utilizar el algoritmo anterior como rutina base de un algoritmo jerárquico aglomerativo?
Propuesta de investigación Preguntas de investigación: • ¿Que representación de grupos a través de un prototipo representante es más útil o efectiva en los niveles superiores de la jerarquía? • ¿Cómo se puede desarrollar un algoritmo de agrupamiento jerárquico aglomerativo que permita el traslape entre grupos, sea capaz de procesar colecciones dinámicas y alcance mejores resultados respecto a la calidad de los grupos obtenidos por los algoritmos reportados?
Propuesta de investigación Objetivo general: Desarrollar algoritmos de agrupamiento para colecciones dinámicas de prototipos, de forma que en estos algoritmos se considere: • La obtención de grupos en los cuales se permite el traslape. • La organización del conjunto determinado en jerarquías que permitan diferentes niveles de abstracción o granularidad. Los algoritmos desarrollados deben alcanzar, respecto a los algoritmos reportados en la literatura, rendimientos superiores en cuanto a medidas de eficacia y rendimientos similares o mejores respecto a la escalabilidad
Propuesta de investigación Objetivos específicos: • Diseñar e implementar un algoritmo de agrupamiento que permita procesar colecciones incrementales y que posibilite la obtención de grupos con traslapes. • Diseñar e implementar un algoritmo de agrupamiento que permita procesar colecciones dinámicas y que posibilite la obtención de grupos con traslapes.
Propuesta de investigación Objetivos específicos: • Diseñar e implementar un algoritmo de agrupamiento jerárquico incremental que permita construir una jerarquía de grupos en la cual se permiten diferentes niveles de abstracción y que además: • Utilice el algoritmo desarrollado en el objetivo 1 como rutina de agrupamiento en cada nivel de la jerarquía. • Diseñar e implementar un algoritmo de agrupamiento jerárquico dinámico que permita construir una jerarquía de grupos en la cual se permiten diferentes niveles de abstracción y que además: • Utilice el algoritmo desarrollado en el objetivo 2 como rutina de agrupamiento en cada nivel de la jerarquía.
Propuesta de investigación Metodología: • Recopilar colecciones reportadas en la literatura en las cuales exista solapamiento entre las clases etiquetadas manualmente. • Seleccionar medidas internas o externas reportadas en la literatura para evaluar la calidad de los algoritmos de agrupamiento que permiten traslape.
Propuesta de investigación Metodología: • Desarrollar un algoritmo de agrupamiento para colecciones incrementales. • Analizar los algoritmos de agrupamiento reportados que permitan el traslape entre grupos y seleccionar cual o cuales presentan posibilidades de ser extendidos para el procesamiento de colecciones incrementales. • Determinar condiciones que puedan ser utilizadas para reagrupar el conjunto de grupos, formado por los algoritmos seleccionados en el paso 3.a, cuando varía la colección producto de la adición de uno o más elementos. • Diseñar e implementar, utilizando las condiciones determinadas en el paso 3.b, las versiones incrementales de los algoritmos seleccionados en el paso 3.a. • Evaluar los resultados mediante experimentos en colecciones recopiladas en el paso 1 y comparación con algoritmos reportados en la literatura. • Analizar los resultados experimentales y determinar deficiencias. En caso de existir deficiencias, proponer un algoritmo o varios algoritmos que las solucionen.
Propuesta de investigación Metodología: • Desarrollar un algoritmo de agrupamiento para colecciones dinámicas. • Determinar condiciones que puedan ser utilizadas para reagrupar el conjunto de grupos, formado por el o los algoritmos desarrollados en el paso 3, cuando varía la colección producto de la eliminación o modificación de uno o más elementos. • Diseñar e implementar, utilizando las condiciones determinadas en el paso 4.b, las versiones dinámicas de los algoritmos desarrollados en el paso 3. • Evaluar los resultados mediante experimentos en colecciones recopiladas en el paso 1 y comparación con algoritmos reportados en la literatura. • Analizar los resultados experimentales y determinar deficiencias. En caso de existir deficiencias, proponer un algoritmo o varios algoritmos que las solucionen.
Propuesta de investigación Metodología: • Desarrollar un algoritmo jerárquico para colecciones incrementales. • Analizar algoritmos incrementales reportados en la literatura incluyendo los algoritmos desarrollados en el paso 3 y determinar cual o cuales pueden ser utilizados como rutina de agrupamiento en un algoritmo jerárquico aglomerativo estático. • Seleccionar criterio para la representación de los grupos de los niveles superiores de la jerarquía. • Estudiar los criterios reportados en la literatura para representar un grupo de prototipos a través de un prototipo representante y determinar deficiencias de cada uno. • Evaluación de los criterios estudiados del paso 5.b.i) utilizando algoritmos de agrupamiento jerárquico aglomerativo clásicos. • Analizar los resultados experimentales y seleccionar el criterio de representación con el cual se obtenga los mejores resultados. En caso de que todos los resultados experimentales sean pobres, proponer un criterio de representación de grupo de prototipos.
Propuesta de investigación Metodología: • Desarrollar un algoritmo jerárquico para colecciones incrementales.(cont.) • Diseñar e implementar las versiones jerárquicas aglomerativas estáticas de los algoritmos seleccionados en el paso 5.a) utilizando como criterio de representación de grupo el seleccionado en el paso 5.b). • Determinar condiciones que puedan ser utilizadas para reagrupar los grupos de los niveles superiores de la jerarquía, formada por los algoritmos desarrollados en el paso 5.c), cuando se adiciona uno o más elementos al nivel cero de la misma. • Diseñar e implementar, utilizando las condiciones determinadas en el paso 5.d), las versiones incrementales de los algoritmos desarrollados en el paso 5.c). • Evaluar los resultados mediante experimentos en colecciones recopiladas en el paso 1 y comparación con algoritmos reportados en la literatura. • Analizar los resultados experimentales y determinar deficiencias. En caso de existir deficiencias, proponer un algoritmo o varios algoritmos que las solucionen.
Propuesta de investigación Metodología: • Desarrollar un algoritmo jerárquico para colecciones dinámicas. • Analizar algoritmos jerárquicos incrementales aglomerativos reportados en la literatura incluyendo los algoritmos desarrollados en el paso 5 y determinar cual o cuales pueden ser extendidos para procesar colecciones dinámicas. • Determinar condiciones que puedan ser utilizadas para reagrupar el conjunto de grupos de los niveles superiores de la jerarquía, formada por el o los algoritmos seleccionados en el paso 6.a), cuando varía la colección producto de la eliminación o modificación de uno o más elementos. • Diseñar e implementar, utilizando las condiciones determinadas en el paso 6.b y el criterio de representación de grupos seleccionado en el paso 5.b), las versiones dinámicas de los algoritmos seleccionados en el paso 6.a). • Evaluar los resultados mediante experimentos en colecciones recopiladas en el paso 1 y comparación con algoritmos reportados en la literatura.
Propuesta de investigación Metodología: • Desarrollar un algoritmo jerárquico para colecciones dinámicas. (cont.) • Analizar los resultados experimentales y determinar deficiencias. En caso de existir deficiencias, proponer un algoritmo o varios algoritmos que las solucionen. • Evaluar experimentalmente los algoritmos desarrollados utilizando las colecciones seleccionadas en el paso 1.
Propuesta de investigación Contribuciones: • Un algoritmo de agrupamiento para el procesamiento de colecciones dinámicas de prototipos el cual considera la obtención de grupos con traslape. • Un algoritmo de agrupamiento jerárquico aglomerativo para el procesamiento de colecciones dinámicas de prototipos el cual considera la obtención de grupos con traslape y la formación de una jerarquía con diferentes grados de abstracción.
Propuesta de investigación Cronograma
Resultados preliminares • Me encuentro ejecutando los primeros pasos de la metodología, e implementando un primer algoritmo incremental. Una vez terminado se compararía con los algoritmos reportados utilizando: • Medidas externas como el Jaccardindex, Fmeasure y F1 para medir la calidad del agrupamiento. • Diferentes cantidades de elementos adicionados para medir la escalabilidad del algoritmo.
FIN ¿ Preguntas ?