230 likes | 471 Views
Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado. Matriz X. Métodos de agrupación. Distintas formas de medir la distancia. Análisis de Cluster con SPSS. Ruta: Analizar Clasificar Conglomerados Jerárquicos. Ingrese la Matriz. 1) Vamos a “Estadisticos” .
E N D
Ruta • Estadísticas • Análisis multivariado • Análisis de Conglomerado Matriz X
Métodos de agrupación Distintas formas de medir la distancia
Ruta: • Analizar • Clasificar • Conglomerados Jerárquicos Ingrese la Matriz
Permite transformar los valores generados por la medida de distancia. Se aplican una vez calculada la medida de distancia. Las opciones disponibles son: Valores absolutos, Cambiar el signo y Cambiar la escala al rango 0-1.
Permite estandarizar los datos, para los casos o las variables, antes de calcular las distancias. • Puntuaciones Z: Estandarizados a puntuaciones Z, con media 0 y desviación típica 1. • Rango -1 a 1: Cada valor del elemento que se tipifica se divide por el rango de los valores. • Rango 0 a 1: Sustrae el valor mínimo de cada elemento que se tipifica y lo divide por el rango. Magnitud máxima de 1: Divide cada valor del elemento que se tipifica por el máximo de los valores. Media 1: Divide cada valor del elemento que se tipifica por la media de los valores. Desviación típica: Divide cada valor de la variable o caso por la desviación típica.
Opciones para Datos Binarios: • Distancia euclídea. S e calcula a partir de una tabla 2*2 como SQRT(b+c), donde b y c representan las casillas diagonales correspondientes a los casos presentes en un elemento pero ausentes en el otro. • Distancia euclídea al cuadrado. Se calcula como el número de casos discordantes. Su valor mínimo es 0 y no tiene límite superior. • Diferencia de tamaño. Se trata de un índice de asimetría. Oscila de 0 a 1. • Diferencia de configuración. Medida de disimilaridad para datos binarios que oscila de 0 a 1. Se calcula a partir de una tabla 2*2 como bc/(n**2), donde b y c representan las casillas diagonales correspondientes a los casos presentes en un elemento pero ausentes en el otro y n es el número total de observaciones. • Varianza. Se calcula a partir de una tabla 2x2 como (b+c)/4n, donde b y c representan las casillas diagonales correspondientes a los casos presentes en un elemento pero ausentes en el otro y n es el número total de observaciones. Oscila de 0 a 1. • Dispersión. Este índice de similaridad tiene un rango de -1 a 1. • Forma. Esta medida de distancia tiene un rango entre 0 y 1 y penaliza la asimetría de las discordancias. • Concordancia simple. Se trata de la razón de concordancias respecto al número total de valores. Se ofrece una ponderación igual a las concordancias y a las discordancias.
Correlación Phi de 4 puntos. Este índice es un análogo binario del coeficiente de correlación de Pearson. Varía entre -1 y 1. • Lambda. Este índice es l a lambda de Goodman y Kruskal. Corresponde a la reducción proporcional del error (RPE o PRE) utilizando un elemento para pronosticar el otro (pronosticando en ambas direcciones). Los valores oscilan entre 0 y 1. • D de Anderberg. Similar a lambda, este índice corresponde a l a reducción de e rror real utilizando un elemento para predecir el otro (predice en ambas direcciones). Los valores oscilan entre 0 y 1. • Dice. Éste es un índice en el que no se toman en cuenta las ausencias conjuntas y donde las concordancias se ponderan doblemente. También se conoce como medida de Czekanowski o Sorensen. • Hamann. Este índice es el número de c oncordancias menos el número de discordancias, dividido por el número total de elementos. Oscila de -1 1. • Jaccard. Se trata de un índice en el que no se toman en cuenta las ausencias conjuntas. Se ofrece una ponderación igual a l as concordancias y a las discordancias. Se conoce también como razón de similaridad.
Método de K- Medias con e SPSS: • Permite procesar un numero ilimitado de casos, pero solo permite utilizar un metodo de aglomeracion y requiere que se proponga previamente el numero de conglomerados que se desea obtener. Tambien se puede especificar los centros iniciales de los conglomerados si conoce de antemano dicha información.
Ruta: AnalizarClasificar Conglomerado de K medias
Se Ubican las variables numéricas que se quieran utilizar para la clasificación Permite elegir el numero de conglomerados. Por default esta seleccionado 2 pero se puede modificar a gusto.. Opcionalmente, se puede elegir una variable para identificar los casos en la tabla de resultados y en los gráficos. En “Métodos” tenemos la opcion de indicar si los centros de los conglomerados deben o no ser estimardos iterativamente: 1)Iterar y Clasificar: El método se encarga de estimar los centros iterativamente y de clasificar a los sujetos/casos con arreglo a los centroides estimados. 2) Se clasifica a los sujeto/casos en función de los centroides iniciales.
Las siguientes opciones sólo están disponibles si se selecciona el método ITERAR Y CLASIFICAR en el cuadro de diálogo principal. • ITERACIONES MÁXIMAS. Limita el número de iteraciones en el algoritmo k-medias. Se detiene, incluso si no se ha satisfecho el criterio de convergencia. Está entre el 1 y el 999. • CRITERIO DE CONVERGENCIA. Determina cuándo cesa la iteración. Debe ser mayor que 0 pero no mayor que 1. La iteración cesará si no mueve ninguno de los centros de los conglomerados en una distancia superior al 2% de la distancia menor entre cualquiera de los centros iniciales. • USAR MEDIAS ACTUALIZADAS. Permite solicitar la actualización de los centros de los conglomerados tras la asignación de cada caso. Si no selecciona esta opción, los nuevos centros de los conglomerados se calcularán después de la asignación de todos los casos.