310 likes | 534 Views
Escalogramas multidimensionales. Introducción. Dada una matriz de distancias, D, (contiene ceros en la diagonal es simétrica y cuadrada) obtener las variables que han generado estas distancias La matriz puede ser de similaridades (con unos en la diagonal y cuadrada y simétrica)
E N D
Introducción • Dada una matriz de distancias, D, (contiene ceros en la diagonal es simétrica y cuadrada) obtener las variables que han generado estas distancias • La matriz puede ser de similaridades (con unos en la diagonal y cuadrada y simétrica) • distancia =1- similaridad
Coordenadas principales • Dada la matriz D de distancias, ¿Podemos encontrar las variables que podrían haberla generado? • Es decir, ¿Podemos encontrar una matriz de datos X que puede haber generado la D?
Método: entender como se genera una matriz D conocida la X y reconstruir el camino al reves para encontrar la matrix X a partir de la D
Obtención de las coordenadas principales Definamos: (Esta matriz es una estandarización de la matriz de distancias) (determinamos el rango de la matriz de distancias estandarizada)
Coordenadas principales (Aproximamos la matriz Q como producto XX’ para cierta X)
(Estas distancias estandarizadas suman ahora cero por filas y columnas, para facilitar la lectura, la matriz se ha dividido por 10000)
Ejemplo Los vectores y valores propios de Q son:
Justificación del método Con esta matriz de variables de media cero podemos calcular dos matrices cuadradas: La S de covarianzas entre variables y la Q matriz de productos escalares entre observaciones
Relación entre la matriz de distancias, D, y la Q: Conclusión: Dada la matriz Q podemos obtener la D
Forma de recuperar la Q dada la D Observemos que como las variables tienen media cero, la suma de una fila de Q es cero. t =traza(Q)
Obtener la matriz X dada la Q • Realizar la descomposición espectral de la matriz cuadrada Q Q=ABA’=AB1/2B1/2A’ donde A y B contienen los valores y vectores propios no nulos. Entonces: X=AB1/2
Diremos que la matriz D es compatible con una metrica euclidea si la matriz Q obtenida como Q=-(1/2)PDP • es semidefinida positiva
Relación con componentes • Componentes: valores y vectores propios de S • Coordenadas: valores y vectores propios de Q Si los datos son métricos ambos procedimientos son idénticos Coordenadas generaliza componentes para datos no exactamente métricos
BiplotsRepresentación en dos dimensiones de una matriz de datos o distancias por filas y columnas Representar conjuntamente los observaciones por las filas de V2 y Las variables mediante las coordenadas D1/2 A’2 Se denominan biplots a los gráficos de dos dimensiones para una matriz de datos, que aproximan su estructura por filas y columnas
Escalado no métrico • Se parte de una matriz de similaridades entre objetos • Se supone que las variables que determinan las distancias euclídeas entre los elementos estan relacionadas con las similaridades observadas entre los objetos pero solo de una forma monótona similaridad =F (distancia)
Idea del método • Si tenemos una relación monótona entre x e y debe haber una relación lineal exacta entre los rangos de x y los de y • Asignar rangos estimar una regresión e iterar