350 likes | 555 Views
Escalamiento Multidimensional No-Métrico. Capítulo 16 de McCune y Grace 2002. Rasgos generales. Busca las mejores posiciones de n objetos en un espacio de k dimensiones que se asemejen más a las posiciones de los objetos según sus distancias originales. Es iterativo
E N D
Escalamiento Multidimensional No-Métrico Capítulo 16 de McCune y Grace 2002
Rasgos generales • Busca las mejores posiciones de n objetos en un espacio de k dimensiones que se asemejen más a las posiciones de los objetos según sus distancias originales. • Es iterativo • No supone que existan relaciones lineales entre variables • Utiliza el orden de distancias (“ranked distances”) como criterio principal.
Rasgos generales (continuación) • Permite utilizar cualquier medida de distancia o relativización. (Otros algoritmos (e.g., PCA) solo aceptan una medida de distancia). • Cada corrida puede resultar en ordenaciones diferentes, si se comienza el proceso desde un arreglo distinto. • Requiere muchos más recursos de computación que otros algoritmos, particularmente con muchos datos. • Es posible que encuentre una solución subóptima (pero hay formas de evitarlo).
Procesamiento • 1. Calcular matriz de distancias ecológicas Δentre unidades de muestra (disimilaridades) • 2. Asignar unidades en una configuración inicial de k dimensiones • 3. Calcular la matriz D de distancias Euclidianas en el espacio de k dimensiones • 4. Ordenar los elementos de Δ en orden ascendente
Procesamiento (continuación) • 5. Ordenar los elementos de D en el mismo orden de Δ • 6. Calcular Ď (matriz en la que se sustituyen las distancias no-monotónicas d con distancias monotónicas d’) • 7. Calcular la tensión S (“stress”)del arreglo inicial a base de la suma de las diferencias (d-d’)2.
Procesamiento (continuación) • 8. Minimizar la tensión S mediante la modificación del arreglo de unidades en el espacio de k dimensiones. El parámetro α (“initial step length”) indica la velocidad inicial de modificación de tensión. • 9. Iterar (regresar al paso 3) hasta que: • Se completen un número máximo de iteraciones • O se obtenga cierto nivel de estabilidad
Analogía • Paisaje con varias lomas y valles de distintas profundidades • NMS intenta encontrar el valle más profundo (mínimo global) • En ocasiones encuentra un valle menos profundo (mínimo local) • Los mínimos locales pueden evitarse: • Haciendo varias corridas con arreglos iniciales al azar • Corriendo NMS con arreglo inicial producido por otro método de ordenación
La mejor solución • Seleccionar un número de dimensiones k apropiado • Buscar tensión S baja • Utilizar una prueba de Monte Carlo • Evitar soluciones inestables
Número de dimensiones • Graficar tensión final vs k • Gráfica “scree” • Seleccionar número de ejes más allá de los cuales hay poca reducción en tensión
Buscar tensión baja • Regla general:
Prueba de Monte Carlo • Prueba de significacia de un arreglo de muestras en espacio de ordenación • Se rearreglan las especies de la matriz de datos un número x de veces al azar • Precaución con: • Rezagados muy influyentes • Especies super abundantes • Con pocas muestras la prueba puede ser conservadora • Si la data tiene muchos ceros puede haber problema con ciertas medidas de distancia
Evitar soluciones inestables • Graficar tensión vs iteraciones
¿Qué informar? • Medida de distancia • Algoritmo utilizado • Arreglo inicial • # de corridas con datos reales • Cómo mide dimensionalidad • Cuántas dimensiones en la solución final • Tensión de la solución final
¿Qué informar? • # de corridas con datos aleatorios • Resultados de Monte Carlo • Cuantas iteraciones para la solución final • Como se evaluó la estabilidad • Proporción de varianza representada por cada eje • Ayudas para interpretación
Elementos de matriz Δ Elementos de matriz Δordenados
Matriz Δ Matriz D