html5-img
1 / 34

Escalamiento Multidimensional No-Métrico

Escalamiento Multidimensional No-Métrico. Capítulo 16 de McCune y Grace 2002. Rasgos generales. Busca las mejores posiciones de n objetos en un espacio de k dimensiones que se asemejen más a las posiciones de los objetos según sus distancias originales. Es iterativo

lydie
Télécharger la présentation

Escalamiento Multidimensional No-Métrico

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Escalamiento Multidimensional No-Métrico Capítulo 16 de McCune y Grace 2002

  2. Rasgos generales • Busca las mejores posiciones de n objetos en un espacio de k dimensiones que se asemejen más a las posiciones de los objetos según sus distancias originales. • Es iterativo • No supone que existan relaciones lineales entre variables • Utiliza el orden de distancias (“ranked distances”) como criterio principal.

  3. Rasgos generales (continuación) • Permite utilizar cualquier medida de distancia o relativización. (Otros algoritmos (e.g., PCA) solo aceptan una medida de distancia). • Cada corrida puede resultar en ordenaciones diferentes, si se comienza el proceso desde un arreglo distinto. • Requiere muchos más recursos de computación que otros algoritmos, particularmente con muchos datos. • Es posible que encuentre una solución subóptima (pero hay formas de evitarlo).

  4. Procesamiento • 1. Calcular matriz de distancias ecológicas Δentre unidades de muestra (disimilaridades) • 2. Asignar unidades en una configuración inicial de k dimensiones • 3. Calcular la matriz D de distancias Euclidianas en el espacio de k dimensiones • 4. Ordenar los elementos de Δ en orden ascendente

  5. Procesamiento (continuación) • 5. Ordenar los elementos de D en el mismo orden de Δ • 6. Calcular Ď (matriz en la que se sustituyen las distancias no-monotónicas d con distancias monotónicas d’) • 7. Calcular la tensión S (“stress”)del arreglo inicial a base de la suma de las diferencias (d-d’)2.

  6. Procesamiento (continuación) • 8. Minimizar la tensión S mediante la modificación del arreglo de unidades en el espacio de k dimensiones. El parámetro α (“initial step length”) indica la velocidad inicial de modificación de tensión. • 9. Iterar (regresar al paso 3) hasta que: • Se completen un número máximo de iteraciones • O se obtenga cierto nivel de estabilidad

  7. Analogía • Paisaje con varias lomas y valles de distintas profundidades • NMS intenta encontrar el valle más profundo (mínimo global) • En ocasiones encuentra un valle menos profundo (mínimo local) • Los mínimos locales pueden evitarse: • Haciendo varias corridas con arreglos iniciales al azar • Corriendo NMS con arreglo inicial producido por otro método de ordenación

  8. La mejor solución • Seleccionar un número de dimensiones k apropiado • Buscar tensión S baja • Utilizar una prueba de Monte Carlo • Evitar soluciones inestables

  9. Número de dimensiones • Graficar tensión final vs k • Gráfica “scree” • Seleccionar número de ejes más allá de los cuales hay poca reducción en tensión

  10. Buscar tensión baja • Regla general:

  11. Prueba de Monte Carlo • Prueba de significacia de un arreglo de muestras en espacio de ordenación • Se rearreglan las especies de la matriz de datos un número x de veces al azar • Precaución con: • Rezagados muy influyentes • Especies super abundantes • Con pocas muestras la prueba puede ser conservadora • Si la data tiene muchos ceros puede haber problema con ciertas medidas de distancia

  12. Evitar soluciones inestables • Graficar tensión vs iteraciones

  13. ¿Qué informar? • Medida de distancia • Algoritmo utilizado • Arreglo inicial • # de corridas con datos reales • Cómo mide dimensionalidad • Cuántas dimensiones en la solución final • Tensión de la solución final

  14. ¿Qué informar? • # de corridas con datos aleatorios • Resultados de Monte Carlo • Cuantas iteraciones para la solución final • Como se evaluó la estabilidad • Proporción de varianza representada por cada eje • Ayudas para interpretación

  15. Matriz de distancias originales Δ

  16. Matriz D

  17. Elementos de matriz Δ Elementos de matriz Δordenados

  18. Matriz Δ Matriz D

More Related