1 / 61

Un Ambiente para la Evaluación de Arquitecturas de Memoria en Esquemas Multihilo Simultáneo

Un Ambiente para la Evaluación de Arquitecturas de Memoria en Esquemas Multihilo Simultáneo. Augusto J. Vega ajvega@fi.uba.ar Tesis de Grado en Ingeniería en Informática Orientación en Sistemas Distribuidos Febrero de 2007. Introducción.

selah
Télécharger la présentation

Un Ambiente para la Evaluación de Arquitecturas de Memoria en Esquemas Multihilo Simultáneo

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Un Ambiente para la Evaluación de Arquitecturas de Memoria en Esquemas Multihilo Simultáneo Augusto J. Vega ajvega@fi.uba.ar Tesis de Grado en Ingeniería en Informática Orientación en Sistemas Distribuidos Febrero de 2007

  2. Introducción • Interrogantes respecto al desempeño de los recursos compartidos (memoria caché L1) en los nuevos procesadores con soporte multihilo (HyperThreading, Power5, etc.). • Presentación de una nueva organización caché adecuada para estos procesadores. • Desarrollo de herramientas para el estudio de memorias caché en ambientes multihilo. • Creación de nuevas métricas y adaptación de otras existentes.

  3. Estructura de laPresentación • Recolección de trazas. • Procesamiento de trazas y simulación. • Caché para procesadores multihilo. • Conclusiones y trabajo a futuro.

  4. Recolección de Trazas • Traza: secuencia de referencias a memoria generadas por un programa. • Útil para la simulación de memorias caché. • Típicamente, provenientes de programas secuenciales (un solo hilo de ejecución). • Necesidad de trazas multihilo. 0x804879C 0x804879D 0x804879F 0x80487A2 0x80487A5 0x80487A7 0x80487AA 0x80487AD 0x80487B0 0x80487B1 ...

  5. Técnicas de Recolección

  6. El Sistema Valgrind • Herramienta para depuración y análisis de desempeño, para ejecutables Linux-x86. • Implementación de un procesador sintético x86. • Instrumentación dinámica de código binario. • Herramienta pública (GPL) y de código abierto. • Sitio web: http://www.valgrind.org/

  7. Diseño General

  8. El Sistema Valgrind(cont.) Valgrind puede clasificarse como un emulador del conjunto de instrucciones. Valgrind

  9. Valgrind + Multihilo • Soporte para hilos POSIX (pthreads). • Coregrind es responsable de la planificación mediante política round-robin. • Modificaciones al planificador, para lograr una ejecución pseudo-simultánea de los hilos.

  10. El Módulo Tracegrind • Módulo para recolección de trazas multihilo, aprovechando el soporte de Valgrind. • Instrumenta cada operación de lectura/escritura. • Comprime la traza “al vuelo”, usando LZ77.

  11. El Módulo Tracegrind(cont.)

  12. Validación de Trazas • No se puede “confiar” en los resultados posteriores si las trazas no son válidas. • No existen metodologías rigurosas. • Consejos obtenidos del Prof. Alan Jay Smith[1]: • Tomar muestras de la traza y compararlas “manualmente” contra el código objeto. • Realizar un análisis básico de tasas de lecturas y escrituras, cant. de instrucciones, distancia de saltos, etc. y compararlos contra resultados publicados. [1] Computer Science Division, EECS Department, University of California, Berkeley.

  13. Validación de Trazas deInstrucciones y Datos • Uso de programas multihilo “modelo”. • Ejecución de los mismos sobre Valgrind, y recolección de sus trazas. • Desensamblado de los programas “modelo”, y comparación “a mano” contra la traza de instrucciones. • Salida por pantalla de las direcciones de memoria de estructuras de datos y variables, y comparación “a mano” contra la traza de datos.

  14. Trazas Recolectadas • Subconjunto de los benchmarks SPLASH-2 (Stanford Parallel Applications for Shared Memory). • Aplicaciones para procesamiento paralelo de algoritmos típicos (FFT, LU, Cholesky, etc.). • Construido en base a macros PARMACS. • Se utilizaron PARMACS para hilos POSIX.

  15. Trazas Recolectadas(cont.)

  16. Estructura de laPresentación • Recolección de trazas. • Procesamiento de trazas y simulación. • Caché para procesadores multihilo. • Conclusiones y trabajo a futuro.

  17. Procesamiento de Trazasy Simulación • Posibles procesamientos sobre una traza: • Conversión de formato. • Compresión. • Filtrado y muestreo. • Simulación. • Construcción de un framework flexible para el procesamiento de trazas  SimiOO • Extensible mediante la construcción de plug-ins. • Programado en lenguaje Java.

  18. Simulación deMemorias Caché • Metodologías: • Modelado analítico. • Simulación. • Técnicas de simulación: • Manejada por ejecución: la simulación se realiza mientras se ejecuta el programa. • Manejada por trazas: la simulación se realiza utilizando el “historial” de accesos a memoria. • Uso de estructuras (arreglos lineales y matrices) para modelar las organizaciones de memoria.

  19. Procesamientode una Traza • Lectura secuencial de todas las referencias. • Procesamiento sobre cada referencia leída (por ejemplo, alimentarla a un simulador). Por ejemplo, simulador de memorias caché

  20. Interfaz Gráfica de Usuario Marco genérico aportado por el núcleo de SimiOO Perspectiva aportada por el plug-in

  21. Estructura de laPresentación • Recolección de trazas. • Procesamiento de trazas y simulación. • Caché para procesadores multihilo. • Conclusiones y trabajo a futuro.

  22. Paralelismo a Nivelde Instrucciones • Un procesador superescalar puede procesar dos o más instrucciones simultáneamente. • Replica algunas unidades funcionales (ALU). • Explota el paralelismo a nivel de instrucciones. • Podría implementar un mecanismo de pipeline.

  23. Paralelismo a Nivelde Instrucciones (cont.) • En la práctica, este paralelismo suele ser pobre, debido a “riesgos” (hazards): • Estructurales: recursos insuficientes. • De Datos: dependencias de datos entre dos instrucciones. • De Control: debido a transferencias del flujo de control (branches). • Además, el flujo de ejecución podría bloquearse ante una operación de E/S o un desacierto en la memoria caché.

  24. Paralelismo a Nivelde Instrucciones (cont.) • Se generan “desperdicios”: • Horizontales. • Verticales. • Se explota el paralelismo a nivel de hilo: • CMT (Coarse-Grain Multithreading). • FMT (Fine-Grain Multithreading). • SMT (Simultaneous Multithreading).

  25. Multihilo Simultáneo - SMT • Permite la ejecución simultánea de dos o más “hilos” de instrucciones, aprovechando el TLP. • También explota el ILP presente en cada hilo. • Competencia por los recursos (e.g., la memoria caché). • Implementaciones comerciales: • Intel Hyper-Threading. • IBM Power5. • MIPS MT.

  26. Multihilo Simultáneo - SMT(cont.)

  27. Multihilo Simultáneo - SMT(cont.) ¿Cómo se comporta la memoria caché en un procesador multihilo simultáneo?

  28. Memorias Caché • Caché: lugar oculto para guardar provisiones. • En computación, memoria pequeña y de rápido acceso para mantener los datos que, se supone, serán usados en un futuro inmediato. • Explota el principio de localidad. • Reduce los accesos a memorias más lentas.

  29. Memorias Caché(cont.) • En caso de desacierto, se trae el bloque desde el nivel inferior. • Estrategias para ubicar el nuevo bloque: • Correspondencia directa. • Asociativa por conjuntos. • Completamente asociativa. • Políticas de reemplazo: • LRU (Least Recently Used). • FIFO. • Aleatoria.

  30. Memoria Cachéde Correspondencia Directa El nuevo bloque puede ubicarse en un solo lugar de la caché.

  31. Memoria CachéAsociativa por Conjuntos El nuevo bloque puede ubicarse en un conjunto de lugares posibles de la caché. Conjunto

  32. Memoria CachéCompletamente Asociativa El nuevo bloque puede ubicarse en cualquier lugar de la caché.

  33. El Esquema SWSA • Esquema asociativo tradicional. • Los bancos (vías) pueden ser de tamaños diferentes. • Los bloques pueden compartirse entre diferentes conjuntos.

  34. El Esquema SWSA-MT • Se basa en el diseño SWSA. • Cada hilo dispone de un banco privado. • Todos los hilos acceden a un banco compartido.

  35. Nuevos Criteriosy Métricas • Tasa de aciertos compartidos: tasa de aciertos debido a accesos a bloques previamente referenciados por otros hilos. • Acierto “largo”: acierto debido a que el bloque buscado por el hilo x se encuentra en la memoria privada del hilo y, siendo x  y. • Tasa de reubicación: tasa de reubicaciones debido a aciertos “largos”.

  36. Clasificación de Desaciertos • Objetivo: Conocer la causa de los desaciertos en una memoria caché para descubrir “debilidades”. • Los modelos clásicos de clasificación no contemplan ambientes de ejecución multihilo. • Uno de los más utilizados: modelo de las 3C [1] • Desaciertos obligatorios (compulsory). • Desaciertos de capacidad (capacity). • Desaciertos de conflicto (conflict). [1] Mark Hill, Aspects of Cache Memory and Instruction Buffer Performance, Ph.D. Thesis, University of California, Berkeley.

  37. Clasificación de Desaciertos:El Modelo de las 4C • Propuesto en esta tesis, como extensión del modelo de las 3C. • Útil para ambientes multihilo. • Tipos de desaciertos: • Obligatorios (compulsory). • De capacidad (capacity). • De conflicto cerrado (closed-conflict). • De conflicto cruzado (crossed-conflict).

  38. Ambiente de Simulación

  39. Tasa de Desaciertos

  40. Tasa de Desaciertos(cont.)

  41. Clasificación de Desaciertos

  42. Clasificación de Desaciertos(cont.)

  43. Clasificación de Desaciertos(cont.)

  44. Tasa de Aciertos Compartidos

  45. Tasa de Aciertos Compartidos(cont.)

  46. Tasa de Reubicación

  47. Tasa de Reubicación(cont.)

  48. Tasa de Desaciertos “Ideal”

  49. Tasa de Desaciertos “Ideal”(cont.)

  50. Tasa de Desaciertos1 Hilo

More Related