PROGRAMACIÓN DE SISTEMAS PARALELOS 2010 Agustin Arruabarrena – Javier Muguerza

PROGRAMACIÓN DE SISTEMAS PARALELOS 2010 Agustin Arruabarrena – Javier Muguerza

1.Computadores Paralelos (resumen). 2.Programación de Sistemas de Memoria Compartida (SMP): OpenMP. 3.Programación de Sistemas de Memoria Distribuida: MPI. 4.Ejercicios prácticos Programa

. 1 . COMPUTADORES PARALELOS (resumen)

1. Estructura de los sistemas para-lelos. Máquinas SMP, DSM y MPP. Clusters. Situación actual. 2. Infraestructura de comunicación. Protocolos de comunicación de alto rendimiento. 3. Coherencia de los datos. Sincronización de procesos. Modelo de consistencia. 4. Modelo de paralelismo. Análisis de dependen-cias. Optimizaciones. 5. Rendimiento del sistema paralelo. Índice Índice

Un procesador • Procesadores cada vez más eficientes: • 2-6 Gflop/s • Dos mercados: • - gama “alta” • IBM → Power4, 5, PowerPC, Cell • Intel / HP → Itanium 2 , IA64 • - gama “baja” • Intel → Pentium 4, Xeon • AMD → Opteron

Itanium (IA-64)

IBM Power4/5

Necesidad de Paralelismo • La busca de paralelismo a nivel de instrucción tiene un límite, marcado en muchas ocasiones por la propia aplicación (+ hard, + soft). • Existen múltiples problemas para los que un solo procesador no es suficiente, por más que éste sea cada vez más rápido. • Y en otros muchos casos, es posible reducir sensiblemente el tiempo de ejecución.

Necesidad de Paralelismo •  Ejemplo “simple”: meteorología atmósfera dividida en “puntos” de 1x1x1 km3 1010 puntos 300 operaciones c.f. / elemento 3 x 1012 f cada 10 minutos (144 veces día)  5 x 1014 f una máquina a 1.000 MF/s 5 x 105 s  simular una interacción ... 6 días. Además, el tamaño de las tareas a ejecutar puede crecer todo lo que queramos.

Necesidad de Paralelismo • Solución: Paralelismo • Utilizar P (muchos) procesadores que cooperen en la resolución de un problema, para ir P veces más rápido. + tolerancia a fallos + throughput + entrada/salida

P SMP fl. instrucciones C 1 N bus memoria compartida SISD 1 MP flujo datos P N SIMD MIMD MPP/NUMA Clusters C M Array Vectorial red general memoria distribuida Clasificación

Sistemas SIMD Dos arquitecturas básicas: 1.Memoria compartida(shared memory): El espacio de direccionamiento es único. Todos los procesadores pueden acceder a todas las posiciones de memoria. La comunicación entre procesos es a través de variablescompartidas. 2. Memoria Distribuida(distributed memory): Cada procesador tiene un espacio de direccionamiento privado. No existen posiciones de memoria comunes. La comunicación entre procesos es mediante paso de mensajes.

Espacio de Direccionamiento comúnprivado Memoria centralizada (bus) distribuida (red) Sistemas SIMD SMP - DSM, NUMA MPP

Coste del sistema paralelo Sistemas masivamente paralelos MPP Las mejores prestaciones (velocidad de cálculo): comunicación de baja latencia y elevado ancho de banda, en algunos casos procesadores con diseño específico, software de control muy optimizado, etc. Pero COSTE MUY ELEVADO Alternativa: clusters

Clusters • Clusters Un sistema paralelo formado por P máquinas de propósito general (bajo coste), unidas mediante una red de comunicación (igualmente de bajo coste?). Se asume que no se trabaja con el último modelo de procesador y que la latencia de las comunicaciones será algún orden de magnitud mayor que en el caso de los supercomputadores MPP. Objetivo: buena relación coste/rendimiento

Clusters • Clusters - Alta disponibilidad (high availability): redundancia para mantener siempre la aplicación en funcionamiento. - Alto rendimiento (high performance) capacidad de “responder” de manera más rápida En general: redundancia + rendimiento + escalabilidad

Clusters •  hardware “habitual” • - procesador “estándar” (+memoria, disco, conexiones exterior) • - red propia, con conexiones a una red global • (fast) gigabit ethernet... • Myrinet, SCI, Inifiniband, Quadrics... •  software “habitual” • - desarrollo: MPI,OpenMP, HPF (+debuggers, profilers...) • - administración del sistema: instalación, monitorización, diagnosis...

Itanium / Pentium IBM 360, PDP-11, VAX grid ASCI Red supercomputadores cluster The GRID

The GRID Tipos de aplicaciones > grano grueso(high throughput) muchas tareas independientes simulaciones Montecarlo, procesamiento de banco de imágenes… >grano fino (high performance) comunicación entre procesos meteorología, simulaciones astrofísica realidad virtual…

Evolución del mercado de computadores de alta velocidad. La lista top500. noviembre 2009

TOP500 Lista de los 500 supercomputadores más rápidos del mundo ejecutando el banco de pruebas LINPACK. Sistemas de ecuaciones lineales densos (cálculo matricial). Permite obtener velocidades muy altas (un máximo virtual). Se mide el valor de Rmax,NmaxyN1/2. También se empieza a medir la potencia consumida.

TOP500 Cada 6 meses desde 1993 (junio/diciembre). Lista nº 34 - noviembre 2009 Más o menos aceptado por todos los fabricantes. Análisis de tendencias / evolución del mercado.

RoadRunner BlueGene ×1,9/año NEC Earth Sim. IBM ASCI White LLNL Intel ASCI Red Sandia TOP500 27.951 TF/s 4.664.627 pr. (6 GF/s) Jaguar 1 PF/s → 2008 (dic) 10 PF/s → 2012 (jun) 100 PF/s → 2015 (dic)

TOP500

TOP500 CM2 VP500 RoadRunner Sun HPC Y-MP C90 Jaguar ASCI Red SP2 Paragon Blue Gene T3D Earth Sim. CM5 T3E

TOP500

Problemas - Objetivos Problemas a resolver (algunos) ¿cómo se reparte un algoritmo en P procesos? - división y scheduling / load balancing ¿son todos los procesos independientes? - dependencias y sincronización ¿cómo se mantiene la coherencia de los datos? - protocolos de coherencia / consistencia ¿cuál es la arquitectura del sistema? ¿y la red de comunicación? ¿cómo se comunican los procesos?

1. Estructura de los sistemas paralelos. Máquinas SMP, DSM y MPP. Clusters. Situación actual. 2. Infraestructura de comunicación. Protocolos de comunicación de alto rendimiento. 3. Coherencia de los datos. Sincronización de procesos. Modelo de consistencia. 4. Modelo de paralelismo. Análisis de dependen-cias. Optimizaciones. 5. Rendimiento del sistema paralelo. Índice

Infraestructura de comunic. Tanto para el caso de memoria compartida como el memoria distribuida, necesitamos un soporte de comunicación que nos permita acceder a la memoria común, centralizada o no, transmitir datos de procesador a procesador. La red de comunicación es por tanto “independiente” del modelo, aunque haya redes adaptadas a cada uno de ellos. Repasemos las principales.

P C bus M Infraestructura de comunic. Los multiprocesadores SMP utilizan básicamente un bus como red de comunicación. La latencia de la memoria es independiente de la posición accedida: todas se encuentran a la misma “distancia” (UMA). Aunque el bus es una red cuya gestión es “sencilla” y muy conocida, tiene problemas de escalabilidad: - sólo admite “una” comunicación simultánea. - se satura al crecer el número de procesadores.

P C M R red general espacio de memoria común Infraestructura de comunic. • Para poder utilizar muchos procesadoresy mantener un espacio común de memoria, se necesita distribuir físicamente la memoriaentre los procesadores y usar otro tipo de red de comunicación. Ahora la latencia de los accesos no es constante: el acceso a los módulos locales de memoria es mucho más rápido que al resto (NUMA). El papel de la red de comunicación puede ser crucial.

Infraestructura de comunic. • Algunas características básicas que debe cumplir una buena red de comunicación: • permitir múltiples “comunicaciones” simultáneas entre procesadores; es decir permitir comunicación con un alto throughput. • ofrecer comunicaciones de baja latencia. • en la medida de lo posible, sertolerante a fallos. • ser de fácil construcción y ampliación y tener un routing simple.

4 3 2 1 1 4 3 2 t 1 2 4 3 3 2 1 4 4 3 2 1 4 1 3 2 1 4 3 2 1 Paso de mensajes (d = distancia, tr = tiempo de routing en cada nodo, B = ancho banda de los canales, L = longitud de los paquetes) • Store-and-ForwardTsf = d (tr + L/B) Cut-Through/Wormhole Tct = d (tr + 1/B) + (L-1)/B

Tráfico máximo Latencia (s) Throughput (b/s) Latencia a tráfico 0 Tráfico (b/s) Tráfico (b/s) Latencia y Throughput Teniendo en cuenta el tráfico de la red

puertos de entrada puertos de salida enlaces de comunicación enlaces de comunicación func. encam.+ crossbar búferes búferes procesador local procesador local El encaminador (router) • Básicamente, un conjunto de búferes asociados a puertos de entrada/salida, más la lógica que permite procesar las cabeceras de los paquetes y asociarles un puerto de salida.

Encaminamiento • Estáticoen orden de dimensiones (DOR) • sencillo y prefijado. • permite evitar problemas (tales como bloqueos). Dinámico permite adaptarse a condiciones de tráfico local y aprovechar la riqueza topológica de la red. añade tolerancia a fallos. pero puede implicar problemas de bloqueos en ciertas topologías.

interfaz + procesador (+SO?) P1 P2 red + encaminadores Otros elementos • Atención: el rendimiento del sistema de comuni-cación no depende únicamente del dispositivo físico de comunicación, la red. La comunicación procesador/procesador implica muchos más elementos.

Implementación habitual: memoria usuario memoria usuario int SO int SO Protocolos de comunic. • 1. TCP / IP • reliable / connection oriented • protocolo de los primeros clusters(y los de menor rendimiento) copia m. sistema copia m. sistema

10 Mb/s 100 Mb/s 1 Gb/s Protocolos de comunic. • El overhead generado por el sistema operativo y las copias van a suponer una parte importante en el tiempo total de comunicación. overhead del protocolo tiempo de transmisión Lat. paq. corto: 50-60 µs Lat. switch: 40 µs

Protocolos de comunic. • 2. Active Messages (Fast Messages) • Librería de comunicación de baja latencia del proyecto NOW (Berkeley). • Mensajes cortos: síncronos, request/reply • - se crea el mensaje en la memoria de usuario. • - el receptor crea un buffer en memoria de usuario y envía una petición (request). • - el hardware de red envía el mensaje desde la memoria de usuario del emisor a la del receptor. • - No se hacen copias en memoria del sistema:0 copias.

VIA • Estándares para clusters • 1. VIA: virtual interface architecture • Estándar de comunicaciones que combina las principales ideas desarrolladas en las universidades. • Consorcio de fabricantes: Intel, Compaq, Microsoft... • -- antes de enviar un mensaje, se reserva en memoria física, emisor y receptor, sitio para el mensaje. • -- las operaciones send/receive consisten en enviar un descriptor del paquete a una cola de proceso de paquetes. • -- puede esperarse confirmación o seguir con el trabajo.

VIA • Estándares para clusters • 1. VIA: virtual interface architecture • Implementaciones • -- nativa: parte del código se carga en el propio interfaz de red. • -- emulada: todo el proceso lo ejecuta el procesador del nodo (aunque con menor overhead que TCP/IP). • -- no “seguro” (reliable)! • -- bajo nivel: usar un interfaz. Por ejemplo, ya hay versiones de MPICH que soportan VIA.

InfiniBand • 2. InfiniBand (IBA) • Objetivo: infraestructura de comunicaciones de altas prestaciones, basada en switches (intra) y routers (inter), para formar redes SAN (sustitución del bus compartido) • - Los nodos se conectan mediante adaptadores especiales: HCA (nodos de cómputo) o TCA (nodos auxiliares). • - Los switches interconectan los nodos de la red local, y los routers las redes locales entre sí. • - Los enlaces operan desde 2,5 Gb/s hasta 3,75 GB/s (x12), unidireccionalmente, punto a punto. • - Latencias < 6 µs para mesajes cortos.

Cluster Computing

Myrinet MYRINET -Infraestructura de comunicaciones de alto rendimiento (pero “cara”). -Enlaces a 2+2 Gbit/s (full duplex) fibra óptica Switches en crossbar - red de Clos / cut-through -Software propio de control de mensajes (GM) Implementaciones de Gbit ethernet / Via / Infiniband -Latencias de paquetes pequeños: 1,2 us (Gigabit, 50 us) Throughput máximo 9,6 Gbit/s

Myrinet

PROGRAMACIÓN DE SISTEMAS PARALELOS 2010 Agustin Arruabarrena – Javier Muguerza

PROGRAMACIÓN DE SISTEMAS PARALELOS 2010 Agustin Arruabarrena – Javier Muguerza

Presentation Transcript

talk-ppt - PowerPoint Presentation

Sistemas de comunicaci n audiovisual

INTEGRACI N DE LAS TIC EN LA PROGRAMACI N CURRICULAR

PROGRAMACI N

Comit de Programaci n y Ubicaci n COMPU

Introducci n a las T cnicas de Programaci n con MatLab

Programaci n con PHP y MySql

PROGRAMACI N DID CTICA EN FORMACI N PROFESIONAL

Multi-programaci n

Programaci n Extrema

Tendencias Actuales de la Programaci n

Introducci n a la programaci n Lineal

PROGRAMACI N LINEAL

S1 Programaci n Din mica Determinista

Proyecto Lucas-Kanade Programaci n de Arquitecturas Avanzadas

Programaci n de aula: una propuesta

PROGRAMACI N SANITARIA

Metodolog a para la Soluci n de Problemas y Programaci n

Introducci n al Lenguaje de Programaci n C

Sistemas de Recuperaci n de la Informaci n

Modelos de Computadores Paralelos

Sistemas de Informaci n Gerencial