Séminaire IMS 10/01/2008

CIGC05 - GCPMF Séminaire IMS10/01/2008 Distribution large échelle d’un algorithme financier de contrôle stochastique Xavier WARIN (EDF R&D - OSIRIS) Stéphane VIALLE (SUPELEC - IMS) Constantinos MAKASSIKIS (SUPELEC - IMS, LORIA - AlGorille)

1 Introduction

Introduction • Objectif : présentation du travail effectué dans l’équipe IMS depuis février 2007. • Travail s’inscrit dans le cadre du projet ANR-GCPMF : • consortium d’industriels et d’académiques • But : étude de la faisabilité de l’utilisation de clusters/grilles de calculs pour la finance • Cause : augmentation incessante des besoins en puissance de calcul

Introduction • Solution : distribution/parallélisation. • pour accélerer et passer à l’échelle • Actuellement, parmi les applications en finance : • celles qui se décomposent en tâches indépendantes commencent à être bien maîtrisées (applications Bag of Tasks (BoT)); • celles qui se décomposent en tâches inter-dépendantes font l’objet de recherches …

Introduction • En collaboration avec EDF, distribution d’une application utilisée pour la valorisation d’actifs de stockage de gaz. • Application non BoT, mettant en jeu : • des calculs intensifs ET • des communications fréquentes : redistribution régulière de données et de résultats  nécessite une optimisation des échanges de données

2 Contexte financier

IN OUT Gaz Contexte financier • Actif de stockage de gaz : • cavité où est stocké le gaz ; • matériel (pompes, …) pour injecter/sous-tirer. • Contraintes de fonctionnement diverses. • Fluctuations des prix du gaz : • Cause : modification de la demande (hiver, été) • Conséquence : possibilité d’arbitrer pour profiter de la dynamique des prix → valorisation

Contexte financier • La valorisation fait appel à : • des algorithmes de contrôle stochastique • des modèles de prix variés Dans notre cas le propriétaire veut déterminer à quel prix il va louer une partie de son actif. Pour ce faire, il se fonde sur les résultats potentiels de différentes stratégies de gestion qu’il aurait pu appliquer sur la portion louée s’il ne l’avait pas louée.

3 Distribution del’algorithme

Algorithme séquentiel Futur Aujourd’hui Prix de location à t0 tn t0 tn-1 Calculs Stochastiques Hypothèses de terminaison

Algorithme séquentiel • Pour chaque pas de temps (de tn-1 à t0) • Pour chaque niveau de stock admissible • Calcul complexe pour déterminer la meilleure décision à prendre au temps ti avec un niveau de stock si : « Injecter, ne rien faire ou soutirer ? »

Difficultés de parallélisation • Pour chaque pas de temps (de tn-1 à t0) • Pour chaque niveau de stock admissible • Calcul complexe pour déterminer la meilleure décision à prendre au temps ti avec un niveau de stock si : « Injecter, ne rien faire ou soutirer ? » • La parallélisation au niveau de la boucle la plus externe est impossible à cause des dépendances de l’algorithme. • Le niveau le plus intéressant se trouve au niveau de la boucle sur les niveaux de stock.

Calculs Structures de données • A chaque pas de temps utilisation de deux tableaux : OldRes et NewRes. • OldRes: contient les résultats du pas de temps précédent. • NewRes: pour mémoriser les résultats du pas de temps courant. • Problème : à chaque pas de temps le travail s’effectue sur une zone contiguë mais à bornes variables. A ti : Niveaux de stock OldRes Aléas de prix Résultats à ti+1 NewRes Résultats à ti

Devient Redistribution Calculs Schéma de parallélisation ti+1 : • En séquentiel, on peut se placer dans le cas ci-contre. NewRes ti : OldRes • En parallèle : NewRes • Solution 2 : • optimisation de la taille des tableaux. • redistribution de ce qui est nécessaire. • Solution 1 : • réplication des tableaux. • broadcast.

P0 P0 P1 P1 P2 P2 P0 P2 P1 P0 P1 P2 Plan de routage P2 P0 P1 Send C A D Receive - A B P0 P1 P2 Schéma de parallélisation ti+1 : Sur P1: Res à ti+1 ti : 1) Déterminer la nouvelle distribution des calculs àti Res à ti 2) Déterminer lesdonnées requises àtipar P1 (Receive) 3) Déterminer les données à envoyer par P1 (Send) C D A B 4) Allouerstructures de données de taille optimale 5) Effectuer les communications selon le plan de routage (MPI) 6) Calculer Res à ti

4 Etude des performances

Evaluation des performances • Expérimentations sur 3 architectures distribuées : • Deux clusters de PCs (SUPELEC et GRID’5000/Sophia). • Le supercalculateur Blue Gene/L d’EDF R&D. • Avec 3 modèles de prix du gaz :

Performances avec « G » 54min 14min 8 15s 64 1024

Performances avec « NIG » 6h40 3min 1024 128

Performances avec « G-2f » • Besoin de beaucoup de mémoire • 11 Go pour l’exécution séquentielle • 10 CPUs avec 2 Go en parallèle • Exécution rendue possible par notre distribution • Scale jusqu’à 1024 processeurs • Limitation : • Impossible de calculer un speedup rigoureux • Donc étude d’extensibilité (seulement)

Performances avec « G-2f » 14h 16 2h20 128 46min 1024 Blue Gene wins !

Etude d’extensibilité avec « G-2f » Maintient du temps d’exécution

5 Conclusion &Perspectives

Conclusion & Perspectives • Distribution originale d’un algorithme itératif de contrôle stochastique dynamique : distribution à chaque pas de temps des calculs et des données. • Résultats issus des expérimentations témoignent de l’efficacité de notre distribution sur clusters de PCs (128 CPUs) et supercalculateur (1024 CPUs) • Accéleration de l’exécution sur trois modèles de prix aux caractéristiques variées • 2 modèles de référence et 1 nouveau modèle

Conclusion & Perspectives • Actuellement, une version multidimensionnelle de l’algorithme destinée à gérer plusieurs actifs de stockage simultanément, mise au point conjointement par EDF R&D et SUPELEC, est en train d’être évaluée. • Un cas test sur 7 stocks met : • 18 h sur les 32 PCs du cluster de SUPELEC ; • 5h50 sur 1024 nœuds de Blue Gene. • Les temps de calculs sont réduits MAIS restent longs ! • La possibilité d’occurrence de pannes n’est pas écartée : même sur Blue Gene !

Conclusion & Perspectives • A présent investissement dans l’étude des techniques de tolérance aux pannes.

? Questions ?

Séminaire IMS 10/01/2008

Séminaire IMS 10/01/2008

Presentation Transcript

General Travel Information Training Class Updated 10/01/2008

S minaire Promotion des ventes

Inserm Transfert S minaire des Directeurs de laboratoires

04/01/10

S minaire docn2

S minaire atelier novembre 2009

S minaire U.Orsay, 5 Avril 2006

(2008. 06. 01)

S minaire entreprises Mardi 12 juin 2009

S minaire du 12 septembre 2005

PROGRAMME D’ É TUDES S É MINAIRE DE FORMATION

01/27/10

Samuel THIRIOT (IRIT-UT1) S é minaire r é seaux, 08/01/2010

01/10/2002

01/22/2008

Introduction to IMS (IMS-01) IP Media Servers in IMS: MRF and MRFP Garland Sharratt

2008. 09. 01

17/01/2008

ZOX-01-10

Roma, 01 Febbraio 2008

IMS

28/01/2008