E N D
1. CCT OPS & SIL : Supervision des segments sols, 12 Mai 2011
2. CCT OPS&SIL Supervision des segments sols 12/05/2011 2 SOMMAIRE Historique
Caractristiques principales de centres de traitement
Fonctions de la supervision
Architecture dun moteur dorchestration
Le projet PHOEBUS
Retour dexprience et recommandations
3. CCT OPS&SIL Supervision des segments sols 12/05/2011 3 Historique Origine : segments sols de traitement dimages optiques
1998 : Spcifications du SD SPOT5
Supervision du centre bien adapt et apprci (nombreux centres en opration)
Dvelopp par MS&I (Cassidian) et rutilis sur segment sol Hlios => CNES non propritaire des sources
2004 : Spcifications de la chaine image Pliades : IPU (Image Processing Unit)
Retour exprience de la supervision SD SPOT5
Nouvelles technos (e.g. web services) et bas sur des open sources
Rutilisable pour dautre projets CNES => composant indpendant
Prise en compte dexigences Pliades : dfense, niveau urgent + services communs
Gestion des droits daccs (PHR_Access Rights) : interfaces LDAP/ Kerberos
Echanges entre centres (GIDE)
Consultation des journaux de bord (Chainsaw)
Dictionnaire commun avec les autres chanes
Solution dveloppe par Thals encore plus performante, souple et configurable que les besoins spcifis
Produit Zeus rapidement oprationnel
Prototypage avec les utilisateurs : outil apprci pour son ergonomie
Outil puissant mais complexe
2006 2008 : Dautres specs de centres de traitement de donnes avec des besoins similaires
Venus, GPP Sentinel-2, SMOS
Sep 2008 : Rutilisation par Thals pour le segment sol scientifique GAIA
2010-2011 Etude Supervision Gnrique pour les besoins des projets en cours/futurs
PDGS Sentinel-2, CFOSAT, CSO-SSU
=> Produit PHOEBUS Processing High Level Orchestration Engine & Business User Services
4. CCT OPS&SIL Supervision des segments sols 12/05/2011 4 Planning de quelques centres dvelopps par PS/TIS
5. CCT OPS&SIL Supervision des segments sols 12/05/2011 5 Centres principalement de type data-driven
Ds que la tlmesure est acquise par la station, elle doit tre inventorie et les donnes archives et catalogues
Production auto sur rception de fichiers de commandes des utilisateurs
Diffusion des produits sur media/rseau
Fortes contraintes de performance (volumes et temps de traitement )
Retour de boucle Programmation / Catalogue PHR en NRT (1h aprs passage)
Traitements Urgents PHR (inventaire + production en moins de 1h aprs vidage TMI)
GAIA : Traitement systmatique de 100 Millions dobjets tous les 6 mois
=> Dimensionnement adaptable au centre
Traitements automatiques 24h/24, 7j/7 avec oprateurs en heures ouvres et minimisation actions manuelles
Forte fiabilit/disponibilit (99,2% pour Pliades)
Centres parfois en plusieurs exemplaires et pas toujours exploits au CNES
Enchanements complexes de tches dfinies au travers de workflows
1 produit image ? 1 workflow
Suivi en temps rel de toutes les tches
MAIS aussi
des traitements manuels : imports/exports, re-traitements, expertises, changements de priorits, reconfigurations
IHM oprateurs & experts
Pendant la phase de dveloppement jusqu mise en exploitation (3 6 ans): Intgration frquente de nouvelles versions de chanes de traitement
Outils dexpertise et debug indispensables
Besoin dune version de validation du systme
Besoin de standardiser lintgration de chanes
Caractristiques principales des segments sols
6. CCT OPS&SIL Supervision des segments sols 12/05/2011 6 Adaptation des configurations trs diffrentes
Le dimensionnement dun centre est chaque fois spcifique mais toujours en forte augmentation / missions prcdentes:
Traitement de 2 10 passages par jour variant de 1mn 8mn de TMI
Traitement de 8 GO 300 Go de TMI traiter /jour
=> volumes de donnes de plus en plus consquents (*10 tous les 10 ans)
Dlais de mise disposition des produits de plus en plus courts
40mn pour ortho-image, 160mn pour une mosaque PHR
Excution dune chane peut aller de quelques minutes (inventaire urgent) plusieurs heures, plusieurs jours pour Gaia
Nombre de traitements par jour
De 40 330 productions /jour (nombre max toujours en augmentation) pour Pliades soit 60 000 processus LAI excuts /jour
Pour une chane le nb de processus mis en excution (ie : mosaque) peut atteindre plusieurs milliers (2000 3000),
Plateformes cibles composes de 7 52 nuds de calcul pour PHR, 150 nuds pour Gaia
=> 416 cores (ou 416 traitements excuts en //) pour PHR => 1200 pour Gaia
Archivage STAF / Robotique RIMAGE/ Disque
24 To de stockage en ligne et jusque 560 Go archivs au STAF par jour pour PHR
=> 150To /an (1,5 Po en 10 ans)
=> paralllisation indispensable avec optimisation des ressources en dynamique
Indpendance vis--vis de la plateforme cible: tout traitement doit pouvoir sexcuter sur nimporte quel serveur (pas de logiciel install sur les serveurs mais sur un SAN)
Paramtrisation importante / difficult de mettre au point les configurations de chaque centre
7. CCT OPS&SIL Supervision des segments sols 12/05/2011 7 Fonctions majeures de la supervision En amont :
Description des workflows
Installation , administration,
Configuration
Chef dorchestre du systme ou Moteur dOrchestration
Gestion des vnements dclencheurs
Pilotage et surveillance en temps rel de tous les traitements
Surveillance des ressources matrielles
Grer lexcution des traitements
=> Intgre un moteur de workflow
Supervision : unique interface des utilisateurs avec le systme
IHM multiposte
Sparation entre Structure daccueil et traitements dvelopps par ailleurs : labos / Algos gnriques t.q. LAI Pliades
8. CCT OPS&SIL Supervision des segments sols 12/05/2011 8
9. CCT OPS&SIL Supervision des segments sols 12/05/2011 9
10. CCT OPS&SIL Supervision des segments sols 12/05/2011 10 Moyens de description des workflows langage standardis XML (e.g. BPEL, XPDL)
conformit aux ControlFlow patterns du WfMC (Workflow Management Coalition): squence, Parallel split, synchronisation, choice, Simple merge, loop, 3 patterns de multiple instances (paralllisation dexcution), Cancel Task, Cancel Workflow
rajout dun workflow par configuration
11. CCT OPS&SIL Supervision des segments sols 12/05/2011 11 Description de workflow (suite) Une tape peut tre implmente soit:
par un web service,
par un/des processus UNIX de traitement,
par linvocation dune interface propritaire dun sous-systme externe (ie: STAF, SEM, SEF, ).
Fichiers de configuration pour chaque plan de travail : place disque ncessaire, priorit dexcution , infos davancement, traitements sur les donnes gnres
Phoebus orchestre des web services qui implmentent des traitements algorithmiques ou des services de gestion de donnes (i.e. : archive, catalogue,).
Il intgre un serveur web "gnrique" (Mars) d'excution de traitements algorithmique implments par des processus conformes soit aux interfaces CNES ou ESA (JobOrder).
12. CCT OPS&SIL Supervision des segments sols 12/05/2011 12
13. CCT OPS&SIL Supervision des segments sols 12/05/2011 13 Le moteur de workflow Mise en excution des workflows :
automatique (rception fichier / priodique / web service / plan oprationnel)
manuelle via une IHM
gestion de la priorit (mode super-prioritaire)
gestion du load-balancing
Adaptation des architectures centralises ou rparties
Grer la complexit des enchainements de tches
dclencher automatiquement un enchanement squentiel de plans de travail.
14. CCT OPS&SIL Supervision des segments sols 12/05/2011 14 Job Management
mise en excution des exe sur une ferme / cluster banalis / htrogne en fonction :
de la puissance de calcul / RAM ncessaire
de la version de lOS,
du niveau de paralllisation requis (plusieurs instances en //)
Serveur DRM (Distributed Resources Management) => Torque/Maui
Gestion de lexcution des processus
15. CCT OPS&SIL Supervision des segments sols 12/05/2011 15 Surveiller le bon fonctionnement du systme IHM de suivi du droulement des traitements automatiques
=> Avancement au niveau chane
et au niveau tape de traitement
(voir slide suivant)
IHM de surveillance des ressources matrielles
Occupation des ressources
tats et paramtres: occupation disque, mmoire, dtection des indisponibilits, dpassement des seuils
M&C des sous-systmes intgrs
Arrt/dmarrage/ suivi tat
16. CCT OPS&SIL Supervision des segments sols 12/05/2011 16
17. CCT OPS&SIL Supervision des segments sols 12/05/2011 17 Actions de contrle sur les traitements IHM oprateur :
Dclenchement de filires manuelles de re-traitement de TMI sur une plage de temps pour prendre en compte:
une nouvelle version de code corrigeant des anomalies bord ou sol
de nouveaux paramtres systme
Perte de donne
Production la demande pour:
une commande urgente
tester une nouvelle version
Importer/exporter des donnes vers un autre centre
Quelques oprations manuelles insrer comme une tape:
Contrle dimage finale
Vrification et reprise de masque de couverture nuageuse
Des actions oprateur pour des changes de donnes
Montage/dmontage de mdia pour imports/exports
Chargement de robot mdia vierges
Interventions en cas danomalies
Contrle de lexcution des traitements : arrt, reprise, re-planification, annulation
Dclenchement de workflow dexpertise
Mode debug pas pas, points de reprise
Outils dInvestigation danomalies bord ou sol
Rcupration de logs ou CR dexcution de traitements termins
IHM de contrle pour des utilisateurs experts
IHM permettant dalerter lutilisateur (actions, Logs, Rapports)
18. CCT OPS&SIL Supervision des segments sols 12/05/2011 18 Le projet Phoebus Lot A (2010) : Etude
Lot A1 (06-07/2010): Dfinir une terminologie unique
Dterminer les besoins fonctionnels dun systme de Supervision
=> rapport disponible : exigences dun Phoebus complet
Lot A2 (08-09/2010): Etude des Standards
=> rapport disponible et riche => analyser
Lot A3 (09-10/2010): Evaluation des volutions de la Supervision Rutilisable IPU
=> rapport disponible => priorisation
LOT B (2011): Ralisation
Version Phoebus V1 livre mi-juin 2011
Amliorer, simplifier et automatiser linstallation et la configuration
Loutillage : IzPack
IHM de configuration
=> Eclipse/RCP
Amliorer le processus de gnration : Maven
Rendre indpendant de larchitecture :
intgration de la souche du composant Mars dvelopp pour le projet GAIA pour xcution des processus via le DRM Torque-Maui
Intgration architecture NAS
Intgration de linterface ESA Task Table et JobOrder
19. CCT OPS&SIL Supervision des segments sols 12/05/2011 19 Ralisation Phoebus (Lot B suite) Intgration de linterface ESA (cf. IPF Guidelines) Task Table et JobOrder (V1)
1 Task Table correspond un step de workflow = entit autonome dexcution
Ralisation dun convertisseur qui transforme le format XPDL/Task Table dans le format des fichiers grs par le Moteur dOrchestration
(graphe, step, dynamic parameters, .)
Intgration dune chaine VENUS
Evolutions pour V2 fin 2011 encore dfinir :
remplacement Chainsaw ? Standardisation des logs
IHM de suivi de lots de traitements sur plusieurs jours ?
Dclenchements complexe sur plusieurs conditions ?
Autres versions en 2012
rtrofits issus de Gaia : dbut 2012
implmentation de plans doprations non gnriques pour production par lots)
IHM de surveillance Torque/Maui
Reprise tape en erreur lorsque paralllise
Rtrofits issus du dv PDGS Sentinel2
IHM Web
Dclenchement par socket (traitement flux tlmesure) et webservices au standard HMA
Outils de test et intgration dalgos
20. CCT OPS&SIL Supervision des segments sols 12/05/2011 20 Retour dexprience et Recommandations Internationalisation : cote cher si trop tard
Prototypage IHM et ergonomie: tout crire, rien ne peut tre considr comme standard de fait
Besoin dunifier la terminologie (voir rapport lot A1)
Besoin de standardiser le format et le contenu des messages de log et dun outil de consultation ergonomique
=> Ncessit de spcifier les logs de manire dtaille dans les STB ou par sessions de prototypage
Gain de temps important sur lintgration dalgos grce une standardisation des interfaces (voir ESA IPF Guidelines, interfaces LAI Pliades)
Spcifier un produit rutilisable nest pas suffisant et difficult de spcifier un produit gnrique.
Le produit Phoebus est modulaire, configurable, inter-oprable, gnrique
outil prometteur avec des possibilits dvolution importantes
Prt pour des dmos partir de juin