Système de gestion de flux de données

Système de gestion de flux de données Anna Margulis Sabine Cohen “Data Stream Management Systems (DSMS)” INF 7115: Bases de données 13 décembre 2004

Plan de la présentation • Contexte • Flux de données • Notions Fondamentales • SGFD: Exemple • La gestion des ressources • La planification des opérateurs • Les techniques d’approximation • Les mesures des performances • Les opérations distribuées • Les modèles DSMS et les domaines d’application • Références

Contexte (1/2) • Des données qui bougent! • Les sources de données dans le monde des réseaux • Nouvelles applications pour la gestion et la distribution de données et de l’information en temps réel. • Nouveaux besoins • Volume augmenté de données et requêtes continues • Environnement incertain / instable • Applications proactives Flux de données

Contexte (2/2) SGFD: « Système de gestion de flux de données »: Un système qui peut exécuter des requêtes continues sur des flux de données en temps réel

Flux de données Entrée de données continue et ordonnée Données stockées dans un environnement défini

Notions fondamentales (1/3) • Traitement de flux • Traitement de flux de données par étampes de temps dans les tuples, influence interaction avec d’autres systèmes (ex: heure d’arrivée) • Technologies principales • Sources de données: Création de nouveaux flux de données, s’ajuste à l’environnement de données fourni. • Ordonnancement: Division des flux en séquences définies pour minimiser l’utilisation de la mémoire du système • Ponctuation: Langage pour description des flux de données afin d’éviter certaines hypothèses émises par les systèmes

Notions fondamentales (2/3) • Les opérateurs: • Outils nommés « fenêtres » pour limiter la portée des flux de données afin qu’ils soient exécutés. (ex: de type tuples, temps, valeurs, unions..) • Caractéristiques SQL • Langage pour les requêtes sur les flux : CQL • Inclus les opérateurs « fenêtre ». • Les fonctions du CQL peuvent être appliquées aux résultats des requêtes provenant du SGFD.

Notions fondamentales (3/3) • Exécution sans état • Filtres: Similaire au where dans SQL, objectif de filtrer les flux intrants, division des flux en sous-flux • Exécution avec état • Agrégation: calcul de flux de données dans des tuples, ex: moyennes, min. et max.. • Unions: jumelage de 2 flux d’entrée en 1 flux de sortie

SGFD: Exemple

L’optimisation d’utilisation des ressources • La vitesse de réaction du système est importante : il faut minimiser le temps de latence et maximiser la capacité de traitement -> minimiser l’utilisation de CPU et de mémoire -> deux méthodes : • Planifier l’exécution des opérateurs • Laisser tomber une partie de données reçues • La précision de réponses est affectée par les deux méthodes • Il faut trouver un compromis acceptable (les bonnes techniques d’approximation)

La planification d’exécution des opérateurs (1/3) • La méthode naïve : la création des fils d’exécution (threads) pour chaque opérateur -> confier l’exécution au OS • La quantité de threads peut être trop grande pour OS • OS ne fait pas de maintenance • OS ne fait pas de QoS • Deux façons de planifier l’exécution : • L’exécution des processus en « batch » • Le routage de tuples dynamique (Telegraph)

La planification d’exécution des opérateurs (2/3) • L’exécution des processus en « batch » • Le temps de préparation de OS pour l’exécution peut être diminué, si on assemble les processus similaires dans les « batches » • L’exploitation de la sélectivité des opérateurs : • Assembler les opérateurs de séléctivité différente mais qui utilisent les mêmes données peut diminuer l’utilisation de mémoire

La planification d’exécution des opérateurs (3/3) • Le routage dynamique des tuples (Telegraph)

Les techniques d’approximation (1/2) • La non-considération de données (load shedding) • Load shedding aléatoire pour les données homogènes • La stratégie de load shedding pour les données cruciales (en analysant les statistiques) • Les valeurs critiques • Le moment de load shedding (ex. achalandage) • L’emplacement de load shedding dans le cycle de données (dans le cycle du traitement) • La quantité des tuples à éliminer

Les techniques d’approximation (2/2) • L’assemblage de données en histogrammes • L’expiration temporelle de données • L’éloignement par rapport à la limite • La réduction de la fenêtre de requête

La mesure de performances • Linear Road (Brown U.) -> l’ajout des émetteurs dans chaque objet qui voyage et monitoring • QoS -> le temps de réponse, la justesse de load shedding, la précision des réponses à des requêtes • La capacité de traitement -> la quantité de données par période fixe • La précision des résultats de requêtes

Les opérations distribuées • Le serveur en grappe (clustered server) • Le plus robuste et configurable • Les systèmes hétérogènes • Les problèmes de intercommunications • Les systèmes sans fil (wireless) • Les problèmes fonctionnels (ex. la durée de piles) • Les problèmes pour les systèmes distribués : • La scalabilité géographique et administrative • L’équilibre de chargement de données • La QoS difficile à implanter • Le plan de relève (les pannes) difficile à implanter

Conclusion • Les modèles DSMS • Aurora • STREAM • Telegraph • Les domaines d’application de systèmes DSMS • La bourse • La défense nationale (l’armée) • La santé

Références • Abadi, Daniel et al.(2003), “Aurora : a new model and architecture for data stream management”, The VLDB Journal, Vol. 12, No. 2. • Arasu, A.et al. (2003), “STREAM: The Stanford Data Stream Management System”, IEEE Data Engineering Bulletin, Vol. 26 No. 1. • Babcock, Brian et al.(2003), “Distributed Top-K Monitoring”, In Proc. Of the ACM Intl Conf. On Management of Data (SIGMOD 2003). • Babcock, Brian et al.(2003), “Load Shedding Techniques for Data Stream Systems”, In Proc. Of the 2003 Workshop on Management and Processing of Data Streams (MPDS 2003). • Babcock, Brian et al. Technical Report “Operator Scheduling in Data Stream Systems”. [En ligne], http://www.cs.brown.edu/courses/cs227/papers/Stream/System/OperatorScheduling.pdf , (Page consultée le 16 novembre 2004) • Babcock, B,. et al.(2002), “Models and Issues in Data Stream Systems”, Department of Computer Science, Stanford University. • Carney, Don et al., Proceeding of the 29th International Conference on Very Large Data Bases (VLDB), “Operator Scheduling in Data Stream Manager”.[En ligne], http://www.cs.brown.edu/courses/cs227/papers/Aurora/scheduling.pdf , (Page consultée le 16 novembre 2004) • Chandrasekaran, Sirish et al., TelegraphCQ : Continuous Dataflow Processing for an Encertain World[En ligne] http://www.cs.brown.edu/courses/cs227/papers/Telegraph/overview/cidr03-tcq.pdf, (Page consultée le 6 décembre 2004) • Cherniack, Mitch et al. Proceedings of the Conference for Innovative Database Research (CIDR), “Salable Distributed Stream Processing”, [En ligne], http://www.cs.brown.edu/courses/cs227/papers/Aurora/cidr03.pdf , (Page consultée le 16 novembre 2004) • Golab, L., Özsu, M. T. (2003), “Issues in Data Stream Management”, ACM SIGMOD Record, Vol. 32, No. 2, pp. 5-14 • Golab, et al (2003)., “Data Stream Management Issues, A Survey”, School of Computer Science, University of Waterloo, Waterloo, Canada, Technical Report CS-2003-08. • Hellerstein, Joseph M.(2002), “From Database to Dataflow : New Directions in IT”, Medical Records Institute, Volume 3, Number 6. • Motwani, Rajeev et al., In Proc. Of the 2003 Conf. On Innovative Data Systems Research (CIDR), “Query Processing, Resource Management, and Approximation in a Data Stream Management System”, [En ligne] http://www.cs.brown.edu/courses/cs227/papers/Stream/Overviews/ResourseMgmtApprox.pdf , (Page consultée le 16 novembre 2004)

Références • Olston, Chris et al (2003) “Adaptive Filters for Continuous Queries over Distributed Data Streams”, In Proc. Of the ACM Intl Conf. On Management of Data (SIGMOD 2003). • Plagemann T, et al.(2004), “Using Data Stream Management Systems • for Traffic Analysis, A Case Study”, University of Oslo, Department of Informatics. • Raman, Vijayshankar et al. ACM SIGMON Conference , « Partial Results for Online Query Processing », [En ligne] http://www.cs.brown.edu/courses/cs227/papers/Telegraph/adaptive/sigmod02-partial.pdf , (Page consultée le 16 novembre 2004) • Shah, Mehul A. et al. International Conference on Data Engineering (ICDE),”Flux : An Adaptive Partitioning Operator for Continuous Query Systems”,[En ligne] http://www.cs.brown.edu/courses/cs227/papers/Additional/SHCF03-Flux.pdf , (Page consultée le 16 novembre 2004) • Tatbul, Nesime et al. Proceedings of the 29th International Conference on Very Large Data Bases (VLDB), “Load Shedding in a Data Stream Manager” [En ligne] http://www.cs.brown.edu/courses/cs227/papers/Aurora/LoadShedding.pdf , (Page consultée le 16 novembre 2004) • Windom, J. et al. (2003), Stanford University,“CQL: A Language for Continuous • Queries over Streams and Relations” [En ligne] http://www-db.stanford.edu/~widom/cql-talk.pdf, (Page consultée le 27 novembre 2004) • Wurz, M, et al. (2004), “Data Stream Management and Digital Library • Processes on Top of a Hyperdatabase and Grid Infrastructure” University for Health Sciences, Medical Informatics and Technology, Innrain 98 A–6020 Innsbruck Austria. • Zdonik, Stan et al. ”Streaming for Dummies”, [En ligne] http://www.cs.brown.edu/courses/cs227/papers/paper.pdf, (Page consultée le 10 novembre 2004) • Zimmermann, R. (2004), “Continuous Data Stream Processing” University of Southern California, CSci585: Database Systems

Système de gestion de flux de données