Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan

Web et IndustrieSerge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009

Organisation • Le Web grand public • Le Web dans l’industrie • Gestion d’information en P2P • Perspective de recherche • A l’INRIA • Zooms sur des sujets de recherche • Conclusion

Le Web grand public

Success stories sur le Web • Google: gestion des pages du Web • Amazon, eBay: catalogues de vente sur le Web • Facebook: informations personnelles et communautés • Emule: musique en ligne • Flickr: base de données de photos • Myspace: pages Web • YouTube: vidéos • Wikipedia: dictionnaire • Meetic: fiches individuelles • Dailymotion: vidéos Quel est leur point commun ? Gestion d’information sur le Web

La gestion d’information – contexte • Un grand succès de l’informatique du 20ème siècle • Le modèle relationnel • Des tableaux à deux dimensions sur des serveurs centralisés

Ca a bougé…

Base de données sur un serveur Un système de fichier Un serveur Web Un PC Un PDA Un smartphone Un senseur Un objet communicant - domotique Une voiture Une machine outil Un équipement télécom Un jouet Etc. Pour quelles sources d’information? ? N’importe quel objet ou logiciel connecté au réseau avec de l’information à partager

Le risque: se noyer sous un océan de données • De plus en plus facile de publier • De plus en plus de données publiées • De plus en plus difficile de trouver l’info • De plus en plus difficile de l’avoir à temps données données temps temps

Ca a bougé • Un grand succès de l’informatique du 20ème siècle • Le modèle relationnel • Des tableaux à deux dimensions sur des serveurs centralisés • Avec le Web, aujourd’hui • Les données sont hétérogènes (format, structure, métadonnées, ontologies, multimédia, etc.) • Les serveurs de données sont hétérogènes, distribués, autonomes, parfois mobiles (BDs, PDA, téléphones, objets communicants, senseurs…) • L’information est changeante, imprécise, incohérente parfois • Parfois grande échelle: Millions de serveurs, terra octets de données, milliards d’objets communicants

L’information résidait sur des iles avec des formats, des langages de programmation, des applications, des systèmes d’exploitations différents Mais ça a changé avec les standards du Web XML : données Xquery : requêtes SOAP : calcul distribué Services Web - BPEL Owl : sémantique Accès uniforme et universel à l’information… Les standards du Web XML Owl RDFS SOAP WSDL BPEL Xquery Xpath

XML et tout le spectre d’information Minimal structure Structured Data Hierarchy + Meta data Books Contracts Catalogs Bank accounts Emails Financial Reports Insurance Policies Economical Analysis Derivatives Inventory Political analysis Insurance Claims Financial News Sports News Resumes

Xquery (et Xpath) • Une « logique » pour des arbres étiquetés, ordonnés, non bornés • langage déclaratif • Inspiré de SQL: standard pour données relationnelles • Inspiré de OQL: standard pour données objet • Mélange le contenu et la structure: BD et recherche d’information • Documents où Twingo apparait dans le titre • Langage de mise-à-jour

Services Web et calcul distribué • Possibilité d’activer une méthode sur un serveur Web distant • (un peu Corba en moins sophistiqué) • Echange d’information en XML: input/résultat en XML • Infrastructure pour faire du calcul distribué partout • Avec XML et les services Web, il est devenu possible • D’obtenir de l’information de quasiment partout • De publier de l’information de quasiment partout • Une famille de standards: SOAP, WSDL, UDDI

Les workflows: chorégraphie de services • Wikipedia: On appelle « workflow » la modélisation et la gestion informatique de l'ensemble des tâches à accomplir et des différents acteurs impliqués dans la réalisation d'un processus métier • Un workflow est un flux d'informations au sein d'une organisation • Business Process Execution Language (BPEL), un standards exécutable pour spécifier des interactions avec des services Web

Web sémantique Domaine très actif Standards encore peu figés Sémantique: des standards émergeants Je ne vais beaucoup parler de sémantique

Un accès uniforme à l’information … … Le rêve de la gestion de données distribuées

Tendances • Plus de sémantique: Web sémantique • Un programme peut poser des questions précises et obtenir des réponses précises • Plus d’interaction • Web 2.0 & réseaux sociaux • Wiki, mashups, facebook, twitter… • Applications de plus en plus distribuées &pair-à-pair

Et l’industrie

Ils font comme tout le monde • Ils utilisent • Google • Leurs réseaux sociaux comme Linkedin • Youtube et Dailymotion (pour la pub, la formation…) • Twitter pour le buzz • Des sites d’emploi (leur Meetic) • Ils vendent/achètent sur e-bay • Ils font des sites Webs

Ils ont leurs propres applications • Commerce: propres sites • Vendre: e-business • Achat: e-approvisionnement • Ils utilisent le Web pour informatiser leurs processus • Web service et workflows BPEL • Fabrication • Traçabilité • Même si ça se voit moins, ils l’utilisent énormément • Virage XML plus rapide que le grand public qui reste textuel • Virage Web service plus rapide – car ça demande des ingénieurs

Ce qui leur plait • Outils de gestion/partage de données distribuées • Standard d’ échanges: XML. • Possibilité de déploiement très rapide • Moteur de recherche Web • Faire baisser les coûts de développement d’applications réparties • Outils de composition et d’orchestration de services - Web services • Outils de déploiement rapide d’applications réparties - Mashups

Ils ont des contraintes particulières • Qualité de service: performance, sécurité, disponibilité • Souvent inacceptable pour eux sur le Web aujourd’hui • Contrôle d’accès et confidentialité • Idem • Facebook comme réseau social d’entreprise – c’est pas sérieux • Ils commencent à trouver que l’informatique coûte cher et aiment bien le gratuit même si • Ils ne peuvent pas se permettre le piratage • Ils n’hésitent pas à payer

Gestion d’information en pair-à-pair

Gestion d’information en P2P • Content Sharing Community (CSC): Un groupe d’utilisateurs qui partagent de l’information à l’intérieur d’un domaine particulier • Exemples: Un groupes de sociétés, des scientifiques dans un certain domaine, une association, un groupe d’amis • Problème nouveau de gestion de données • Les données sont hétérogènes et dynamiques • Les données sont distribuées

La difficulté • Arriver à faire coopérer des machines autonomes • SGBD distribués • Depuis longtemps un écueil de la gestion de données • Lourds à mettre en place • Nombre restreint de machine & Souvent systèmes homogènes • Pourquoi c’est devenu faisable • On va limiter nos exigences • On va utiliser la puissance du parallélisme • Et surtout: les nouveaux standards du Web

Pair-à-pair • Pair-à-pair: un nombre important et changeant de systèmes coopèrent pour réaliser une tache sans aucune autorité centrale • Pair-à-pair massif: musique en ligne avec des millions de pairs • Pair-à-pair pas massif: gestion de données dans une entreprise avec des dizaines de pairs

De bonnes raisons pour une gestion P2P de données • Des raisons techniques • Performance • Disponibilité • Des raisons socio-économiques • Coût • Organisation décentralisée • Contrôle des données

Avantage technique:performances • Exemple: Dans un système centralisé, plus un document est populaire, plus ça prend du temps de l’obtenir • Avec un système P2P comme BitTorrent, c’est le contraire • Serveur saturé Accélération

Avantage technique:disponibilité • Avantages • Plusieurs copies d’une même donnée, disponible même en cas de panne • Système d’archivage et de sauvegarde en P2P • Aussi des désavantages d’un point de vue technique • Plus complexe donc risque de pannes • Difficile de gérer les mises-à-jour • Difficile de contrôler la qualité de service

Avantage économique:gestion de données à coût zéro • On utilise un système P2P gratuit • On utilise des machines existantes (pc, livebox, etc.) • On utilise les ingénieurs qui gèrent déjà ces systèmes et leurs applications • Bien adapté au Web et sa philosophie du « tout gratuit » • Moins que pour le grand public • Même les entreprises s’habituent au « free »

Avantage économique:bien adapté aux organisations peu centralisées • Avantages du P2P • Pas nécessaire de trouver un leader • Pas nécessaire de décider/imposer des règles fortes • Possibilité de laisser chacun indépendant et autonome • Désavantages du P2P pour des organisations très centralisées • Plus difficile d’imposer des règles fortes • Plus difficile de garantir la cohérence des données en présence de mises-à-jour • Bien adapté aux gros groupes avec des entités indépendantes – même s’ils n’en sont pas encore convaincus 

Mais des difficultés aussi • Complexité • Cause sérieuse de pannes • Difficulté de gérer les mises-à-jour • Difficulté de contrôler la qualité de service • Comportement asociaux • Spam, spamdexing & autres • Confiance

Ça n’arrive pas vite dans l’industrie • QoS • Business model pas clair • Qui paie? • Pour quoi?

Perspective de rechercheA l’INRIAZooms sur des sujets de recherche

A l’INRIA • De nombreuses équipes travaille autour du Web • Nombreux verrous technologiques • Gestion de données distribuées • Gestion de connaissance • Linguistique computationnelle • Systèmes pair-à-pair • Spécification et vérification d’applications réparties • Interface humain-machine • Etc.

3 Zooms • (sûrement moins par manque de temps) • Surveillance du Web • Facebook en P2P • Artifacts business

Surveillance du Web: Fonctionnalités • Acquisition de données • Crawl du Web focalisé sur un domaine • Surveillance des changements: gestion de flux de données • Intégration avec les données de l’entreprise: outils LTE • Gestion de données • Stockage, indexation, requêtes/mises-à-jour, contrôle d’accès • Enrichissement • Classification, annotations sémantiques • Multilinguisme • Gestion d’ontologies, extraction de connaissances • Exploitation • IHM, fouille de données

Surveillance du Web: Webcontent (1) • Plateforme ANR • Entrepôt pour le Web sémantique • http://www.webcontent.fr • INRIA, CEA, Thales, EADS, Soredab, INRA, Exalead, etc. • Premières applications • Veille économique en aéronautique • Intelligence stratégique • Risque alimentaire microbiologique et chimique • Surveillance d’évènements sismique

Surveillance du Web: Webcontent (2) • Archi basée sur XML et les services Web • Services d’acquisition, enrichissement, d’exploitation • Autour d’un service de gestion de données XML • 2 architectures • Archi centralisée autour d’un bus logiciel • Archi P2P autour d’un système de gestion de XML en P2P

Facebook stocke des données personnelles • Plein d’autres systèmes également • Difficile de contrôler ce qu’ils en font • Difficile de garder mes données à jour

Facebook: Architecture Facebook X Delicious Myspace X Gmail X LinkedIn Sue Sue Bob Bob Sue

Facebook en P2P Facebook Facebook Facebook Facebook • Directes interactions • Je garde le contrôle sur mes données personnelles • Toutes les applications qui me concernent partagent les mêmes données • Si je change de numéro de téléphone, je n’ai pas à le changer dans 100 systèmes chez Bob Proxy Bob Proxy Sue Sue Sue Bob Sue

Facebook en P2P (fin) • Droits d’accès en P2P – cryptographie • Index en P2P (avec des données cryptées) • Faire tourner chez soi des applications développées par des inconnus

Workflows centrés sur les données (1) • Artifact business: document qui représente une activité humaine • Commande, voyage, objet à construire • Évolue dans le temps suivant certaines règles • Active XML Artifacts • Modèle basé sur XML avec des appels de services imbriqués • Documents que l’ont peut s’échanger • Domaine général: workflow centré sur les données • Combine les systèmes de workflow et les systèmes de gestion de données • Bien adapté pour des applications distribuées • Application jouet: le système de fabrication de Dell: sites commerciaux, banques, usines, entrepôts, société livraison

Workflows centrés sur les données (2) • Quelques sujets de recherche dans ce cadre • Aide à la conception de tels systèmes • Vérifier que le code est conforme aux spécifications • Surveillance de tels systèmes • Prévoir les ruptures de stock de pièces détachés • Aider au dispatching • Détecter les disfonctionnement et en trouver les causes • Passage à l’échelle • Contrôle accès, qualité des données et confiance

Conclusion

Conclusion • Prévision sur le Web : il faut être très modeste • Ça va ralentir – on a fait le plus facile et on arrive aux sujets durs • Linguistique • Gestion de connaissances… • Ça va continuer à bouger – créativité humaine • Web sémantique : Web de connaissances plutôt que de texte • Web 2.0 : un Web plus interactif, plus communautaire • Web des objets • Web du pair-a-pair • Histoire : pour le Web, on a toujours sous-estimé la créativité humaine

Merci

Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan