190 likes | 302 Vues
Big data : vers une nouvelle science des risques ? . Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences. Organisation. Big data en bref Big data : mythe et réalité Exemple : la sa nté (u ne vision d’ignorant). Big data en bref.
E N D
Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data et science des risques
Organisation • Big data en bref • Big data : mythe et réalité • Exemple : la santé (une vision d’ignorant) Big data et science des risques
Big data en bref Big data et science des risques
Le Big Data • Le big data ou La data • Data ce n’est pas pluriel ? • En français : Grosses données • Moins glamour ? Big data et science des risques
Crash course en Big Data • La société moderne génère des volumes de données infernaux • Double tous les 18 mois • Ces données ont une valeur considérable • Santé, science, environnement, sécurité, transport... • Le «Big data »: croiser les données • Très structurées et propres d’une entreprise/organisation • Avec la masse de données moins structurées/plus sales du Web • Des données personnelles (comme des emails) • Des données de réseaux sociaux • Et des flux de données (générées par ex. par des senseurs)… • Valoriser ces données • Découvrir de nouvelles connaissances • Offrir de nouveaux services Big data et science des risques
Crash course: tâches principales • L’analyse de données – Un vieux problème • Tâches principales • Acquisition : aller chercher les données, e.g., outils ETL • Intégration: e.g., transformer dans un schéma unique, aligner les données • Nettoyage : e.g., éliminer les réplicas, résoudre les contradictions, gérer les données manquantes… • Crowdsourcing: interagir avec des humains pour obtenir des données, résoudre les contradictions… • Interrogation : requête, souscription, visualisation • Analyse statistique : frequent item set… • L’analyse de données ne répond pas à des problèmes souvent complexes • Fouille : quelles sont les questions intéressantes ? • Utilisation : comment utiliser ces données ? • Etc. Big data et science des risques
Difficultés • Taille des données : c’est Big! Téraoctets, plus • Hétérogénéité: structures, ontologies, multilinguisme… • Vélocité: importance du temps, taux de changement/d'arrivée… • Espace : localisation • Protection des données : données privées, réglementation… • Qualité: erreurs, incomplétude, confiance, • Et encore de la qualité: provenance, fraicheur... • Et la complexité : un algorithme en n3 sur un milliard d’enregistrements reste hors de portée même avec mille machines… Big data et science des risques
Pour tuer quelques idées reçues • La grande mode est au parallélisme massif style Hadoop • Super techno venue des moteurs de recherche • Ne marche que sur les problèmes très parallèles • Technologie encore assez bas niveau (ça s’améliore) • Évidemment, • Ça impressionne (de moins en moins) • C’est fun • Mais si « votre data est Big » et si vous recherchez l’efficacité, interrogez vous : • Vos données sont-elles vraimentBig ? • Ne suffirait-il pas de gonfler votre machine en RAM/en SSD ? • Peut-on réduire la dimension en échantillonnant ? Big data et science des risques
Big data : mythe et réalité Big data et science des risques
Big data – Le mythe On va résoudre les problèmes de l’humanité • On a plus en plus de données bientôt toutes les données • Un coup d’algo et on va résoudre le cancer, la pauvreté, etc. En analysant ces données, nous pouvons faire des prédications de plus en plus fines… mais • Cela reste des statistiques • Limites dues à la complexité en la taille des données • Et évidemment une énorme place au hasard On va sûrement résoudre des problèmes… Mais Big data et science des risques
Big data – La réalité Ce qu’on observe surtout pour l’instants • Les sociétés utilisent des données privées • Pour des buts commerciaux – principalement pub ciblées • Plus il y a de données, plus ils gagnent d’argent • Les états utilisent des données privées • Pour se protéger du terrorisme • Pour surveiller leurs citoyens (surtout dans certains pays) • Plus il y a de données, plus l’état est puissant Big data et science des risques
Et si on utilisait cette techno pour résoudre de vrais problèmes Prévoir et mieux y répondre • À des crises sanitaires • À des problèmes d'environnement • À des catastrophes naturelles • … Aider à résoudre les problèmes de • Santé, transport, pauvreté, • … Organiser un suivi personnalisé • Des personnes en difficultés • Des personnes âgées • Des élèves en difficulté • … Big data et science des risques
Exemple : la santé (une vision d’ignorant) Big data et science des risques
Exemple : La santé Les soins personnalisés Les polices personnalisées Plus chères pour les personnes à risque Personnes « trop » à risque non assurées Mutualisation des risques de plus en plus limitée • Toutes les données médicales de la personne • Son génome • Toutes ses données sociales • Soins personnalisés • Mesures prédictives C’est la même science qui rend ça possible Quel monde souhaitons-nous? Big data et science des risques
Problème : les données personnelles • Mes achats, ma géolocalisation, mes courriels… • Mes données médicales, fiscales, assurances… • Mes données dans les réseaux sociaux… • Peut-être celles de mes amis • Mes données génomiques • 23andMe: pour 99$ séquencement de votre génome et publication sur le Web Et ma vie privée ? 2 exemples de problèmes récents : • Instagram et revente • Facebook et embauche Big data et science des risques
Une religion personnelle • À qui appartiennent mes données ? Les données personnelles appartiennent à la personne Les entreprises/états n’en sont que les dépositaires temporaires Big data et science des risques
Comment pouvoir faire quand même des statistiques ? • L’anonymisation des données • En garantissant l’anonymat de chacun - compliqué • Par exemple, « differentialprivacy » • Le propriétaire des données a le droit de choisir ce qu’on fait de ses données • Condition d’utilisation • Durée • Responsabilité légales de ceux qui détiennent ces données Big data et science des risques