Data Mining: Unveiling Insightful Patterns from Large Datasets

Datamining • L’exploration de données, connue aussi sous l'expression de fouille de données, forage de données, prospection de données, data mining, ou encore extraction de connaissances à partir de données (KDD) a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques.

Wikipedia : Data mining (the analysis step of the "Knowledge Discovery in Databases" process, or KDD), is the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems. The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use. Aside from the raw analysis step, it involves database and data management aspects, data preprocessing, model and inference considerations, interestingness metrics, complexity considerations, post-processing of discovered structures, visualization, and online updating. The term is a buzzword, and is frequently misused to mean any form of large-scale data or information processing (collection, extraction, warehousing, analysis, and statistics) but is also generalized to any kind of computer decision support system, including artificial intelligence, machine learning, and business intelligence. In the proper use of the word, the key term is discovery, commonly defined as "detecting something new". • Voiraussi: FromData Miningto KnowledgeDiscoveryin Databases Usama Fayyad, Gregory Piatetsky-Shapiro, and PadhraicSmyth “The KDD process is interactive and iterative, involving numerous steps with many decisions made by the user » http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf

Datamining (darkside)

Contrôle par les entreprises privées • Exploitation des données personnelle à des fins privées • Contrôle par l’Etat • Illustré dans la science fiction : - 1984 - SOS Bonheur : « L'affilié a pour premier devoir de protéger sa santé. […] Les agents de la Police Médicale auront les plus larges pouvoirs de surveillance et d'investigation pour sanctionner les contrevenants. » (circulaire de la Caisse Nationale d'Assurance Médicale Unifiée)

Réalité : • Patriotact : recoupement de bases de données publiques et privées, ouverture de données confidentielles pour la lutte contre le terrorisme, utilisation (très controversée y compris au niveau efficacité) du datamining • Projet NSA Utah : The Utah Data Center, formally known as the Community Comprehensive National Cybersecurity Initiative Data Center, is a data storage facility being built for the United StatesNational Security Agency and Director of National Intelligence that is designed to be a primary storage resource capable of storing data on the scale of yottabytes.[1][2]

Etat <-> Statistiques • Statistique : Empr. à l'all.Statistik, forgé par l'économiste all. G. Achenwall (1719-1772), qui l'a dér. de l'ital. statista « homme d'État », la statistique représentant pour lui l'ensemble des connaissances que doit posséder un homme d'État (BrockhausEnzykl.)

Développement de la statistique comme appareil d’état, exemple français Avant 1940 • Cent trente-sept personnes en 1939 • « Elle ne doit avoir aucun autre souci que la recherche scientifique, aucun autre but que la découverte de la vérité » • « La faiblesse relative de l'appareil statistique avant 1940 (…) s'explique : les conceptions des hauts fonctionnaires de cette époque étaient rigoureusement libérales ; l'idée que l'Etat pût intervenir avec quelque utilité dans le domaine économique était rejetée avec force» • 1940 : crise nationale + idéologie technocratique + situation de pénurie + exemple allemand + débuts de la mécanographie => création des grandes institutions statistiques de l’état http://www.volle.com/ouvrages/metier/chapitre_7.htm

Carmille crée le Service de démographie en décembre 1940. Il s'agit, sous cette dénomination, de reconstituer clandestinement un service de mobilisation de l'armée : ce sera chose faite dès février 1942, après quelques péripéties. L'opération, extrêmement lourde sur le plan administratif, est menée tambour battant : création de différents corps de fonctionnaires ; installation de seize directions régionales dotées d'un matériel mécanographique puissant ; création en 1942 d'une école d'application qui deviendra en 1960 l'E.N.S.A.E. (Ecole nationale de la statistique et de l'administration économique). En 1944, le S.N.S. emploiera environ 6 500 personnes. Carmilleconstitue des fichiers dont l'objectif va bien plus loin que la mobilisation.(…) il institue la déclaration obligatoire du lieu de résidence ; il crée le numéro d'état civil (encore en vigueur actuellement) ; il effectue en zone libre, en 1941, un recensement des personnes nées entre 1876 et 1927 (21). On constitue progressivement, pour chaque Français, un dossier individuel contenant des informations d'ordre familial et professionnel, et on envisage d'y introduire plus tard " des renseignements médicaux, judiciaires, etc. (22) ". L'obligation de répondre aux enquêtes est imposée de façon énergique par la loi du 11 novembre 1941 : " Les administrations publiques ont l'obligation de fournir au Service, dans la forme qu'il fixera et, le cas échéant, suivant les directives techniques, tous les renseignements qui lui sont nécessaires. Les entreprises et les personnes sont tenues aux même obligations (23). " Des sanctions sont prévues en cas de refus ou de fausse réponse. Les textes parlent d'eux-mêmes : aucun ménagement n'est pris avec les libertés individuelles. http://www.volle.com/ouvrages/metier/chapitre_7.htm

Le parlement a voté le 17 juin 1951 la loi sur " la coordination, l'obligation et le secret en matière de statistique ". Cette loi donne à l'institution statistique un fondement juridique dont elle était jusqu'alors dépourvue. • (…) il s'agit d'obtenir que la loi consacre l'existence d'un secret statistique. En effet, les statisticiens n'étaient liés jusqu'alors que par le secret professionnel ; ils étaient obligés de fournir sur demande les informations individuelles à certaines administrations possédant un pouvoir d'enquête particulier, notamment à l'administration fiscale. Le secret statistique devait interdire de telles communications. Une longue bataille fut nécessaire pour faire accepter ce point de vue, car la direction générale des impôts souhaitait conserver tous ses pouvoirs d'investigation.

Passage de la statistique traditionnel au datamining : • L’augmentation des données disponibles amène un changement de dimension. De nature ? • Au niveau de la statistique publique, le datamining est dans la continuité de l’histoire de la statistique : visée technocratique, tentation de contrôle, et contre pouvoir éventuel à ce contrôle • Au delà des outils, ce qui est important, c’est les rapports politique autour des outils, et les contres pouvoirs.

Freins politiques au datamining • Toutes les lois protection de la vie privée Décret informatique et liberté loi de 1951 en France, CNIL Loi US : Federal Agency Data Mining Reporting Act of 2007 http://www.treasury.gov/about/organizational-structure/offices/Mgt/Documents/DataMiningRpt.pdf

Freins techniques au datamining.. (tout ne se passe pas toujours comme dans la publicité.. ) • Presque plus de freins de dimensions (taille des serveurs, vitesse des calculs). Au niveau yottabytes ?… • Toutes les données sont disponibles. (la vie est de plus en plus numérisée) Toutes ? • Mais il faut toujours une grande quantité d’analyse • Exemple : apprentissage supervisée pour le patriot-act. On connait 50 terroristes dans un groupe de 270 millions de personnes, on cherche les personnes ayant des points communs avec les terroristes. Qu’est ce qu’un point commun pertinent ? Avoir le même dentiste ? La même marque de voiture ? Le même salaire mensuel ? … besoin d’analyse des données par des humains. • La formation des questions, la compréhension des données, l’interprétation des résultats restent des étapes presque impossibles à automatiser. • Problème des relations avec personne suspecte : exemple dans Numb3rs. • Utilisation des résultats : on a en sortie une liste de ‘suspects’, ça ne suffit pas.

Datamining (brightside)

Quelques bons usages du datamining • Découvertes scientifiques : • Travail sur le séquençage du génome : un génome, c’est une information de 3 gigabites… • Météo de la terre.. et météo du soleil ! Utilisent des techniques de data-assimilation et de datamining • épidémiologie … • Fonctionnement des services publics • Sécurité sociale • Lutte contre la fraude fiscale • …

Vie quotidienne d’un-e analyste de données • Écouter la question du ‘client’ (parfois l’aider à la formuler) • Connaitre et vérifier les données utilisables • Regarder les données : jouer avec, les trier, les filtrer, les croiser… (Sas, excel.. ) • Prendre en compte le domaine d’application, les particularité du champ • Produire les variables pertinentes Taux de répétitions, moyennes, dispersions, nombre de traitement, nombre de patients, proportion du chiffre d’affaire.. http://www.inami.fgov.be/information/fr/studies/study49/index.htm • Mettre les résultats à la disposition du ‘client’, les lui rendre intelligibles. (graphique, tableau, rapports…)

Exemples de technique de datamining 1 - Reconnaissance d’images 2 - Datamining appliqué aux graphes 3 - Représentations graphiques

1 - Reconnaissance d’images « Détecter certaines caractéristiques associées à ces visages afin de pouvoir ensuite classifier de nouvelles images. Nous avons plus précisément choisi de considérer le fait de porter ou pas des lunettes de soleil et de construire des modèles de classification autour de cette problématique. » (Projet réalisé dans le cadre du cours de Marco Saerens à l’UCL) http://kdd.ics.uci.edu/databases/faces/faces.data.html

P2 128 120 156 Première ligne : 21 2 1 0 2 18 59 64 56 46 46 47 49 51 50 50 58 68 60 53 48 45 44 43 44 44 44 43 43 43 42 42 42 42 41 41 40 39 39 39 38 38 37 36 36 36 35 35 34 34 33 33 32 31 31 30 29 29 29 28 27 27 26 25 25 25 25 24 24 23 23 23 22 21 22 23 26 27 27 27 20 18 17 25 26 25 25 24 23 22 22 21 21 20 17 22 23 24 24 24 25 24 25 25 25 26 25 25 25 25 25 26 27 27 28 29 29 29 29 30 30 31 31 31 31 32 32 32 Dernière ligne : 0 0 0 0 0 0 0 0 0 0 0 13 19 13 72 69 26 85 115 97 120 103 82 83 55 36 66 64 45 59 50 50 58 44 38 77 60 86 82 112 77 41 67 96 51 89 108 119 58 14 50 53 43 71 85 83 68 78 87 107 140 143 140 140 134 123 123 122 123 123 126 127 125 122 118 111 112 119 124 123 96 74 49 49 56 61 35 40 65 36 8 3 0 0 13 33 43 20 91 111 96 106 33 66 67 51 99 80 121 118 97 76 106 125 34 50 82 78 45 72 47 43 68 93 62 49 25 0

Codage d’image en format PGM • Un fichier pgm binaire se compose comme suit : • Un nombre magique (P5) • Un caractère d'espacement (espace, tabulation, nouvelle ligne) • Largeur de l'image (codée en caractères ASCII) • Un caractère d'espacement • Hauteur de l'image (codée en caractères ASCII) • Un caractère d'espacement • La valeur maximale utilisée pour coder les niveaux de gris, cette valeur doit être inférieure à 65536 (codée en caractères ASCII) • Un caractère d'espacement • Données binaires de l'image : • L'image est codée ligne par ligne en partant du haut • Chaque ligne est codée de gauche à droite • Chaque pixel est codé par 1 ou 2 bytes selon que la valeur maximale est inférieure ou supérieure à 256. Un pixel noir est codé par la valeur 0, un pixel blanc est codé par la valeur maximale et chaque niveau de gris est codé par une valeur entre ces deux extrêmes, proportionnellement à son intensité. • Toutes les lignes commençant par # sont ignorées. • http://fr.wikipedia.org/wiki/Portable_pixmap

On cherche à classer les images selon que le personnage a, ou non, des lunettes de soleil (dernière colonne 1/0) • Construction de la table de données de départ : • Chaque emplacement de pixel correspond à une colonne. On utilisera une version très compressée des données : 32 pixels de large * 30 de haut = 960 colonnes =960 variables. • On recode les nuances de gris de 0 (noir pur) à 1 (blanc pur). • Stratégie : on utilise une partie de la base (training set) pour faire apprendre à l’algorithme quelles valeurs des colonnes sont liées à la présence de lunettes dans l’image, en lui fournissant l’information cible. Ensuite, on teste sur le reste de la table pour voir si le classement fonctionne correctement (test set). • Pour certains modèles, on procède à une sélection des colonnes qui induisent des différences significatives entre les images.

2 - Datamining appliqué aux graphes

Distances, relations • Qu’est ce que la distance ? • Entre deux points géographique, facile ! • Entre deux personnes… proximité, se sentir proche, avoir des points commun, des valeurs communes… • Réseau sociaux : nombre d’amis commun, nombre de contacts (commentaire, like, poke.. )

Entre nous ? • Liste de films / livres / séries (titre de colonne) • Liste de personnes présentes • Valeur de la cellule : a aimé = 1 ; n’a pas vu ou n’a pas aimé = 0.

Représentation sous forme de graphe • Représentation d’objets complexes et variés : internet, réseau de relations, connexions téléphoniques.. • Représentation mathématique simple : un graphe se représente sous forme de matrice, les ordinateurs aiment les matrices ! • Les matrices peuvent être immenses, et représentées sous des formes simplifiées • la matrice que Google utilise pour calculer PageRank contient autant de ligne et de colonne que le web contient de page…

Graph and matrix • A graph consists of two types of elements : nodes (or vertices) andedges. • He canberepresented by a square matrix, having as muchrow and colomn as the graph have nodes (Adjacencymatrix). • If thereis an edgesbetweentwonodes, the cell count 1, and 0 otherwise. • NB : if the graph is undirected, the adjacency matrix is symmetric. 2 3 1 4 5

Construction de la matrice adjacente • Matrice des goûts • autant de lignes que films, • autant de colonnes que de personnes • Un 1 pour les films appréciés • Matrice adjacente Adj_P=PxP’ • Graph Nicolas Femke Seda Al

3 - Représentations graphiques

http://www.informationisbeautiful.net/

Data Mining: Unveiling Insightful Patterns from Large Datasets