1 / 49

La Classification

La Classification. Ansaf.Salleb@irisa.fr. Fouille de données (Data mining). « Extraction de connaissances implicites non connues à l’avance et potentiellement utiles dans de gros volumes de données » Fayyad et al. 1996. II y en a beaucoup trop !. Données. Données. Données. Données.

schuyler
Télécharger la présentation

La Classification

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. La Classification Ansaf.Salleb@irisa.fr

  2. Fouille de données (Data mining) « Extraction de connaissances implicites non connues à l’avance et potentiellement utiles dans de gros volumes de données » Fayyad et al. 1996

  3. II y en a beaucoup trop ! Données Données Données Données Données Données Fouille de données: pourquoi ?

  4. ASA BD Fouille de Données VISU AD STAT RN Fouille de données: approches

  5. Fouille de données : types de données • Tables (BD relationnelles) • Texte • Multimédia • Spatiales • Temporelles (time series) • Web • …

  6. Fouille de données : tâches • Description • Associations • Classification • Détection d’anomalies • …

  7. La classification : un exemple Problème : • Un client demande à son banquier un crédit • Le banquier souhaite savoir à l’avance si le client sera solvable ou non à la fin du crédit. Il doit anticiper le comportement du client ! • Le banquier va décider en comparant ce client aux clients auxquels il a déjà accordé un prêt.

  8. La classification : un exemple • Classer Construction d’un modèle à partir d’exemples (historique des clients) dont les classes sont connues à l’avance (solvable, non solvable) • Prédire Utiliser le modèle pour classer le client

  9. Cl1 Cl2 Cl3 Cl2 Cl1 Cl3 Non supervisée : on ne connaît pas les classes Grp1 Grp3 Grp2 La classification • Supervisée : on connaît les classes

  10. La classification • Supervisée : on connaît les classes • Bayésienne • Réseaux neuronaux • Arbres de décision (Apprentissage) • … • Non supervisée : on ne connaît pas les classes • K-moyennes, nuées dynamiques, CLARANS,... • Classification Ascendante Hiérarchique (Analyse des données)

  11. Classification: arbre de décision • Entrée: BD = Exemples classés décrits par des attributs • Sortie: Arbre classifiant les exemples en classes • Approche: Organiser les exemples en arbre, les feuilles sont les classes • Méthodes:Cart,C4.5 ...

  12. Attributs prédictifs Attribut de classes 14 Exemples Exemple de données météorologiques

  13. Exemple de données météorologiques Temps{ensoleillé, couvert, pluvieux}3 Température {chaud, modéré, frais}3 Humidité {élevée, normale}2 Vent {VRAI, FAUX} 2 nombre d’exemples possibles: 3*3*2*2 = 36 14 exemples sont présents dans la BD

  14. Nouvelle journée Arbre de décision

  15. Arbre de décision Deux étapes: 1. Construction du modèle sur les exemples d’apprentissage (training set) 2. Évaluation du modèle sur des exemples test(test set)

  16. Construction du modèle 1. Au départ, la racine contient tous les exemples 2. Si tous le exemples sont de même classe, c’est une feuille sinon trouver le meilleur attribut 3. Diviser les exemples 4. Recommencer pour chacun des nouveaux nœuds

  17. Construction du modèle • un nœud-> une quantité d’information qui représente le degré de mélange des classes • quantité d’information -> mélange  • quantité d’information = MAX si les exemples sont équitablement répartis • quantité d’information = MIN si le nœud est pur (que des exemples de même classe)

  18. Construction du modèle Info(9,5) oui(9), non(5) Temps Ensoleillé Couvert Pluvieux oui(2) non(3) oui(3) non(2) oui(4) 4/14 * Info(4,0) 5/14 * Info(2,3) 5/14 * Info(3,2)

  19. Info(9,5) oui(9), non(5) Température Chaude Modérée Fraîche oui(2) non(2) oui(4) non(2) oui(3) non(1) 6/14 * Info(4,2) 4/14 * Info(2,2) 4/14 * Info(3,1) Construction du modèle

  20. Info(9,5) oui(9), non(5) Humidité Élevée Normale oui(3) non(4) oui(6) non(1) 7/14 * Info(3,4) 7/14 * Info(6,1) Construction du modèle

  21. Info(9,5) oui(9), non(5) vent FAUX VRAI oui(6) non(2) oui(3) non(3) 8/14 * Info(6,2) 6/14 * Info(3,3) Construction du modèle

  22. Construction du modèle Gain d’information(outlook) = info(9,5)-5/14 info(2,3)-4/14 info(4,0)-5/14 info(3,2)

  23. Construction du modèle • Fonction info qui vérifie ces propriétés, entropie, gini,... • Fonction Entropie info(m1,m2) = Entropie(p1,p2) = -p1log2(p1)-p2log2(p2) où p1=m1/(m1+m2) p2=m2/(m1+m2) pi proportion d’exemples dans la classe Ci

  24. Construction du modèle • processus récursif, le raisonnement fait à la racine est analogue à tout autre sommet • critères d’arrêt: • contrainte sur nombre d’exemples dans un nœud; • on fixe un seuil d’entropie en dessous duquel on refuse d’éclater un sommet; • Arrivée à un nœud pur.

  25. Temps Ensoleillé ... ... Info(2,3) Température Chaude Fraîche Modérée non non Oui non oui 2/5 * Info(1,1) 2/5 * Info(0,2) 1/5 * Info(1,0) Construction du modèle

  26. Temps Ensoleillé ... ... Info(2,3) humidité Élevée Normale non(3) oui(2) 3/5 * Info(0,3) 2/5 * Info(2,0) Construction du modèle

  27. Arbre de décision

  28. Construction du modèle: attributs numériques • Attributs numériques sont discrétisés • Discrétisation? • Ordonner les k valeurs de l’attribut numérique Xj • Déterminer le point xj qui conduit à la meilleure bi-partition sur la population considérée à un nœud de l’arbre • Ce point est à déterminer parmi les k-1 « milieu d ’intervalle » possibles définissant k-1 discrétisations possibles • on teste chaque discrétisation possible par rapport au Gain d’information, on garde la meilleure.

  29. Construction du modèle: attributs numériques

  30. Construction du modèle: attributs numériques Info(9,5) Temps Ensoleillé ... ... Info(2,3) Humidité ? ?

  31. Construction du modèle: attributs numériques • Attribut à discrétiser: Humidité • nœud avec Info(2,3) oui oui non non non 70 85 90 95 77,5 87,5 92,5 75 Humidité

  32. Construction du modèle: attributs numériques Temps Ensoleillé ... ... Info(2,3) Humidité >75 <=75 non(3) oui(2) 3/5 * Info(0,3) 2/5 * Info(2,0)

  33. Évaluation du modèle • Partitionner la BD en deux ensembles: • un ensemble d’apprentissage training set (2/3 de BD) • un ensemble test test set (1/3) • Validation croisée cross validation: • diviser BD en K parties • apprentissage et test en k étapes • A chaque étape: utiliser k-1 parties pour apprentissage et 1 partie pour le test • précision estimée par le nombre total de classifications correctes

  34. Évaluation du modèle • 10 instances correctement classées 71,42% • 4 instances incorrectement classées 28,58%

  35. Arbres de décision : conclusion + Facilement interprétables + Construction rapide des arbres + Pouvoir prédictif comparable aux autres méthodes -Choix d'un attribut n'est jamais remis en question -Un partitionnement dépend tjrs du précédent -Univarié: ne s’intéresse qu’à une seule variable à un nœud

  36. P variables N individus Xij Analyse des données : un petit mot Nuage de n points dans un espace de dimension p

  37. Visualisation dans le meilleur espace réduit Regroupement dans tout l'espace Méthodes factorielles (ACP, AFC, AFCM) Méthodes de classification (CAH, Aggrégation autour des centres mobiles,... ) Analyse des données : un petit mot Inspiré de Lebart et al.

  38. Classification Ascendante Hiérarchique • On ne connaît pas les classes des individus • Une méthode simple et efficace sur de petits volumes de données • Se base sur une distance entre individus (similarité, dissimilarité) • Agrége progressivement les individus deux à deux selon leur ressemblance • Produit un Dendrogramme (arbre hiérarchique)

  39. Étape 4 Étape 1 Étape 2 Étape 3 Étape 5 Classification Ascendante Hiérarchique Agglomération progressive des 5 points (Lebart et al.)

  40. Exemple d'Application à SACADEAU

  41. Ce qu'on voudrait faire... • Regrouper les climats par groupes CAH • Outil XLStat • Trouver des règles de classification des climats selon les groupes trouvés C4.5 • Outil Weka

  42. G5 G4 G3 G2 G1 1) CAH (SI_2,Nb_Pics10)

  43. 1) CAH (SI_2,Nb_Pics10)

  44. Somme_Si_2 <= 45 >45 Nb_Pics_10 Nb_Pics_10 <= 6 >6 <= 6 >6 C3 (5) C4 (3) Somme_Si_2 C5 (5) <= 28 >28 C1 (7) C2 (8) 2) Arbre de décision (toutes var)

  45. 2) Arbre de décision -> règles Si Somme_SI_2 <= 45: Si Nb_Pics_10 > 6: 3 (5) Si Nb_Pics_10 <= 6: Si Somme_SI_2 <= 28: 1 (6) Si Somme_SI_2 > 28: 2 (7) Si Somme_SI_2 > 45 Si nb_Pics_10 <= 6: 4 (3) Si nb_Pics_10 > 6: 5 (4)

  46. Somme_Si_2 <= 45 >45 Nb_Pics_10 Nb_Pics_10 <= 3 >3 <= 6 >6 C1 (8) C3 (3) C5 (5) Nb_Pics_10 <= 5 >5 C2 (6) C4 (6) 1) CAH (SI_2,Nb_Pics10,Cumul_pluie) 2) Arbre de décision (toutes var)

  47. Somme_Si_2 Somme_Si_2 >45 <= 45 >45 <= 45 Nb_Pics_10 Nb_Pics_10 Nb_Pics_10 Nb_Pics_10 <= 6 >6 <= 3 >3 <= 6 >6 <= 6 >6 C3 (3) C5 (5) C1 (8) C4 (3) C5 (5) Nb_Pics_10 C3 (5) Somme_Si_2 <= 5 >5 <= 28 >28 C2 (6) C4 (6) C1 (7) C2 (8) 2) Arbre de décision Arbre après CAH sur (SI_2,Nb_Pics10,Cumul_pluie) Arbre après CAH sur (SI_2,Nb_Pics10)

  48. Conclusion et Perspectives • Variables temporelles sur des périodes... lesquelles ? • Séries temporelles... sujet de recherche • Intérêt d'une classification de climats, problème du volume de données

  49. Bibliographie • J. Han et M. Kamber «Data Mining: Concepts and Techniques » Morgan Kaufmann • L. Lebart, A. Morineau et M. Piron « Statistique exploratoire multidimensionnelle» Dunod • A. Cornuéjols et L. Miclet «Apprentissage artificiel; Concepts et Algorithmes » Eyrolles • J.R. Quinlan «Induction of Decision Trees » Machine Learning 1986 - Kluwer Academic Publisher, pages 81-106 • XLStat Analyse de données et statistique avec MS Excel - Addinsoft http://www.xlstat.com/indexfr.html • Weka implémentations de quelques algorithmes d'apprentissage en JAVA. (Open source software issued under the GNU General Public License) http://www.cs.waikato.ac.nz/ml/weka/

More Related