La Classification

La Classification Ansaf.Salleb@irisa.fr

Fouille de données (Data mining) « Extraction de connaissances implicites non connues à l’avance et potentiellement utiles dans de gros volumes de données » Fayyad et al. 1996

II y en a beaucoup trop ! Données Données Données Données Données Données Fouille de données: pourquoi ?

ASA BD Fouille de Données VISU AD STAT RN Fouille de données: approches

Fouille de données : types de données • Tables (BD relationnelles) • Texte • Multimédia • Spatiales • Temporelles (time series) • Web • …

Fouille de données : tâches • Description • Associations • Classification • Détection d’anomalies • …

La classification : un exemple Problème : • Un client demande à son banquier un crédit • Le banquier souhaite savoir à l’avance si le client sera solvable ou non à la fin du crédit. Il doit anticiper le comportement du client ! • Le banquier va décider en comparant ce client aux clients auxquels il a déjà accordé un prêt.

La classification : un exemple • Classer Construction d’un modèle à partir d’exemples (historique des clients) dont les classes sont connues à l’avance (solvable, non solvable) • Prédire Utiliser le modèle pour classer le client

Cl1 Cl2 Cl3 Cl2 Cl1 Cl3 Non supervisée : on ne connaît pas les classes Grp1 Grp3 Grp2 La classification • Supervisée : on connaît les classes

La classification • Supervisée : on connaît les classes • Bayésienne • Réseaux neuronaux • Arbres de décision (Apprentissage) • … • Non supervisée : on ne connaît pas les classes • K-moyennes, nuées dynamiques, CLARANS,... • Classification Ascendante Hiérarchique (Analyse des données)

Classification: arbre de décision • Entrée: BD = Exemples classés décrits par des attributs • Sortie: Arbre classifiant les exemples en classes • Approche: Organiser les exemples en arbre, les feuilles sont les classes • Méthodes:Cart,C4.5 ...

Attributs prédictifs Attribut de classes 14 Exemples Exemple de données météorologiques

Exemple de données météorologiques Temps{ensoleillé, couvert, pluvieux}3 Température {chaud, modéré, frais}3 Humidité {élevée, normale}2 Vent {VRAI, FAUX} 2 nombre d’exemples possibles: 3*3*2*2 = 36 14 exemples sont présents dans la BD

Nouvelle journée Arbre de décision

Arbre de décision Deux étapes: 1. Construction du modèle sur les exemples d’apprentissage (training set) 2. Évaluation du modèle sur des exemples test(test set)

Construction du modèle 1. Au départ, la racine contient tous les exemples 2. Si tous le exemples sont de même classe, c’est une feuille sinon trouver le meilleur attribut 3. Diviser les exemples 4. Recommencer pour chacun des nouveaux nœuds

Construction du modèle • un nœud-> une quantité d’information qui représente le degré de mélange des classes • quantité d’information -> mélange  • quantité d’information = MAX si les exemples sont équitablement répartis • quantité d’information = MIN si le nœud est pur (que des exemples de même classe)

Construction du modèle Info(9,5) oui(9), non(5) Temps Ensoleillé Couvert Pluvieux oui(2) non(3) oui(3) non(2) oui(4) 4/14 * Info(4,0) 5/14 * Info(2,3) 5/14 * Info(3,2)

Info(9,5) oui(9), non(5) Température Chaude Modérée Fraîche oui(2) non(2) oui(4) non(2) oui(3) non(1) 6/14 * Info(4,2) 4/14 * Info(2,2) 4/14 * Info(3,1) Construction du modèle

Info(9,5) oui(9), non(5) Humidité Élevée Normale oui(3) non(4) oui(6) non(1) 7/14 * Info(3,4) 7/14 * Info(6,1) Construction du modèle

Info(9,5) oui(9), non(5) vent FAUX VRAI oui(6) non(2) oui(3) non(3) 8/14 * Info(6,2) 6/14 * Info(3,3) Construction du modèle

Construction du modèle Gain d’information(outlook) = info(9,5)-5/14 info(2,3)-4/14 info(4,0)-5/14 info(3,2)

Construction du modèle • Fonction info qui vérifie ces propriétés, entropie, gini,... • Fonction Entropie info(m1,m2) = Entropie(p1,p2) = -p1log2(p1)-p2log2(p2) où p1=m1/(m1+m2) p2=m2/(m1+m2) pi proportion d’exemples dans la classe Ci

Construction du modèle • processus récursif, le raisonnement fait à la racine est analogue à tout autre sommet • critères d’arrêt: • contrainte sur nombre d’exemples dans un nœud; • on fixe un seuil d’entropie en dessous duquel on refuse d’éclater un sommet; • Arrivée à un nœud pur.

Temps Ensoleillé ... ... Info(2,3) Température Chaude Fraîche Modérée non non Oui non oui 2/5 * Info(1,1) 2/5 * Info(0,2) 1/5 * Info(1,0) Construction du modèle

Temps Ensoleillé ... ... Info(2,3) humidité Élevée Normale non(3) oui(2) 3/5 * Info(0,3) 2/5 * Info(2,0) Construction du modèle

Arbre de décision

Construction du modèle: attributs numériques • Attributs numériques sont discrétisés • Discrétisation? • Ordonner les k valeurs de l’attribut numérique Xj • Déterminer le point xj qui conduit à la meilleure bi-partition sur la population considérée à un nœud de l’arbre • Ce point est à déterminer parmi les k-1 « milieu d ’intervalle » possibles définissant k-1 discrétisations possibles • on teste chaque discrétisation possible par rapport au Gain d’information, on garde la meilleure.

Construction du modèle: attributs numériques

Construction du modèle: attributs numériques Info(9,5) Temps Ensoleillé ... ... Info(2,3) Humidité ? ?

Construction du modèle: attributs numériques • Attribut à discrétiser: Humidité • nœud avec Info(2,3) oui oui non non non 70 85 90 95 77,5 87,5 92,5 75 Humidité

Construction du modèle: attributs numériques Temps Ensoleillé ... ... Info(2,3) Humidité >75 <=75 non(3) oui(2) 3/5 * Info(0,3) 2/5 * Info(2,0)

Évaluation du modèle • Partitionner la BD en deux ensembles: • un ensemble d’apprentissage training set (2/3 de BD) • un ensemble test test set (1/3) • Validation croisée cross validation: • diviser BD en K parties • apprentissage et test en k étapes • A chaque étape: utiliser k-1 parties pour apprentissage et 1 partie pour le test • précision estimée par le nombre total de classifications correctes

Évaluation du modèle • 10 instances correctement classées 71,42% • 4 instances incorrectement classées 28,58%

Arbres de décision : conclusion + Facilement interprétables + Construction rapide des arbres + Pouvoir prédictif comparable aux autres méthodes -Choix d'un attribut n'est jamais remis en question -Un partitionnement dépend tjrs du précédent -Univarié: ne s’intéresse qu’à une seule variable à un nœud

P variables N individus Xij Analyse des données : un petit mot Nuage de n points dans un espace de dimension p

Visualisation dans le meilleur espace réduit Regroupement dans tout l'espace Méthodes factorielles (ACP, AFC, AFCM) Méthodes de classification (CAH, Aggrégation autour des centres mobiles,... ) Analyse des données : un petit mot Inspiré de Lebart et al.

Classification Ascendante Hiérarchique • On ne connaît pas les classes des individus • Une méthode simple et efficace sur de petits volumes de données • Se base sur une distance entre individus (similarité, dissimilarité) • Agrége progressivement les individus deux à deux selon leur ressemblance • Produit un Dendrogramme (arbre hiérarchique)

Étape 4 Étape 1 Étape 2 Étape 3 Étape 5 Classification Ascendante Hiérarchique Agglomération progressive des 5 points (Lebart et al.)

Exemple d'Application à SACADEAU

Ce qu'on voudrait faire... • Regrouper les climats par groupes CAH • Outil XLStat • Trouver des règles de classification des climats selon les groupes trouvés C4.5 • Outil Weka

G5 G4 G3 G2 G1 1) CAH (SI_2,Nb_Pics10)

1) CAH (SI_2,Nb_Pics10)

Somme_Si_2 <= 45 >45 Nb_Pics_10 Nb_Pics_10 <= 6 >6 <= 6 >6 C3 (5) C4 (3) Somme_Si_2 C5 (5) <= 28 >28 C1 (7) C2 (8) 2) Arbre de décision (toutes var)

2) Arbre de décision -> règles Si Somme_SI_2 <= 45: Si Nb_Pics_10 > 6: 3 (5) Si Nb_Pics_10 <= 6: Si Somme_SI_2 <= 28: 1 (6) Si Somme_SI_2 > 28: 2 (7) Si Somme_SI_2 > 45 Si nb_Pics_10 <= 6: 4 (3) Si nb_Pics_10 > 6: 5 (4)

Somme_Si_2 <= 45 >45 Nb_Pics_10 Nb_Pics_10 <= 3 >3 <= 6 >6 C1 (8) C3 (3) C5 (5) Nb_Pics_10 <= 5 >5 C2 (6) C4 (6) 1) CAH (SI_2,Nb_Pics10,Cumul_pluie) 2) Arbre de décision (toutes var)

Somme_Si_2 Somme_Si_2 >45 <= 45 >45 <= 45 Nb_Pics_10 Nb_Pics_10 Nb_Pics_10 Nb_Pics_10 <= 6 >6 <= 3 >3 <= 6 >6 <= 6 >6 C3 (3) C5 (5) C1 (8) C4 (3) C5 (5) Nb_Pics_10 C3 (5) Somme_Si_2 <= 5 >5 <= 28 >28 C2 (6) C4 (6) C1 (7) C2 (8) 2) Arbre de décision Arbre après CAH sur (SI_2,Nb_Pics10,Cumul_pluie) Arbre après CAH sur (SI_2,Nb_Pics10)

Conclusion et Perspectives • Variables temporelles sur des périodes... lesquelles ? • Séries temporelles... sujet de recherche • Intérêt d'une classification de climats, problème du volume de données

Bibliographie • J. Han et M. Kamber «Data Mining: Concepts and Techniques » Morgan Kaufmann • L. Lebart, A. Morineau et M. Piron « Statistique exploratoire multidimensionnelle» Dunod • A. Cornuéjols et L. Miclet «Apprentissage artificiel; Concepts et Algorithmes » Eyrolles • J.R. Quinlan «Induction of Decision Trees » Machine Learning 1986 - Kluwer Academic Publisher, pages 81-106 • XLStat Analyse de données et statistique avec MS Excel - Addinsoft http://www.xlstat.com/indexfr.html • Weka implémentations de quelques algorithmes d'apprentissage en JAVA. (Open source software issued under the GNU General Public License) http://www.cs.waikato.ac.nz/ml/weka/

La Classification

La Classification

Presentation Transcript

La classification « actuelle » des êtres vivants

Vade-mecum de la classification et de la reclassification

Chapitre 3. La classification des peines

La classification des tres vivants,

Classification de la matière

LA CLASSIFICATION DE LA MATIÈRE

SSR La classification Axes des travaux

Évolution de la classification (1)

LA CLASSIFICATION ACTUELLE DU VIVANT

La classification des minéraux

La Classification de la Mati ère

La classification périodique des éléments

La classification des êtres vivants,

D’une classification phylogénétique à la phylogenèse…

Voici la classification de l‘année 2004 :

La Classification Périodique des éléments

La classification périodique des éléments

La classification périodique des éléments

La classification

La classification périodique

Évolution de la classification des GHM

La Dé classification de Pluton