Optimisation de la technique de RBC pour la classification dans un processus de data mining

Optimisation de la technique de RBC pour la classification dans un processus de data mining Mounir Ben Ayed(1,2) – Issam Féki(2) – Adel Alimi(2) (1)Faculté des Sciences de Sfax - Dept d’Informatique et des Com. (2)Research Group for intelligent machines (REGIM - ENIS) FDC - Lille 17 Janvier 2006

Contexte Dans le domaine médical -> RBC Algorithme standards Kppv (k plus proche voisins) . Les bases de + en + grande (Entrepôt de données) Temps d’exécution de l’algorithme Kppv de + en + long Objectif : diminuer le temps nécessaire pour la classification d’un nouveau cas

Plan de la présentation • Data Mining (techniques) • Le raisonnement à base de cas • Approche proposée • Évaluation des performances • Conclusion et perspectives

Généralité sur le Data Mining Techniques Raisonnement à base de cas Les arbres de décision Data Mining Les algorithmes génétiques Les réseaux de neurones Autres …

Raisonnement à base de cas -Technique qui provient des travaux en sciences cognitive (1980) -La similarité entre les descriptions de problèmes est une indication de l’utilité des solutions antécédentes. Principe : • Utilisation des expériences passées pour résoudre de nouveaux problèmes. • -L’ensemble des expériences forme une base de cas.

Raisonnement à base de cas K plus proches voisins (Kppv) -Algorithme de recherche des cas les plus proches similaires à un nouveau cas -Convertir les enregistrements en des points et calculer les distances entre ces points. A a un plus proche voisin B, B a de nombreux voisins proches autres que A

Raisonnement à base de cas Kppv -La classification d’un nouveau cas nécessite le calcul des distances entre ce cas est tous les cas de la base Classification très coûteuse en temps Plus la taille de la base est importante plus le temps d’exécution (par Kppv) est long

Les améliorations du Kppv La méthode ‘’Category_Based Search’’ (Iwayama,1995) -Représenter tous les cas d’une classe par un cas unique.Exemple: les moyennes des données associées à une classe

-Pas de comparaison de tous les cas avec le nouveau cas Gain de temps

La méthode: ‘’Cluster Based search’’ (Salton,1983) -Utilisation d’un algorithme de classification non supervisé Distinction automatique d’un représentant pour chaque classe -Comparaison du nouveau cas seulement avec les représentant générés -pas de comparaison du nouveau cas avec tous les cas Gain de temps

Approche proposée Réduction des bases de données Recherche du plus proches voisins Affectation des poids: -Des valeurs affectées par un expert aux attributs de la base de données : Degrés d’importance aux attributs les plus «importants » Pondérer la similarité globale entre deux cas

Approche proposée Processus de classification proposé

Approche proposée Réduction des bases de données -Construction de la requête : Select all From heart where(type de douleur=4) and (electro=0) Valeurs des attributs de fort poids du nouveau cas

Approche proposée Réduction des bases de données Base de données ‘’Anomalie cardiaque’’

Approche proposée Réduction des bases de données -Affectation des mêmes poids pour les attributs du nouveau cas Analyse des données et distinction des attributs de poids fort:

Approche proposée Réduction des bases de données -Exécution de la requête -Génération d’une base de données réduite: 40 enregistrements au lieu de 270 Réduction de 85,19% du nombre d’enregistrements

Approche proposée Recherche du plus proche voisins -Algorithme standard Kppv (toute la base) et après réduction Même résultat:

Évaluation des performances Influence du contenue de la base de données -La base de données ‘Breast’ -Le nouveau cas à classer

Évaluation des performances Influence du contenue de la base de données Select all From Breast where (‘forme’=2)

Évaluation des performances Influence des poids des attributs Le résultat d’exécution de la requête est une table vide

Évaluation des performances Influence de la taille de base de cas

Évaluation des performances Étude comparative entre les deux approches: Approche standard: Approche proposée:

Évaluation des performances Comparaison du temps:

Conclusion et perspectives • Approche basée sur la réduction des bases de données selon les poids accordés aux attributs. •  Performances satisfaisantes en terme de qualité et de temps d’exécution. • Perspectives : • Comparaison avec le Category_Based Search ET le Cluster Based search • Rendre le système plus intelligent (Apprentissage de ses résultats antérieurs). • Nouvelle méthode de réduction des bases de données de valeurs de poids d’attributs égaux.

Merci de votre attention.

Optimisation de la technique de RBC pour la classification dans un processus de data mining