Apprentissage de règles à partir de données multi-instances

Apprentissagede règles à partir dedonnées multi-instances Soutenance de thèse de Yann Chevaleyre sous la direction de Jean-Daniel Zucker Université de Paris VI – LIP6 - équipe ACASA

Une image contient un extincteur ssiR > 110 et B < 180 - + Contient un extincteur Ne contient pasd ’extincteur R V B R V B 47 75 200 128 55 182 Une molécule M est mutagène ssiatom(M,A1,X),charge(A1,0.17), atom(M,A2,c),bond(A1,A2),... - + mutagène non mutagène Représentationintermédiaire ? Représentationrelationelle ReprésentationAtt/Val Cadre et motivation atom(m1,a1,c), charge(a1,0.21), atom(m1,a2,h), charge(a2,-0.1),bond(a1,a2), atom(m1,a3,c), ... multi-instances

exemple i R V B 128 55 182 La représentation multi-instances Représentation Att/Val classique: Représentation multi-instance: est représenté par exemplei Vecteur A/V xi Vecteur A/V xi,1 est représenté par Vecteur A/V xi,2 Vecteur A/V xi,r instances sac

x2 x1 45° x2 45° x1 Sources de données multi-instances • Données « naturellement » multi-instances, i.e. ayant plusieurs configurations • Reformulation de représentations plus complexes (clauses prolog, BD relationelles …) [Zucker et Ganascia 96], [Alphonse et Rouveirol 2000],[Lavrac01] atom(m1,a1,c), charge(a1,0.21), atom(m1,a2,h), charge(a2,-0.1),bond(a1,a2), atom(m1,a3,c), ...

Problématique Les algorithmes existants Numériques Symboliques & numériques IteratedDiscrimAPR[Dietterich97] * hyper-rectangles DiverseDensity[Maron98] * point dans l ’espace des inst. citation-kNN[Zucker et Wang 00] * k-ppv Enigme+[Zucker et Ganascia94] * ensembles de règles Relic[Ruffo00] * arbres de décision • Concevoir des algorithmes efficacestraiter des données symboliques et numériquesgénérer des hypothèses compréhensibles

Plan • 1) L ’apprentissage multi-instances linéaire • 2) Extension d ’un algorithme top-down - principe, extension de RIPPER, complexité • 3) Analyse et amélioration de l ’extension multi-instances de Ripper • les littéraux indiscernables, les modèles génératifs, mesure de couverture probabiliste • 4) Prise en compte du bruit multi-instances • 5) Expérimentations • Conclusion et perspectives

un sac est classé + ssi il possède une instance ayant la propriété P1et une instance ayant la propriété P2,etc... langage multi-linéaire Le problème d ’apprentissage A partir de B+,B- ensembles desacs positifs (resp. négatifs),trouver une hypothèse correcte Problème d ’apprentissagemulti-instances langage k-linéaire

Le problème d ’apprentissage A partir de B+,B- ensembles desacs positifs (resp. négatifs),trouver une hypothèse correcte Problème d ’apprentissagemulti-instances un sac est classé + ssi il possède k instances ayant la propriété P langage k-linéaire

Le problème d ’apprentissage MI linéaire A partir de B+,B- ensembles desacs positifs (resp. négatifs),trouver une hypothèse correcte Problème d ’apprentissagemulti-instances un sac est classé + ssi il possède une instance ayant la propriété P langage linéaire Trouver une fonction h qui couvreau moinsune instancesde chaque sac positifet aucune instance des sacs négatifs Problème multi-instances [Dietterich 97] • Avec le langage linéaire, on cherche un concept h propositionnel. • Algorithmes propositionnels efficaces et précisRipper (Cohen 95), C4.5 (Quinlan 93) adapter un algorithme propositionnel au cas multi-instances

Approche: Extension d ’un algorithme d apprentissage top-down • Représenter l ’ensemble des sacs sous la forme d ’un ensemble de vecteurs. b2- ajout de bag-id et dulabel à chaque instance b1+ • Mesurer la couverture au sens multi-instances de l ’hypothèse en cours de raffinement

Extension de l ’algorithme Ripper (Cohen 95) • Naive-RipperMi [Chevaleyre, Zucker 00] est l ’extension de Ripper au cas multi-instances Algorithme Accuracy Type d'hypothèse Iterated Discrimin 92.4 APR Diverse Density 88.9 point dans l'espace des inst Ripper-MI 88 ens. de règles (avg 7 litterals) Tilde 87 arbre de décision d'ordre 1 All positive APR 80.4 APR Multi-Inst 76.7 APR • Naive-Ripper-MI a été testé sur les bases multi-instances musk (Dietterich 97)Sur musk1 (5,2 inst. par sac en moyenne), bonnes performances.Sur musk2 (65 instances par sac), performances moyennes (77%).

50 40 30 20 10 0 5 10 15 20 25 Complexité et précision de NaiveRipperMi • Validation de NaiveRipperMi sur des BD artificielles • Temps CPU : linéaire en fonction du nb de sacs et d ’instances (50000 sacs, 10 inst / sac, 12 attributs : 1 min) 90 s 700 s 3 s TILDE [blockheel98] FOIL [quinlan90] NaiveRipperMI Taux d ’erreur (%) Nombre d ’instances par sac

Y 8 6 4 2 X 2 4 6 8 10 12 Chausses trappes de l ’apprentissage multi-instances 3 chausses trappes survenant lors de l ’apprentissage • Les littéraux erronés  modification de l ’élagage • Les littéraux contradictoires  partitionnement de l ’espace des instances • Les littéraux indiscernables • sac de triangles blancs • sac de carrés blancs... • 5 sacs + • sac de triangles noirs • sac de carrés noirs • ... • 5 sacs -

Y 6 4 2 2 4 X 6 8 10 12 Chausses trappes: les littéraux indiscernables • Quand le nombre d ’instances par sac augmente, les littéraux initiaux couvrent tous les sacs. Concept cible Y > 5

Chausses trappes: les littéraux indiscernables • Quand le nombre d ’instances par sac augmente, les littéraux initiaux couvrent tous les sacs. Y Concept cible 6 4 2 2 4 X 6 X > 7 8 10 12

Chausses trappes: les littéraux indiscernables • Important lorsque nb d ’instances >> nb d ’attributs • Remèdes en PLI lookahead Foil[Quinlan90], Tilde [Blockheel98] top-down / bottom-upProgol [Muggleton 95] relational clichés [Morin, Matwin 00]Accroissement de la complexité • Prendre en compte le nombre d ’instances couvertes

Modèles génératifs multi-instances • il modélise la façon dont les données ont été construites • Modèle < D,f> (d ’après [Blum 98]) • r instances sont tirées i.i.d. d ’une distribution D • le sac résultant est étiqueté selon un concept f • Limitations • Nb instance/sac Proba(sac- )  • Une seule distribution pour les + et les - • Les données réelles respectent rarement ce modèle

Un nouveau modèle génératif multi-instances Modèle < D+, D-, f,qneg> - + r-1 instances tirées deD+1 instance tirée du concept f r instances tirées deD- • Caractéristiques • Pr(sac- ) = qneg • Deux distributions pour les + et les - • Facilement extensible à un nombre variable d’instances • Ne subsume pas < D,f>

Une heuristique basée sur le nouveau modèle • Calculer pour chaque sac positif:Pr(l’une des instances couvertes  concept cible) Y 6 Y > 5 4 Concept cible 2 2 4 X 6 8 10 12

Calcul Analytique de la Probabilité • k= nb d ’instances de b+ couvertes r= nb d ’inst. total de b+ • Pr(l ’une des instances couvertes de b+  concept cible) = k Propriétés • Nombre d’ instance variable • 0 instances couvertes  Pr = 0 • r instances couvertes  Pr = 1 • Si les données ne respectent pas ce modèle, cela n ’a pastrop d ’impact négatif

50 40 30 20 10 0 5 10 15 20 25 Analyse de RipperMi: expérimentations TILDE FOIL NaiveRipperMI RipperMI-refined-cov Taux d ’erreur (%) Nombre d ’instances par sac • Sur le problème de la mutagénèse représenté sous forme multi-instances, NaiveRipperMi: 78% RipperMi-refined-cov: 82%

Le bruit multi-instances • Modèles usuels de bruit: • bruit de classification, d’attribut, bruit malicieux • Modèles de bruit typiquement multi-instances Instances de sac + remplacée par des instances de sac - Instances manquantes • Sources de bruit d ’instances manquantesPropositionalisation stochastique [Sebag 97] occlusion d ’une partie de l ’objet

Le bruit multi-instances: q instances retirées • Soit b, un sac positif, et h une hypothèse • On suppose que q instances par sac ont été retirées • Si h ne couvre aucune instance de b : - • connaissance de q • exponentiellement imprécis en q • Alternative à la mesure de couverture probabiliste • Même si le nombre « q réel » est grand, utiliser q petit plutot que rien +

Prise en compte du bruit multi-instances • BD Musk1: Seules les configurations les plus probables ont été encodées (10-validation croisée) q

Application : apprentissage perceptif d ’un robot[Collaboration Bredeche] W Je voisun extincteur Que voistu ? lab = extinct IF Color = red AND size > 53 THEN Extincteur

Application à apprentissage perceptif d ’un robot: résultats Porte Humain Description abstraite de l’image m x n pixels Porte Cendrier Ascenseur Porte Cendrier Extincteur Ascenseur Images étiquetées 350 images160 x 120 pixels 6,3 Mo

Application à apprentissage perceptif d ’un robot: complexité

Application à l ’apprentissage supervisé d ’un robot Description abstraite de l ’image 8 x 6 pixels … Motif de reformulation: … … • PLIC [Bredeche,chevaleyre 01] : Reformulation itérative d ’une grille de pixels

Les littéraux erronés  modification de l ’élagage • Les littéraux contradictoires  partitionnement de l ’espace des instances • Les littéraux indiscernables  couverture probabiliste Conclusion • La représentation MI offre une bonne alternative à Att/val • Analyse de la spécificité de l ’apprentissage MI • Nouveau modèle génératif < D+, D-, f,qneg> plus réaliste • Identification de trois chausses-trappes • Conception et validation d ’un modèle de bruit MI • Algorithme RipperMI capable de gros volumes de données (40Mo)rapidement (linéaire) et générant des hyp. concices

Perspectives • Développement de modèles plus réalistes, pour obtenir de meilleurs heuristiques (éventuellement non linéaire) • Développement de techniques de sélection d’instances et d ’attributs lorsque le nombre d ’instances est grand, lors d ’uneMI-propositionalisation par exemple • Autres algorithmes : méthode bottom-up • Extension des techniques d ’estimation de densité et p-concepts au multi-instances • Fiabilité et rapidité de RipperMI => Nombreuses applications, en particulier intégrées dans des robots mobiles

---------------------- calling RippMi ------------------- RippMi -m -R -k10 -c -a+freq -ins "/home/bredeche/Experimentations/SdgAll/w23.data" --------------------------------------------------------- Handling MIP problem option: will set random seed from clock 10-fold cross-validation data is noisy find rules for least frequent classes first allow numerical symbolic improvements Final hypothesis is: true :- valH1>=254, stdevB1<=56, stdevS1<=58, valB2<=128 (64/0). true :- ampH3>=254, y1>=3, ampV1>=250, S1<=91 (47/0). true :- ampH3>=254, V3<=110.5, ampR3<=220.5, S1<=185 (31/0). true :- ampH3>=253, ampV1>=239, ampG3<=227, H2<=50, stdevG3>=47 (12/0). true :- ampH3>=253, y1>=3, ampR1>=245, stdevV2<=37, H1>=71 (7/0). true :- B3<=1, stdevS1>=44, R1<=74 (4/0). true :- R3>=244, B1>=211, ampR1>=151 (3/0). true :- stdevV1>=89, ampH2<=23, B3<=44 (2/0). default false (178/1). =============================== summary =============================== Train error rate: 14.93% +/- 0.70% << Average time: 11.94 +/- 0.16 sec Hypothesis size: 8 rules, 40 conditions 1 3 2

Apprentissage de règles à partir de données multi-instances