1 / 76

Phénomènes de Complexité et Concentration en Classification

Phénomènes de Complexité et Concentration en Classification. Application à l’Apprentissage Automatique, au Data Mining et à l’Analyse d’Images. Richard Nock rnock@martinique.univ-ag.fr http://www.martinique.univ-ag.fr/~rnock. Département Scientifique Interfacultaire.

garron
Télécharger la présentation

Phénomènes de Complexité et Concentration en Classification

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Phénomènes de Complexité et Concentration en Classification Application à l’Apprentissage Automatique, au Data Mining et à l’Analyse d’Images Richard Nock rnock@martinique.univ-ag.fr http://www.martinique.univ-ag.fr/~rnock Département Scientifique Interfacultaire Groupe de Recherche en Informatique et Mathématiques Appliquées des Antilles-Guyane

  2. Background • Ingénieur Agronome (1993) • DEA Informatique (1993) • Doctorat Informatique (1998) directeur: O. Gascuel • Mcf UAG Guadeloupe (1998-2000) • Mcf UAG Martinique (2000-)

  3. Production scientifique Deux résultats... Un résultat négatif (apprentissage/complexité) Un résultat positif (analyse d’images) Encadrements et collaborations Encadrement de thèse Collaborations scientifiques Collaborations industries & collectivités Plan Présentation de l’équipe

  4. Production scientifique Algorithmes d’apprentissage/classification Théorie (Complexité, stats/probas) Analyse d’images comment clusteriser plus finement ?

  5. ICASSP ’02 ICIP ’02 CVPR ’01 ICIP ’00 BMVC ’00 ICTAI ’98 EWCBR ’00 PRL(01) ICML ’01 FLAIRS ’01 ICML ’00 UAI ’00 PKDD ’00 CAIC ’00 FLAIRS ’00 PKDD ’99 JMLR(02) PR(02) IJ-AIT(00) Book(00) IJ-CSS(00) PKDD ’99 ISIDA ’99 CAIC ’98 ICML ’98 IC2IN ’97 ICML ’95 IJ-IDA(99) IJ-PRAI(98) ECML ’02 ALT ’99 ISAAC ’98 ILP ’98 ICCS ’98 ICML ’96 TCS(02) JAIR(02) PRL(01) Production scientifique Données images images Méthode Autre Réd. données Induction Théorie Théorie non oui non oui ALT ’00

  6. Un résultat Positif « Fast and Reliable Region Merging inspired by Decision-Tree Pruning » R. Nock, IEEE Int. Conf. on Computer Vision and Pattern Recognition 2001 Un résultat (très) Négatif « Generalized Colorability and the Compressibility of Boolean Formulae » R. Nock, P. Jappy, J. Sallantin Int. Symposium on Algorithms And Computation 1998 Deux résultats…

  7. Un résultat (très) Négatif

  8. Un résultat Négatif • Apprendre =capacité pour une entité d’améliorer ses capacités de manière automatique, par l’expérience. • Valiant (1984) = 2 contraintes: • algorithmique: apprendre  rapide • statistique: apprendre  fiable Modèle PAC: Probablement Approximativement Correct

  9. Un résultat Négatif • Valiant (C. ACM 1984, IJCAI 1985):les humains semblent être enclins à utiliser des systèmes de règles pour représenter leur connaissance. Ces systèmes de règles sont-ils PAC apprenables? Formes Normales Disjonctives (DNF)

  10. Plan général (résultat Négatif) • -Observations, Exemples, Concepts • -Le modèle PAC de Valiant • -Optimisation & approximation • -Preuves traditionnelles • -Notre solution: réductions « self-improving » • -Parallèle « intéressant » • -Conclusion & extensions

  11. Par ex.: -Observations et Exemples On dispose de n variables Booléennes d ’observation: Chacune génère 2 littéraux Correspond au test

  12. Par exemple: « bon payeur » versus « mauvais payeur » Classe « positive »  Classe « négative » Classe 1 Classe 0 Un élément est appelé une observation Un élément est appelé un exemple -Observations et Exemples On veut prédire l ’appartenance à une classe, comme fonction de ces variables d ’observation:

  13. Concept cible domaine -Exemples et Concepts L ’ensemble des exemples observables = domaine Par exemple: clients potentiels d ’un assureur Le sous-ensemble du domaine constitué des exemples positifs=concept cible (à apprendre) Par exemple: bons payeurs pour un assureur Représentations extensionnelles de concepts Pour apprendre, représentation intensionnelle d’un concept

  14. Par exemple: -Exemples et Concepts Représentation intensionnelle d’un concept= succincte elle est élément d’une classe de représentation de concepts Par exemple: la classe des monômes Booléens Un monôme Booléen=conjonction de littéraux Une observation qui satisfait un monôme est classée positive par ce monôme (sinon, classée négative) 1 0 Par exemple: 0101101100 1111111001 Concept cible et concept hypothèse (qu’on construit) sont éléments de classes de représentations de concepts

  15. -Le modèle PAC Apprendre C au sens de PAC, c’est, étant donné cC, induire à partir d’(un aperçu de) sa représentation extensionnelle, une formule hC: • dont la représentation extensionnelle soit une bonne approximation de celle de c (whp), • en temps polynomial en divers paramètres

  16. -Le modèle PAC Pour prouver que C n ’est pas PAC: • Trop d’exemples nécessairespour satisfaire à la condition statistique • Temps de calcul rédhibitoirepour satisfaire à la conditionalgorithmique

  17. -Le modèle PAC Pour prouver que C n ’est pas PAC: • Temps de calcul rédhibitoirepour satisfaire à la conditionalgorithmique On utilise la difficulté d’approximation d’un problème de minimisation (C gde)

  18. -Optimisation & approximation …nous étudions un pb d’optimisation Définition (pour une classe de rep. de concepts C): Ensemble d’exemples LS Instance Formules de C consistantes avec LS Solutions faisables Taille de la formule Fonction de coût Trouver une solution faisable minimisant la fonction de coût Objectif

  19. Le coût d’une instance est le coût optimal d’une solution pour cette instance Un problème de minimisation est approximable à moins de ssi il existe un algorithme poly permettant, pour une instance de coût de trouver une solution de coût au plus -Optimisation & approximation …retour sur les pbs d’optimisation …définition de l’approximabilité: Comment démontrer un ratio d’inapproximabilité ? preuves traditionnelles en apprentissage: transfert de ratio d’inapprox. d’un pb de min. vers un autre

  20. NP Classe des problèmes de décision admettant un algorithme non déterministe de résolution de temps polynomial en la taille de l’instance Problèmes « difficiles » NP -Optimisation & approximation …retour sur les pbs de décision NP-Complet

  21. -Optimisation & approximation …retour sur les pbs de décision hypothèses Sous certaines ces pbs difficiles n’admettent pas d’algo. déterministe polynomial déterministe quasi-polynomial déterministe sous-exponentiel randomisé polynomial

  22. -Optimisation & approximation …des pbs de décision difficiles aux ratios d’inapproximabilité Coût des instances Pb. de décision difficile Pb. de minimisation Non « gap » Oui Réduction

  23. -Preuves traditionnelles …pour DNF Un monôme (Booléen): conjonction de littéraux: Une DNF: disjonction de monômes: Une k-term-DNF: disjonction d ’au plus k monômes

  24. Graphe k colorable k-term-DNF consistante -Preuves traditionnelles …la réduction de Kearns, Li, Pitt, Valiant, STOC’87 k=3 « Oui » « Oui »

  25. -Preuves traditionnelles …la réduction de Kearns & al Propriété: Le nombre minimal de couleurs = taille minimale de la DNF consistante conservation du ratio d’inapproximabilité

  26. -Preuves traditionnelles …le théorème de départ Théorème de Feige & Kilian ’96: La colorabilité de graphe pas approximable à moins de Renvoie Oui, Non, ? (Pr(?)=cst<1)

  27. -Preuves traditionnelles En utilisant Kearns & al. ’87 + Feige & Kilian ’96, on obtient: Théorème: La DNF minimale consistante pas approximable à moins de Problème ?

  28. Sachant que la colorabilité est (trivialement) approximable à moins d’un ratio on ne peut donc pas obtenir de ratio d’inapproximabilité pour la DNF consistante minimale De plus, on n’obtient rien d’intéressant en replaçant l’hypothèse de complexité par une hypothèse plus forte -Preuves traditionnelles On est très loin de démontrer la non apprenabilité de DNF on a tout juste la non-apprenabilité de minuscules sous-classes et après ?

  29. -Notre solution: réductions « self-improving » • A) Faire des réductions directement « à l’intérieur » du problème d’apprentissage. d fois Réduction ordinaire A B B B B Pbs LS1 LS2 LS3

  30. -Notre solution • B) S’arranger pour que le ratio d’inapproximabilité augmente « brutalement » avec les réductions d fois Réduction ordinaire ratio conservation Pb A B B B B

  31. -Notre solution • C) S’arranger pour que le ratio d’inapproximabilité « explose » en remplaçant l’hypothèse de complexité Réduction ordinaire ratio conservation Pb A B

  32. -Notre solution • D) Résultat principal: le ratio « devient » …mais la complexité augmente aussi:

  33. On combine les observations On combine les classes par et-logique + Colorabilité LS2 LS1 -Notre solution réduction de Kearns & al.

  34. -Notre solution On ajoute quelques astuces supplémentaires: On a besoin de graphes très particuliers On combine en réalité 4 réductions

  35. -Notre solution …conséquences I • Si d est constant:la réduction est encore polynomiale,mais le ratio « explose »

  36. -Notre solution …conséquences II • Si d devient polylog • La réduction est quasi-polynomiale, • Mais le ratio est « boosté » d’avantage • Résultat « extrème » (d encore + gd):

  37. -Notre solution …conséquences III • Le résultat de complexité permet • de donner des bornes inférieures sur la complexité de tout algorithme PAC pour DNF • de montrer la non-apprenabilité de larges sous-classes de DNF On est pas loin de démontrer la non apprenabilité de DNF …mais on ne la démontre pas encore 

  38. -Parallèle « intéressant » • Une technique de classification récente extrèmement puissante (Breiman’96) combine les solutions d’algorithmes d’apprentissage modérément fiables,et retourne une nouvelle solution beaucoup plus fiable (Boosting).

  39. -Parallèle « intéressant » • Notre technique combine les instances de problèmes d’optimisation en apprentissage/classification modérément difficiles,et retourne une nouvelle instance beaucoup plus difficile.

  40. -Conclusion & extensions • Apprenabilité et approximabilité de DNF=un des problèmes fondamentaux de la théorie de Valiant, conjecturé négatif par Valiant en 1985. • En 1998, nous avions le ratio d’inapproximabilité le plus important pour DNF (mais pas encore « maximal » !). Apparemment toujours le + important (Hellerstein ’01)

  41. -Conclusion & extensions • J’ai utilisé cette technique « self-improving » dans quelques autres cas: • (In)approximabilité de l’erreur sur de grands ensembles de Clauses de Horn • Difficulté des problèmes de réduction de données (variables/exemples) • Et d’autres (en soumission)

  42. Un résultat Positif

  43. Pixels Arrangement de régions = + +... Un résultat Positif • Segmentation d’images =

  44. Un résultat Positif • Notre objectif = Segmentation par fusion de régions 16 pixels= 16 régions 15 régions 14 régions 2 régions & compromis Complexité algorithmique vs qualité statistique

  45. Plan général (résultat Positif) • +Segmentation d’images & élagage • +Un modèle de génération d’image • +Théorème (utile) • +L’algorithme + analyse de complexité • +Expérimentations • +Conclusion partielle • extensions actuelles

  46. Kearns & Mansour ICML ’97, ’98 Théoriquement statistiquement & algorithmiquement redoutable Mais, en pratique petits domaines=pb +Segmentation & élagage • Fusion de régions similaire à l’élagage de DT • Segmentation d’image = (très) larges domaines

  47. +Modèle : génération d’image • On crée un modèle supposant que • l’image observée est obtenue à partir d’une image « théorique » • Dans cette image théorique, on peut « observer » la partition idéale en régions (celle qu’on cherche à reconstruire sur la base de l’image observée seulement) Modèle donne une mesure objective de la qualité de segm.

  48. v.a. Indép./canal, + sommes born.  Q g +Modèle (2) • Pixel théorique Pixel observé 1 pixel=3 ens. (RGB) de Q v.a. ind., SANS plus d’hypothèse sur les v.a.

  49. +Modèle (3) • Image théorique Image observée objectif

  50. +Modèle (4) • Dans l’image théorique, • Peut-on reconnaître les vraies régions sur la seule base de l’image observée ? R vraie région de I*,  a {R,G,B}, L’espérance mathématique de a est la même sur R RR’ vraies régions de I* L’espérance mathématique diffère pour R,G, ou B

More Related