1 / 74

Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVM : Séparateurs à Vastes Marges (Support Vector Machines). Antoine Cornuéjols IIE & CNRS - Université de Paris-Sud, Orsay antoine@lri.fr http://www.lri.fr/~antoine. Plan. 1- Introduction à l’induction 2- Ingrédients de l’apprentissage supervisé 3- Les SVMs

paul2
Télécharger la présentation

Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Les SVM :Séparateurs à Vastes Marges(Support Vector Machines) Antoine Cornuéjols IIE & CNRS - Université de Paris-Sud, Orsay antoine@lri.fr http://www.lri.fr/~antoine

  2. Plan 1- Introduction à l’induction 2- Ingrédients de l’apprentissage supervisé 3- Les SVMs 4- Applications 5- Bilan

  3. Introduction à l’induction • Induction : Proposer des lois générales à partir de l’observation de cas particuliers

  4. Types d’apprentissages • Apprentissage supervisé • Apprentissage non supervisé • Apprentissage par renforcement

  5. Apprentissage supervisé (1) À partir d’un échantillon d’apprentissageS= {(xi, ui)}1,mchercher une loi de dépendance sous-jacente • Par exemple une fonction h (hypothèse) aussi proche que possible de f (fonction cible) tq : ui = f(xi) • Ou bien une distribution de probabilités P(xi, ui) afin de prédire l’avenir

  6. Apprentissage supervisé (2) • Si f est une fonction continue • Régression • Estimation de densité • Si f est une fonction discrète • Classification • Si f est une fonction binaire(booléenne) • Apprentissage de concept

  7. Apprentissage non supervisé D’un échantillon d’apprentissageS = {(xi)}1,mchercher des régularités sous-jacentes • Sous forme d’une fonction : régression • Sous forme de nuages de points (e.g. mixture de gaussiennes) • Sous forme d’un modèle complexe (e.g. réseau bayésien) afin de résumer, détecter des régularités, comprendre …

  8. App. Supervisé : le scénario de base x1, x2, ..., xm Environnement X : distribution de prob. F(x) “Oracle” Sm = (x1,u1), (x2,u2), ..., (xm,um) y1, y2, ..., ym Apprenant : h (x) x1, x2, ..., xm

  9. +/- ? - - - - + + + - + + - + + - - - X Espace des exemples : Apprendre  prédiction dans X • Méthodes par plus proches voisins • Nécessité d’unenotion de distance • Hypothèse de continuité dans X

  10. h x - - - - + + + - + + - + + - - - • Comment choisir l’espace des hypothèses (i.e. le langage LH) ? Apprendre = un jeu entre espaces • Cas particulier de l’apprentissage de concepts LH Espace des exemples : X Espace des hypothèses : H

  11. LH - h x - - - + + + - + + - + + - - X - H • Quel critère inductif ? • Qu’est-ce qu’une hypothèse optimale étant donné l’échantillon d’apprentissage ? Le critère inductif

  12. LH - h h x x - - ? ? - h + + x + - + + - + + - - X - H • Quelle méthode d’exploration de H ? L’exploration de H

  13. Trois ingrédients : trois questions • Quel critère inductif ? • Quelle hypothèse devrait-on choisir étant donné l’échantillon d’apprentissage ? • Quel espace d’hypothèses ? • Quel espace d’hypothèses est approprié ? • Comment explorer l’espace des hypothèses ? • Résolution d’un problème d’optimisation

  14. Critère de performance • Objectif : trouver une hypothèse hH minimisant le risque réel(espérance de risque, erreur en généralisation) Loi de probabilité jointe sur XY Fonction de perte Étiquette prédite Étiquette vraie (ou désirée)

  15. Exemples de fonctions de perte • Discrimination • Régression • Estimation de densité

  16. Les grands principes inductifs • Principe de minimisation du risque empirique (ERM) • Principe du maximum de vraisemblance (approche bayésienne) • Principe de compression maximale

  17. (i) Le principe inductif ERM • On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y). • Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèsehH minimisant le risque empirique

  18. (ii) Approche bayésienne • On suppose qu’il existe une distribution de probabilités a priori sur l’espace H : pH(h) Principe du Maximum A Posteriori(MAP): • On cherche l’hypothèse h la plus probable après observation des données S • Exemple : le 11 septembre 2001

  19. (iii) Principe de compression maximale • Inspiration : la théorie du codage de l’information • Rasoir d’Occam • On suppose qu’il existe : • un coût associé à la transmission d’un codage (modèle des données) : L(h) • un coût associé à la transmission des données brutes (E.D. h) : L(x|h) • On cherche le modèle (ou l’hypothèse) permettant la transmission la plus économique de l’échantillon de données

  20. Choix de l’espace d’hypothèses • Il faut contrôler l’expressivité de l’espace d’hypothèses • Analyse statistique de l’induction [Vapnik, …] Terme dépendant de la « richesse » de H

  21. Définition d’un problème d’apprentissage • Des acteurs • L’environnement • L’oracle • L’apprenant • Une tâche d’apprentissage • Discrimination (ou classification multiclasses) / régression / estimation de densité • Un principe inductif • ERM (et dérivés) / Bayésien / compression d’information • Un espace d’hypothèses (avec sélection automatique) un protocole d’apprentissage • Choix d’une méthode d’apprentissage (et d’un algorithme)

  22. Relation d’inclusion et relation de généralité • Vers la généralisation

  23. La relation de généralité induite dans H Relation de généralité dans H induite parlarelation d'inclusion dans X

  24. Le choix d’une méthode d’apprentissage Dépend fondamentalement de l’espace des hypothèses H • Structuré par une relation de généralité (ordre partiel) • Toutes les méthodes guidées par cette relation • Espace des versions • PLI (Programmation Logique Inductive) • EBL, reformulation, révision de théorie • Inférence grammaticale • Seulement une notion de voisinage dans H • Méthodes de « gradient » • Réseaux de neurones / SVMs • Recuit simulé / algorithmes d’évolution simulée • Réseaux bayésiens / HMMs • Pas d’espace d’hypothèses • Méthodes de plus proches voisins (Raisonnement par cas / Instance-based learning) h x H

  25. Hyperplans séparateurs • Tâche de classification • Cas de la séparation linéaire - On cherche h sous forme d’une fonction linéaire : h(x) = w.x + b - La surface de séparation est donc l’hyperplan : - Elle est valide si - L’hyperplan est dit sous forme canonique lorsque ou encore

  26. Hyperplan de plus vaste marge

  27. Optimisation de la marge

  28. Optimisation de la marge • La distance d’un point à l’hyperplan est : • L’hyperplan optimal est celui pour lequel la distance aux points les plus proches (marge) est maximale. Cette distance vaut • Maximiser la marge revient donc à minimiser ||w|| sous contraintes:

  29. EXPRESSION PRIMAIRE SVMs : un problème d’optimisation quadratique • Il faut donc déterminerwetw0minimisant : (afin de maximiser le pouvoir de généralisation) • sous les contraintes (hyperplan séparateur) :

  30. Résolution de la forme primaire du problème d : dimension de l’espace d’entrée Il faut régler d + 1 paramètres • Possible quand d est assez petit avec des méthodes d'optimisation quadratique • Impossible quand d est grand (> qqs 103)

  31. EXPRESSION DUALE Transformation du problème d’optimisation • Méthode des multiplicateurs de Lagrange • Problème dual

  32. Propriétés de la forme duale • La conversion est possible car les fonctions de coût et les contraintes sont strictement convexes (Th. de Kuhn-Tucker) • La complexité du problème d'optimisation est • µm (taille de l'échantillon d'apprentissage) • et non µd( taille de l'espace d'entrée X ) • Possible d'obtenir des solutions pour des problèmes impliquant ≈ 105 exemples

  33. * : estimé (xS,uS) étant n'importe quel point de support Solution du problème d’optimisation Propriété1 : seuls les i correspondant aux points les plus proches sont non-nuls. On parle de points de support(exemples critiques). Propriété 2 : seuls interviennent les produits scalaires entre les observations x dans le problème d’optimisation.

  34. Problèmes non linéairement séparables dans X La majorité des problèmes !!! Idée : Si on projette dans un espace de redescription de très grande dimension ?? • Presque toujours le problème devient linéairement séparable Mais : • Fléau de la dimensionalité • dVC explose !!?

  35. SVM et redescription Espace des représentations internes Espace d'entrées X Espace de sortie F h x y Séparation linéaire Redescription non linéaire

  36. Petite digression … … La reconnaissance de chiffres manuscrits par réseaux de neurones (ATT Bell labs, 1993)

  37. La redescription des entrées : illustration • Soit un espace d’entrée à 2 dimensions • Tout vecteur x = (x1, x2) peut être redécrit à l’aide de polynômes d’ordre 6 • Nouvel espace de descripteurs à 16 dimensions (fonctions de base):

  38. Le nouveau problème d’optimisation • Soit  : X -> (X), on peut remplacer partout x par (x) • Si  est bien choisie, K(x, x’) = (x).(x’) peut être facile à calculer et le problème devient :

  39. Solution du nouveau problème d’optimisation • La fonction de décision devient : • Soit dans la forme duale : n : nb de fcts de base (peut être très grand) mS : nb de points de support

  40. Schéma de fonctionnement des SVMs

  41. Les conditions de Mercer • Si on prend une fonction K symétrique, il existe une fonction  tq: • ssi, pour toute fonction f telle que : • l’on a : • Si cette condition est vérifiée, on peut appliquer les SVMs • MAIS cela ne dit pas comment construire 

  42. Fonctions noyau usuelles (1/2) • Polynomiale : Les polynomes de degré qont pour fonction noyau associée : • RBF : Les fcts à base radiale : ont pour fct noyau associée : • Sigmoïde : Les réseaux de neurones à fcts d'activation : ont pour fct noyau associée :

  43. Fonctions noyau usuelles (2/2) • Construction à partir de fonctions noyau de base(Propriétés de clôture) • K(x,z) = K1(x,z) + K2(x,z) • K(x,z) = aK1(x,z) • K(x,z) = K1(x,z) . K2(x,z) • … • Construction de fonctions noyau dédiées • Splines Bm • Expansion de Fourrier • Ondelettes • ...

  44. Les fonctions noyau • … encodent : • Une mesure de similarité sur les données • La forme fonctionnelle des fonctions de décision • Le type de régularisation réalisée • (ex : les fcts gaussiennes favorisent les solutions régulières) • Le type de covariance dans l’espace des entrées • (ex : fcts noyau invariantes par rotation) • Sorte de distribution de probabilité a priori sur l’espace des hypothèses

  45. Illustration : le cas du XOR Fonction noyau polynomiale de d° 2 : K(x,x') = [1 + (xT . x')]2 soit : K(x,xi ) = 1 + x12xi12 + 2 x1x2xi1xi2 + x22xi22 + 2x1xi1 + 2x2xi2 correspondant à la projection F : [1, x12, √2 x1x2, x22, √2 x1, √2 x2 ] T

  46. Illustration : le cas du XOR Ici :

  47. Illustration : le cas du XOR • L'optimisation de Q(a) en fonction des multiplicateurs de Lagrange conduit au système d'équations : • La valeur optimale des multiplicateurs de Lagrange est :

  48. Illustration : le cas du XOR • Les 4 exemples sont donc des exemples critiques ("support vectors") (i , ai ≠ 0) • La fonction de décision s’écrit :

  49. Illustration : le cas du XOR En revenant dans l’espace d’origine : Le vecteur poids optimal est : soit :

  50. Illustration : le cas du XOR L'hyperplan optimal correspond à :

More Related