1 / 63

SVMs (Séparateurs à Vastes Marges) et Méthodes à noyaux

SVMs (Séparateurs à Vastes Marges) et Méthodes à noyaux. Laurent Orseau AgroParisTech laurent.orseau@agroparistech.fr à partir des transparents d'Antoine Cornuéjols. Plan. 1- Induction 2- Les SVMs 3- Les méthodes à noyau 4- Mise en œuvre 5- Applications 6- Bilan.

tyra
Télécharger la présentation

SVMs (Séparateurs à Vastes Marges) et Méthodes à noyaux

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SVMs (Séparateurs à Vastes Marges)etMéthodes à noyaux Laurent Orseau AgroParisTech laurent.orseau@agroparistech.fr à partir des transparents d'Antoine Cornuéjols

  2. Plan 1- Induction 2- Les SVMs 3- Les méthodes à noyau 4- Mise en œuvre 5- Applications 6- Bilan

  3. Apprentissage inductif supervisé À partir de l’échantillon d’apprentissageS= {(xi, ui)}1,mon cherche à identifier une loi de dépendance sous-jacente • Par exemple une fonction h aussi proche possible de f (fonction cible) tq : ui = f(xi) • Ou bien de la distribution de probabilités P(xi, ui) afin de prédire l’avenir

  4. Apprentissage inductif supervisé • Identification : h « proche de » f • Prédiction : h « bonne règle de décision » Échantillon d’apprentissage

  5. Hyperplans séparateurs • Tâche de classification • Cas de la séparation linéaire - On cherche h sous forme d’une fonction linéaire : h(x) = w.x + b - La surface de séparation est donc l’hyperplan : - Elle est valide si - L’hyperplan est dit sous forme canonique lorsque ou encore

  6. Discrimination linéaire : le Perceptron

  7. Hyperplan de plus vaste marge

  8. Optimisation de la marge

  9. Optimisation de la marge • La distance d’un point à l’hyperplan est : • L’hyperplan optimal est celui pour lequel la distance aux points les plus proches (marge) est maximale. Cette distance vaut • Maximiser la marge revient donc à minimiser ||w|| sous contraintes:

  10. EXPRESSION PRIMAIRE SVMs : un problème d’optimisation quadratique • Il faut donc déterminerwetw0minimisant : (afin de maximiser le pouvoir de généralisation) • sous les contraintes (hyperplan séparateur) :

  11. Résolution de la forme primaire du problème d : dimension de l’espace d’entrée Il faut régler d + 1 paramètres • Possible quand d est assez petit avec des méthodes d'optimisation quadratique • Impossible quand d est grand (> qqs 103)

  12. EXPRESSION DUALE Transformation du problème d’optimisation • Méthode des multiplicateurs de Lagrange • Problème dual

  13. Propriétés de la forme duale • La conversion est possible car les fonctions de coût et les contraintes sont strictement convexes (Th. de Kuhn-Tucker) • La complexité du problème d'optimisation est • µm (taille de l'échantillon d'apprentissage) • et non µd( taille de l'espace d'entrée X ) • Possible d'obtenir des solutions pour des problèmes impliquant ≈ 105 exemples

  14. * : estimé (xS,uS) étant n'importe quel point de support Solution du problème d’optimisation Propriété1 : seuls les i correspondant aux points les plus proches sont non-nuls. On parle de points de support(exemples critiques). Propriété 2 : seuls interviennent les produits scalaires entre les observations x dans le problème d’optimisation.

  15. Pourquoi ça marche ? La marge est liée à la capacité en généralisation • Normalement, la classe des hyperplans de Rd est de dH = d + 1 • Mais la classe des hyperplans de marge est bornée par : dH ≤ Min (R2c, d) + 1 où R est le rayon de la plus petite sphère englobant l'échantillon d'apprentissage S • Peut être beaucoup plus petit que la dimension d de l'espace d'entrée X

  16. Les fonctions noyau (kernel functions) • Fonctionktelle que : Espace de redescription muni d’un produit interne où :

  17. Les fonctions noyau : exemple • Rq (non unicité de l’espace F défini par F) : est une fonction noyau (le même noyau calcule le produit interne dans cet espace aussi)

  18. Les méthodes à noyau • Modularité • Découplage entre • Les algorithmes (linéaires) • La description des données

  19. Petite digression … … La reconnaissance de chiffres manuscrits par réseaux de neurones (ATT Bell labs, 1993)

  20. Leçons (provisoires) L’emploi de fonctions noyau permet : • D’utiliser les algorithmes de recherche de régularités linéaires pour la recherche de régularités non linéaires • D’employer ces algorithmes même sur des données non vectorielles (du moment que l’on sait trouver une fonction noyau adéquate) • De redécrire implicitement les données dans des espaces de grande dimension sans en avoir le coût computationnel

  21. Les méthodes à noyaux Tout passe par les produits internes dans F !!! Philosophie de représentation des données radicalement différente

  22. Conséquences d’une représentation par noyau • Des informations sont perdues • Orientation (invariance de la matrice K par rotation) • Alignement des données avec les axes (idem)

  23. Les fonctions noyau : définition • Fonction noyau positive définie • Symétrique : • Positive définie : • Théorème de Mercer • Toute fonction positive définie peut être exprimée comme un produit interne dans un espace de description

  24. Fonctions noyau pour des vecteurs • Noyaux polynomiaux Tous les produits d’exactement d variables Tous les produits d’au plus d variables • Noyaux gaussiens Sorte de décomposition en série de Fourrier • Noyaux sigmoïdes Pas définie positive. Mais fonction de décision proche des réseaux connexionnistes

  25. Morale • Les données s’expriment à travers la matrice noyau • La matrice noyau contrôle la régularisation du risque

  26. Solution du problème d’optimisation dual • Dans la forme duale : mS : nb de points de support

  27. Schéma de fonctionnement des SVMs

  28. 2 4 5 6 1 Illustration • Soient 5 points sur la droite : {(x1=1, u1 =1), (x2=2, u2= 1), (x3= 4, u3= -1), (x4= 5, u4 = -1), (x5= 6, u5= 1)} • Utilisation d’un noyau polynomial de degré 2 • k(xi, xj) = (xixj + 1)2 • C = 100 • Recherche de ai par :

  29. Illustration • Utilisation d’un programme de résolution de problème quadratique • a1=0, a2=2.5, a3=0, a4=7.333, a5=4.833 • Les points de supports sont : { x2=2, x4= 5, x5= 6} • La fonction de décision est : • h(x) = (2.5)(1)(2x+1)2 + 7.333(1)(5x+1)2 + 4.833(1)(6x+1)2+b = 0.6667 x2 - 5.333 x + b • Avec b obtenue par h(2)=1 ou par h(5)=-1 ou par h(6)=1, puisque x2, x4 et x5 sont sur la droite ui(wTF(x)+b)=1ce qui donne b=9 • D’où : h(x) = 0.6667 x2 - 5.333 x + 9

  30. Illustration Valeur de la fonction discriminante classe 1 classe 1 classe 2 1 2 4 5 6 {x=2, x=5, x=6} sont points supports

  31. Séparation linéaire dans l'espace des features

  32. Illustration : le cas du XOR

  33. Illustration : le cas du XOR Fonction noyau polynomiale de d° 2 : K(x,x') = [1 + (xT . x')]2 soit : K(x,xi ) = 1 + x12xi12 + 2 x1x2xi1xi2 + x22xi22 + 2x1xi1 + 2x2xi2 correspondant à la projection F : [1, x12, √2 x1x2, x22, √2 x1, √2 x2 ] T

  34. Illustration : le cas du XOR Ici :

  35. Illustration : le cas du XOR • L'optimisation de Q(a) en fonction des multiplicateurs de Lagrange conduit au système d'équations : • La valeur optimale des multiplicateurs de Lagrange est :

  36. Illustration : le cas du XOR • Les 4 exemples sont donc des exemples critiques ("support vectors") • La valeur optimale de Q(a) est : • Et : soit :

  37. Illustration : le cas du XOR • Les 4 exemples sont donc des exemples critiques ("support vectors") (i , ai ≠ 0) • La fonction de décision s’écrit :

  38. Illustration : le cas du XOR En revenant dans l’espace d’origine : Le vecteur poids optimal est : soit :

  39. Illustration : le cas du XOR L'hyperplan optimal correspond à :

  40. Illustration : le cas du XOR Séparatrice dans l'espace d'entrée D(x) = -x1x2 Séparatrice dans l'espace F(X) (espace à 6 dimensions)

  41. Cas du problème non séparable : marges douces • On introduit des variables “ressort” qui pénalisent l’erreur commise : • Le problème dual a la même forme à l’exception d’une constante C

  42. La mise en pratique • Il faut choisir : • Le type de fonction noyau k • Sa forme • Ses paramètres • La valeur de la constante C • La sélection de ces paramètres requiert l’utilisation de méthodes empiriques pour faire le meilleur choix (validation croisée)

  43. Exemple : exemple + • : exemple - Dans cercle : points de support Fct noyau polynomiale de degré 3 Démo : http://svm.research.bell-labs.com/ http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml

  44. Les données d'apprentissage

  45. Effet des paramètres de contrôle • Apprentissage de deux classes • exemples tirés uniformément sur l'échiquier • SVM à fonctions noyau gaussienne • Ici deux valeurs de s • En haut : petite valeur • En bas : grande valeur • Les gros points sont des exemples critiques • Plus en haut qu'en bas • Dans les deux cas : Remp = 0

  46. Paramètres de contrôle : les fonctions noyau • http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml • 47 exemples (22 +, 25 -) • Exemples critiques : 4 + et 3 - • Icifonction polynomialede degré 5etC = 10000

  47. Paramètres de contrôle : les fonctions noyau • 47 exemples (22 +, 25 -) • Exemples critiques : 4 + et 3 - (5-, 4+) (5-, 4+) (3-, 4+) Icifonction polynomialede degré 2, 5, 8 etC = 10000 (10-, 11+) (8-, 6+) (4-, 5+) Icifonction Gaussiennede s = 2, 5, 10 etC = 10000

  48. Ajout de quelques points ... • http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml • 47 + 8 exemples (30 +, 25 -) • Exemples critiques : 5 + et 8 - • Icifonction polynomialede degré 5etC = 10000

  49. Estimation de la performance • Empiriquement:par validation croisée • Heuristiquement(mais théoriquement fondé) • Nombre de points de supports • Moins il y en a, mieux c’est • Caractéristiques de la matrice noyau • Si pas de structure dans K, aucune régularité ne peut-être trouvée • E.g. • Si les termes hors diagonale sont très petits : sur-adaptation • Si matrice uniforme : sous-apprentissage : tous les points sont attribués à la même classe

  50. Construction de fonctions noyau • Construction à partir de fonctions noyau de base(Propriétés de clôture) • K(x,z) = K1(x,z) + K2(x,z) • K(x,z) = aK1(x,z) • K(x,z) = K1(x,z) . K2(x,z) • … • Construction de fonctions noyau dédiées • Splines Bm • Expansion de Fourrier • Ondelettes • ...

More Related