700 likes | 982 Vues
SVMs (Séparateurs à Vastes Marges) et Méthodes à noyaux. Laurent Orseau AgroParisTech laurent.orseau@agroparistech.fr à partir des transparents d'Antoine Cornuéjols. Plan. 1- Induction 2- Les SVMs 3- Les méthodes à noyau 4- Mise en œuvre 5- Applications 6- Bilan.
E N D
SVMs (Séparateurs à Vastes Marges)etMéthodes à noyaux Laurent Orseau AgroParisTech laurent.orseau@agroparistech.fr à partir des transparents d'Antoine Cornuéjols
Plan 1- Induction 2- Les SVMs 3- Les méthodes à noyau 4- Mise en œuvre 5- Applications 6- Bilan
Apprentissage inductif supervisé À partir de l’échantillon d’apprentissageS= {(xi, ui)}1,mon cherche à identifier une loi de dépendance sous-jacente • Par exemple une fonction h aussi proche possible de f (fonction cible) tq : ui = f(xi) • Ou bien de la distribution de probabilités P(xi, ui) afin de prédire l’avenir
Apprentissage inductif supervisé • Identification : h « proche de » f • Prédiction : h « bonne règle de décision » Échantillon d’apprentissage
Hyperplans séparateurs • Tâche de classification • Cas de la séparation linéaire - On cherche h sous forme d’une fonction linéaire : h(x) = w.x + b - La surface de séparation est donc l’hyperplan : - Elle est valide si - L’hyperplan est dit sous forme canonique lorsque ou encore
Optimisation de la marge • La distance d’un point à l’hyperplan est : • L’hyperplan optimal est celui pour lequel la distance aux points les plus proches (marge) est maximale. Cette distance vaut • Maximiser la marge revient donc à minimiser ||w|| sous contraintes:
EXPRESSION PRIMAIRE SVMs : un problème d’optimisation quadratique • Il faut donc déterminerwetw0minimisant : (afin de maximiser le pouvoir de généralisation) • sous les contraintes (hyperplan séparateur) :
Résolution de la forme primaire du problème d : dimension de l’espace d’entrée Il faut régler d + 1 paramètres • Possible quand d est assez petit avec des méthodes d'optimisation quadratique • Impossible quand d est grand (> qqs 103)
EXPRESSION DUALE Transformation du problème d’optimisation • Méthode des multiplicateurs de Lagrange • Problème dual
Propriétés de la forme duale • La conversion est possible car les fonctions de coût et les contraintes sont strictement convexes (Th. de Kuhn-Tucker) • La complexité du problème d'optimisation est • µm (taille de l'échantillon d'apprentissage) • et non µd( taille de l'espace d'entrée X ) • Possible d'obtenir des solutions pour des problèmes impliquant ≈ 105 exemples
* : estimé (xS,uS) étant n'importe quel point de support Solution du problème d’optimisation Propriété1 : seuls les i correspondant aux points les plus proches sont non-nuls. On parle de points de support(exemples critiques). Propriété 2 : seuls interviennent les produits scalaires entre les observations x dans le problème d’optimisation.
Pourquoi ça marche ? La marge est liée à la capacité en généralisation • Normalement, la classe des hyperplans de Rd est de dH = d + 1 • Mais la classe des hyperplans de marge est bornée par : dH ≤ Min (R2c, d) + 1 où R est le rayon de la plus petite sphère englobant l'échantillon d'apprentissage S • Peut être beaucoup plus petit que la dimension d de l'espace d'entrée X
Les fonctions noyau (kernel functions) • Fonctionktelle que : Espace de redescription muni d’un produit interne où :
Les fonctions noyau : exemple • Rq (non unicité de l’espace F défini par F) : est une fonction noyau (le même noyau calcule le produit interne dans cet espace aussi)
Les méthodes à noyau • Modularité • Découplage entre • Les algorithmes (linéaires) • La description des données
Petite digression … … La reconnaissance de chiffres manuscrits par réseaux de neurones (ATT Bell labs, 1993)
Leçons (provisoires) L’emploi de fonctions noyau permet : • D’utiliser les algorithmes de recherche de régularités linéaires pour la recherche de régularités non linéaires • D’employer ces algorithmes même sur des données non vectorielles (du moment que l’on sait trouver une fonction noyau adéquate) • De redécrire implicitement les données dans des espaces de grande dimension sans en avoir le coût computationnel
Les méthodes à noyaux Tout passe par les produits internes dans F !!! Philosophie de représentation des données radicalement différente
Conséquences d’une représentation par noyau • Des informations sont perdues • Orientation (invariance de la matrice K par rotation) • Alignement des données avec les axes (idem)
Les fonctions noyau : définition • Fonction noyau positive définie • Symétrique : • Positive définie : • Théorème de Mercer • Toute fonction positive définie peut être exprimée comme un produit interne dans un espace de description
Fonctions noyau pour des vecteurs • Noyaux polynomiaux Tous les produits d’exactement d variables Tous les produits d’au plus d variables • Noyaux gaussiens Sorte de décomposition en série de Fourrier • Noyaux sigmoïdes Pas définie positive. Mais fonction de décision proche des réseaux connexionnistes
Morale • Les données s’expriment à travers la matrice noyau • La matrice noyau contrôle la régularisation du risque
Solution du problème d’optimisation dual • Dans la forme duale : mS : nb de points de support
2 4 5 6 1 Illustration • Soient 5 points sur la droite : {(x1=1, u1 =1), (x2=2, u2= 1), (x3= 4, u3= -1), (x4= 5, u4 = -1), (x5= 6, u5= 1)} • Utilisation d’un noyau polynomial de degré 2 • k(xi, xj) = (xixj + 1)2 • C = 100 • Recherche de ai par :
Illustration • Utilisation d’un programme de résolution de problème quadratique • a1=0, a2=2.5, a3=0, a4=7.333, a5=4.833 • Les points de supports sont : { x2=2, x4= 5, x5= 6} • La fonction de décision est : • h(x) = (2.5)(1)(2x+1)2 + 7.333(1)(5x+1)2 + 4.833(1)(6x+1)2+b = 0.6667 x2 - 5.333 x + b • Avec b obtenue par h(2)=1 ou par h(5)=-1 ou par h(6)=1, puisque x2, x4 et x5 sont sur la droite ui(wTF(x)+b)=1ce qui donne b=9 • D’où : h(x) = 0.6667 x2 - 5.333 x + 9
Illustration Valeur de la fonction discriminante classe 1 classe 1 classe 2 1 2 4 5 6 {x=2, x=5, x=6} sont points supports
Illustration : le cas du XOR Fonction noyau polynomiale de d° 2 : K(x,x') = [1 + (xT . x')]2 soit : K(x,xi ) = 1 + x12xi12 + 2 x1x2xi1xi2 + x22xi22 + 2x1xi1 + 2x2xi2 correspondant à la projection F : [1, x12, √2 x1x2, x22, √2 x1, √2 x2 ] T
Illustration : le cas du XOR • L'optimisation de Q(a) en fonction des multiplicateurs de Lagrange conduit au système d'équations : • La valeur optimale des multiplicateurs de Lagrange est :
Illustration : le cas du XOR • Les 4 exemples sont donc des exemples critiques ("support vectors") • La valeur optimale de Q(a) est : • Et : soit :
Illustration : le cas du XOR • Les 4 exemples sont donc des exemples critiques ("support vectors") (i , ai ≠ 0) • La fonction de décision s’écrit :
Illustration : le cas du XOR En revenant dans l’espace d’origine : Le vecteur poids optimal est : soit :
Illustration : le cas du XOR L'hyperplan optimal correspond à :
Illustration : le cas du XOR Séparatrice dans l'espace d'entrée D(x) = -x1x2 Séparatrice dans l'espace F(X) (espace à 6 dimensions)
Cas du problème non séparable : marges douces • On introduit des variables “ressort” qui pénalisent l’erreur commise : • Le problème dual a la même forme à l’exception d’une constante C
La mise en pratique • Il faut choisir : • Le type de fonction noyau k • Sa forme • Ses paramètres • La valeur de la constante C • La sélection de ces paramètres requiert l’utilisation de méthodes empiriques pour faire le meilleur choix (validation croisée)
Exemple : exemple + • : exemple - Dans cercle : points de support Fct noyau polynomiale de degré 3 Démo : http://svm.research.bell-labs.com/ http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml
Effet des paramètres de contrôle • Apprentissage de deux classes • exemples tirés uniformément sur l'échiquier • SVM à fonctions noyau gaussienne • Ici deux valeurs de s • En haut : petite valeur • En bas : grande valeur • Les gros points sont des exemples critiques • Plus en haut qu'en bas • Dans les deux cas : Remp = 0
Paramètres de contrôle : les fonctions noyau • http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml • 47 exemples (22 +, 25 -) • Exemples critiques : 4 + et 3 - • Icifonction polynomialede degré 5etC = 10000
Paramètres de contrôle : les fonctions noyau • 47 exemples (22 +, 25 -) • Exemples critiques : 4 + et 3 - (5-, 4+) (5-, 4+) (3-, 4+) Icifonction polynomialede degré 2, 5, 8 etC = 10000 (10-, 11+) (8-, 6+) (4-, 5+) Icifonction Gaussiennede s = 2, 5, 10 etC = 10000
Ajout de quelques points ... • http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml • 47 + 8 exemples (30 +, 25 -) • Exemples critiques : 5 + et 8 - • Icifonction polynomialede degré 5etC = 10000
Estimation de la performance • Empiriquement:par validation croisée • Heuristiquement(mais théoriquement fondé) • Nombre de points de supports • Moins il y en a, mieux c’est • Caractéristiques de la matrice noyau • Si pas de structure dans K, aucune régularité ne peut-être trouvée • E.g. • Si les termes hors diagonale sont très petits : sur-adaptation • Si matrice uniforme : sous-apprentissage : tous les points sont attribués à la même classe
Construction de fonctions noyau • Construction à partir de fonctions noyau de base(Propriétés de clôture) • K(x,z) = K1(x,z) + K2(x,z) • K(x,z) = aK1(x,z) • K(x,z) = K1(x,z) . K2(x,z) • … • Construction de fonctions noyau dédiées • Splines Bm • Expansion de Fourrier • Ondelettes • ...