Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVM :Séparateurs à Vastes Marges(Support Vector Machines) Antoine Cornuéjols IIE & CNRS - Université de Paris-Sud, Orsay antoine@lri.fr http://www.lri.fr/~antoine

Plan 1- Introduction à l’induction 2- Ingrédients de l’apprentissage supervisé 3- Les SVMs 4- Applications 5- Bilan

Introduction à l’induction • Induction : Proposer des lois générales à partir de l’observation de cas particuliers

Types d’apprentissages • Apprentissage supervisé • Apprentissage non supervisé • Apprentissage par renforcement

Apprentissage supervisé (1) À partir d’un échantillon d’apprentissageS= {(xi, ui)}1,mchercher une loi de dépendance sous-jacente • Par exemple une fonction h (hypothèse) aussi proche que possible de f (fonction cible) tq : ui = f(xi) • Ou bien une distribution de probabilités P(xi, ui) afin de prédire l’avenir

Apprentissage supervisé (2) • Si f est une fonction continue • Régression • Estimation de densité • Si f est une fonction discrète • Classification • Si f est une fonction binaire(booléenne) • Apprentissage de concept

Apprentissage non supervisé D’un échantillon d’apprentissageS = {(xi)}1,mchercher des régularités sous-jacentes • Sous forme d’une fonction : régression • Sous forme de nuages de points (e.g. mixture de gaussiennes) • Sous forme d’un modèle complexe (e.g. réseau bayésien) afin de résumer, détecter des régularités, comprendre …

App. Supervisé : le scénario de base x1, x2, ..., xm Environnement X : distribution de prob. F(x) “Oracle” Sm = (x1,u1), (x2,u2), ..., (xm,um) y1, y2, ..., ym Apprenant : h (x) x1, x2, ..., xm

+/- ? - - - - + + + - + + - + + - - - X Espace des exemples : Apprendre  prédiction dans X • Méthodes par plus proches voisins • Nécessité d’unenotion de distance • Hypothèse de continuité dans X

h x - - - - + + + - + + - + + - - - • Comment choisir l’espace des hypothèses (i.e. le langage LH) ? Apprendre = un jeu entre espaces • Cas particulier de l’apprentissage de concepts LH Espace des exemples : X Espace des hypothèses : H

LH - h x - - - + + + - + + - + + - - X - H • Quel critère inductif ? • Qu’est-ce qu’une hypothèse optimale étant donné l’échantillon d’apprentissage ? Le critère inductif

LH - h h x x - - ? ? - h + + x + - + + - + + - - X - H • Quelle méthode d’exploration de H ? L’exploration de H

Trois ingrédients : trois questions • Quel critère inductif ? • Quelle hypothèse devrait-on choisir étant donné l’échantillon d’apprentissage ? • Quel espace d’hypothèses ? • Quel espace d’hypothèses est approprié ? • Comment explorer l’espace des hypothèses ? • Résolution d’un problème d’optimisation

Critère de performance • Objectif : trouver une hypothèse hH minimisant le risque réel(espérance de risque, erreur en généralisation) Loi de probabilité jointe sur XY Fonction de perte Étiquette prédite Étiquette vraie (ou désirée)

Exemples de fonctions de perte • Discrimination • Régression • Estimation de densité

Les grands principes inductifs • Principe de minimisation du risque empirique (ERM) • Principe du maximum de vraisemblance (approche bayésienne) • Principe de compression maximale

(i) Le principe inductif ERM • On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y). • Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèsehH minimisant le risque empirique

(ii) Approche bayésienne • On suppose qu’il existe une distribution de probabilités a priori sur l’espace H : pH(h) Principe du Maximum A Posteriori(MAP): • On cherche l’hypothèse h la plus probable après observation des données S • Exemple : le 11 septembre 2001

(iii) Principe de compression maximale • Inspiration : la théorie du codage de l’information • Rasoir d’Occam • On suppose qu’il existe : • un coût associé à la transmission d’un codage (modèle des données) : L(h) • un coût associé à la transmission des données brutes (E.D. h) : L(x|h) • On cherche le modèle (ou l’hypothèse) permettant la transmission la plus économique de l’échantillon de données

Choix de l’espace d’hypothèses • Il faut contrôler l’expressivité de l’espace d’hypothèses • Analyse statistique de l’induction [Vapnik, …] Terme dépendant de la « richesse » de H

Définition d’un problème d’apprentissage • Des acteurs • L’environnement • L’oracle • L’apprenant • Une tâche d’apprentissage • Discrimination (ou classification multiclasses) / régression / estimation de densité • Un principe inductif • ERM (et dérivés) / Bayésien / compression d’information • Un espace d’hypothèses (avec sélection automatique) un protocole d’apprentissage • Choix d’une méthode d’apprentissage (et d’un algorithme)

Relation d’inclusion et relation de généralité • Vers la généralisation

La relation de généralité induite dans H Relation de généralité dans H induite parlarelation d'inclusion dans X

Le choix d’une méthode d’apprentissage Dépend fondamentalement de l’espace des hypothèses H • Structuré par une relation de généralité (ordre partiel) • Toutes les méthodes guidées par cette relation • Espace des versions • PLI (Programmation Logique Inductive) • EBL, reformulation, révision de théorie • Inférence grammaticale • Seulement une notion de voisinage dans H • Méthodes de « gradient » • Réseaux de neurones / SVMs • Recuit simulé / algorithmes d’évolution simulée • Réseaux bayésiens / HMMs • Pas d’espace d’hypothèses • Méthodes de plus proches voisins (Raisonnement par cas / Instance-based learning) h x H

Hyperplans séparateurs • Tâche de classification • Cas de la séparation linéaire - On cherche h sous forme d’une fonction linéaire : h(x) = w.x + b - La surface de séparation est donc l’hyperplan : - Elle est valide si - L’hyperplan est dit sous forme canonique lorsque ou encore

Hyperplan de plus vaste marge

Optimisation de la marge

Optimisation de la marge • La distance d’un point à l’hyperplan est : • L’hyperplan optimal est celui pour lequel la distance aux points les plus proches (marge) est maximale. Cette distance vaut • Maximiser la marge revient donc à minimiser ||w|| sous contraintes:

EXPRESSION PRIMAIRE SVMs : un problème d’optimisation quadratique • Il faut donc déterminerwetw0minimisant : (afin de maximiser le pouvoir de généralisation) • sous les contraintes (hyperplan séparateur) :

Résolution de la forme primaire du problème d : dimension de l’espace d’entrée Il faut régler d + 1 paramètres • Possible quand d est assez petit avec des méthodes d'optimisation quadratique • Impossible quand d est grand (> qqs 103)

EXPRESSION DUALE Transformation du problème d’optimisation • Méthode des multiplicateurs de Lagrange • Problème dual

Propriétés de la forme duale • La conversion est possible car les fonctions de coût et les contraintes sont strictement convexes (Th. de Kuhn-Tucker) • La complexité du problème d'optimisation est • µm (taille de l'échantillon d'apprentissage) • et non µd( taille de l'espace d'entrée X ) • Possible d'obtenir des solutions pour des problèmes impliquant ≈ 105 exemples

* : estimé (xS,uS) étant n'importe quel point de support Solution du problème d’optimisation Propriété1 : seuls les i correspondant aux points les plus proches sont non-nuls. On parle de points de support(exemples critiques). Propriété 2 : seuls interviennent les produits scalaires entre les observations x dans le problème d’optimisation.

Problèmes non linéairement séparables dans X La majorité des problèmes !!! Idée : Si on projette dans un espace de redescription de très grande dimension ?? • Presque toujours le problème devient linéairement séparable Mais : • Fléau de la dimensionalité • dVC explose !!?

SVM et redescription Espace des représentations internes Espace d'entrées X Espace de sortie F h x y Séparation linéaire Redescription non linéaire

Petite digression … … La reconnaissance de chiffres manuscrits par réseaux de neurones (ATT Bell labs, 1993)

La redescription des entrées : illustration • Soit un espace d’entrée à 2 dimensions • Tout vecteur x = (x1, x2) peut être redécrit à l’aide de polynômes d’ordre 6 • Nouvel espace de descripteurs à 16 dimensions (fonctions de base):

Le nouveau problème d’optimisation • Soit  : X -> (X), on peut remplacer partout x par (x) • Si  est bien choisie, K(x, x’) = (x).(x’) peut être facile à calculer et le problème devient :

Solution du nouveau problème d’optimisation • La fonction de décision devient : • Soit dans la forme duale : n : nb de fcts de base (peut être très grand) mS : nb de points de support

Schéma de fonctionnement des SVMs

Les conditions de Mercer • Si on prend une fonction K symétrique, il existe une fonction  tq: • ssi, pour toute fonction f telle que : • l’on a : • Si cette condition est vérifiée, on peut appliquer les SVMs • MAIS cela ne dit pas comment construire 

Fonctions noyau usuelles (1/2) • Polynomiale : Les polynomes de degré qont pour fonction noyau associée : • RBF : Les fcts à base radiale : ont pour fct noyau associée : • Sigmoïde : Les réseaux de neurones à fcts d'activation : ont pour fct noyau associée :

Fonctions noyau usuelles (2/2) • Construction à partir de fonctions noyau de base(Propriétés de clôture) • K(x,z) = K1(x,z) + K2(x,z) • K(x,z) = aK1(x,z) • K(x,z) = K1(x,z) . K2(x,z) • … • Construction de fonctions noyau dédiées • Splines Bm • Expansion de Fourrier • Ondelettes • ...

Les fonctions noyau • … encodent : • Une mesure de similarité sur les données • La forme fonctionnelle des fonctions de décision • Le type de régularisation réalisée • (ex : les fcts gaussiennes favorisent les solutions régulières) • Le type de covariance dans l’espace des entrées • (ex : fcts noyau invariantes par rotation) • Sorte de distribution de probabilité a priori sur l’espace des hypothèses

Illustration : le cas du XOR Fonction noyau polynomiale de d° 2 : K(x,x') = [1 + (xT . x')]2 soit : K(x,xi ) = 1 + x12xi12 + 2 x1x2xi1xi2 + x22xi22 + 2x1xi1 + 2x2xi2 correspondant à la projection F : [1, x12, √2 x1x2, x22, √2 x1, √2 x2 ] T

Illustration : le cas du XOR Ici :

Illustration : le cas du XOR • L'optimisation de Q(a) en fonction des multiplicateurs de Lagrange conduit au système d'équations : • La valeur optimale des multiplicateurs de Lagrange est :

Illustration : le cas du XOR • Les 4 exemples sont donc des exemples critiques ("support vectors") (i , ai ≠ 0) • La fonction de décision s’écrit :

Illustration : le cas du XOR En revenant dans l’espace d’origine : Le vecteur poids optimal est : soit :

Illustration : le cas du XOR L'hyperplan optimal correspond à :

Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)