ST M App SVM
ST M App SVM
ST M App SVM
Tout comme la fonction de décision linéaire, cette frontière de décision est dé-
2 Le problème de discrimination binaire finie à un terme multiplicatif prés dans le sens ou la frontière définie par le
couple (v, a) est la même que celle engendrée par (kv, ka) ∀ k ∈ R. Cela
Le problème abordé est celui de la discrimination binaire. Il s’agit de trou- est lié à la définition de l’hyperplan affine associé à la fonction caractéristique.
ver un moyen permettant de construire une fonction de décision associant à Pour garantir l’unicité de la solution on peut soit considérer l’hyperplan stan-
chaque observation sa classe. Nous allons nous traiter ce problème dans un dard (tel que kvk = 1) soit l’hyperplan canonique par rapport à un point x (tel
cadre probabiliste spécifique et poser que les formes à discriminer sont des que v > x + a = 1).
vecteurs x ∈ Rp . Le cadre probabiliste du problème consiste à supposer
l’existence d’une loi inconnue P(x, y) sur (Rp , {−1, 1}). Le problème de dis- 3.2 La marge d’un classifieur
crimination vise à construire un estimateur de la fonction de décision idéale
D : Rp → {−1, 1}, minimisant pour toutes les observations x la probabi- Pour un échantillon donnée, il est possible d’associer deux marges à un même
lité d’erreur P(D(x) 6= y | x). Pour construire cet estimateur, on suppose classifieur linéaire : sa marge géométrique et sa marge numérique. La marge
l’existence d’un échantillon {(xi , yi ), i = 1, n} (aussi appelé ensemble d’ap- géométrique m d’un échantillon linéairement séparable est donnée par la plus
prentissage), i.i.d. de loi parente P(x, y) inconnue. petite distance d’un point de l’échantillon à la frontière de décision. La marge
numérique µ est donnée elle par la plus petite valeur de la fonction de décision
3 Machines à vecteurs supports
µr
| {z }
marge : m
d(xb , ∆)
(xr , 0)
En introduisant explicitement la marge comme une variable, ce problème se
(xb , 0) réécrit comme un problème d’optimisation sous contraintes :
µb
max
v,a
m
∆ µ = |v > x + a| |v > xi + a|
(xb , v > xb + a) la marge numérique avec min
≥m
i∈[1,n] kvk
∆ = {x ∈ R2 | v > x + a = 0}
la frontière de décision C’est un problème est mal posé dans le sens ou si (v, a) est une solution,
(kv, ka), ∀ 0 < k l’est aussi. Une manière de traiter cette difficulté est d’ef-
v a
fectuer le changement de variable : w = mkvk et b = mkvk Le problème se
réécrit alors :
F IGURE 2 – iIllustration des deux notions de marge sur un exemple de discri-
mination linéaire séparable en dimension deux. max 1
w,b kwk
avec y (w> x + b) ≥ 1 ; i = 1, n
i i
1
atteinte sur un point de l’échantillon. Leur définition mathématique est : puisque kwk = m. Cela revient à fixer à un la marge numérique du classifieur
recherché (celui de norme minimale). La formulation « classique » des SVM
marge géométrique marge numérique
s’obtient alors en minimisant kwk2 au lieu de maximiser l’inverse de la norme,
m = min dist(xi , ∆(v, a)) µ = min |v > xi + a| ce qui donne le problème suivant qui admet la même solution que le problème
i∈[1,n] i∈[1,n]
précédent.
La figure 2 illustre ces deux notions de marge pour un exemple en deux di-
mensions. On voit que pour une frontière de décision donnée, la marge géo- Définition 3.1 (SVM sur des données linéairement séparables)
métrique m est fixée alors que la marge numérique µ dépend de la « pente » Soit {(xi , yi ); i = 1, n} un ensemble de vecteurs formes étiquetées avec
de l’hyperplan de décision (donc de kvk). En effet, pour une observation don- xi ∈ Rp et yi ∈ {1, −1}. Un séparateur à vaste marge linéaire (SVM
née, les deux marges forment les cotés adjacents d’un triangle rectangle dont et support vector machine) est un discriminateur linéaire de la forme :
l’hypoténuse est définie par la fonction caractéristique v > x + a. D(x) = signe w> x + b où w ∈ Rp et b ∈ R sont donnés par la résolution
du problème suivant :
3.3 Maximisation de la marge d’un classifieur
min 21 kwk2
(
Lorsque des observations sont linéairement séparables, comme l’illustre la fi- w,b
gure 1 (en haut à gauche) il existe dans le cas général une infinité de frontières avec yi (w> xi + b) ≥ 1 i = 1, n
4 Machines à vecteurs supports
Ce problème d’optimisation sous contraintes est un programme quadratique de d’expliciter son lagrangien. Dans le cas des SVM il s’écrit :
la forme : Xn
1 2 >
(
1 >
min 2 z Az − d z > L(w, b, α) = 2 kwk − α i y i (w x i + b) − 1
z i=1
avec Bz ≤ e
où les αi ≥ 0 sont les multiplicateurs de Lagrange associés aux contraintes.
Les conditions d’optimalité de Karush, Kuhn et Tucker du programme qua-
I 0
où z = (w, b)> ∈ Rp+1 , d = (0, . . . , 0)> ∈ Rp+1 , A = , I est dratique associé aux SVM permettent de caractériser la solution du problème
0 0 primal (w∗ , b∗ ) et les multiplicateurs de lagrange α∗ associés par le système
la matrice identité de Rp , B = −[diag(y)X, y], e = −(1, . . . , 1)> ∈ Rn , d’équations suivant :
y ∈ Rn le vecteur des signes des observations et X la matrice n × d des n
observations dont la ligne i est le vecteur x>
i . Ce problème est convexe puisque
X
stationarité w∗ − αi∗ yi xi = 0
la matrice A est semidéfinie positive. Il admet donc une solution unique (qui i=1
existe puisque le problème est linéairement séparable par hypothèse) et les Xn
A l’optimum, le vecteur w est une combinaison linéaire des observations xi Résoudre le problème revient à rechercher parmi les exemples disponibles
liées aux contraintes actives i ∈ A et pour lesquelles |w∗> xi + b∗ | = 1. Ces ceux qui vont devenir vecteurs supports ce qui nous donne l’ensemble A.
observations sont appelées vecteurs supports dans le sens où elles supportent Une fois cet ensemble connu, la résolution du problème s’effectue en utilisant
l’hyperplan de discrimination puisque leur marge numérique est égale à un. le premier sous système pour éliminer w. Le problème devient :
Les autres données n’interviennent pas dans le calcul et leur marge numérique
est strictement supérieure à un. La figure 3 vient illustrer le fait que les vec-
Dy XA XA>
Dy αA +by A = eA
teurs support définissent la frontière de décision. La fonction de décision peut >
y A αA =0
alors s’écrire de deux formes différentes selon que l’on considère les variables
primales ou les variables duales :
le cardinal de A est égal au nombre d’inconnues (p + 1) et la solution est :
d
X X
αi yi (x> xi ) + b
D(x) = sign f (x) avec f (x) = wj xj +b = y> >
A (Dy XA XA Dy )
−1
eA >
b= > >
et αA = (Dy XA XA Dy )−1 (e − by A )
j=1 i∈A y A (Dy XA XA Dy )−1 y A
>
classe 1
ce qui permet d’utiliser le fait que la matrice Dy XA XA Dy est définie positive.
classe 2
frontière de décision 6 L’algorithme associé est :
marge géométrique
vecteurs supports
Le problème consiste alors à simultanément maximiser la marge et minimiser permet de poser le problème sous la forme suivante :
n
min 1 kwk2 + C X ξ d
d i=1 i
w,b,ξ 2
classe 1
(P rimal linéaire SVM)
classe 2
frontière de décision 6
cout 0/1
max(0,1ïz)
avec yi (w> xi + b) ≥ 1−ξi i = 1, n
2
marge géométrique
max(0,1ïz)
ξi ≥ 0 i = 1, n
vecteurs supports
Cout
grangien :
j
||w||
w’x + b = 1 n n n
1 CX d X X
αi yi (w> xi +b)−1+ξi −
1
w’x + b = 0 L(w, b, α, β) = kwk2 + ξi − βi ξ i
2 d i=1 i=1 i=1
0
w’x + b = ï1 ï1
avec des multiplicateurs de Lagrange αi ≥ 0 et βi ≥ 0. Le calcul des gradients
0
z = y (w’ x + b)
1
4 Le cas non linéaire : les noyaux complexes comme des images, des graphes, des protéines où des automates
pour ne citer qu’eux. Nous n’avons donc pas besoin de faire d’hypothèse sur
Dans le cas général, la frontière optimale est non linéaire. Dans le cadre des la nature du domaine des observations X et un noyau k est défini de manière
SVM, la prise en compte de non linéarités dans le modèle s’effectue par l’in- générale comme une fonction de deux variables sur R :
troduction de noyaux non linéaires. De manière inattendue, l’utilisation de
noyaux ne modifie pas fondamentalement la nature des SVM (pourvu que l’on k : X , X −→ R (x, x0 ) 7−→ k(x, x0 )
travaille dans le dual).
Définition 4.1 (Matrice de Gram) La matrice de Gram du noyau k(., .) pour
Ce noyau est une fonction k qui associe à tout couple d’observations (x, x0 ) les observations {x , . . . , x , . . . , x } (pour tout entier n fini) est la matrice
1 i n
une mesure de leur « influence réciproque » calculée à travers leur corrélation carrée K de taille n et de terme général K = k(x , x ).
ij i j
ou leur distance. Des exemples typiques de noyaux sont le noyaux polynômial
kx−x0 k2
k(x, x0 ) = (c + hx, x0 i)p et le noyau gaussien k(x, x0 ) = e− 2σ2 . Etant Définition 4.2 (Noyau positif) Un noyau k est dit positif si, pour tout entier
donné le noyau k, la fonction de décision s’écrit D(x) = signe(f (x) + b) et : n fini et pour toutes les suite de n observations possibles {xi , i = 1, n}, la
X X matrice de Gram associée est une matrice symétrique définie positive.
cas linéaire : f (x) = αi yi x>
i x non linéaire : f (x) = αi yi k(xi , x)
i∈A i∈A L’intéret des noyaux positifs c’est qu’il est possible de leur associer un pro-
La fonction de discrimination est une combinaison linéaire des noyaux dont le duit scalaire. Les noyaux dit de Mercer sont des noyaux positifs définis sur un
signe de l’influence dépend de la classe. L’ensemble actif A, les coefficients αi ensemble compact.
associés et le biais b sont donné par la résolution du même problème dual que Construction des noyaux
dans le cas des SVM linéaires (définition 3.2). Seule la définition de la matrice
G change (mais pas sa taille) : Il existe deux façons de construire un noyau positif :
cas linéaire : Gij = yi yj x> 1. soit on s’appuie sur une transformation Φ(x) de X sur un espace H muni
i xj non linéaire : Gij = yi yj k(xi , xj )
d’un produit scalaire et l’on défini le noyau à travers ce produit scalaire :
L’idée ici est de considérer dans le dual l’influence de chacune des observations k(x, x0 ) = hΦ(x), Φ(x0 √ )iH . Par exemple si l’on considère x = (x1 , x2 )
dans la construction de la solution. Le calcul de cette influence passe par la dans R2 et Φ(x) = (x21 , 2x1 x2 , x22 ) est explicite. Dans ce cas, H est de
résolution d’un programme quadratique de taille n (le nombre d’observations). dimension 3 et le produit scalaire dans R3 s’écrit :
L’utilisation de noyaux permet d’introduire de la non linéarité sans modifier la hΦ(x), Φ(x0 )i = x21 x02 0 0 2 02
1 + 2x1 x2 x1 x2 + x2 x2
complexité algorithmique du problème à résoudre.
= (x1 x01 + x2 x02 )2
Nous allons maintenant détailler le cadre théorique et le mécanisme d’action 2
des noyaux. = x> x0
= k(x, x0 ).
4.1 Les noyaux
Définition des noyaux 2. soit on utilise les propriétés algèbriques des noyaux positifs :
• un noyau séparable est un noyau positif,
Outre le passage au non linéaire, l’utilisation de noyaux permet une autre gé- • la somme de deux noyaux positifs est un noyau positif,
néralisation très utile dans la pratique : la définition des SVM sur des objets • le produit de deux noyaux positifs est un noyau positif,
10 Machines à vecteurs supports
• le produit tensoriel ainsi la somme directe de deux noyaux positifs est La construction de noyaux sur des structures complexes donne lieu à de nom-
un noyau positif, breux développement « d’ingénierie de noyaux » spécifique aux domaines
• le passage à la limite conserve la positivité : si la limite d’une suite de d’applications concernés qui utilisent les techniques de construction présen-
noyaux positif existe, c’est aussi un noyau positif. tées ci-dessus.
On peux ainsi par exemple démontrer la positivité du noyau gaussien.
4.2 Cadre fonctionnel des noyaux
exp(−kx − x0 k2 ) = exp(−kxk2 − kx0 k2 + 2x> x0 )
= exp(−kxk2 ) exp(−kx0 k2 ) exp(2x> x0 ) Etant donné un noyau k, il est possible de représenter des observations x par
une fonction définie par la transformation Φ(x) = k(x, •) (appelée kernel
Puisque x> x0 est un noyau positif et la fonction exp est la limite map). Il se trouve alors que l’espace H dans lequel on plonge les observations
d’un développement en série à coefficients positifs, exp(2x> x0 ) est aussi peut être complètement défini ainsi que sa topologie par le noyau considéré ce
un noyau positif. La fonction exp(−kxk2 ) exp(−kx0 k2 ) étant séparable qui présente de nombreux avantages. Plus précisément, H admet une structure
c’est un noyau positif, ce qui permet de conclure sur la positivité du noyau d’espace de Hilbert à noyau reproduisant (EHNR).
gaussien, le produit de deux noyaux positifs étant un noyau positif.
Définition 4.3 (Espace de Hilbert à noyau reproduisant ) Soit H un espace
Exemples de noyaux de Hilbert muni de son produit scalaire h•, •iH . H est un EHNR si , ∀x ∈ X
Les noyaux positifs se divisent en deux grandes familles principales : les fixé, il existe une fonction k(x, •) ∈ H symétrique telle que :
noyaux radiaux qui dépendent d’une distance et les noyaux projectifs qui sont ∀f ∈ H, f (x) = hf, k(x, •)iH
définis à partir d’un produit scalaire.
Le noyau joue ici le rôle de fonctionnelle d’évaluation et permet d’accéder à la
type nom 2 k(s,
t) valeur de la fonction en tout point x.
r
radial gaussien exp − σ , r = ks − tk
Théorème 4.4 (EHNR et noyaux positifs) A tout noyau positif on peut asso-
radial laplacien exp(−r/σ)
2 cier un Espace de Hilbert à noyau reproduisant et réciproquement.
radial rationnel 1 − r2r+σ
r p 2
exp(− r )
radial loc. gauss. max 0, 1 − 3σ C’est ce théorème qui permet d’affirmer que choisir de travailler avec un noyau
P (sk −tσk )2 k consiste à rechercher f la partie fonctionnelle de la solution dans le EHNR
non stationnaire χ2 exp(−r/σ), r = k sk +tk
projectif polynomial (s> t)p associé à ce noyaux. Ce cadre fonctionnel présente certains avantages :
projectif affine >
(s t + σ)p • l’universalité puisque, pour certaines familles de noyaux, toute fonction
s> continue peut être approchée arbitrairement par un élément de l’EHNR,
projectif cosinus t/kskktk • une certaine « confiance » puisque la convergence des fonctions implique
s> t
projectif correlation exp −σ
kskktk la convergence ponctuelle car ∀x ∈ X :
TABLEAU 1 : Exemples de noyaux pour X = Rp .
∀f, fn ∈ H, |f (x) − fn (x)| ≤ kk(x, .)kH ||f − fn ||H
La plus part de ces noyaux dépendent d’un paramètre σ appelé « largeur de • la régularité des fonctions est contrôlée par leur norme
bande » dont le réglage est souvent critique pour le bon fonctionnement de la
méthode. |f (x) − f (x0 )| ≤ kf kH ||k(x, .) − k(x0 , .)||H
11 Machines à vecteurs supports
• la possibilité de représenter les fonction comme une combinaison linéaire où les αi ≥ 0 et les βi ≥ 0 sont les multiplicateurs de Lagrange asso-
d’exemples (équation 1), ciés aux contraintes. Les conditions d’optimalité de Karush, Kuhn et Tucker
• la possibilité de construire des noyaux à travers la définition d’un EHNR. du problème qui permettent de caractériser la solution du problème primal
(f ∗ , b∗ , ξ ∗ ) et les multiplicateurs de lagrange α∗ et β ∗ associés s’écrivent :
4.3 Les SVM : le cas général n
X
Définition 4.5 (SVM (L1)) Soit {(xi , yi ); i = 1, n} un ensemble de vecteurs stationarité f ∗ (•) − αi∗ yi k(xi , •) =0
formes étiquetées avec xi ∈ X et yi ∈ {1, −1}. Soit H un EHNR de noyau i=1
n
k. Un séparateur à vaste
marge (SVM) est un discriminateur de la forme :
X
αi∗ yi =0
D(x) = signe f (x) + b où f ∈ H et b ∈ R sont donnés par la résolution du i=1
problème suivant pour un C ≥ 0 donné : C − αi∗
− βi∗ =0 i = 1, n
1 2
Pn complementarité αi∗ yi (f ∗ (xi ) + b∗ ) − 1 + ξi∗ =0 i = 1, n
min
f ∈H,b∈R 2 kf kH + C i=1 ξi βi∗ ξi∗ ) =0 i = 1, n
(SV M L1) avec yi (f (xi ) + b) ≥ 1 − ξi i = 1, n admissibilité primale yi (f ∗ (xi ) + b∗ ) + ξi∗ ) ≥1 i = 1, n
ξi∗ ))
0 ≤ ξi i = 1, n ≥0 i = 1, n
admissibilité duale αi∗ )) ≥0 i = 1, n
Théorème 4.6 (Solution des SVM) La partie fonctionnelle de la solution du βi∗ )) ≥0 i = 1, n
problème des SVM s’écrit comme une combinaison linéaire des fonctions
Les conditions de complémentarité βi∗ ξi∗ = 0 permettent de définir l’ensemble
noyau pris aux points supports :
IC des indices pour lesquels βi∗ = 0. Pour cet ensemble, la troisième condition
∗
(1) de stationnarité implique αi = C. Pour les indices n’appartenant pas à IC , βi
X
f (x) = αi yi k(x, xi )
i∈A
peut être éliminé et cette même condition de stationnarité couplée aux condi-
tions d’admissibilité duale stipule que 0 ≤ αi ≤ C. Une fois les βi éliminés, le
où A désigne l’ensemble des contraintes actives et les αi les solutions du pro- système d’équation se traite comme dans le cas linéaire et conduit au problème
gramme quadratique suivant : dual (2).
Les contraintes initiales (donc les exemples) sont maintenant réparties dans
minn 12 α> Gα − e> α
α∈R
trois ensembles illustrés par la figure 6 : IC quand αi = C , I0 pour les αi = 0
(SV M dual) avec y > α = 0 (2)
et Iα lorsque 0 ≤ αi ≤ C, et l’ensemble des contraintes actives A = Iα ∪ IC .
0 ≤ αi ≤ C i = 1, n
La plus part des variantes présentées dans le cas linéaire s’étend au cas non
où G est la matrice n×n de terme général Gij = yi yj k(xi , xj ). Le biais b à la linéaire en remplaçant le vecteur w par la fonction f :
valeur du multiplicateur de Lagrange de la contrainte d’égalité à l’optimum.
linéaire non linéaire
x k(•, x)
La démonstration de ce théorème reprend la démarche adoptée dans le cas
kwk kf kH
linéaire puisque le lagrangien s’écrit : >
w xi f (xi ) = hf, k(•, xi )iH
n n n
Ce mécanisme très général et s’adapte à de nombreuses autres méthodes li-
X X X
L = 21 kf k2H + C
ξi − αi yi (f (xi ) + b) − 1 + ξi − βi ξi
i=1 i=1 i=1
néaires comme la régression linéaire, l’analyse en composantes principale ou
12 Machines à vecteurs supports
5.3 Le choix du noyau : SVM à noyaux multiples montrer que cette solution varie linéairement lorsque C varie dans un voisi-
nage de C0 . Afin d’illustrer ce fait et pour simplifier les calculs on considère le
Le choix du noyau et de ses paramètres comme la largueur de bande est sou- problème sans biais en posant λ = 1 . La fonction cout à minimiser s’écrit :
0 C0
vent un problème pratique et critique lors de la mise en œuvre des SVM.
Une manière d’aborder cette question consiste à utiliser des noyaux multiples. n
X λo
L’idée est d’optimiser le choix du noyau parmi une collection possible. Ainsi, J(f, λ0 ) h yi f (xi ) + kf k2H
si l’on note km , m ∈ [1, M ] une famille de M noyaux positifs, cette optimi- i=1
2
sation s’effectue à travers le réglage de M coefficients de sorte que le noyau
choisiPs’exprime comme une combinaison positive des noyaux du dictionnaire où h(z) = max(1 − z, 0) désigne la fonction charnière représentée figure 4.
k = Pm dm km , 0 ≤ dm , m ∈ [1, M ]. En imposant en plus une contrainte de La solution fo de ce problème est caractérisée par 0 ∈ ∂f J(fo ) où ∂f J(fo )
type m dm = 1 favorisant la parcimonie, la solution optimale va chercher désigne la sous différentielle du cout au point fo . La sous différentielle de J
à sélectionner les noyaux les plus utiles. En notant Hm l’EHNR associé au par rapport à f dépend des trois ensembles d’indices I0 , Iα et I1 et s’écrit :
noyau km et fm ∈ Hm une fonction de cet EHNR, le problème s’écrit : X X
∂f J(f, λ0 ) = { αi yi K(xi , •) − yi K(xi , •) + λ0 f (•)}
1 1 2
P P
min 2 m dm kfm kHm + C i ξi i∈Iα i∈I1
{fm },b,ξ,d
P
(M KL) avec . yi m fm (xi ) + b ≥ 1 − ξi i = 1, n avec αi ∈] − 1, 0[, la sous différentielle de la fonction h(z) au point z = 1.
0 ≤ ξ , i = 1, n
i On considère maintenant λn un élément du voisinage de λ0 pour lequel les
P
m dm = 1, 0 ≤ dm , m = 1, M
ensembles I , I and I demeurent inchangés à l’optimum. En particulier aux
0 α C
points xj , j ∈ Iα (fo (xj ) = fn (xj ) = yj ) : ∂f J(f )(xj ) = 0. En écrivant ces
Ce problème peut se résoudre itérativement en utilisant une méthode d’op-
équations puis en en faisant la différence on obtient :
timisation alterné. Pour des dm , m = 1, M fixées, les fm , m = 1, M et b
sont la solution d’un problème de SVM L1 dans le cas général. Lorsque les P P
fm , m = 1, M et b sont fixés, les dm peuvent être optimisée via une itération P i∈Iα αio yi K(xi , xj ) = Pi∈I1 yi K(xi , xj ) − λo yj
de gradient réduit. Lorsqu’un dm est suffisamment petit, le noyau associé est i∈Iα αin yi K(xi , xj ) = i∈I1 yi K(xi , xj ) − λn yj
G(αn − αo ) = (λo − λn )y avec Gij = yi K(xi , xj )
éliminé.
5.4 Règlage du C : chemin de régularisation Cette dernière équation nous permet de faire apparaître l’évolution linéaire de
la solution lorsque λ varie puisque :
Outre le choix du noyau, l’autre hyperparamètre à régler dans les SVM est le
terme d’équilibrage C. Une méthode classique mais couteuse consiste à faire αn = αo + (λo − λn )d avec d = G−1 y
de la validation croisée sur une grille prédéfinie de valeurs de C candidates.
Il existe une alternative particulièrement élégante : la technique du chemin de Pour une valeur critique de λ les ensembles I0 , Iα et I1 changent, la matrice
régularisation qui permet de calculer, pour un cout algorithmique analogue à G change aussi ainsi que le vecteur d.
celui du calcul d’une seule solution, un ensemble de solutions possibles pour L’ensemble de toutes les valeurs critiques de λ et les solutions α associées
un ensemble de valeurs de C remarquables. forment un chemin de régularisation que l’on peut initialiser pour des valeurs
En effet, le formulation duale des SVM est un programme quadratique paramé- très grandes de λ avec tous les points lorsque les deux classes sont équilibrées
trique en fonction de C. Connaissant une solution pour un C0 donnée, on peut et qui évolue lorsque λ décroît en éliminant ou échangeant des exemples.
14 Machines à vecteurs supports
6 D’autres machines à noyau où K est la matrice de gram n × n de terme général Kij = k(xi , xj ). La
figure 7 illustre le fonctionnement de cette méthode.
Les principes des SVM ont été appliqué à de nombreux autres problèmes et
Remarques :
ont permis la création d’autres machines à noyau. Ces principes requiérent :
• la solution de ce problème est liée à la loi parente de l’échantillon puis-
• un problème initialement linéaire,
qu’elle converge dans certains cas vers la frontière de l’ensemble de me-
• l’utilisation de noyaux et la formulation initiale du problème dans un
sure minimal minE vol(E){E ⊂ X | P(E) = ν}.
EHNR comme un problème de minimisation d’une norme,
• une autre manière presque équivalent de poser le problème est le one class
• un théorème de représentation qui permet de représenter la fonction solu-
SVM dans le quel on cherche à maximiser ρ la valeur minimale de f :
tion comme une combinaison linéaire des observations vues à travers le
( 1
Pn
noyau, min 2 kf k2H − ρ + C i=1 ξi
• la résolution du problème dans le dual qui donne un programme quadra- (OCSV M ) f ∈H,b∈R,ξ
avec f (xi ) ≥ ρ − ξi 0 ≤ ξi i = 1, n
tique de taille n (le nombre d’exemples),
• la parcimonie de la solution qui sélectionne les exemples importants. dont le dual est le même que celui des SVDD avec le terme linéaire de la
Nous avons choisi les SVDD pour faire le lien avec la géométrie algorithmique, fonction cout en moins.
la régression pour le lien avec les splines et l’ordonnancement. • comme dans le cas des SVM, le programme quadratique est paramétrique
et il existe une chemin de régularisation linéaire par morceau permettant
6.1 La plus petite boule englobante d’estimer un ensemble de courbes de niveau de la mesure de probabilité
Dans certains cas les étiquettes yi ne sont pas disponibles. Etant donné un à un moindre cout.
ensemble d’observations xi , i ∈ [1, n] i.i.d. selon une loi P. Il est intéressant de
décrire ces données. Le problème de détection de nouveauté consiste à décider
si une nouvelle observation x est proche ou non de cet ensemble. Une manière
d’aborder ce problème consiste à rechercher une frontière de décision sous la
forme de la plus petite boule englobante (minimum enclosing ball) définie par
son centre f et son rayon R. C’est un problème ancien déjà traité dans le plan
par Sylvester en 1857. Dans le cadre des EHNR le problème est aussi connu
sous le nom de suport vector data description (SVDD) :
( Pn
min R2 + C i=1 ξi
(SV DD) f ∈H,b∈R,ξ
1 2 2
avec 2 kk(•, xi ) − f kH ≤ R + ξi 0 ≤ ξi i = 1, n
1
Le paramètre C = νn permet de régler la proportion ν de points que l’on F IGURE 7 – Exemple de SVDD linéaire (à gauche) et pour un noyau gaussien
désire maintenir en dehors de la boule (outliers). Le dual de ce problème est le (à droite). Les points entourés de rouge sont des vecteurs support. Sur la figure
programme quadratique suivant analogue à celui des SVM : de droite, la solution à été calculée pour deux valeurs de C (en rouge pour 10%
d’outliers et en magenta pour la courbe de niveau à ν = 0, 8). On constate que
minn 21 α> Kα − 12 α> diag(K)
le point en haut à droite est placé en dehors de l’enveloppe calculée.
α∈R
(SV DD dual) avec e> α = 1
0 ≤ αi ≤ C i = 1, n
15 Machines à vecteurs supports
6.2 SVM et regression Dans cette situation, les noyaux k utilisés sont ceux naturellement associés
à la définition de bases de fonctions. Noyaux de splines, noyaux d’ondelettes
Les SVM peuvent également être mis en oeuvre en situation de régression, ou encore noyau de Dirichlet associé à un développement en série de Fourier
c’est-à-dire pour l’approximation de fonctions quand Y est quantitative. Dans sont des grands classiques. Ils expriment les produits scalaires des fonctions
le cas non linéaire, le principe consiste à rechercher une estimation de la fonc- de la base.
tion par sa décomposition sur une base fonctionnelle. Si l’on se considère un
terme d’attache aux données de type « moindres carrés » pénalisés, la formu- 6.3 SVM et ordonnancement
lation avec contraintes dans l’EHNR H s’écrit :
Il arrive que les étiquettes disponibles yij expriment une préférence de l’ob-
n
min 1 kf k2 + 1 X ξ 2
servation xi sur l’observation xj . On définit alors un ensemble P de couples
2 H 2λ i
f ∈H d’indices i, j pour tous les xi préférables à xj . La tâche associée consiste à
i=1
construire une fonction score (de préférence) f permettant d’ordonner des ob-
avec f (xi ) = yi + ξi , i = 1, n
servations candidates. Ce problème est important dans le cadre de la recherche
La solution prend la forme d’une fonction spline. C’est une combinaison li- d’information et de la recommandation. Dans le cadre des machines à noyaux,
néaires des noyaux (comme dans le cas des SVM équation 1). Les coefficients l’apprentissage de cette fonction f peut se formuler de la manière suivante :
α sont les variables du problème dual données par la résolution du système (
min 12 kf k2H + Cd i,j∈P ξij d
P
linéaire suivant : (rankSV M ) f ∈H
(K + λI)α = y avec f (xi ) − f (xj ) ≥ 1 − ξij , 0 ≤ ξij , i, j ∈ P
Dans cette formulation (qui peut être reprise pour la classification et l’estima- Pour le dual de ce problème non linéaire, les card(P) ≤ n2 contraintes vont
tion de densité) toutes les observations sont vecteur support (A = {1, . . . , n}). correspondre à autant de variables ce qui peut s’avérer trop. Il est cependant
Afin d’obtenir de la parcimonie (et espérer un petit nombre de vecteurs sup- toujours possible de résoudre le problème linéaire dans le primal, c’est-à-dire
port), il faut modifier le terme d’attache aux données. Parmi toutes les solutions rechercher le vecteur w tel que f (xi ) − f (xj ) = w> (xi − xj ). Dans ce cas,
envisageables, celle retenue dans le cadre de la support vector regression, est les contraintes s’écrivent matriciellement w> ∆f ≥ e − ξ où ∆f , la matrice
une fonction de déviation en valeur absolue tronquée (appelé aussi le cout t- des différences est de taille n2 × p se décompose ∆f = AX avec X la matrice
insensible). Le problème avec contraintes s’écrit : des observations n × p et A une matrice creuse avec au plus un couple de
( 1
valeurs (1,-1) par ligne. Ce problème peut être lors résolu pour d = 2 par un
kf k2H + C ξi
P
min 2 algorithme de Newton à partir du calcul du gradient g et de la matrice hessiène
(SV R) f ∈H,b∈R
avec |f (xi ) + b − yi | ≤ t + ξi , 0 ≤ ξi , i = 1, n H du problème :
300
100
counted cumulative gain NDCG@k) pour s = Xw ordonnés et π une permu-
250
tation de ces scores tronquées à k éléments :
50
200
Valeurs observees
k
2sπi − 1
Résidus
DCG@k(s, π)
150
X
0
DCG@k(s, π) = et N DCG@k(s, π) =
log(i + 2) DCG@k(s, πs )
100
i=1
−50
50
où πs désigne la permutation maximisant DCG@k(s, π).
−100
0
Pour plus de détails, le lecteur intéressé par se type de problème pourra consul-
0 50 100 150 200 250 300 0 50 100 150 200 250 300
ter les résultats de la compétition Yahoo Learning to Rank Challenge 1 . Valeurs predites Valeurs predites
0 1
1. learningtorankchallenge.yahoo.com