TD02TUN

TD 2 : Optimisation quadratique
Optimisation pour l’apprentissage automatique, M2 Big Data
25 novembre 2021
Exercice 1 : Régression affine

On se donne un jeu de données sous la forme d’une matrice de caractéristiques X ∈ Rn×d
et d’un vecteur de labels y ∈ Rn , et on considère le problème de régression affine suivant :
 
1
w 1 2  .. 
minimiser f := kXw + ze − yk , e =  .  . (1)
w∈Rd z 2
z∈R 1
a) Le gradient de ce problème est donné par

w T w
∇f =Y Y − Y T y,
z z
où Y = [X e] ∈ Rn×(d+1) . Quelle est la condition d’optimalité du premier ordre

pour ce problème ?
b) Supposons qu’il existe une solution au problème de moindres carrés linéaires impli-
quant X et y, c’est-à-dire qu’il existe w∗ ∈ Rd tel que Xw∗ = y. Montrer alors
que le couple (w∗ , z ∗ = 0) est solution du problème de régression affine.
Exercice 2 : Un problème quadratique

On considère le problème
µ
minimiser ϕ(v) := g T v + kv − wk22 . (2)
v∈Rd 2
où g, w ∈ Rd et µ > 0.
2 TD 02 Optim. - 2021/2022
a) En développant la norme au carré, on obtient :

µ T µ
ϕ(v) = v (Id )v + (g − µw)T v + kwk22 .
2 2
et on voit que le dernier terme ne dépend pas de v. Justifier alors que
µ
argmin ϕ(v) = argmin v T (Id )v + (g − µw)T v.
v∈Rd v∈Rd 2
b) En utilisant le même raisonnement, montrer que

2
1 1
argmin ϕ(v) = argmin v − w − g
.
v∈Rd v∈Rd 2 µ
c) En déduire que le problème possède un unique minimum global c∗ dont on donnera

la valeur.
d) Soit ψ : Rd → R la fonction définie par
2
1 1
ψ(v) := v − w − g
.
2 µ
Cette fonction est de classe C 1 , et son gradient est donné par

1
∇ψ(v) = v − w − g ∀v ∈ Rd .
µ
i) Écrire l’itération générique de la descente de gradient sur ce problème.

ii) En prenant αk = 1, montrer que l’algorithme de descente de gradient partant
de z 0 converge vers le minimum z ∗ identifié à la question c) en une itération.
Exercice 3 : Modèle stratifié

On considère un jeu de données divisé en deux groupes, de la forme
X 1 ∈ Rn1 ×d , y 1 ∈ Rn1 , X 2 ∈ Rn2 ×d , y 2 ∈ Rn2 .
Une telle distinction provient généralement d’une disparité dans les données entre deux populations
(par exemple entre hommes et femmes, ou entre deux générations).
Pour chacun des groupes, on souhaite construire un modèle linéaire qui explique les données,
c’est-à-dire que l’on recherche un vecteur w1 ∈ Rd tel que X 1 w1 ≈ y 1 et un vecteur w2 ∈ Rd tel
que X 2 w2 ≈ y 2 . On peut parfois souhaiter que les deux modèles obtenus diffèrent le moins possible
l’un de l’autre, c’est-à-dire que w1 ≈ w2 . Ces considérations conduisent au problème d’optimisation
suivant :
1 1 λ
min kX 1 w1 − y 1 k22 + kX 2 w2 − y 2 k22 + kw1 − w2 k22 , (3)
w1 ∈R ,w2 ∈R 2
d d 2 2
où λ ≥ 0.
TD 02 Optim. - 2021/2022 3

w1
a) En posant w := ∈ R2d , la fonction objectif du problème (3) peut se réécrire sous la
w2
forme
T
XT XT

1 1 X 1 + λI −λI 1y 1
f (w) := wT w+ w + (y T y + yT
2 y 2 ),
2 −λI XT
2 X 2 + λI XT
2y 2 1 1
avec I ∈ Rd×d la matrice identité. Comment appelle-t-on un problème de cette forme ?
b) Donner la condition nécessaire d’optimalité à l’ordre un pour cette fonction.
c) On considère le cas λ = 0, où w1 et w2 sont appris indépendamment.
i) Montrer que le problème correspondant est convexe.

ii) Donner une solution du problème (3) dans ce cas.
4 TD 02 Optim. - 2021/2022
Solutions des exercices

Solutions de l’exercice 1
But de l’exercice : généraliser les résultats des moindres carrés linéaires vus en cours.
a) Si (w∗ , z ∗ ) ∈ Rd × R est un minimum local du problème, alors il vérifie la condition nécessaire

d’optimalité à l’ordre 1, à savoir ∗
w
∇f = 0.
z∗
En utilisant la formule du gradient, on obtient alors

w
Y TY − Y T y = 0.
z
w∗

b) En observant la valeur de l’objectif en ∗ , on voit que
z =0
∗
w 1
f = kXw∗ + z ∗ e − yk2
z∗ 2
1
= kXw∗ − yk2
2
= 0.
w∗

Par conséquent, le point conduit à une valeur de l’objectif nulle. Comme
0

w 1
f = kXw + ze − yk2 ≥ 0,
z 2
w∗

pour tous w ∈ Rd et z ∈ R, le point est un minimum global du problème.
0
But de l’exercice : revoir les définitions d’argument minimal, identifier des solutions évidentes
a) Pour tout problème d’optimisation de la forme minimiserv∈Rd f (v) et tous a > 0 et b ∈ R, le

problème minimiserv∈Rd = af (v) + b possède le même ensemble de solutions. Par conséquent,
comme
µ µ
ϕ(v) = v T (Id )v + (g − µw)T v + kwk22
2 2
et que le dernier terme ne dépend pas de v, on a bien
µ
argmin ϕ(v) = argmin v T (Id )v + (g − µw)T v.
v∈Rd v∈Rd 2
TD 02 Optim. - 2021/2022 5
2
1
b) Si on développe l’expression v − w − µ1 g , on obtient

2 2
2 T 2
1
v − w − 1 g = 1 v T (Id )v + 1 g − w
1 1
v + w − g
,
2 µ 2 2 µ 2 µ
où le dernier terme ne dépend pas de v. Comme µ > 0, on applique le même argument qu’en
question a) (avec cette fois a = µ et b = 12 kw − µ1 gk2 ), et on obtient
µ
argmin ϕ(v) = argmin v T (Id )v + (g − µw)T v
v∈Rd v∈Rd 2
1 1
= argmin v T (Id )v + ( g − w)T v
v∈Rd 2 µ
2
1 1
= argmin v − w − g
.
v∈Rd 2 µ
c) On utilise l’équivalence de la question b), et on considère le problème

2
1 1
minimiser v − w − g
.
v∈Rd 2 µ
La fonction objectif de ce problème est toujours supérieure ou égale à 0, et on a
2
1 v − w − 1 g = 0 ⇔ v − w − 1 g = 0 ⇔ v = w − 1 g.

2 µ µ µ
On en conclut que ce problème (et, par conséquent, la fonction ϕ) admet une unique solution
donnée par v ∗ = w − µ1 g.
d) À l’itération k, l’algorithme de descente de gradient produit wk+1 à partir de wk selon la formule

1
wk+1 = wk − αk ∇ψ(wk ) = wk − αk wk − w − g .
µ
avec une longueur de pas αk > 0.
e) Si l’on applique la descente de gradient avec αk = 1 pour tout k, alors à l’itération k = 0, si

w0 ∈ Rd est le point initial, on a

1 1 1
w 1 = w 0 − α0 w 0 − w − g = w0 − w0 − w − g = w − g = v∗.
µ µ µ
Par conséquent, l’algorithme de descente de gradient converge en une seule itération sur ce
problème.
a) En reformulant l’objectif de la question (3), on obtient une fonction quadratique en les coor-
données de w : le problème est donc un problème d’optimisation quadratique.
6 TD 02 Optim. - 2021/2022
b) La matrice définissant la partie quadratique de la fonction f est symétrique. On sait alors que la
condition d’optimalité au premier ordre s’écrit
T T
X 1 X 1 + λI −λI X1 y
∇f (w) = T w+ = 0.
−λI X 2 X 2 + λI XT2y
c) On utilisera ci-dessous la notation générique f (w) mais en considérant toujours le cas particulier
λ = 0.
i) Lorsque λ = 0, le problème s’écrit sous la forme

1 1
minimiser kX 1 w1 − y 1 k2 + kX 2 w2 − y 2 k2
w∈R 2d 2 2
Il s’agit donc d’une somme de deux termes de moindres carrés linéaires dépendant chacun de
composantes différentes du vecteur w. Le terme 21 kX 1 w1 − y 1 k2 ne dépend que de w1 et
est une fonction convexe de w1 , donc de w également. De même, le terme 12 kX 2 w2 − y 2 k2
ne dépend que de w2 et est une fonction convexe de w2 , donc de w. Par conséquent,
la fonction objectif est une fonction convexe de w. Remarque : Un tel problème est dit
partiellement séparable car on peut dissocier deux groupes de variables.
ii) Le vecteur " #
∗ X †1 y 1
w =
X †2 y 2
est une solution de ce problème. En effet, les vecteurs w∗1 := X †1 y 1 et w∗2 := X †2 y 2 sont
respectivement solutions de
1 1
minimiser kX 1 w1 − y 1 k2 et minimiser kX 2 w2 − y 2 k2 .
w1 ∈Rd 2 w2 ∈Rd 2

v
Par conséquent, pour tout v = 1 ∈ R2d , on a :
v2
1 1 1 1
kX 1 v 1 − y 1 k2 ≥ kX 1 w∗1 − y 1 k2 et kX 2 v 2 − y 2 k2 ≥ kX 2 w∗2 − y 2 k2
2 2 2 2
par définition de w∗1 et w∗2 . Il en résulte que
1 1 1 1
f (v) = kX 1 v 1 − y 1 k2 + kX 2 v 2 − y 2 k2 ≥ kX 1 w∗1 − y 1 k2 + kX 2 w∗2 − y 2 k2 = f (w∗ ),
2 2 2 2
ce qui montre bien que w∗ est une solution du problème.

TD02TUN

Transféré par

Droits d'auteur :

Formats disponibles

TD02TUN

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

TD02TUN

Transféré par

Droits d'auteur :

Formats disponibles

TD 2 : Optimisation quadratique

Optimisation pour l’apprentissage automatique, M2 Big Data

Exercice 1 : Régression affine

a) Le gradient de ce problème est donné par

où Y = [X e] ∈ Rn×(d+1) . Quelle est la condition d’optimalité du premier ordre

Exercice 2 : Un problème quadratique

a) En développant la norme au carré, on obtient :

b) En utilisant le même raisonnement, montrer que

c) En déduire que le problème possède un unique minimum global c∗ dont on donnera

Cette fonction est de classe C 1 , et son gradient est donné par

i) Écrire l’itération générique de la descente de gradient sur ce problème.

Exercice 3 : Modèle stratifié

X 1 ∈ Rn1 ×d , y 1 ∈ Rn1 , X 2 ∈ Rn2 ×d , y 2 ∈ Rn2 .

avec I ∈ Rd×d la matrice identité. Comment appelle-t-on un problème de cette forme ?

b) Donner la condition nécessaire d’optimalité à l’ordre un pour cette fonction.

c) On considère le cas λ = 0, où w1 et w2 sont appris indépendamment.

i) Montrer que le problème correspondant est convexe.

Solutions des exercices

a) Si (w∗ , z ∗ ) ∈ Rd × R est un minimum local du problème, alors il vérifie la condition nécessaire

a) Pour tout problème d’optimisation de la forme minimiserv∈Rd f (v) et tous a > 0 et b ∈ R, le

c) On utilise l’équivalence de la question b), et on considère le problème

d) À l’itération k, l’algorithme de descente de gradient produit wk+1 à partir de wk selon la formule

e) Si l’on applique la descente de gradient avec αk = 1 pour tout k, alors à l’itération k = 0, si

i) Lorsque λ = 0, le problème s’écrit sous la forme

Vous aimerez peut-être aussi