Nothing Special   »   [go: up one dir, main page]

Mémoire

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 32

Faculté des Sciences Département de Mathématique

M ÉMOIRE PRÉSENTÉ EN VUE DE L’ OBTENTION DU DIPLÔME DE


M ASTER EN S TATISTIQUE À FINALITÉ APPROFONDIE

Quantitative CLTS in deep neural


networks

Auteur : Jonathan Baram


Directeur du mémoire : Yvik Swan
Président du jury : Davy Paindaveine

Année académique 2023–2024


Table des matières

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Hypothèses et définitions . . . . . . . . . . . . . . . . . . . . . . 10
3 TCL quantitatif en dimension 1 . . . . . . . . . . . . . . . . . . . 13
4 TCL quantitatif en dimension finie . . . . . . . . . . . . . . . . . 23
5 Illustration du TCL quantitatif en dimension 1 . . . . . . . . . . . 25
6 Annexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
7 Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

1
1 Introduction
Ce mémoire est un travail sur l’article « Quantitative CLTS in deep neu-
ral networks »[1].

Lorsque l’on souhaite approximer une fonction inconnue prenant des


valeurs sur un jeu de données expérimental: {(𝑥 𝛼 , 𝑓 (𝑥 𝛼 )), 𝛼 = 1, 2, . . . , 𝑘 },
la méthode qui sera le sujet de ce mémoire est la suivante: fixer un réseau
d’architecture neuronal (dont on explique le concept ci-dessous), qui va
déterminer une famille paramétrique de réseau de neurones, et chercher
dans cette famille une approximation de la fonction inconnue.

Un réseau d’architecture neuronal est un système dont la conception


est à l’origine schématiquement inspirée du fonctionnement des neurones
biologiques. Dans sa forme la plus simple, il se représente de la manière
suivante:

Figure 1: Réseau d’architecture neuronal.

Ce réseau est composé de neurones artificiels organisés en couches et


interconnectés par des connexions pondérées. Chaque neurone reçoit des
entrées, effectue des calculs sur ces entrées, et transmet une sortie à d’autres
neurones. Ceci est représenté sur la figure 1, chaque cercle symbolisant un
neurone, avec en vert la couche d’entrée, en bleu la (les) couche(s) intermé-
diaire(s), et en jaune la couche de sortie du réseau. Notons que la largeur de
chaque couche, concept-clé, est simplement le nombre de neurones associé
à chaque couche. Dans la figure 1, la largeur de la couche intermédiaire est
de 5.

2
Chaque couche est donc consituée de neurones, recevant chacun des
entrées (𝑥𝑖 ), pondérées par un poids (𝑤 𝑖 ) à laquelle un biais est ajouté pour
calculer une somme pondérée. Pour une couche donnée, l’entrée totale est
donc donnée par:
Í
𝑖 𝑤 𝑖 𝑥𝑖 + biais

La sortie de la couche est alors déterminée en en appliquant une fonction


d’activation à cette somme pondérée. Il peut s’agir par exemple d’une fonc-
tion d’activation binaire qui fixe la sortie à 1 si la valeur d’entrée (somme
pondérée plus le biais) est supérieure à 0 et 0 sinon. La valeur de sortie
de la couche sert alors d’entrée aux neurones de la couche suivante jusqu’à
arriver à la sortie du réseau. Notons que le biais peut être vu comme une
valeur seuil: dans le cas d’une fonction d’activation binaire, une valeur 2 de
biais nécessite de dépasser ce seuil afin d’avoir la valeur 1 en sortie.

Appliquons ce concept à un exemple concret. Supposons que nous de-


vions décider d’aller ou non faire du surf, et que trois facteurs influencent
notre prise de décision:

• Les vagues sont-elles bonnes? (Oui : 1, Non : 0)


• La voie est-elle libre? (Oui : 1, Non : 0)
• Y-a-t’il eu récemment une attaque de requins ? (Oui : 0, Non : 1)

Supposons maintenant que nous observions les entrées suivantes: 𝑥 1 =


1, car les vagues sont bonnes, 𝑥 2 = 0, car il y a foule et 𝑥 3 = 1, car il n’y
a pas eu d’attaque de requin récemment. Nous devons ensuite attribuer des
poids à chaque variable pour en déterminer l’importance dans notre prise
de décision: 𝑤 1 = 5, car il est rare d’avoir des vagues, 𝑤 2 = 2, car nous
sommes habitués à la foule, 𝑤 3 = 4, car nous avons peur des requins.

Enfin, supposons une valeur de seuil de 3, ce qui se traduit par un biais


de −3. Avec ces entrées, nous obtenons une valeur de calcul avant sortie
pour cette couche de 5∗1+2∗0+4∗1−3 = 6. Pour une fonction d’activation
binaire telle que décrite ci-dessus, la valeur de sortie de la couche serait 1,
et nous irions surfer. Cet exemple simple montre comment un réseau de
neurones peut prendre des décisions de plus en plus complexes en fonction
notamment des tailles des couches précédantes.

3
De façon rigoureuse, le réseau le plus simple, le réseau neuronal entière-
ment connecté, est défini de la manière suivante:
Definition 1.1 (Réseau neuronal entièrement connecté).
Fixons un entier positif L ainsi que L+2 entiers positifs 𝑛0 , . . . , 𝑛 𝐿+1 et
une fonction 𝜎 : R → R. Un réseau neuronal entièrement connecté
de profondeur L aux dimensions d’entrée 𝑛0 et de sortie 𝑛 𝐿+1 , de largeurs
de couches 𝑛1 , . . . , 𝑛 𝐿 et de non-linéarité 𝜎 est une fonction 𝑥 𝛼 ∈ R𝑛0 ↦→
𝑧 𝛼(𝐿+1) ∈ R𝑛 𝐿+1 de la forme suivante:
 (1)
(ℓ) 𝑊 𝑥 𝛼 + 𝑏 (1) , ℓ=1
𝑧𝛼 = (ℓ) (ℓ−1) (ℓ)
𝑊 𝜎(𝑧 𝛼 ) + 𝑏 , ℓ = 2, . . . , 𝐿 + 1.
où 𝑧 𝛼(ℓ) ∈ R𝑛ℓ et 𝑏 (ℓ) ∈ R𝑛ℓ sont des vecteurs, 𝑊 (ℓ) ∈ R𝑛ℓ ×𝑛ℓ −1 des
matrices, et 𝜎 appliqué à un vecteur est 𝜎 appliqué à chaque composante.
Notons que 𝜎 sert de fonction d’activation non-linéaire.

Les paramètres d’un tel réseau de neurones sont les poids 𝑊𝑖(𝑙)
𝑗 et les
biais 𝑏𝑖(𝑙) associés à chaque couche. Le but étant, pour un jeu de données,
de trouver une combinaison de poids et de biais telle que 𝑧 𝛼(𝐿+1) ≈ 𝑓 (𝑥 𝛼 )
pour 𝑥 𝛼 appartenant au jeu de données ou non, avec 𝑓 la fonction que l’on
essaie d’approximer (dans le cas de l’exemple simple précédant, la fonction
binaire qui renseigne sur le fait d’aller surfer ou non). Une telle optimisation
requiert typiquement deux étapes:

(1) Choisir des poids et biais initiaux.


(2) Optimiser ces paramètres à l’aide d’une fonction de perte empirique
telle que les moindres carrés.

Une façon de choisir nos paramètres est de les supposer aléatoires, mais
de loi connue. Ceci livre la définition suivante:

4
Definition 1.2 (Réseau neuronal aléatoire entièrement connecté).
Fixons un entier positif L ainsi que L+2 entiers positifs 𝑛0 , . . . , 𝑛 𝐿+1 ,
une fonction 𝜎 : R → R ainsi que deux constantes 𝐶𝑏 ≥ 0 et 𝐶𝑤 > 0. Un
réseau neuronal aléatoire entièrement connecté de profondeur L aux
dimensions d’entrée 𝑛0 et de sortie 𝑛 𝐿+1 , de largeurs de couches 𝑛1 , . . . , 𝑛 𝐿
et de non-linéarité 𝜎 est un réseau neuronal de la forme donnée en (1.1) où
les paramètres sont aléatoires, indépendants, mais de loi normale connue:

𝑊𝑖(𝑙) 𝐶𝑤 (𝑙)
𝑗 ∼ N (0, 𝑛𝑙−1 ), 𝑏 𝑖 ∼ N (0, 𝐶𝑏 )

Notons que le caractère aléatoire des paramètres est utile pour différentes
raisons, la principale est la diversité des paramètres qu’il permet d’obtenir.
En effet, en utilisant une distribution aléatoire, chaque neurone dans le
réseau peut commencer avec des poids différents. Cela permet d’explorer
plus efficacement l’espace des paramètres et peut conduire à une meilleure
performance du modèle.

D’autre part, l’utilisation de la loi normale pour l’initialisation des poids


est courante pour plusieurs raisons:

1. Symétrie initiale. L’initialisation des poids avec une distribution nor-


male centrée sur zéro peut aider à briser la symétrie entre les dif-
férents neurones dans le réseau. Cela permet aux neurones de com-
mencer à apprendre des représentations différentes dès le début de
l’entraînement. En effet, si tous les poids sont identiques au dé-
part, alors lors de la phase d’apprentissage, tous les neurones de la
couche cachée apprendraient exactement les mêmes caractéristiques,
et le réseau ne serait pas en mesure de capturer la diversité des infor-
mations contenues dans les données d’entrée.
2. Diversité des poids. La distribution normale permet d’obtenir une
variété de valeurs de poids initiales, ce qui peut être bénéfique pour
couvrir un large éventail de valeurs possibles et aider le réseau à ex-
plorer efficacement l’espace des paramètres.
3. Facilité d’utilisation. L’initialisation des poids avec une distribution
normale est simple et facile à implémenter, ce qui en fait un choix
pratique dans de nombreux cadres d’apprentissage automatique.

Enfin, définissons de manière plus précise ce à quoi nous faisons référence


lorsque nous parlons d’« apprentissage » du système neuronal. Il s’agit sim-
plement du processus d’ajustement des poids et des biais du réseau afin qu’il
puisse accomplir une tâche spécifique. Ce processus consiste à exposer le
réseau à un ensemble de données d’entraînement, à comparer les prédictions

5
du réseau avec les valeurs attendues, puis à ajuster les paramètres du réseau
de manière itérative afin de minimiser une fonction de perte ou d’erreur.

Avant d’énoncer un résultat clé, rappelons la définition d’un processus


Gaussien.
Definition 1.3 (Processus gaussien).
Si un processus stochastique {𝑋𝑡 : 0 ≤ 𝑡 < ∞} a la propriété que pour
toute suite finie 0 ≤ 𝑡1 < 𝑡2 < . . . < 𝑡 𝑛 le vecteur (𝑋𝑡1 , 𝑋𝑡2 , . . . , 𝑋𝑡 𝑛 ) a une
distribution gaussienne multivariée, alors 𝑋𝑡 est un processus Gaussien.
Nous énonçons maintenant un résultat asymptotique concernant la dis-
tribution d’un réseau de neurones lorsque les largeurs de couches devien-
nent arbitrairement larges, i.e. 𝑛1 , . . . , 𝑛 𝐿 → ∞.
Theorem 1.4 (Réseaux infinis et processus Gaussiens).
Fixons 𝐿, 𝑛0 , 𝑛 𝐿+1 , 𝑟 ≥ 1 et une fonction 𝜎 : R → R bornée jusqu’à
l’ordre 𝑟 au sens de la définition qui suit (2.1). Lorsque 𝑛1 , . . . , 𝑛 𝐿 → ∞,
le réseau aléatoire 𝑥 𝛼 ∈ R𝑛0 ↦→ 𝑧 𝛼(𝐿+1) ∈ R𝑛 𝐿+1 de la forme donnée en (1.2)
converge faiblement en distribution, en tant qu’élément de 𝐶 𝑟−1 (R𝑛0 , R𝑛 𝐿+1 ),
(𝐿+1)
vers un processus Gaussien de 𝑛 𝐿+1 composantes iid centrées (𝑧𝑖;𝛼 ,𝑖 =
1, . . . , 𝑛 𝐿+1 ) avec pour covariance limite
(𝐿+1) (𝐿+1) (𝐿+1)
𝐾𝛼𝛽 := lim𝑛1 ,...,𝑛 𝐿 →∞ Cov(𝑧𝑖;𝛼 , 𝑧𝑖;𝛽 )

satisfaisant
( (𝑙) (𝑙)
(𝑙+1) 𝐶𝑏 + 𝐶𝑤 ⟨𝜎(𝑧𝑖;𝛼 ) , 𝜎(𝑧𝑖;𝛽 )⟩𝐾 (𝑙) 𝑙≥1
𝐾𝛼𝛽 = 𝐶𝑤
𝐶 𝑏 + 𝑛0 𝑥 𝛼 · 𝑥 𝛽 𝑙=0

(𝑙) (𝑙)
où pour 𝑔 : R2 → R nous écrivons ⟨𝑔(𝑧𝑖;𝛼 ) , 𝑔(𝑧𝑖;𝛽 )⟩𝐾 (𝑙) pour la valeur
moyenne de 𝑔 par rapport à la distribution
(𝑙) (𝑙)
!!
(𝑙) (𝑙) 𝐾 𝛼𝛼 𝐾 𝛼𝛽
(𝑧𝑖;𝛼 , 𝑧𝑖;𝛽 ) ∼ N 0, (𝑙) (𝑙)
𝐾𝛼𝛽 𝐾 𝛽𝛽

Notons que 𝑧𝑖,𝛼 représente la sortie du neurone 𝑖 dans la couche 𝑙 du


réseau neuronal pour une donnée d’entrée 𝛼. Ces sorties sont des variables
aléatoires, qui dépendent des poids et des biais du réseau. Plus précisément,
(ℓ)
𝑧𝑖;𝛼 est la sortie du neurone 𝑖 dans la couche ℓ pour une donnée d’entrée 𝛼.

Illustrons ce théorème par un exemple simple: prenons un réseau neu-


ronal à une seule couche cachée à deux entrées et une sortie. Nous avons

6
donc 𝐿 = 1, 𝑛0 = 2 (deux entrées), et 𝑛 𝐿+1 = 𝑛2 = 1 (une sortie). Soit
également 𝑛1 = 2 (deux neurones dans la couche cachée). Supposons aussi
que les constantes soient 𝐶𝑏 = 0 (pas de biais), et 𝐶𝑤 = 1. Pour la fonction
d’activation, utilisons la fonction linéaire 𝜎(𝑥) = 𝑥. Si nous calculons la
(2)
covariance limite 𝐾𝛼𝛽 entre les sorties des neurones de la couche de sortie
pour les entrées 𝛼 et 𝛽, nous obtenons, selon le théorème,
(2) (1) (1)
𝐾𝛼𝛽 = ⟨𝑧𝑖;𝛼 , 𝑧𝑖;𝛽 ⟩𝐾 (1)

(2)
La covariance limite 𝐾𝛼𝛽 est donc simplement proportionnelle à la co-
variance entre les sorties des neurones de la couche de sortie pour les entrées
𝛼 et 𝛽. Si nous supposons en plus que les entrées sont des variables aléa-
toires indépendantes, la covariance entre 𝑥 𝛼 et 𝑥 𝛽 est nulle. Dans ce cas, la
(2)
covariance limite 𝐾𝛼𝛽 sera également nulle.

Ceci nous amène à la question centrale du travail: A quel point un réseau


neuronal aléatoire de largeurs de couches finies est proche du processus
Gaussien décrit dans le théorème 1.1?

Cette question s’inscrit dans un contexte de recherche fondamentale en


apprentissage automatique et en théorie des réseaux neuronaux. Dans la
pratique, les réseaux neuronaux ont des couches de largeurs finies en raison
de contraintes computationnelles et de la disponibilité limitée de données.
Il s’agit donc d’examiner comment cette convergence vers un processus
Gaussien est affectée lorsque le nombre de neurones par couche est limité.
Ou, en d’autres termes, dans quelle mesure les résultats théoriques sur la
convergence des réseaux neuronaux vers des processus Gaussiens sont ap-
plicables dans des scénarios réalistes.

La question est également motivée par des travaux antérieurs sur le


réseau de neurones à noyau tangent (NTK). On appelle réseau NTK un
réseau neuronal dont les poids et les biais sont définis comme en (1.2),
𝐿, 𝑛0 , 𝑛 𝐿+1 sont fixés et les largeurs de couches 𝑛1 , . . . , 𝑛 𝐿+1 tendent vers
l’infini. Ce type de réseau neuronal particulier présente deux propriétés
remarquables:

• Le processus stochastique 𝑥 𝛼 ↦→ 𝑧 𝛼𝐿+1 converge en distribution vers un


processus Gaussien. (Théorème 1.1)
• En utilisant des petits taux d’apprentissage (les paramètres du modèle
sont mis à jour par une petite quantité après chaque itération, rendant
le processus d’apprentissage plus progressif), et l’erreur quadratique

7
moyenne comme fonction de perte, la trajectoire d’optimisation corre-
spond à celle obtenue en remplacant le réseau non-linéaire 𝑧 𝛼𝐿+1 par sa
linéarisation autour des paramètres aléatoires initiaux (poids et biais)
du réseau.

Le second point assure que le minimum de la fonction de perte ainsi


trouvé ne sera pas un faux minimum, la fonction de perte (des moindres
carrés) étant convexe pour l’approximation du réseau par sa linéarisation.
En revanche, il convient de noter que la linéarisation du réseau neuronal
NTK se fait à un coût non-négligeable. En effet, les réseaux neuronaux
ont ceci de particulier qu’ils ne sont pas des modèles linéaires, et il serait
fallacieux de les étudier comme tels. De plus, le réseau NTK est défini
dans le régime asymptotique où le nombre de neurones dans chaque couche
tend vers l’infini. Dans des scénarios pratiques, où les réseaux de neurones
ont des tailles finies en raison de contraintes computationnelles, cette ap-
proximation ne s’applique pas. Le réseau NTK ne convient donc pas pour
une étude du comportement d’un réseau neuronal réaliste. Pour une étude
des effets non-linéaires d’un réseau neuronal, plusieurs modèles existent, et
notre article considère les réseaux neuronaux de profondeurs finies (mais
potentiellement grandes), développant des outils probabilistes pour étudier
ces derniers.

Les résultats s’articulent selon trois axes:

1. Théorème central-limite quantitatif à une dimension. Il s’agit ici


de fixer un élément d’entrée 𝑥 𝛼 ∈ R𝑛0 et de considérer une unique
(𝐿+1)
composante d’un élément de sortie 𝑧𝑖;𝛼 . La question qui se pose est
(𝐿+1)
alors de savoir à quel point la distribution de 𝑧𝑖;𝛼 est proche de la
distribution Gaussienne correspondante, dans le sens qui sera précisé
par la suite. En particulier, il sera montré que la distance entre ces
deux éléments est bornée par le haut par une constante fois l’inverse
de la profondeur du réseau.
2. Théorème central-limite quantitatif à dimension finie. Nous con-
sidérons maintenant une collection finie d’éléments d’entrée 𝑥 𝛼 ∈
R𝑛0 , 𝛼 ∈ A et cherchons une borne supérieure sur la distance convexe
(𝐿+1)
entre le vecteur (𝑧𝑖;𝛼 , 𝛼 ∈ A) et la Gaussienne correspondante. Une
borne supérieure de l’ordre de la racine carrée de la taille des couches
du réseau est trouvée.
3. Théorème central-limite quantitatif fonctionnel. Nous considérons
ici 𝑧 𝛼(𝐿+1) vu comme élément d’un espace de Sobolev et sa limite pour
une profondeur de champ infinie. Des bornes sont trouvées pour des

8
distances spécifiques, proportionnelles a l’inverse de la profondeur du
champ considérée.

9
2 Hypothèses et définitions
Les définitions et résultats suivants seront utilisés tout au long du travail.
Definition 2.1 (Borne polynomiale d’ordre r).
Pour 𝑟 ≥ 1 fixé, une fonction 𝜎 : R → R est bornée polynomialement à
l’ordre 𝑟 si, soit 𝜎 est 𝑟 fois continûment différentiable, soit 𝜎 est 𝑟 − 1 fois
continûment différentiable et sa (𝑟 −1)-ème dérivée est une fonction linéaire
continue par morceaux avec un nombre fini de points de discontinuité pour
sa dérivée. Dans les deux cas on demande aussi que la r-ème dérivée soit
bornée polynomialement:
𝑟
∃𝑘 ≥ 0 tel que (1 + |𝑥|) −𝑘 𝑑𝑥
𝑑
𝑟 𝜎(𝑥) 𝐿 ∞ (R)
<∞

et que pour tout 𝑥 𝛼 , 𝑥 𝛽 et 𝐼, 𝐽 tels que |𝐼 |, |𝐽 | = 𝑟, les dérivées partielles


(𝑙)
mixtes 𝐷 𝛼𝐽 𝐷 𝐼𝛽 Σ𝛼𝛽 soient bien définies et finies avec probabilité 1, où Σ (𝑙)
est défini selon la formule à venir (Lemme 2.1.), et, pour un multi-index
𝑗 𝑗𝑛
𝐽 = ( 𝑗 1 , . . . , 𝑗 𝑛0 ), |𝐽 | := 𝑗1 + . . . + 𝑗 𝑛0 et 𝐷 𝛼𝐽 = 𝜕𝑥11 . . . 𝜕𝑥 𝑛00 .
𝑥=𝑥 𝛼 =(𝑥 1 ,...,𝑥 𝑛0 )

Un exemple classique d’une telle fonction est la fonction sigmoïde,


définie comme
1
𝜎(𝑥) = 1+𝑒 −𝑥

Elle est continûment différentiable sur tout R, et ses dérivées successives


sont également continues. De plus, la r-ème dérivée de la fonction sigmoïde
est bornée polynomialement, ce qui est démontré par le fait que toutes ses
dérivées sont des fonctions exponentielles décroissantes multipliées par un
polynôme. En effet,
𝑛
∑︁
𝑑𝑛 𝑒 −𝑥
𝑑𝑥 𝑛 𝜎(𝑥) = (1+𝑒 − 𝑥 ) 𝑛+1
(−1) 𝑘 𝑃(𝑛, 𝑘)(𝑛 − 𝑘)!
𝑘=0

où 𝑃(𝑛, 𝑘) est le nombre de Stirling de première espèce.

10
Definition 2.2 (Non-dégénérescence de la matrice de covariance).
Pour 𝑟 > 1 fixé et 𝜎 borné polynomialement à l’ordre 𝑟, et A un en-
semble fini indiçant des inputs distincts du réseau,
𝑥 A = {𝑥 𝛼 : 𝛼 ∈ A} ⊆ R𝑛0
et un ensemble fini d’opérateurs de dérivées directionnelles,
Í𝑛 0
𝑉 = {𝑉1 , . . . , 𝑉𝑝 }, 𝑉 𝑗 := 𝑖=1 𝑣 𝑖 𝑗 𝜕𝑥𝑖

La structure de covariance de profondeur infinie {𝐾 (𝑙) : 𝑙 = 1, . . . , 𝐿 +1}


définie au théorème 1.1 est non-dégénerée en 𝑥 A à l’ordre 𝑞 ≤ 𝑟 par rapport
à 𝑉 si, pour tout 𝑙 = 1, . . . , 𝐿 + 1, la matrice de covariance de profondeur
infinie
(𝑙),≤𝑞
𝐾A,𝑉 := (𝑉𝛼𝐽11 𝑉𝛼𝐽22 𝐾𝛼(𝑙)1 𝛼2 , |𝐽1 |, |𝐽2 | ≤ 𝑞, 𝛼1 , 𝛼2 ∈ A)

est inversible, où pour chaque multi-index 𝐽𝑖 = ( 𝑗𝑖1 , . . . , 𝑗𝑖 𝑝 ) ∈ N 𝑝


d’ordre |𝐽𝑖 | = 𝑗𝑖1 + . . . + 𝑗𝑖 𝑝 nous écrivons

𝑗 𝑗
𝑉𝛼𝐽𝑖𝑖 := 𝑉1 𝑖1 . . . 𝑉𝑝𝑖 𝑝
𝑥=𝑥 𝛼𝑖

pour les opérateurs différentiels correspondants.


Cette condition spécifie que les dérivées directionnelles de la matrice
de covariance sont non-dégénérées jusqu’à un certain ordre par rapport
à l’ensemble d’inputs et à l’ensemble d’opérateurs de dérivées direction-
nelles. Cela garantit que la matrice de covariance capture efficacement les
variations des données dans différentes directions et qu’elle est bien condi-
tionnée pour être utilisée dans des calculs ultérieurs, tels que l’estimation
des gradients ou l’optimisation du réseau.

Nous finissons cette section par un lemme donné sans démonstration, et


utilisé tout au long de l’article (d’autres définitions seront ajoutées au fur et
à mesure de leur usage).
Lemma 2.3. Conditionnellement à F (𝑙) , la sigma-algèbre générée par les
poids et biais des couches 1, . . . , 𝑙, le réseau neuronal aléatoire 𝑥 𝛼 ∈ R𝑛0 ↦→
𝑧 𝛼(𝑙+1) a des composantes gaussiennes centrées indépendantes et identique-
ment distribuées de covariance conditionnelle
(𝑙+1) (𝑙+1) (𝑙)
Cov(𝑧𝑖;𝛼 , 𝑧 𝑗;𝛽 |F (𝑙) ) = 𝛿𝑖 𝑗 Σ𝛼𝛽

11
(𝑙)
𝜎(𝑧 (𝑙) (𝑙)
𝐶𝑤 Í𝑛 𝑙
Σ𝛼𝛽 := 𝐶𝑏 + 𝑛𝑙 𝑗=1 𝑗;𝛼 )𝜎(𝑧 𝑗;𝛽 )

Ce lemme nous informe sur la distribution de chaque sortie du champ


de vecteurs. Plus précisément, il stipule que conditionnellement à la sigma-
algèbre générée par les poids et biais de chaque couche (c’est-à-dire si l’on
se "donne l’information" sur chaque poids et biais de chaque couche), les
sorties du champ de vecteurs 𝑥 𝛼 ∈ R𝑛0 ↦→ 𝑧 𝛼(𝑙+1) suivent chacune une loi
normale centrée et de (co)variances connues.
Notons que bien que les lois des éléments de sortie soient des gaussi-
ennes indépendantes et identiquement distribuées, elles présentent une co-
variance non nulle. Dans notre contexte, cela s’explique par le fait que bien
que les composantes de sorties soient statistiquement indépendantes (les
valeurs prises par chaque composante n’est pas liée aux valeurs prises par
d’autres), les poids et les biais peuvent être choisis de telle manière que les
composantes de sortie présentent une certaine corrélation. Leur covariance
peut donc être non nulle en raison de leur relation avec les poids et biais du
réseau.

12
3 TCL quantitatif en dimension 1
Nous présentons dans cette section le premier résultat de l’article, à
savoir le TCL quantitatif en dimension 1.

Les résultats fournissent des théorèmes centraux-limite quantitatifs pour


des réseaux de neurones dans le contexte précisé par l’hypothèse suivante:
Assumption 3.0 (Cadre des résultats).
Fixons des constantes 𝑐 1 , 𝑐 2 , des entiers 𝑟, 𝐿, 𝑛0 , 𝑛 𝐿+1 ≥ 1,
des scalaires 𝐶𝑏 , 𝐶𝑤 > 0, et une fonction 𝜎 : R → R bornée polynomi-
alement à l’ordre 𝑟 tel que dans la définition 2.1. Considérons un réseau
neuronal aléatoire entièrement connecté de profondeur 𝐿, 𝑥 𝛼 ∈ R𝑛0 ↦→
𝑧 𝛼(𝐿+1) ∈ R𝑛 𝐿+1 tel que dans la définition 1.2, de dimensions d’entrée 𝑛0
et de sortie 𝑛 𝐿+1 , de profondeurs de couches 𝑛1 , . . . , 𝑛 𝐿 et de non-linéarité
𝜎. Supposons que pour un certain 𝑛 ≥ 1,
𝑐 2 𝑛 ≤ 𝑛1 , . . . , 𝑛 𝐿 ≤ 𝑐 1 𝑛
Par souci de concision, nous définissons l’espace de paramètres
P := {𝜎, 𝑐 1 , 𝑐 2 , 𝐿, 𝑛0 , 𝐶𝑏 , 𝐶𝑤 }
(notons que P ne contient pas 𝑟).
Les résultats fournissent des TCLs quantitatifs pour un tel champ neu-
ronal, montrant que lorsque 𝑛 est grand, le champ aléatoire 𝑧 𝛼(𝐿+1) et ses
dérivées
(𝐿+1) 𝑗 𝑗𝑛 (𝐿+1)
𝐷 𝛼𝐽 𝑧𝑖;𝛼 := 𝜕𝑥11 . . . 𝜕𝑥 𝑛00 𝑧𝑖;𝛼 , 𝐽 = ( 𝑗 1 , . . . , 𝑗 𝑛 0 ) ∈ N𝑛 0
𝑥=𝑥 𝛼

sont proches (dans un sens qui sera précisé par la suite) de ceux d’un pro-
cessus Gaussien de 𝑛 𝐿+1 composantes indépendantes et identiquement dis-
tribuées.

Nous avons donc besoin d’une notion de distance. Nous utiliserons prin-
cipalement la distance de Wasserstein définie de la façon suivante:
Definition 3.1 (Distance de Wasserstein d’ordre p).
Soit (X, 𝑑) un espace polonais (i.e. un espace métrisable à base dénom-
brable) muni de sa tribu borélienne. Soit 𝑝 ∈ [0, +∞[ et 𝜇, 𝜈 deux mesures
de probabilité sur X. La distance de Wassertein d’ordre 𝑝 entre 𝜇 et 𝜈
est:
 ∫  1/𝑝
W 𝑝 (𝜇, 𝜈) := inf 𝜋∈Π(𝜇,𝜈) X×X 𝑑 (𝑥, 𝑦) 𝑝 d𝜋(𝑥, 𝑦)

13
où Π(𝜇, 𝜈) désigne l’ensemble des mesures de probabilités sur X × X
dont les lois marginales sont 𝜇 et 𝜈.
Une définition alternative est donnée par:
Definition 3.2 (Distance de Wasserstein d’ordre p - définition alternative).
Soit 𝐾 un espace de Hilbert séparable sur R, 𝑋 et 𝑌 deux éléments aléa-
toires à valeurs sur 𝐾, et 𝑝 ≥ 1 fixé. La distance de Wasserstein d’ordre
p entre les distributions de 𝑋 et 𝑌 , est définie comme étant la quantité:
𝑝  1/𝑝
W 𝑝 (𝑋, 𝑌 ) := inf (𝑇,𝑆) E[∥𝑇 − 𝑆∥ 𝐾 ]
loi loi
où l’infimum est pris sur les éléments (𝑇, 𝑆) tels que 𝑇 = 𝑋 et 𝑆 = 𝑌 .
La distance de Wasserstein est liée au problème du transport optimal, qui
consiste à transformer une mesure finie 𝜇 sur un espace X en une mesure
𝜈 sur ce même espace, moyennant une certaine fonction de coût. Lorsque
cette fonction de coût entre deux points est simplement la distance entre
ceux-ci, le coût optimal de transformation des mesures nous donne la défi-
nition de la distance de Wassertein (de premier ordre).

Une seconde mesure de distance que nous utiliserons est la distance en


variation totale, dont nous rappelons la définition:
Definition 3.3 (Distance en variation totale).
Soient deux variables aléatoires 𝑋, 𝑌 à valeurs dans R. La distance en
variation totale entre les distributions de 𝑋 et 𝑌 est la quantité:
𝑑𝑇𝑉 (𝑋, 𝑌 ) := sup𝐵∈B (R) |P(𝑋 ∈ 𝐵) − P(𝑌 ∈ 𝐵)|
où B (R) dénote les ensembles Borel mesurables de R.
Le premier résultat, présenté ci-dessous (Theorem 3.4), mesure les dis-
tances de variation totale et de Wasserstein d’ordre 1 entre le résultat d’un
réseau neuronal évalué pour une seule donnée d’entrée 𝑥 𝛼 et une variable
aléatoire suivant une distribution normale.
Theorem 3.4 (Bornes uni-dimensionnelles).
Considérons un réseau neuronal aléatoire 𝑥 𝛼 ↦→ 𝑧 𝛼(𝐿+1) ∈ R𝑛 𝐿+1 s’incrivant
dans le cadre fourni par l’hypothèse 3.0, muni d’un paramètre de non-
linéarité 𝜎 borné polynomialement à l’ordre 𝑟 ≥ 1 tel que dans la défi-
nition 2.1. Fixons une donnée d’entrée 𝑥 𝛼 ∈ R𝑛0 , ainsi que des opérateurs
de dérivées directionnelles 𝑉 = {𝑉1 , . . . , 𝑉𝑝 } tels que dans la définition 2.2.
Fixons également un multi-index 𝐽 ∈ N 𝑝 tel que |𝐽 | ≤ 𝑟, et soit 𝑍 une
(𝐿+1)
variable aléatoire de loi normale centrée avec variance 𝑉𝛼𝐽 𝑉𝛽𝐽 𝐾𝛼𝛽
𝑥 𝛼 =𝑥 𝛽

14
où nous avons adopté la notation de la définition 2.2. Si la structure de co-
variance {𝐾 (ℓ) } évaluée au singleton {𝑥 𝛼 } est non-dégénérée (au sens de
la définition 2.2) jusqu’à l’ordre 𝑞 = |𝐽 | ≤ 𝑟, nous obtenons les résultats
suivants:

15
1. Il existe 𝐶 > 0, dépendant de 𝑟, 𝑉, 𝐽, 𝑥 𝛼 , P, avec la propriété suivante:
pour tout 𝑖 = 1, . . . , 𝑛 𝐿+1 ,
n o
(𝐿+1) (𝐿+1)
max W1 (𝑉𝛼𝐽 𝑧𝑖;𝛼 , 𝑍), 𝑑𝑇𝑉 (𝑉𝛼𝐽 𝑧𝑖;𝛼 , 𝑍) ≤ 𝐶𝑛−1

et la constante 𝐶 peut être choisie uniformément lorsque ∥𝑥 𝛼 ∥ 2 /𝑛0


varie sur un ensemble compact.
2. la dépendance en 𝑛 en 1. est optimale lorsque 𝑞 = 0 dans le sens
suivant: soit 𝑍 ′ une variable aléatoire normale centrée de la même
(𝐿+1)
variance que 𝑧𝑖;𝛼 , il existe alors 𝐶0 , dépendant de 𝑥 0 et P, tel que
pour tout 𝑖 = 1, . . . 𝑛 𝐿+1 ,
n o
(𝐿+1) (𝐿+1)
min W1 (𝑧𝑖;𝛼 , 𝑍 ′), 𝑑𝑇𝑉 (𝑧𝑖;𝛼 , 𝑍 ′) ≥ 𝐶0 𝑛−1

Quelques remarques:
• Le point 1. fournit une borne décroissante en 𝑛, qui est la contrainte
sur les dimensions des différentes couches du réseau neuronal (𝑐 2 𝑛 ≤
𝑛1 , . . . , 𝑛 𝐿 ≤ 𝑐 1 𝑛, où 𝑐 1 et 𝑐 2 sont des constantes fixées: les dimen-
sions des couches cachées croissent linéairement avec 𝑛, avec des
bornes fixées par 𝑐 1 et 𝑐 2 ).
• Le point 1. indique également que la constante 𝐶 peut être choisie de
2
manière à rester uniforme, peu importe comment la quantité ∥𝑥𝑛𝛼0∥
varie sur un ensemble compact. Cela signifie que la constante 𝐶
ne dépend pas spécifiquement des valeurs individuelles de 𝑥 𝛼 mais
plutôt de la manière dont ces valeurs varient sur un ensemble com-
pact. Ainsi, même si les valeurs de 𝑥 𝛼 changent dans cet ensemble
compact, la constante 𝐶 reste stable et ne dépend que de la structure
générale de cet ensemble. Cette propriété permet d’avoir une certaine
uniformité dans le comportement du réseau neuronal sur cet ensemble
de données d’entrée.
• Le point 2. garantit l’existence d’une constante 𝐶0 telle que la dis-
tance minimale entre la sortie du réseau neuronal et une autre variable
aléatoire normale centrée 𝑍 ′ soit au moins de l’ordre de 𝑛−1 . Ce cas a
lieu lorsque 𝑞 = 0, i.e. lorsque nous considérons le cas où il n’y a pas
de dépendance en direction des dérivées pour la variable aléatoire en
question. Autrement dit, lorsque nous n’examinons pas la variation
de la covariance par rapport à différentes directions. Cette propriété
assure que, dans le cas considéré, la distance entre la sortie du réseau
neuronal et une variable aléatoire normale centrée décroît de manière
suffisamment rapide lorsque la taille du réseau neuronal augmente.

16
Un exemple de situation où le théorème s’applique est le cas où 𝜎(𝑡) =
𝑅𝑒𝐿𝑈 (𝑡) = max{0, 𝑡}, 𝐶𝑏 = 0, 𝐶𝑤 = 2 et 𝑉 = {𝜕𝑥𝑖 } pour un certain 𝑖. Pour
une donnée d’entrée non-nulle 𝑥 𝛼 , un calcul simple montre que
(ℓ) 2 2 (ℓ) 2
𝐾𝛼𝛼 = 𝑛0 ∥𝑥 𝛼 ∥ et 𝜕𝑥𝑖;𝛼 𝜕𝑥𝑖;𝛽 𝐾𝛼𝛽 = 𝑛0
𝛼=𝛽

La structure de covariance évaluée au singleton 𝑥 𝛼 est donc non-dégénérée


à l’ordre 0 à l’ordre 1 pour l’opérateur 𝑉.

Notons que 𝑉𝛼0 correspond à l’opérateur identité. Le théorème dans le


cas |𝐽 | = 0 fournit dès lors des théorèmes centraux-limites quantitatifs pour
(𝐿+1)
les variables aléatoires 𝑧𝑖;𝛼 .

Enfin, dans les approximations probabilistiques, une mesure typique de


distance entre les distributions de deux variables aléatoires 𝑋, 𝑌 est la dis-
tance de Kolmogorov définie comme étant
𝑑 𝐾 (𝑋, 𝑌 ) := sup𝑡∈R |𝑃(𝑋 > 𝑡) − 𝑃(𝑌 > 𝑡)|
Nous observons l’inégalité suivante: 𝑑𝑇𝑉 > 𝑑 𝐾 . Le théorème fournit
(𝐿+1)
donc également une borne sur la distance de Kolmogorov 𝑑 𝐾 (𝑉𝛼𝐽 𝑧𝑖;𝛼 , 𝑍).

Nous donnons maintenant une preuve heuristique du résultat. Cette


preuve se basera sur les théorèmes et propositions suivants (le lecteur in-
téressé par les détails des preuves peut se référer à [1]) :

Le premier théorème, pour lequel nous donnons une preuve heuristique


du résultat établit des bornes pour la variance et l’espèrance de certaines
quantités. Il montre en particulier que ces quantités deviennent de plus
en plus concentrées autour de leurs valeurs asymptotiques à mesure que le
nombre de neurones augmente.
Theorem 3.5. (Thm 3.1, Corollaire 3.4, Equation (11.31) dans [2]). Soit
𝑥 𝛼 ∈ R𝑛0 ↦→ 𝑧 𝛼(𝐿+1) ∈ R𝑛 𝐿+1 un réseau neuronal aléatoire vérifiant l’hypothèse
3.0 où, pour 𝑟 ≥ 1, 𝜎 est bornée polynomialement à l’ordre 𝑟 au sens de
la définition 2.1. Fixons également une collection d’entrées de réseau dis-
tinctes non nulles
𝑥 𝐴 := {𝑥 𝛼 , 𝛼 ∈ 𝐴}
et des opérateurs de dérivation directionnels {𝑉1 , . . . , 𝑉𝑝 } comme dans (2.2).
Supposons que soit 𝜎 est lisse, soit que la structure de covariance à largeur
infinie 𝐾 (ℓ) soit non dégénérée à l’ordre 𝑞 ≤ 𝑟 sur 𝑥 𝐴 par rapport à 𝑉, au
sens de la définition 2.4. Alors nous obtenons les relations asymptotiques
suivantes :

17
1. Pour ℓ = 1, . . . , 𝐿, tous les multi-indices 𝐽1 , 𝐽2 d’ordre au plus 𝑞, et
toutes les entrées de réseau 𝑥 𝛼1 , 𝑥 𝛼2 ∈ 𝑥 𝐴 , nous avons pour tout 𝑛 ≥ 1
 
(ℓ) (ℓ) (ℓ+1)
max Var(𝑉𝐽1 𝛼1 𝑉𝐽2 𝛼2 Σ𝛼1 𝛼2 ), 𝑉𝐽1 𝛼1 𝑉𝐽2 𝛼2 E[Σ𝛼1 𝛼2 ] − 𝐾𝛼1 𝛼2 ≤ 𝐶𝑛−1 ,
(3.5.1)
où pour un multi-index 𝐽 = ( 𝑗1 , . . . , 𝑗 𝑝 ) nous avons utilisé la notation
(2.2) et adopté les conventions notationales

𝑉𝐽1 𝛼1 𝑉𝐽2 𝛼1 Σ𝛼(ℓ)1 𝛼1 := 𝑉𝐽1 𝛼1 𝑉𝐽2 𝛼2 Σ𝛼(ℓ)1 𝛼2 | 𝑥 𝛼1 =𝑥 𝛼2 ,


𝑉𝐽1 𝛼1 𝑉𝐽2 𝛼1 E[Σ𝛼(ℓ)1 𝛼1 ] := 𝑉𝐽1 𝛼1 𝑉𝐽2 𝛼2 E[Σ𝛼(ℓ)1 𝛼2 ]| 𝑥 𝛼1 =𝑥 𝛼2 ,
𝑉𝐽1 𝛼1 𝑉𝐽2 𝛼1 𝐾𝛼(ℓ)
1 𝛼1
:= 𝑉𝐽1 𝛼1 𝑉𝐽2 𝛼2 𝐾𝛼(ℓ) |
1 𝛼2 𝑥 𝛼1 =𝑥 𝛼2
.

La constante 𝐶 dépend de 𝛼1 , 𝛼2 , 𝐽1 , 𝐽2 , ℓ, 𝑟, 𝑞, 𝑃 mais est uniforme


sur 𝛼1 , 𝛼2 lorsque les rapports ∥𝑥 𝛼1 ∥ 2 /𝑛0 , ∥𝑥 𝛼2 ∥ 2 /𝑛0 varient sur un
ensemble compact.
2. Lorsque 𝑟 = 1 et 𝐴 = {𝛼} est un singleton, on a également que
(ℓ)
𝜅3 (Σ𝛼𝛼 ) ≤ 𝐶1 𝑛−2 , (3.5.2)
(ℓ)
𝜅4 (Σ𝛼𝛼 ) ≤ 𝐶2 𝑛−3 , (3.5.3)

où les constantes 𝐶1 , 𝐶2 dépendent de 𝛼, ℓ, 𝑃 et sont uniformes sur 𝛼


lorsque le rapport ∥𝑥 𝛼 ∥ 2 /𝑛0 varie sur un ensemble compact.
3. Encore lorsque 𝑟 = 1 et 𝐴 = {𝛼} est un singleton, il existe des con-
stantes strictement positives 𝐵1 , 𝐵2 et 𝐷 1 , 𝐷 2 (dépendant de 𝛼, ℓ, 𝑃 et
uniformes sur 𝛼 lorsque le rapport ∥𝑥 𝛼 ∥ 2 /𝑛0 varie sur un ensemble
compact) telles que
(ℓ)
Var(Σ𝛼𝛼 ) − 𝐵1 𝑛−1 ≤ 𝐵2 𝑛−2 , (3.5.4)
(ℓ) (ℓ+1)
E[Σ𝛼𝛼 ] − 𝐾𝛼𝛼 − 𝐷 1 𝑛−1 ≤ 𝐷 2 𝑛−2 . (3.5.5)

Preuve. La preuve du théorème étant technique nous référons le lecteur


intéressé à [2] pour plus de détails. Nous donnons ci-dessous une preuve
heuristique du résultat.

Nous considérons d’abord 4 propriétés des champs neuronaux aléatoires.


A savoir:

• La séquence des champs 𝑧 𝛼(ℓ) est une chaîne de Markov par rapport à
ℓ.

18
• Conditionnellement à l’algèbre sigma F (ℓ) définie par 𝑧 𝛼(ℓ) , le champ
𝑧 𝛼(ℓ+1) est un champ gaussien avec des composantes indépendantes
(ℓ+1)
𝑧𝑖;𝛼 .
(ℓ) (ℓ+1)
• La variance conditionnelle Σ𝛼𝛼 de chaque composante 𝑧𝑖;𝛼 dépend
de 𝑧 𝛼(ℓ) uniquement à travers des variables aléatoires de la forme
𝑛ℓ
1 ∑︁
𝑂 (ℓ)
𝑓 := (ℓ)
𝑓 (𝑧𝑖;𝛼 ).
𝑛ℓ 𝑖=1

• Les moments centrés des observables collectives dépendent de 𝑛 comme


(ℓ)
si les variables aléatoires 𝑓 (𝑧𝑖;𝛼 ) étaient indépendantes :
h 𝑞i  𝑞 
(ℓ) (ℓ)
E 𝑂 𝑓 − E[𝑂 𝑓 ] = 𝑂 𝑛−⌈ 2 ⌉ , 𝑞 ≥ 0.

(ℓ)
Nous étudions à présent la moyenne et la variance de Σ𝛼𝛼 . En partic-
ulier, grâce à un développement en séries de puissances, nous trouvons des
bornes en 1/𝑛 pour ces quantités.
Nous considérons dans un premier temps la fonction caractéristique (𝜉 =
(𝜉1 , . . . , 𝜉𝑚 ) sont des variables duales):
" 𝑚
!#
∑︁
(ℓ+1)
𝑝 (ℓ+1) (𝜉) := E exp −𝑖 𝜉𝑖 𝑧𝑖;𝛼
𝑖=1

En conditionnant sur 𝑧 𝛼(ℓ) et en utilisant le fait que, étant donné 𝑧 𝛼(ℓ) ,


les neurones à la couche ℓ + 1 suivent une distribution gaussienne, nous
obtenons:
  
(ℓ+1) 1 2 (ℓ)
𝑝 (𝜉) := E exp − ∥𝜉 ∥ Σ𝛼𝛼
2
Ensuite, en écrivant
h i h i
(ℓ) (ℓ) (ℓ) (ℓ) (ℓ)
𝜅 𝛼𝛼 := E Σ𝛼𝛼 , Δ𝛼𝛼 := Σ𝛼𝛼 − E Σ𝛼𝛼 ,

nous trouvons
    
(ℓ+1) 1 (ℓ) 1 2 (ℓ)
𝑝 (𝜉) := E exp − ∥𝜉 ∥ 2 Δ𝛼𝛼 exp − ∥𝜉 ∥ 𝜅 𝛼𝛼 .
2 2
Où le second terme est précisément la fonction caractéristique d’une
Gaussienne centrée m-dimensionelle avec des composants i.i.d. de variance
(ℓ)
𝜅 𝛼𝛼 . De plus, le premier terme peut s’écrire:

19
   i (−1) 𝑞
1 (ℓ)
∑︁ h
(ℓ) 𝑞
E exp − ∥𝜉 ∥ 2 Δ𝛼𝛼 = E (Δ𝛼𝛼 ) ∥𝜉 ∥ 2𝑞
2 𝑞≥0
2 𝑞!
𝑞

(ℓ+1)
Enfin, puisque −∥𝜉 ∥ 2 représente le Laplacien dans les variables 𝑧𝑖;𝛼 ,
nous avons, pour toute fonction test raisonnable 𝑓 , que


* 𝑚 +
h 
(ℓ+1)
i ∑︁ 1 h
(ℓ) 𝑞
i ∑︁  𝑞
𝜕𝑧2𝑖 ;𝛼 𝑓 𝑧𝑖;𝛼 , 𝑖 = 1, . . . , 𝑚

E 𝑓 𝑧𝑖;𝛼 , 𝑖 = 1, . . . , 𝑚 = E (Δ𝛼𝛼 )
𝑞=0
2𝑞 𝑞! 𝑖=1 (ℓ )
𝜅 𝛼𝛼

Et la quatrième propriété annoncée en début de preuve, à savoir


h 𝑞i  𝑞 
E 𝑂 (ℓ)
𝑓 − E[𝑂 (ℓ)
𝑓 ] = 𝑂 𝑛−⌈ 2 ⌉ , 𝑞 ≥ 0.

nous assure que notre expression est une série de puissance d’ordre 1/𝑛.
En particulier,

h  i
(ℓ+1)  
E 𝑓 𝑧𝑖;𝛼 , 𝑖 = 1, . . . , 𝑚 = E 𝑓 𝑧𝑖;𝛼 , 𝑖 = 1, . . . , 𝑚 𝜅 (ℓ )
𝛼𝛼
h i
(ℓ) 2 *
E (Δ𝛼𝛼 ) 𝑚 
+
∑︁ 2
𝜕𝑧2𝑖 ;𝛼 𝑓 𝑧𝑖;𝛼 , 𝑖 = 1, . . . , 𝑚

+
8 𝑖=1 (ℓ )
𝜅 𝛼𝛼
 
+ 𝑂 𝑛−2 . □

Proposition 3.6. Soit 𝐹 une variable aléatoire centrée avec une variance
finie 𝜎 2 > 0, et considérons 𝑍 ∼ 𝑁 (0, 𝜎 2 ). Supposons qu’il existe une
variable aléatoire auxiliaire intégrable 𝐴 ≥ 0 telle que, conditionnellement
à 𝐴, la variable aléatoire 𝐹 suive une distribution gaussienne centrée avec
variance 𝐴. Alors, pour toutes fonctions 𝑓 : R → R continûment différen-
tiables et lipschitziennes et toute 𝜑 : R+ → R bornée,

E[𝐹 𝑓 (𝐹)𝜑( 𝐴)] = E[ 𝐴 𝑓 ′ (𝐹)𝜑( 𝐴)], (3.6.1)

de sorte que, en particulier, 𝜎 2 = E( 𝐴). De plus, les deux propriétés suiv-


antes tiennent :
1. si 𝐴 est de carré intégrable, alors
8
𝑑𝑇𝑉 (𝐹, 𝑍) ≤ Var( 𝐴), (3.6.2)
𝜎4
4
𝑊1 (𝐹, 𝑍) ≤ 3 Var( 𝐴); (3.6.3)
𝜎

20
2. si E( 𝐴4 ) < ∞, alors
 
−𝜎 2 /2 1 1 2 3
min{2𝑑𝑇𝑉 (𝐹, 𝑍); 𝑊1 (𝐹, 𝑍)} ≥ 𝑒 Var( 𝐴) − E[( 𝐴 − 𝜎 ) ] + 𝑅 ,
8 48
(3.6.4)
1 𝜎 2 /2
où |𝑅| ≤ 384 𝑒 E[( 𝐴 − 𝜎 2 ) 4 ].

21
Remarque 3.7. Si 𝑍1 ∼ 𝑁 (0, 𝜎12 ) et 𝑍2 ∼ 𝑁 (0, 𝜎22 ), alors [3, Proposition
3.6.1] implique que
2
𝑑𝑇𝑉 (𝑍1 , 𝑍2 ) ≤ × |𝜎12 − 𝜎22 |. (3.7.1)
𝜎12 ∨ 𝜎22

De plus, en choisissant comme couplage 𝑇 = 𝜎1 · 𝑍 et 𝑆 = 𝜎2 · 𝑍, avec


𝑍 ∼ 𝑁 (0, 1), on en déduit que

𝑊1 (𝑍1 , 𝑍2 ) ≤ |𝜎1 − 𝜎2 |. (3.7.2)

Preuve du Théorème 3.4


Fixons 𝐽 et 𝑥 𝛼 comme dans l’énoncé. Conditionnellement à 𝐹 (𝐿) , la variable
(𝐿+1) (𝐿)
aléatoire 𝑉𝛼𝐽 𝑧𝑖;𝛼 est centrée et gaussienne, avec une variance 𝑉𝛼𝐽 𝑉𝛽𝐽 Σ𝛼𝛽 𝑥 𝛼 =𝑥 𝛽
:=
𝐴.
En écrivant 𝑑 pour 𝑑𝑇𝑉 ou 𝑊1 et en désignant par 𝑌 une variable aléatoire
gaussienne centrée avec une variance E( 𝐴), on en déduit que
(𝐿+1) (𝐿+1)
𝑑 (𝑉𝛼𝐽 𝑧𝑖;𝛼 , 𝑍) ≤ 𝑑 (𝑉𝛼𝐽 𝑧𝑖;𝛼 , 𝑌 ) + 𝑑 (𝑌 , 𝑍) := 𝑃 + 𝑄,

et la conclusion du Point (1) est obtenue en bornant 𝑃 et 𝑄 à l’aide de


(3.6.2)–(3.6.3) et (3.7.1)–(3.7.2), respectivement, puis en appliquant (3.5.1)
dans le cas 𝐽1 = 𝐽2 = 𝐽, ℓ = 𝐿 et 𝛼1 = 𝛼2 = 𝛼. Le Point (2) de l’énoncé
(𝐿) (𝐿)
découle de (3.6.4) dans le cas 𝐴 = Σ𝛼𝛼 et 𝜎 2 = E(Σ𝛼𝛼 ), qu’il faut combiner
avec (3.5.4), et le fait que, dans cette configuration spécifique et en vertu de
(3.5.3),
|𝑅 + E[( 𝐴 − 𝜎 2 ) 3 ]| ≤ 𝑄𝑛−2 ,
pour une certaine constante 𝑄 indépendante de 𝑛. Nous observons que,
pour déduire cette dernière relation, nous avons utilisé les deux identités
élémentaires : E[( 𝐴 − 𝜎 2 ) 3 ] = 𝜅3 ( 𝐴), et E[( 𝐴 − 𝜎 2 ) 4 ] = 𝜅4 ( 𝐴) + 3𝜅 2 ( 𝐴) 2 .

22
4 TCL quantitatif en dimension finie
Le second résultat concerne le niveau fini-dimensionnel. Nous com-
mencons par rappeler la définition de distance convexe entre deux distribu-
tions.
Definition 4.5 (Distance convexe).
Pour tout entier 𝑚 ≥ 1, la distance convexe entre les distributions de
deux vecteurs aléatoires m-dimensionnels 𝑋, 𝑌 est

𝑑 𝑐 (𝑋, 𝑌 ) := sup𝐵 |𝑃(𝑋 ∈ 𝐵) − 𝑃(𝑌 ∈ 𝐵)|

où le supremum est pris sur tous les ensembles convexes 𝐵 ⊂ R𝑚 .


La distance convexe est une généralisation de la distance de Kolmogorov
dans un contexte multivarié.
Rappelons également la définition d’un champ aléatoire:
Definition 4.6 (Champ aléatoire).
Soit un espace de probabilité (Ω, F , 𝑃). Un champ aléatoire est une
collection de variables aléatoires sur cet espace de probabilité indexée par
des éléments d’un espace topologique 𝑇. Un champ aléatoire est donc une
collection {𝐹𝑡 ; 𝑡 ∈ 𝑇 } où chaque 𝐹𝑡 est une variable aléatoire.
Le champ aléatoire est dit gaussien lorsque les variables aléatoires sont
distribuées selon une loi gaussienne.
Nous énonçons maintenant notre second résultat, qui fournit une borne
pour la distance convexe entre la sortie d’un réseau neuronal au niveau fini-
dimensionnel et une variable aléatoire normale de même dimension. Ce
résultat est donné sans preuve mais le lecteur intéressé peut se référer à [1].
Theorem 4.7 (Bornes finies-dimensionnelles).
Soit 𝑥 𝛼 ∈ R𝑛0 ↦→ 𝑧 𝛼(𝐿+1) ∈ R𝑛 𝐿+1 un réseau neuronal aléatoire s’inscrivant
dans le cadre fournit par l’hypothèse 3.0 avec un paramètre de non-linéarité
𝜎 borné polynomialement jusqu’à l’ordre 𝑟 ≥ 1 au sens de la définition
2.1. Fixons 𝑚 ≥ 1, un ensemble A = {𝛼1 , . . . , 𝛼𝑚 }, une collection finie
d’entrées du réseau distinctes non-nulles
{𝑥 𝛼 : 𝛼 ∈ A} ⊆ R𝑛0
et une collection de dérivées directionnelles 𝑉 = {𝑉1 , . . . , 𝑉𝑝 } telle que
dans la définition 2.1. Considérons également une famille B = {(𝐽 𝑘 , 𝛼𝑘 ) :
𝑘 = 1, . . . , 𝑀 } de paires distinctes tels que 𝑀 ≥ 2 et où 𝐽 𝑘 ∈ N 𝑝 est un
multi-index vérifiant |𝐽 𝑘 | ≤ 𝑟 et 𝛼𝑙 ∈ A. Enfin, pour tout multi-index
𝐽 = ( 𝑗 1 , . . . , 𝑗 𝑝 ) ∈ N 𝑝 posons

23
 
𝐽 𝑘 (𝐿+1)
𝐺 := 𝑉𝛼𝑘 Γ𝑖;𝛼𝑘 ∈ R 𝑀×𝑛 𝐿+1
1≤𝑖≤𝑛 𝐿+1 ,(𝐽 𝑘 ,𝛼 𝑘 )∈B

(𝐿+1)
où R𝑛0 ∋ 𝑥 𝛼 ↦→ (Γ1;𝛼 , . . . , Γ𝑛(𝐿+1)
𝐿+1 ;𝛼
) est un champ aléatoire gaussien avec
covariance
 
(𝐿+1)
Cov Γ𝑖;𝛼 , Γ (𝐿+1)
𝑗;𝛽
(𝐿+1)
= 𝛿𝑖 𝑗 𝐾𝛼𝛽

comme défini dans le théorème 1.1. Nous obtenons alors les résultats suiv-
ants:

(1) Supposons que la structure de covariance en largeur infinie {𝐾 (ℓ) :


ℓ = 1, ..., 𝐿 + 1} soit non-dégénérée jusqu’à l’ordre 𝑟 sur {𝑥 𝛼 : 𝛼 ∈ 𝐴} par
rapport à 𝑉, au sens de la Définition 2.2. Alors, la matrice de covariance de
𝐺 est inversible, et il existe une constante 𝐶0 > 0 dépendant de 𝜎, 𝑉, 𝑟, 𝐵, P
telle que n o (𝐽𝑘 ,𝛼𝑘 )∈𝐵 
𝐽 𝑘 (𝐿+1)
𝑑 𝑐 𝑉𝛼𝑘 𝑧𝑖;𝛼𝑘 , 𝐺 ≤ 𝐶0 𝑛−1/2 , (4.7.1)
1≤𝑖≤𝑛 𝐿+1
n o (𝐽𝑘 ,𝛼𝑘 )∈𝐵
(𝐿+1)
où nous avons implicitement considéré 𝑉𝛼𝐽𝑘𝑘 𝑧𝑖;𝛼 et 𝐺 comme
𝑘 1≤𝑖≤𝑛 𝐿+1
des vecteurs aléatoires de dimension (𝑀 · 𝑛 𝐿+1 ).
(2) Supposons que la non-linéarité 𝜎 soit lisse (𝜎 ∈ 𝐶 ∞ (R)). Alors, il
existe une constante 𝐶1 > 0 dépendant de 𝜎, 𝑉, 𝑟, 𝐵, P telle que
n o (𝐽𝑘 ,𝛼𝑘 )∈𝐵 
𝐽 𝑘 (𝐿+1)
𝑑 𝑐 𝑉𝛼𝑘 𝑧𝑖;𝛼𝑘 , 𝐺 ≤ 𝐶1 𝑛−1/2 ,

(4.7.2)
1≤𝑖≤𝑛 𝐿+1


(𝐽 𝑘 ,𝛼 𝑘 )∈𝐵
𝐺 ′ := 𝑉𝛼𝐽𝑘𝑘 Γ𝑖;𝛼


𝑘 1≤𝑖≤𝑛 𝐿+1
∈ R 𝑀×𝑛 𝐿+1 ,
′ , ..., Γ′
et R𝑛0 ∋ 𝑥 𝛼 ↦→ (Γ1;𝛼 𝑛 𝐿+1 ;𝛼 ) est le champ gaussien centré avec covari-
ance
′ (𝐿) (𝐿+1)
Cov(Γ𝑖;𝛼 , Γ′𝑗;𝛽 ) = 𝛿𝑖 𝑗 E[Σ𝛼𝛽 ] = 𝛿𝑖 𝑗 𝜅 𝛼𝛽

Le théorème établit que, sous certaines conditions (non-dégénérescence


de la structure de covariance et non-linéarité lisse), les dérivées direction-
nelles du réseau neuronal peuvent être approximées par un champ gaussien
avec une précision donnée par une borne en 𝑛−1/2 . Cela signifie que pour
des réseaux de grande taille, les propriétés statistiques des dérivées direc-
tionnelles sont bien décrites par un champ gaussien, facilitant l’analyse et
la compréhension des réseaux neuronaux profonds.

24
5 Illustration du TCL quantitatif en dimension 1
Dans cette section, nous utilisons un code R afin d’illustrer le com-
portement des sorties d’un réseau de neurones simple avec une largeur
de couche finie en comparaison avec une distribution gaussienne. Nous
générons des échantillons de données i.i.d., entraînons un réseau de neu-
rones, et comparons ses sorties à celles d’une variable gaussienne ayant la
même moyenne et écart-type.
Nous utilisons des histogrammes pour visualiser la distribution des sor-
ties du réseau et des variables gaussiennes, et nous calculons nos deux
mesures clés pour quantifier la proximité entre ces deux distributions :

1. Distance de Wasserstein : quantifie la "distance" entre les deux distri-


butions en termes de transport optimal.
2. Distance de Variation Totale : évalue la différence globale entre les
distributions en termes de variation totale des fréquences.

Nous utiliserons 3 tailles d’échantillons: 𝑛 = 500, 𝑛 = 1000 et 𝑛 = 2000.

Figure 2: Histogramme des sorties du réseau de neurones vs variables gaussiennes,


n=500.

25
Figure 3: Histogramme des sorties du réseau de neurones vs variables gaussiennes,
n=1000.

Figure 4: Histogramme des sorties du réseau de neurones vs variables gaussiennes,


n=2000.

26
Les distances de Variation Totale et de Wasserstein pour nos 3 tailles
d’échantillons sont reprises dans le tableau suivant.

Nombre d’observations (𝑛) Distance de Wasserstein Distance de Variation Totale


500 0.0441 0.0980
1000 0.0491 0.1130
2000 0.0352 0.0760

Table 1: Distances pour différentes tailles d’échantillons.

Nous observons des distances relativement similaires pour les échan-


tillons de taille 𝑛 = 500 et 𝑛 = 1000, ce qui à première vue peut sem-
bler contre-intuitif (les distances augmentent même lorsque l’on passe de
𝑛 = 500 à 𝑛 = 1000) et une diminution de ces dernières pour notre plus
grand échantillon (𝑛 = 2000). Les distances ne suivent donc pas une ten-
dance strictement croissante ou décroissante avec la taille de l’échantillon.
Cependant, les plus grandes tailles d’échantillons (𝑛 = 2000) tendent à ré-
duire les divergences entre les distributions.
Les variations des distances pour 𝑛 = 500 et 𝑛 = 1000 indiquent en effet
que la taille de l’échantillon seule ne garantit pas toujours une meilleure
correspondance. D’autres facteurs, comme la variabilité aléatoire dans les
données et les caractéristiques spécifiques du modèle, jouent également un
rôle important.
De façon générale, la simulation tend à confirmer le théorème central-
limite quantitatif en 1 dimension, une taille d’échantillon plus grande per-
mettant d’obtenir une meilleure correspondance entre les sorties du réseau
de neurones et les variables gaussiennes.

27
6 Annexe
Code R utilisé pour générer les histogrammes de la section 5.
1 # Installer et charger les packages necessaires
2 if (!requireNamespace("nnet", quietly = TRUE)) {
3 install.packages("nnet")
4 }
5 if (!requireNamespace("ggplot2", quietly = TRUE)) {
6 install.packages("ggplot2")
7 }
8 if (!requireNamespace("transport", quietly = TRUE)) {
9 install.packages("transport")
10 }
11 library(nnet)
12 library(ggplot2)
13 library(transport)
14
15 # Fonction pour executer l’analyse et creer les histogrammes
16 run_analysis <- function(n_samples) {
17 # Parametres
18 n_features <- 30 # Nombre de variables i.i.d
19
20 # Generer des donnees i.i.d.
21 set.seed(123)
22 X <- matrix(rnorm(n_samples * n_features), nrow = n_samples,
ncol = n_features)
23 Y <- rnorm(n_samples)
24
25 # Construire un reseau de neurones simple avec une taille de
reseau reduite
26 model <- nnet(X, Y, size = 10, linout = TRUE, maxit = 100)
27
28 # Obtenir la sortie du modele
29 outputs <- predict(model, X)
30
31 # Calculer les variables aleatoires gaussiennes
32 output_mean <- mean(outputs)
33 output_sd <- sd(outputs)
34 Z <- rnorm(n_samples, mean = output_mean, sd = output_sd)
35
36 # Determiner les breaks pour les histogrammes
37 breaks <- seq(min(c(outputs, Z)), max(c(outputs, Z)), length.out
= 31)
38
39 # Calculer les histogrammes
40 hist_nn <- hist(outputs, breaks = breaks, plot = FALSE)
41 hist_gaussian <- hist(Z, breaks = breaks, plot = FALSE)
42
43 # Normaliser les histogrammes
44 hist_nn_density <- hist_nn$counts / sum(hist_nn$counts)
45 hist_gaussian_density <- hist_gaussian$counts / sum(hist_
gaussian$counts)
46

28
47 # Fonction pour calculer la distance de variation totale
48 total_variation_distance <- function(hist1, hist2) {
49 0.5 * sum(abs(hist1 - hist2))
50 }
51
52 # Calculer la distance de Wasserstein
53 w1_distance <- wasserstein1d(as.vector(outputs), Z)
54
55 # Calculer la distance de variation totale
56 dT_distance <- total_variation_distance(hist_nn_density, hist_
gaussian_density)
57
58 # Tracer les histogrammes
59 df <- data.frame(
60 values = c(as.vector(outputs), Z),
61 type = rep(c("Neural Network Outputs", "Gaussian Variables"),
each = n_samples)
62 )
63
64 plot <- ggplot(df, aes(x = values, fill = type)) +
65 geom_histogram(position = "identity", alpha = 0.5, bins =
length(breaks) - 1) +
66 labs(title = sprintf("Histogramme des sorties du reseau de
neurones vs. Variables gaussiennes (n = %d)", n_samples),
x = "Valeur", y = "Frequence") +
67 theme_minimal()
68
69 return(list(plot = plot, w1_distance = w1_distance, dT_distance
= dT_distance))
70 }
71
72 # Executer l’analyse pour differents nombres d’observations
73 results_500 <- run_analysis(500)
74 results_1000 <- run_analysis(1000)
75 results_2000 <- run_analysis(2000)
76
77 # Afficher les histogrammes
78 print(results_500$plot)
79 print(results_1000$plot)
80 print(results_2000$plot)
81
82 # Sauvegarder les histogrammes dans des fichiers separes
83 ggsave("histogram_500.png", plot = results_500$plot, width = 8,
height = 6)
84 ggsave("histogram_1000.png", plot = results_1000$plot, width = 8,
height = 6)
85 ggsave("histogram_2000.png", plot = results_2000$plot, width = 8,
height = 6)
86
87 # Imprimer les distances
88 cat(sprintf("Pour n = 500:\n"))
89 cat(sprintf("Distance de Wasserstein: %.4f\n", results_500$w1_
distance))
90 cat(sprintf("Distance de variation totale: %.4f\n", results_500$dT

29
_distance))
91 cat(sprintf("Pour n = 1000:\n"))
92 cat(sprintf("Distance de Wasserstein: %.4f\n", results_1000$w1_
distance))
93 cat(sprintf("Distance de variation totale: %.4f\n", results_1000$
dT_distance))
94 cat(sprintf("Pour n = 2000:\n"))
95 cat(sprintf("Distance de Wasserstein: %.4f\n", results_2000$w1_
distance))
96 cat(sprintf("Distance de variation totale: %.4f\n", results_2000$
dT_distance))

30
7 Bibliographie
[1] Stefano Favaro, Boris Hanin, Domenico Marinucci, Ivan Nourdin,
Giovanni Peccati: “Quantitative CLTs in Deep Neural Networks”,
2023; arXiv:2307.06092.
[2] Boris Hanin: “Random fully connected neural networks as perturba-
tively solvable hierarchies”, 2022; arXiv:2204.01058.
[3] Ivan Nourdin, Giovanni Peccati: "The optimal fourth moment theo-
rem." Proceedings of the American Mathematical Society, 2015, 145(7):3123–3133.

31

Vous aimerez peut-être aussi