Covariance et corrélation d'un couple de variables aléatoires réelles

Variable aléatoire réelle
| Dimanche 16 Novembre 2025

 
Nota Bene
Vous pouvez retrouver cet article sur YouTube !
Le texte est un peu différent : il a été relu et corrigé de nombreuses fois depuis la publication de la vidéo.
À vous de voir :)
 

Dans tout ce qui suit, \( X \) et \( Y \) désignent deux variables aléatoires réelles définies sur un espace probabilisé \( (\Omega, {\cal M}, P) \).

Qui plus est, nous supposons que \( X \) et \( Y \) admettent chacune une espérance et une variance.

1. Notion de covariance

1. Définition : la covariance du couple \( (X; Y) \) est définie par :

\( Cov(X; Y) = E\big( (X - E(X)) \) \( \times(Y - E(Y)) \big) \)

Notons que \( Cov(X; X) = V(X)\geqslant 0 \).

Pour calculer la covariance, on s'appuie très souvent sur le théorème de König-Huygens.

2. Théorème [de König-Huygens]

\( Cov(X; Y) = E(XY) - E(X) E(Y) \)

Démonstration : commençons par développer l'expression proposée

\( \displaystyle Cov(X; Y) = E\big( (X - E(X)) \)\( \displaystyle \times(Y - E(Y)) \big) \)

\( \displaystyle \phantom{Cov(X; Y)} = E\bigl( XY - E(X)Y - E(Y) X \)\( \displaystyle + E(X)E(Y) \bigr) \)

Par linéarité de l'espérance :

\( \displaystyle Cov(X; Y) = E(XY) - E(X)E(Y) \)\( \displaystyle \underbrace{- E(Y)E(X) + E(X)E(Y)}_{= 0} \)

Un cas particulier va beaucoup nous intéresser : si les variables sont indépendantes.

3. Rappel : si \( X \) et \( Y \) sont indépendantes, alors \( E(XY) = E(X)E(Y) \).

4. Corollaire: de manière équivalente, si \( X \) et \( Y \) sont indépendantes, alors \( Cov(X; Y) = 0 \).

Rappelons que cette propriété, quelque soit son écriture, n'a pas de réciproque… nous l'avons déjà constaté dans le chapitre sur les moments des couples.

2. Consdérations topologiques

1. Propriété : la covariance est une forme bilinéaire symétrique positive définie sur \( L^2(\Omega, {\cal M}, P) \).

Démonstration : la positivité a déjà été montrée, la symétrie est immédiate au vu du théorème de König-Huygens. Il reste à justifier la bilinéarité.
Pour tout \( a\in{\mathbb R} \) et \( Z\in L^2(\Omega, {\cal M}, P) \),

\( \displaystyle Cov(aX + Z; Y) \)\( \displaystyle = E\big( (aX + Z - E(aX + Z)) \)\( \displaystyle \times(Y - E(Y)) \big) \)

\( \displaystyle ~ = E\Big( \big( (aX - aE(X)) + (Z - E(Z)) \big) \)\( \displaystyle \times\big(Y - E(Y) \big) \Big) \)

\( \displaystyle ~ = E\big( a(X - E(X))\times(Y - E(Y)) \)\( \displaystyle + (Z - E(Z))\times(Y - E(Y)) \big) \)

\( \displaystyle ~ = a \underbrace{E\big((X - E(X))\times(Y - E(Y))\big)}_{Cov(X; Y)} \)\( \displaystyle + \underbrace{E\big((Z - E(Z))\times(Y - E(Y)) \big)}_{Cov(Z; Y)} \)

Notons que la covariance n'est pas un produit scalaire : il manque la définie-positivité. En effet, \( V(X) = 0 \) implique le plus souvent que \( X \) est constante, mais pas forcément \( X = 0 \).

Ceci étant, la covariance hérite des propriétés calculatoires classiques des espaces préhilbertiens réels ne nécessitant pas la définie-positivité.

2. Corollaire [Identités remarquables]

\( \displaystyle V(X + Y) = V(X) + 2 Cov(X; Y) + V(Y) \)

\( \displaystyle V(X - Y) = V(X) - 2 Cov(X; Y) + V(Y) \)

\( \displaystyle V(X) - V(Y) = Cov(X + Y; X - Y) \)

3. Application : si \( X \) et \( Y \) sont indépendantes, alors \( V(X+Y) = V(X) + V(Y) \).

4. Corollaire [Identité du parallélogramme]

\( \displaystyle V(X + Y) + V(X - Y) = 2 V(X) + 2 V(Y) \)

5. Corollaire [Identités de polarisation]

\( \displaystyle Cov(X; Y) = \frac{V(X+Y) - V(X) - V(Y))}{2} \)

\( \displaystyle \phantom{Cov(X; Y)} = \frac{V(X) + V(Y) - V(X - Y)}{2} \)

\( \displaystyle \phantom{Cov(X; Y)} = \frac{V(X + Y) - V(X - Y)}{4} \)

6. Théorème [Inégalité de Cauchy-Schwarz]

\( |Cov(X; Y)| \leqslant \sigma_X\,\sigma_Y \)

Démonstration : un classique !

Considérons l'application \( P : {\mathbb R}\longrightarrow {\mathbb R} \) définie par \( P(t) = V(tX - Y) \). Développons cette expression :

\( \displaystyle P(t) = V(tX) - 2Cov(tX; Y) + V(Y) \)

\( \displaystyle \phantom{P(t)} = V(X)t^2 - 2Cov(X; Y)t + V(Y) \)

Ainsi, \( P \) est un polynôme du deuxième degré à valeurs positives.
Son discriminant est donc négatif, c'est à dire :

\( \displaystyle 4Cov(X; Y)^2 - 4V(X)V(Y) \leqslant 0 \)

\( \displaystyle Cov(X; Y)^2 \leqslant V(X)\,V(Y) \)

Une conséquence bien connue de l'inégalité de Cauchy-Schwartz est l'inégalité triangulaire de Minkowski. Dans le cas présent, elle s'écrit ainsi :

\( \displaystyle \sigma_{X + Y} \leqslant \sigma_X + \sigma_Y \)

Autrement dit, l'écart-type est une semi-norme sur \( L^2 \)… amusant, non ?

3. Corrélation

1. Définition : si \( X \) et \( Y \) admettent une variance non nulle, on appelle coefficient de corrélation :

\( \rho = \dfrac{Cov(X; Y)}{\sigma_X \sigma_Y} \)

Si \( \rho = 0 \), c'est à dire \( Cov(X; Y) = 0 \), on dit que \( X \) et \( Y \) sont non-corrélés ou linéairement-indépendants.

Attention à ne pas confondre avec la notion d'indépendance, déjà évoquée plus haut. Deux variables indépendantes sont non-corrélées. La réciproque est, comme toujours, fausse.

Si \( \rho \neq 0 \), on dit que \( X \) et \( Y \) sont corrélés.

2. Propriété : \( \rho \in[-1; 1] \)

Démonstration : immédiate au vu de l'inégalité de Cauchy-Schwartz.

3. Propriété : dans le cas de variables aléatoires discrètes, \( |\rho| = 1 \) si et seulement \( Y = aX + b \). Dans ce cas, \( \rho \) et \( a \) ont le même signe.

Démonstration : reprenons la démonstration de l'inégalité de Cauchy.

\( |\rho| = 1 \) équivaut à \( \rho^2 = 1 \), c'est à dire

\( \displaystyle V(X)V(Y) = Cov(X; Y)^2 \)

Ainsi, le discriminant du polynôme \( P \) est nul : celui-ci admet une racine double, c'est à dire qu'il existe un unique \( a\in{\mathbb R} \) telle que \( P(a) = 0 \). Donc

\( \displaystyle P(a) = V(a X - Y) = 0 \)

Ainsi \( \exists b\in{\mathbb R} \) telle que \( a X - Y = b \), c'est à dire \( Y = aX - b \). Finalement,

\( \displaystyle \rho = \dfrac{Cov(X; aX - b)}{\sqrt{V(X)V(aX - b)}} \)

\( \displaystyle \rho = \dfrac{a\,Cov(X;X) - Cov(X;b)}{\sqrt{V(X)a^ V(X)}} \)

\( \displaystyle \rho = \dfrac{a V(X)}{|a| V(X)} \)

\( \displaystyle \rho = \dfrac{a}{|a|} \)

Le coefficient de corrélation permet de mesurer la corrélation existant entre \( X \) et \( Y \).
Plus \( \rho \) se rapproche de \( \pm 1 \), plus les variables sont corrélées.
Plus \( \rho \) se rapproche de 0, plus les variables sont non-corrélées.