Dans tout ce qui suit, \( X \) et \( Y \) désignent deux variables aléatoires réelles définies sur un espace probabilisé \( (\Omega, {\cal M}, P) \).
Qui plus est, nous supposons que \( X \) et \( Y \) admettent chacune une espérance et une variance.
1. Notion de covariance
1. Définition : la covariance du couple \( (X; Y) \) est définie par :
\( Cov(X; Y) = E\big( (X - E(X)) \) \( \times(Y - E(Y)) \big) \)
Notons que \( Cov(X; X) = V(X)\geqslant 0 \).
Pour calculer la covariance, on s'appuie très souvent sur le théorème de König-Huygens.
2. Théorème [de König-Huygens]
\( Cov(X; Y) = E(XY) - E(X) E(Y) \)
Démonstration : commençons par développer l'expression proposée
\( \displaystyle Cov(X; Y) = E\big( (X - E(X)) \)\( \displaystyle \times(Y - E(Y)) \big) \)
\( \displaystyle \phantom{Cov(X; Y)} = E\bigl( XY - E(X)Y - E(Y) X \)\( \displaystyle + E(X)E(Y) \bigr) \)
Par linéarité de l'espérance :
\( \displaystyle Cov(X; Y) = E(XY) - E(X)E(Y) \)\( \displaystyle \underbrace{- E(Y)E(X) + E(X)E(Y)}_{= 0} \)
■
Un cas particulier va beaucoup nous intéresser : si les variables sont indépendantes.
3. Rappel : si \( X \) et \( Y \) sont indépendantes, alors \( E(XY) = E(X)E(Y) \).
4. Corollaire: de manière équivalente, si \( X \) et \( Y \) sont indépendantes, alors \( Cov(X; Y) = 0 \).
Rappelons que cette propriété, quelque soit son écriture, n'a pas de réciproque… nous l'avons déjà constaté dans le chapitre sur les moments des couples.
2. Consdérations topologiques
1. Propriété : la covariance est une forme bilinéaire symétrique positive définie sur \( L^2(\Omega, {\cal M}, P) \).
Démonstration : la positivité a déjà été montrée, la symétrie est immédiate au vu du théorème de König-Huygens. Il reste à justifier la bilinéarité.
Pour tout \( a\in{\mathbb R} \) et \( Z\in L^2(\Omega, {\cal M}, P) \),
\( \displaystyle Cov(aX + Z; Y) \)\( \displaystyle = E\big( (aX + Z - E(aX + Z)) \)\( \displaystyle \times(Y - E(Y)) \big) \)
\( \displaystyle ~ = E\Big( \big( (aX - aE(X)) + (Z - E(Z)) \big) \)\( \displaystyle \times\big(Y - E(Y) \big) \Big) \)
\( \displaystyle ~ = E\big( a(X - E(X))\times(Y - E(Y)) \)\( \displaystyle + (Z - E(Z))\times(Y - E(Y)) \big) \)
\( \displaystyle ~ = a \underbrace{E\big((X - E(X))\times(Y - E(Y))\big)}_{Cov(X; Y)} \)\( \displaystyle + \underbrace{E\big((Z - E(Z))\times(Y - E(Y)) \big)}_{Cov(Z; Y)} \)
■
Notons que la covariance n'est pas un produit scalaire : il manque la définie-positivité. En effet, \( V(X) = 0 \) implique le plus souvent que \( X \) est constante, mais pas forcément \( X = 0 \).
Ceci étant, la covariance hérite des propriétés calculatoires classiques des espaces préhilbertiens réels ne nécessitant pas la définie-positivité.
2. Corollaire [Identités remarquables]
\( \displaystyle V(X + Y) = V(X) + 2 Cov(X; Y) + V(Y) \)
\( \displaystyle V(X - Y) = V(X) - 2 Cov(X; Y) + V(Y) \)
\( \displaystyle V(X) - V(Y) = Cov(X + Y; X - Y) \)
3. Application : si \( X \) et \( Y \) sont indépendantes, alors \( V(X+Y) = V(X) + V(Y) \).
4. Corollaire [Identité du parallélogramme]
\( \displaystyle V(X + Y) + V(X - Y) = 2 V(X) + 2 V(Y) \)
5. Corollaire [Identités de polarisation]
\( \displaystyle Cov(X; Y) = \frac{V(X+Y) - V(X) - V(Y))}{2} \)
\( \displaystyle \phantom{Cov(X; Y)} = \frac{V(X) + V(Y) - V(X - Y)}{2} \)
\( \displaystyle \phantom{Cov(X; Y)} = \frac{V(X + Y) - V(X - Y)}{4} \)
6. Théorème [Inégalité de Cauchy-Schwarz]
\( |Cov(X; Y)| \leqslant \sigma_X\,\sigma_Y \)
Démonstration : un classique !
Considérons l'application \( P : {\mathbb R}\longrightarrow {\mathbb R} \) définie par \( P(t) = V(tX - Y) \). Développons cette expression :
\( \displaystyle P(t) = V(tX) - 2Cov(tX; Y) + V(Y) \)
\( \displaystyle \phantom{P(t)} = V(X)t^2 - 2Cov(X; Y)t + V(Y) \)
Ainsi, \( P \) est un polynôme du deuxième degré à valeurs positives.
Son discriminant est donc négatif, c'est à dire :
\( \displaystyle 4Cov(X; Y)^2 - 4V(X)V(Y) \leqslant 0 \)
\( \displaystyle Cov(X; Y)^2 \leqslant V(X)\,V(Y) \)
■
Une conséquence bien connue de l'inégalité de Cauchy-Schwartz est l'inégalité triangulaire de Minkowski. Dans le cas présent, elle s'écrit ainsi :
\( \displaystyle \sigma_{X + Y} \leqslant \sigma_X + \sigma_Y \)
Autrement dit, l'écart-type est une semi-norme sur \( L^2 \)… amusant, non ?
3. Corrélation
1. Définition : si \( X \) et \( Y \) admettent une variance non nulle, on appelle coefficient de corrélation :
\( \rho = \dfrac{Cov(X; Y)}{\sigma_X \sigma_Y} \)
Si \( \rho = 0 \), c'est à dire \( Cov(X; Y) = 0 \), on dit que \( X \) et \( Y \) sont non-corrélés ou linéairement-indépendants.
Attention à ne pas confondre avec la notion d'indépendance, déjà évoquée plus haut. Deux variables indépendantes sont non-corrélées. La réciproque est, comme toujours, fausse.
Si \( \rho \neq 0 \), on dit que \( X \) et \( Y \) sont corrélés.
2. Propriété : \( \rho \in[-1; 1] \)
Démonstration : immédiate au vu de l'inégalité de Cauchy-Schwartz.
■
3. Propriété : dans le cas de variables aléatoires discrètes, \( |\rho| = 1 \) si et seulement \( Y = aX + b \). Dans ce cas, \( \rho \) et \( a \) ont le même signe.
Démonstration : reprenons la démonstration de l'inégalité de Cauchy.
\( |\rho| = 1 \) équivaut à \( \rho^2 = 1 \), c'est à dire
\( \displaystyle V(X)V(Y) = Cov(X; Y)^2 \)
Ainsi, le discriminant du polynôme \( P \) est nul : celui-ci admet une racine double, c'est à dire qu'il existe un unique \( a\in{\mathbb R} \) telle que \( P(a) = 0 \). Donc
\( \displaystyle P(a) = V(a X - Y) = 0 \)
Ainsi \( \exists b\in{\mathbb R} \) telle que \( a X - Y = b \), c'est à dire \( Y = aX - b \). Finalement,
\( \displaystyle \rho = \dfrac{Cov(X; aX - b)}{\sqrt{V(X)V(aX - b)}} \)
\( \displaystyle \rho = \dfrac{a\,Cov(X;X) - Cov(X;b)}{\sqrt{V(X)a^ V(X)}} \)
\( \displaystyle \rho = \dfrac{a V(X)}{|a| V(X)} \)
\( \displaystyle \rho = \dfrac{a}{|a|} \)
■
Le coefficient de corrélation permet de mesurer la corrélation existant entre \( X \) et \( Y \).
Plus \( \rho \) se rapproche de \( \pm 1 \), plus les variables sont corrélées.
Plus \( \rho \) se rapproche de 0, plus les variables sont non-corrélées.


