$$\newcommand{\mtn}{\mathbb{N}}\newcommand{\mtns}{\mathbb{N}^*}\newcommand{\mtz}{\mathbb{Z}}\newcommand{\mtr}{\mathbb{R}}\newcommand{\mtk}{\mathbb{K}}\newcommand{\mtq}{\mathbb{Q}}\newcommand{\mtc}{\mathbb{C}}\newcommand{\mch}{\mathcal{H}}\newcommand{\mcp}{\mathcal{P}}\newcommand{\mcb}{\mathcal{B}}\newcommand{\mcl}{\mathcal{L}} \newcommand{\mcm}{\mathcal{M}}\newcommand{\mcc}{\mathcal{C}} \newcommand{\mcmn}{\mathcal{M}}\newcommand{\mcmnr}{\mathcal{M}_n(\mtr)} \newcommand{\mcmnk}{\mathcal{M}_n(\mtk)}\newcommand{\mcsn}{\mathcal{S}_n} \newcommand{\mcs}{\mathcal{S}}\newcommand{\mcd}{\mathcal{D}} \newcommand{\mcsns}{\mathcal{S}_n^{++}}\newcommand{\glnk}{GL_n(\mtk)} \newcommand{\mnr}{\mathcal{M}_n(\mtr)}\DeclareMathOperator{\ch}{ch} \DeclareMathOperator{\sh}{sh}\DeclareMathOperator{\th}{th} \DeclareMathOperator{\vect}{vect}\DeclareMathOperator{\card}{card} \DeclareMathOperator{\comat}{comat}\DeclareMathOperator{\imv}{Im} \DeclareMathOperator{\rang}{rg}\DeclareMathOperator{\Fr}{Fr} \DeclareMathOperator{\diam}{diam}\DeclareMathOperator{\supp}{supp} \newcommand{\veps}{\varepsilon}\newcommand{\mcu}{\mathcal{U}} \newcommand{\mcun}{\mcu_n}\newcommand{\dis}{\displaystyle} \newcommand{\croouv}{[\![}\newcommand{\crofer}{]\!]} \newcommand{\rab}{\mathcal{R}(a,b)}\newcommand{\pss}[2]{\langle #1,#2\rangle} $$
Bibm@th

Corrélation des variables aléatoires

Covariance de deux séries statistiques

La covariance de deux séries statistiques $X=(X_i)_{i=1,\dots, N})$ et $(Y_i)_{i=1,\dots, N}$ ayant le même nombre d'éléments est défini par $$\textrm{Cov}(X,Y)=\sum_{i=1}^N \frac{(X_i-\bar X)(Y_i-\bar Y)}{N}.$$ Il s'agit donc de la moyenne des produits des écarts des valeurs à la moyenne de chaque série.

Le coefficient de corrélation linéaire de ces deux séries est défini par $$\rho(X,Y)=\frac{\textrm{Cov}(X,Y)}{\sqrt{\textrm{Var}(X)}\sqrt{\textrm{Var}(Y)}}$$ où $\textrm{Var}(X)$ et $\textrm{Var}(Y)$ désignent respectivement les variances de $X$ et de $Y$.

Le coefficient de relation linéaire quantifie la force du lien linéaire entre $X$ et $Y$. Si $r=1$ ou $r=-1$, alors il existe deux réels $a$ et $b$ tels que $Y=aX+b$ : $Y$ dépend affinement de $X$. Si au contraire $r$ est proche de $0$, alors $X$ et $Y$ ne dépendent pas affinement l'un de l'autre.

Étudions trois exemples pour voir l'influence du coefficient de corrélation linéaire.

Exemple 1 :

X 0 1 2 3 4 5 6 7 8 9 10
Y 2,04 3,02 4,15 4,97 6,02 7,08 8,12 9,14 10,13 10,86 11,89

Le coefficient de corrélation linéaire est presque égal à $1$. Les deux séries statistiques dépendent affinement l'une de l'autre, ce que confirme le nuage de points.

Exemple 2 :

X 0 1 2 3 4 5 6 7 8 9 10
Y 5,01 7,93 3,27 20,50 11,33 12,41 16,74 11,39 16,61 11,48 23,59

Le coefficient de corrélation linéaire est environ égal à $0,\!65$. Il y a une certaine corrélation entre les deux séries statistiques mais elles ne dépendent pas affinement l'une de l'autre. Voici le nuage de points associé.

Exemple 3 :

X 0 1 2 3 4 5 6 7 8 9 10
Y 7,45 8,20 2,09 9,03 7,99 8,58 9,63 5,06 2,49 8,22 8,01

Le coefficient de corrélation linéaire est environ égal à $-0,\!02$, il est donc très faible. Les deux caractères étudiés ne semblent pas corrélés. Voici le nuage de points associé.

Covariance de deux variables aléatoires
Définition :
  • Soient $X$ et $Y$ des variables aléatoires admettant une espérance. On appelle covariance de $X$ et $Y$ l'espérance du produit $(X-E(X))(Y-E(Y))$ :

  • Soient $X$ et $Y$ des variables aléatoires admettant une covariance, et des variances non nulles. Leur coefficient de corrélation linéaire est alors défini par :
  • $X$ et $Y$ sont dites non corrélées si

Interprétation : Le coefficient de corrélation linéaire mesure la dépendance affine de $X$ et $Y$. Ainsi, si , il existe des réels $a$ et $b$ tels que $Y=aX+b$. Inversement, si $X$ et $Y$ sont indépendantes, .

Deux variables indépendantes sont non corrélées, mais la réciproque est fausse! Il existe des variables aléatoires non corrélées qui ne sont pas indépendantes.

Matrice de covariance

Si $(X_i)_{i=1,\dots,n}$ est une suite finie de variables aléatoires, la matrice des variances/covariances des $(X_i)$ est la matrice carrée dont le coefficient en $(i,j)$ est donné par :

Par exemple, la matrice de covariance du couple $(X,Y)$ est :

Une matrice de covariance est toujours symétrique.