Corrélation des variables aléatoires
La covariance de deux séries statistiques $X=(X_i)_{i=1,\dots, N})$ et $(Y_i)_{i=1,\dots, N}$ ayant le même nombre d'éléments est défini par $$\textrm{Cov}(X,Y)=\sum_{i=1}^N \frac{(X_i-\bar X)(Y_i-\bar Y)}{N}.$$ Il s'agit donc de la moyenne des produits des écarts des valeurs à la moyenne de chaque série.
Le coefficient de corrélation linéaire de ces deux séries est défini par $$\rho(X,Y)=\frac{\textrm{Cov}(X,Y)}{\sqrt{\textrm{Var}(X)}\sqrt{\textrm{Var}(Y)}}$$ où $\textrm{Var}(X)$ et $\textrm{Var}(Y)$ désignent respectivement les variances de $X$ et de $Y$.
Le coefficient de relation linéaire quantifie la force du lien linéaire entre $X$ et $Y$. Si $r=1$ ou $r=-1$, alors il existe deux réels $a$ et $b$ tels que $Y=aX+b$ : $Y$ dépend affinement de $X$. Si au contraire $r$ est proche de $0$, alors $X$ et $Y$ ne dépendent pas affinement l'un de l'autre.
Étudions trois exemples pour voir l'influence du coefficient de corrélation linéaire.
Exemple 1 :
X | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
Y | 2,04 | 3,02 | 4,15 | 4,97 | 6,02 | 7,08 | 8,12 | 9,14 | 10,13 | 10,86 | 11,89 |
Le coefficient de corrélation linéaire est presque égal à $1$. Les deux séries statistiques dépendent affinement l'une de l'autre, ce que confirme le nuage de points.
Exemple 2 :
X | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
Y | 5,01 | 7,93 | 3,27 | 20,50 | 11,33 | 12,41 | 16,74 | 11,39 | 16,61 | 11,48 | 23,59 |
Le coefficient de corrélation linéaire est environ égal à $0,\!65$. Il y a une certaine corrélation entre les deux séries statistiques mais elles ne dépendent pas affinement l'une de l'autre. Voici le nuage de points associé.
Exemple 3 :
X | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
Y | 7,45 | 8,20 | 2,09 | 9,03 | 7,99 | 8,58 | 9,63 | 5,06 | 2,49 | 8,22 | 8,01 |
Le coefficient de corrélation linéaire est environ égal à $-0,\!02$, il est donc très faible. Les deux caractères étudiés ne semblent pas corrélés. Voici le nuage de points associé.
Soient $X$ et $Y$ des variables aléatoires admettant un moment d'ordre $2$ (c'est-à-dire que $E(X)$, $E(X^2),$ $E(Y)$ et $E(Y^2)$ existent). On appelle covariance de $X$ et $Y$ l'espérance du produit $(X-E(X))(Y-E(Y))$ : $$\textrm{Cov}(X,Y)=E\big((X-E(X))(Y-E(Y))\big).$$ Si $X$ et $Y$ admettent une covariance et des variances non nulles, alors leur coefficient de corrélation linéaire est défini par : $$\rho(X,Y)=\frac{\textrm{Cov}(X,Y)}{\sqrt{V(X)V(Y)}}=\frac{\textrm{Cov}(X,Y)}{\sigma(X)\sigma(Y)}\in[-1,1].$$ Les variables aléatoires $X$ et $Y$ sont dites non corrélées si $\textrm{Cov}(X,Y)=0.$ Elles sont dites corrélées dans le cas contraire.
Interprétation : Le coefficient de corrélation linéaire mesure la dépendance affine de $X$ et $Y$. Ainsi, si $\rho(X,Y)=1,$ il existe des réels $a$ et $b$ tels que $Y=aX+b$. Inversement, si $X$ et $Y$ sont indépendantes, $\textrm{Cov}(X,Y)=0.$
Deux variables indépendantes sont non corrélées, mais la réciproque est fausse! Il existe des variables aléatoires non corrélées qui ne sont pas indépendantes.
Si $(X_i)_{i=1,\dots,n}$ est une suite finie de variables aléatoires, la matrice des variances/covariances des $(X_i)$ est la matrice carrée dont le coefficient en $(i,j)$ est donné par : $$c_{i,j}=\textrm{Cov}(X_i,X_j).$$ Par exemple, la matrice de covariance du couple $(X,Y)$ est : $$\begin{pmatrix} V(X)&\textrm{Cov}(X,Y)\\ \textrm{Cov}(X,Y)&V(Y) \end{pmatrix}.$$ Une matrice de covariance est toujours symétrique.