Analyse de la variance (ANOVA)
L'analyse de la variance (ou test ANOVA de l'anglais ANalysis Of VAriance) est un test statistique qui permet de comparer l'espérance mathématique de plusieurs échantillons. Le nom de ce test s'explique par sa façon de procéder : on calcule deux variances associées au regroupement des échantillons, la variance inter-classes et la variance intra-classes, et on compare ces deux variances.
- Données : $p$ groupes d'observations, avec pour chaque groupe $k$ un échantillon $(x_{k,1},\dots,x_{k,n_k})$ d'une variable aléatoire $X_k$ d'espérance mathématique $\mu_k.$ On note $N=n_1+\cdots+n_p$ le nombre total de valeurs observées en regroupant ces échantillons.
- Hypothèse testée : "Les espérances $\mu_1,\dots,\mu_p$ sont égales".
- Déroulement du test :
- On calcule $m_k$ la moyenne empirique de chaque échantillon : $$m_k=\frac{x_{k,1}+\cdots+x_{k,n_k}}{n_k}.$$
- On calcule $M$ la moyenne empirique totale : $$M=\frac{n_1m_1+\cdots+n_pm_p}{N}.$$
- On calcule la variance empirique $V_k$ de chaque échantillon : $$V_k=\frac 1{n_k}\sum_{i=1}^{n_k}\left(x_{k,i}-m_k\right)^2.$$
- On calcule la moyenne des variances, appelée variance intra-classes : $$V_{\textrm{intra}}=\sum_{k=1}^p \frac{n_k}N V_k.$$
- On calcule la variance des moyennes, appelée variance inter-classes : $$V_{\textrm{inter}}=\sum_{k=1}^p \frac{n_k}N \left(m_k-M\right)^2.$$
- On calcule la variable de test $$F_{p-1,N-p}=\frac{V_{\textrm{inter}}/(p-1)}{V_{\textrm{intra}}/(N-p)}.$$
- On compare avec la valeur critique de la loi de Fisher-Snedecor de degrés de liberté $q-1$ et $N-q$ pour le risque $a$ voulu. Si la variable de test est supérieure à la valeur critique, alors on rejette l'hypothèse.
- Limitations : En théorie, les variables aléatoires $X_k$ doivent être des variables aléatoires de même variance. Toutefois, ce test est robuste, si les échantillons sont grands et les variances pas trop différentes, le résultat est tout de même significatif.
L'analyse de la variance est notamment utilisée lorsqu'on souhaite comparer l'efficacité de plusieurs traitements. Par exemple, si on a plusieurs groupes de personnes à qui on donne un médicament contre le cholestérol, on souhaite savoir si ces médicaments sont efficaces et font baisser significativement le taux de cholestérol. On parle alors d'analyse de la variance à un facteur : on teste l'efficacité d'un facteur sur la variable. On peut généraliser ces méthodes aux cas de plusieurs facteurs (par exemple la combinaison de plusieurs médicaments ...).








