$$\newcommand{\mtn}{\mathbb{N}}\newcommand{\mtns}{\mathbb{N}^*}\newcommand{\mtz}{\mathbb{Z}}\newcommand{\mtr}{\mathbb{R}}\newcommand{\mtk}{\mathbb{K}}\newcommand{\mtq}{\mathbb{Q}}\newcommand{\mtc}{\mathbb{C}}\newcommand{\mch}{\mathcal{H}}\newcommand{\mcp}{\mathcal{P}}\newcommand{\mcb}{\mathcal{B}}\newcommand{\mcl}{\mathcal{L}} \newcommand{\mcm}{\mathcal{M}}\newcommand{\mcc}{\mathcal{C}} \newcommand{\mcmn}{\mathcal{M}}\newcommand{\mcmnr}{\mathcal{M}_n(\mtr)} \newcommand{\mcmnk}{\mathcal{M}_n(\mtk)}\newcommand{\mcsn}{\mathcal{S}_n} \newcommand{\mcs}{\mathcal{S}}\newcommand{\mcd}{\mathcal{D}} \newcommand{\mcsns}{\mathcal{S}_n^{++}}\newcommand{\glnk}{GL_n(\mtk)} \newcommand{\mnr}{\mathcal{M}_n(\mtr)}\DeclareMathOperator{\ch}{ch} \DeclareMathOperator{\sh}{sh}\DeclareMathOperator{\th}{th} \DeclareMathOperator{\vect}{vect}\DeclareMathOperator{\card}{card} \DeclareMathOperator{\comat}{comat}\DeclareMathOperator{\imv}{Im} \DeclareMathOperator{\rang}{rg}\DeclareMathOperator{\Fr}{Fr} \DeclareMathOperator{\diam}{diam}\DeclareMathOperator{\supp}{supp} \newcommand{\veps}{\varepsilon}\newcommand{\mcu}{\mathcal{U}} \newcommand{\mcun}{\mcu_n}\newcommand{\dis}{\displaystyle} \newcommand{\croouv}{[\![}\newcommand{\crofer}{]\!]} \newcommand{\rab}{\mathcal{R}(a,b)}\newcommand{\pss}[2]{\langle #1,#2\rangle} $$
Bibm@th

Analyse de la variance (ANOVA)

L'analyse de la variance (ou test ANOVA de l'anglais ANalysis Of VAriance) est un test statistique qui permet de comparer globalement l'espérance mathématique de plusieurs échantillons. Le nom de ce test s'explique par sa façon de procéder : on décompose la variance totale de l'échantillon en deux variances partielles, la variance inter-classes et la variance résiduelle, et on compare ces deux variances.

  • Données : $p$ groupes d'observations, avec pour chaque groupe $k$ des observations $(x_k,1,\dots,x_k,n_k)$ d'une variable aléatoire $X_k$ d'espérance mathématique $\mu_k.$ On note $N=n_1+\cdots+n_p$ le nombre total de valeurs observées.
  • Hypothèse testée : "Les espérances $\mu_1,\dots,\mu_p$ sont égales".
  • Déroulement du test :
    1. On calcule $m_k$ la moyenne empirique de chaque classe : $$m_k=\frac{x_{k,1}+\cdots+x_{k,n_k}}{n_k}.$$
    2. On calcule $M$ la moyenne empirique totale de l'échantillon : $$M=\frac{n_1m_1+\cdots+n_pm_p}{N}.$$
    3. On calcule la variance empirique $V_k$ de chaque classe : $$V_k=\frac 1{n_k}\sum_{i=1}^{n_k}\left(x_{k,i}-m_k\right)^2.$$
    4. On calcule la moyenne des variances, ou variance intra-classes : $$V_{\textrm{intra}}=\sum_{k=1}^p \frac{n_k}N V_k.$$
    5. On calcule la variance des moyennes, ou variance inter-classes : $$V_{\textrm{inter}}=\sum_{k=1}^p \frac{n_k}N \left(m_k-M\right)^2.$$
    6. On calcule la variable de test $$F_{p-1,N-p}=\frac{V_{\textrm{inter}}/(p-1)}{V_{\textrm{intra}}/(N-k)}.$$
    7. On compare avec la valeur critique de la loi de Fisher-Snedecor de degrés de liberté $q-1$ et $N-q$ pour le risque $a$ voulu. Si la variable de test est supérieure à la valeur critique, alors on rejette l'hypothèse.
  • Limitations : En théorie, les variables aléatoires $X_k$ doivent être des variables aléatoires de même variance. Toutefois, ce test est robuste, si les échantillons sont grands et les variances pas trop différentes, le résultat est tout de même significatif.

L'analyse de la variance est notamment utilisée lorsqu'on souhaite comparer l'efficacité de plusieurs traitements. Par exemple, si on a plusieurs groupes de personnes à qui on donne un médicament contre le cholestérol, on souhaite savoir si ces médicaments sont efficaces et font baisser significativement le taux de cholestérol. On parle alors d'analyse de la variance à un facteur : on teste l'efficacité d'un facteur sur la variable. On peut généraliser ces méthodes aux cas de plusieurs facteurs (par exemple la combinaison de plusieurs médicaments...).

Consulter aussi
Recherche alphabétique
Recherche thématique