$$\newcommand{\mtn}{\mathbb{N}}\newcommand{\mtns}{\mathbb{N}^*}\newcommand{\mtz}{\mathbb{Z}}\newcommand{\mtr}{\mathbb{R}}\newcommand{\mtk}{\mathbb{K}}\newcommand{\mtq}{\mathbb{Q}}\newcommand{\mtc}{\mathbb{C}}\newcommand{\mch}{\mathcal{H}}\newcommand{\mcp}{\mathcal{P}}\newcommand{\mcb}{\mathcal{B}}\newcommand{\mcl}{\mathcal{L}} \newcommand{\mcm}{\mathcal{M}}\newcommand{\mcc}{\mathcal{C}} \newcommand{\mcmn}{\mathcal{M}}\newcommand{\mcmnr}{\mathcal{M}_n(\mtr)} \newcommand{\mcmnk}{\mathcal{M}_n(\mtk)}\newcommand{\mcsn}{\mathcal{S}_n} \newcommand{\mcs}{\mathcal{S}}\newcommand{\mcd}{\mathcal{D}} \newcommand{\mcsns}{\mathcal{S}_n^{++}}\newcommand{\glnk}{GL_n(\mtk)} \newcommand{\mnr}{\mathcal{M}_n(\mtr)}\DeclareMathOperator{\ch}{ch} \DeclareMathOperator{\sh}{sh}\DeclareMathOperator{\th}{th} \DeclareMathOperator{\vect}{vect}\DeclareMathOperator{\card}{card} \DeclareMathOperator{\comat}{comat}\DeclareMathOperator{\imv}{Im} \DeclareMathOperator{\rang}{rg}\DeclareMathOperator{\Fr}{Fr} \DeclareMathOperator{\diam}{diam}\DeclareMathOperator{\supp}{supp} \newcommand{\veps}{\varepsilon}\newcommand{\mcu}{\mathcal{U}} \newcommand{\mcun}{\mcu_n}\newcommand{\dis}{\displaystyle} \newcommand{\croouv}{[\![}\newcommand{\crofer}{]\!]} \newcommand{\rab}{\mathcal{R}(a,b)}\newcommand{\pss}[2]{\langle #1,#2\rangle} $$
Bibm@th

Tests du chi-deux

  Les tests du chi-deux (ou khi-deux, ou ) sont des tests d'hypothèses statistiques non-paramétriques. Ils tirent leur nom du fait que l'on lit l'écart critique dans la table de la loi du chi-deux. Ils sont essentiellement au nombre de trois :
  1. le test du chi-deux d'ajustement, ou d'adéquation, qui compare globalement la distribution observée dans un échantillon statistique à une distribution théorique.
  2. le test du chi-deux d'indépendance, qui teste si deux caractères d'une population sont indépendants.
  3. le test d'homogénéité, qui teste si des échantillons sont issus d'une même population.

Test d'ajustement du chi-deux
  Le but de ce test est de comparer une distribution théorique d'un caractère à une distribution observée. Pour cela, le caractère doit prendre un nombre fini de valeurs, ou bien ces valeurs doivent être rangées en un nombre fini de classes.
  • Données :
    • un caractère A dont les valeurs possibles sont réparties en k classes A1,...,Ak. La probabilité théorique dans chacune des classes est notée p1,...,pk.
    • n observations, qui donnent un effectif n1 pour la classe A1,...,nk pour la classe Ak. Bien sûr, on doit avoir n1+...+nk=n.
  • Hypothèse testée : "La distribution observée est conforme à la distribution théorique" avec un risque d'erreur a.
  • Déroulement du test :
    1. On calcule les effectifs théoriques npj.
    2. On calcule la valeur observée de la variable de test :
    3. On cherche la valeur critique dans la table de la loi du chi-2 à k-1 degrés de liberté.
    4. Si , on accepte l'hypothèse, sinon on la rejette.
    5. Vérification a posteriori des conditions d'application : il faut $np_j\geq 5$ pour tout $j$.


Test d'indépendance du chi-deux
  Le test d'indépendance du chi-deux permet de contrôler l'indépendance de deux caractères dans une population donnée.
  • Données :
    • 2 variables $X$ et $Y$, les valeurs possibles de $X$ sont réparties en $\ell$ classes $A_1,\dots,A_\ell$, celles de $Y$ en $c$ classes $B_1,\dots,B_c$.
    • $n$ observations réparties en $\ell\times c$ effectifs observés : $n_{i,j}$ observations ont donné à la fois $A_i$ et $B_j$, avec donc $\sum_{i,j}n_{i,j}=n$.
  • Hypothèse testée : "Les variables $X$ et $Y$ sont indépendantes".
  • Déroulement du test :
    1. On crée le tableau des effectifs qui est un tableau à double-entrée. A l'intersection de la $i$-ème ligne et de la $j$-ième colonne, on écrit l'effectif $n_{i,j}$.
    2. On "borde" le tableau pour calculer les effectifs marginaux : $L_i$ est la somme des termes sur la $i$-ème ligne, $C_j$ est la somme des termes sur la $j$-ième colonne. $$\begin{array}{c|c|c|c|c} &&\quad j \quad &&\\ \hline &\quad \cdots\quad&\cdots&\quad\cdots\quad&\quad\cdots\quad\\ \hline \quad i \quad&\cdots&n_{i,j}&\cdots&L_i\\ \hline &\quad \cdots\quad&\cdots&\quad\cdots\quad&\quad\cdots\quad\\ \hline &&C_j&& \end{array}$$
    3. On calcule les effectifs théoriques (ceux que l'on s'attend à rencontrer si $X$ et $Y$ étaient indépendantes) : $$e_{i,j}=\frac{L_i\times C_j}n.$$
    4. On calcule la valeur de la variable de test : $$\chi^2=\sum_{i=1}^{\ell}\sum_{j=1}^c \frac{(n_{i,j}-e_{i,j})^2}{e_{i,j}}.$$
    5. On cherche la valeur critique $\chi^2_a$ dans la table de la loi du chi-2 à $(\ell-1)\times (c-1)$ degrés de liberté.
    6. Si $\chi^2<\chi^2_a$, on accepte l'hypothèse, sinon on la rejette.
    7. Vérification a posteriori des conditions d'application : il faut que les effectifs théoriques vérifient $e_{i,j}\geq 5$ pour tous i,j.
Exemple : Pour comparer l'efficacité de deux médicaments agissant sur la même maladie, mais aux prix très différents, la Sécurité Sociale a effectué une enquête sur les guérisons obtenues en suivant chacun des traitements. Les résultats sont consignés dans le tableau suivant :
On a déjà effectué le calcul des effectifs marginaux. Les effectifs théoriques sont :
La variable de test vaut approximativement 2,5, alors que la valeur critique, pour un niveau de risque de 5%, est 3,84 (on explore la table du chi-2 à un degré de liberté). On peut donc raisonnablement estimer ici que le taux de guérison ne dépend pas du prix du médicament et se poser des questions sur l'opportunité de continuer à vendre le médicament cher.


Test d'homogénéité du chi-deux
  Le problème d'homogénéité est le suivant. On a réalisé l études statistiques où on a observé un caractère dont la valeur est répartie en c classes A1,...,Ac. Si les échantillons de chaque étude étaient parfaitement représentatifs d'une même population, les proportions d'individus de chaque classe seraient exactement les mêmes. Ce n'est évidemment jamais le cas, et un test d'homogénéité consiste à étudier si cela est dû aux fluctuations d'échantillonage ou bien au fait que les échantillons proviennent de populations différentes.

  Un problème d'homogénéité peut en fait toujours se traduire en problème d'indépendance : est-ce que la proportion d'individus dans chaque classe est indépendante de l'étude statistique réalisée. Le test d'indépendance du chi-deux présenté ci-dessus s'applique alors mot pour mot.
Consulter aussi...