$$\newcommand{\mtn}{\mathbb{N}}\newcommand{\mtns}{\mathbb{N}^*}\newcommand{\mtz}{\mathbb{Z}}\newcommand{\mtr}{\mathbb{R}}\newcommand{\mtk}{\mathbb{K}}\newcommand{\mtq}{\mathbb{Q}}\newcommand{\mtc}{\mathbb{C}}\newcommand{\mch}{\mathcal{H}}\newcommand{\mcp}{\mathcal{P}}\newcommand{\mcb}{\mathcal{B}}\newcommand{\mcl}{\mathcal{L}} \newcommand{\mcm}{\mathcal{M}}\newcommand{\mcc}{\mathcal{C}} \newcommand{\mcmn}{\mathcal{M}}\newcommand{\mcmnr}{\mathcal{M}_n(\mtr)} \newcommand{\mcmnk}{\mathcal{M}_n(\mtk)}\newcommand{\mcsn}{\mathcal{S}_n} \newcommand{\mcs}{\mathcal{S}}\newcommand{\mcd}{\mathcal{D}} \newcommand{\mcsns}{\mathcal{S}_n^{++}}\newcommand{\glnk}{GL_n(\mtk)} \newcommand{\mnr}{\mathcal{M}_n(\mtr)}\DeclareMathOperator{\ch}{ch} \DeclareMathOperator{\sh}{sh}\DeclareMathOperator{\th}{th} \DeclareMathOperator{\vect}{vect}\DeclareMathOperator{\card}{card} \DeclareMathOperator{\comat}{comat}\DeclareMathOperator{\imv}{Im} \DeclareMathOperator{\rang}{rg}\DeclareMathOperator{\Fr}{Fr} \DeclareMathOperator{\diam}{diam}\DeclareMathOperator{\supp}{supp} \newcommand{\veps}{\varepsilon}\newcommand{\mcu}{\mathcal{U}} \newcommand{\mcun}{\mcu_n}\newcommand{\dis}{\displaystyle} \newcommand{\croouv}{[\![}\newcommand{\crofer}{]\!]} \newcommand{\rab}{\mathcal{R}(a,b)}\newcommand{\pss}[2]{\langle #1,#2\rangle} $$
Bibm@th

Paradoxe de Simpson

  Le paradoxe de Simpson est un paradoxe des statistiques qui fait que, lorsqu'on réunit certaines données et qu'on les analyse globalement, on trouve un résultat contradictoire à l'analyse que l'on ferait en analysant ces données seules. Prenons un exemple. On a analysé les résultats au bac dans un lycée, et on a obtenu le résultat suivant :

 
année 2002
année 2003
 
inscrits
reçus
inscrits
reçus
non redoublants
22
12
15
8
redoublants
3
3
10
9

Voici, à la suite de ce tableau, les commentaires du proviseur et d'un élève :

  • Le proviseur : "L'année 2003 marque une progression de plus de 13% de la réussite au bac dans cette classe - Je félicite les professeurs!"
  • Un élève : "Que l'on soit redoublant ou pas, cette année cela a moins bien marché. Je ne félicite pas les profs!"

  Ces avis sont pour le moins contradictoires... Et pourtant ils sont tous les deux justifiés!

  • En 2002, il y a 15 reçus pour 25 inscrits, c'est-à-dire un taux de réussite de 15/25 ou encore 60%. En l'an 2003, il y a tous 25 inscrits, mais cette fois 17 reçus, et donc un taux de réussite de 68%. Comme 60*1.13=67,8, la progression du taux de réussite global est bien supérieure à 13%
  • Pour les redoublants, le taux de réussite en 2002 est de 100%, tandis qu'en 2003 il est de 90%. Pour les non-redoublants, le taux de réussite passe de 12/22*100, soit à peu près 54,5%, à 8/15*100, soit à peu près 53,3%. Il y a donc bien une baisse du taux de réussite pour les deux catégories!

  Ainsi, il est possible que le taux de réussite des redoublants baisse, que le taux de réussite des non-redoublants baisse aussi, et que pourtant le taux de réussite global progresse! Comment est-ce possible? C'est tout simplement qu'en 2003 il y a plus de redoublants, et que leur contribution au taux de réussite est plus importante qu'en 2002. Comme leur taux de réussite est supérieur à la moyenne, cette moyenne se voit tirer vers le haut....

C'est le statisticien E. Simpson qui a mis en lumière pour la première fois ce paradoxe en 1951.