$$\newcommand{\mtn}{\mathbb{N}}\newcommand{\mtns}{\mathbb{N}^*}\newcommand{\mtz}{\mathbb{Z}}\newcommand{\mtr}{\mathbb{R}}\newcommand{\mtk}{\mathbb{K}}\newcommand{\mtq}{\mathbb{Q}}\newcommand{\mtc}{\mathbb{C}}\newcommand{\mch}{\mathcal{H}}\newcommand{\mcp}{\mathcal{P}}\newcommand{\mcb}{\mathcal{B}}\newcommand{\mcl}{\mathcal{L}} \newcommand{\mcm}{\mathcal{M}}\newcommand{\mcc}{\mathcal{C}} \newcommand{\mcmn}{\mathcal{M}}\newcommand{\mcmnr}{\mathcal{M}_n(\mtr)} \newcommand{\mcmnk}{\mathcal{M}_n(\mtk)}\newcommand{\mcsn}{\mathcal{S}_n} \newcommand{\mcs}{\mathcal{S}}\newcommand{\mcd}{\mathcal{D}} \newcommand{\mcsns}{\mathcal{S}_n^{++}}\newcommand{\glnk}{GL_n(\mtk)} \newcommand{\mnr}{\mathcal{M}_n(\mtr)}\DeclareMathOperator{\ch}{ch} \DeclareMathOperator{\sh}{sh}\DeclareMathOperator{\th}{th} \DeclareMathOperator{\vect}{vect}\DeclareMathOperator{\card}{card} \DeclareMathOperator{\comat}{comat}\DeclareMathOperator{\imv}{Im} \DeclareMathOperator{\rang}{rg}\DeclareMathOperator{\Fr}{Fr} \DeclareMathOperator{\diam}{diam}\DeclareMathOperator{\supp}{supp} \newcommand{\veps}{\varepsilon}\newcommand{\mcu}{\mathcal{U}} \newcommand{\mcun}{\mcu_n}\newcommand{\dis}{\displaystyle} \newcommand{\croouv}{[\![}\newcommand{\crofer}{]\!]} \newcommand{\rab}{\mathcal{R}(a,b)}\newcommand{\pss}[2]{\langle #1,#2\rangle} $$
Bibm@th

Formule de Bayes - Paradoxe des tests de dépistage

Théorème : Soit $(A_n)$ un système complet d'événements, tous de probabilité non nulle. Alors, pour tout événement $B$, on a : $$P(B)=\sum_{n\geq 1}P_{A_n}(B)P(A_n).$$ Si de plus $P(B)>0$, on a pour tout entier $k$ l'égalité : $$P_B(A_k)=\frac{P_{A_k}(B)P(A_k)}{P(B)}=\frac{P_{A_k}(B)P(A_k)}{\sum_{n\geq 1}P_{A_n}(B)P(A_n)}.$$
Cette formule est souvent utilisée lorsque le système complet est constitué de $A$ et $\bar A$, un événement et son contraire. Dans ce cas, la formule se simplifie en : $$P_B(A)=\frac{P_A(B)P(A)}{P(B)}=\frac{P_A(B)P(A)}{P_A(B)P(A)+P{\bar A}(B)P(\bar A)}.$$
Application aux tests de dépistage
  Vous êtes directeur de cabinet du ministre de la santé. Une maladie est présente dans la population, dans la proportion d'une personne malade sur 10000. Un responsable d'un grand laboratoire pharmaceutique vient vous vanter son nouveau test de dépistage : si une personne est malade, le test est positif à 99%. Si une personne n'est pas malade, le test est positif à 0,1%.

  Ces chiffres ont l'air excellent, vous ne pouvez qu'en convenir. Toutefois, avant d'autoriser la commercialisation de ce test, vous faites appel au statisticien du ministère : ce qui vous intéresse, ce n'est pas vraiment les résultats présentés par le laboratoire, c'est la probabilité qu'une personne soit malade si le test est positif. La formule de Bayes permet de calculer cette probabilité.

  On note $M$ l'événement : "La personne est malade", et $T$ l'événement : "Le test est positif". Le but est de calculer $P_T(M)$. Les données que vous avez en main sont $P(M)=0,0001$ (et donc $P(\bar M)=0,9999$), $P_M(T)=0,99$ et $P_{\bar M}(T)=0,001$. La formule de Bayes donne : $$\begin{eqnarray*} P_T(M)&=&\frac{P_M(T)P(M)}{P_M(T)P(M)+P_{\bar M}(T)P(\bar M)}\\ &=&\frac{10^{-4}\times 0,99}{10^{-4}\times 0,99+0,9999\times 10^{-3}}\simeq 0,09. \end{eqnarray*} $$ C'est catastrophique! Il n'y a que 9% de chances qu'une personne positive au test soit effectivement malade! C'est tout le problème des tests de dépistage pour des maladies rares : ils doivent être excessivement performants, sous peine de donner beaucoup trop de "faux-positifs".

La formule de Bayes a longtemps été appelée formule de probabilité des causes. Elle permet en effet de remonter le temps, c'est-à-dire de calculer la probabilité d'une cause sachant celle de sa conséquence. Longtemps, elle a été regardée avec beaucoup de circonspection par les statisticiens de tous bords.
Consulter aussi...