$$\newcommand{\mtn}{\mathbb{N}}\newcommand{\mtns}{\mathbb{N}^*}\newcommand{\mtz}{\mathbb{Z}}\newcommand{\mtr}{\mathbb{R}}\newcommand{\mtk}{\mathbb{K}}\newcommand{\mtq}{\mathbb{Q}}\newcommand{\mtc}{\mathbb{C}}\newcommand{\mch}{\mathcal{H}}\newcommand{\mcp}{\mathcal{P}}\newcommand{\mcb}{\mathcal{B}}\newcommand{\mcl}{\mathcal{L}} \newcommand{\mcm}{\mathcal{M}}\newcommand{\mcc}{\mathcal{C}} \newcommand{\mcmn}{\mathcal{M}}\newcommand{\mcmnr}{\mathcal{M}_n(\mtr)} \newcommand{\mcmnk}{\mathcal{M}_n(\mtk)}\newcommand{\mcsn}{\mathcal{S}_n} \newcommand{\mcs}{\mathcal{S}}\newcommand{\mcd}{\mathcal{D}} \newcommand{\mcsns}{\mathcal{S}_n^{++}}\newcommand{\glnk}{GL_n(\mtk)} \newcommand{\mnr}{\mathcal{M}_n(\mtr)}\DeclareMathOperator{\ch}{ch} \DeclareMathOperator{\sh}{sh}\DeclareMathOperator{\th}{th} \DeclareMathOperator{\vect}{vect}\DeclareMathOperator{\card}{card} \DeclareMathOperator{\comat}{comat}\DeclareMathOperator{\imv}{Im} \DeclareMathOperator{\rang}{rg}\DeclareMathOperator{\Fr}{Fr} \DeclareMathOperator{\diam}{diam}\DeclareMathOperator{\supp}{supp} \newcommand{\veps}{\varepsilon}\newcommand{\mcu}{\mathcal{U}} \newcommand{\mcun}{\mcu_n}\newcommand{\dis}{\displaystyle} \newcommand{\croouv}{[\![}\newcommand{\crofer}{]\!]} \newcommand{\rab}{\mathcal{R}(a,b)}\newcommand{\pss}[2]{\langle #1,#2\rangle} $$
Bibm@th

Intervalle de dispersion

Intervalle de fluctuation d'une proportion
  Dans une population, on étudie un caractère dont on sait qu'il apparait avec une proportion $p$. On étudie un échantillon de $n$ éléments de cette population, et on note $f$ la fréquence de ce caractère dans cet échantillon. On se demande quel est le lien entre $f$ et $p$.
Définition : L’intervalle de fluctuation au seuil $1-\alpha$, relatif aux échantillons de taille $n$, est l’intervalle centré autour de $p$, proportion du caractère dans la population, où se situe, avec une probabilité égale à $1-\alpha$, la fréquence observée dans un échantillon de taille $n$.
L'étude d'un intervalle de fluctuation correspond donc à la problématique opposée à celle de l'intervalle de confiance :
  • pour l'intervalle de fluctuation, on connait a priori $p$ et on voudrait obtenir un encadrement de $f$, encadrement qui fonctionne avec une grande probabilité. Ce genre de problèmes peut être important, si on vous vend un lot de 100000 objets dont on vous garantit que moins de 1% sont défectueux. Vous en testez cent, et vous observez que 3 sont défectueux. Vous a-t-on menti?
  • pour l'intervalle de confiance, on mesure $f$ et on voudrait extrapoler un encadrement de $p$, encadrement qui fonctionne avec une grande probabilité : c'est exactement le problème des sondages; on interroge un petit nombre de gens pour savoir pour qui ils votent, on voudrait déterminer une tendance générale pour toute la population.
  On peut déterminer un intervalle de fluctuation à l'aide de l'approximation de la loi binomiale par la loi normale.
Règle : Si $n\geq 30$, $np\geq 5$ et $n(1-p)\geq 5$, alors l'intervalle $$\left[p-1,96\frac{p(1-p)}{\sqrt n},p+-1,96\frac{p(1-p)}{\sqrt n}\right]$$ est un intervalle de fluctuation au seuil de 95%.
Parfois, l'intervalle précédent est simplifié en $$\left[p-\frac{1}{\sqrt n},p+\frac{1}{\sqrt n}\right].$$
Intervalle de dispersion d'une variable aléatoire
  Si $T$ est une variable aléatoire, la fonction quantile de la loi de $T$ est la fonction de [0,1] dans $\mathbb R$ qui à $u\in[0,1]$ associe $$Q_t(u)=\inf\{t\in\mathbb R;\ P(T\leq t)\geq u\}.$$

Définition : Soit $T$ une variable aléatoire et $\alpha$ un réel compris entre 0 et 1. On appelle intervalle de dispersion de niveau $1-\alpha$ tout intervalle de la forme $$\left[Q_T(\beta),Q_T(\beta+1-\alpha)\right],$$ autrement dit tout intervalle de $\mathbb R$ où $T$ prend ses valeurs avec une probabilité $1-\alpha$.
Selon les valeurs de $\beta$, on dit qu'un intervalle de dispersion de niveau $1-\alpha$ est
  • unilatéral inférieur si $\beta=0$ (l'intervalle est donc de la forme $]-\infty,u]$ avec $u$ tel que $P(T\leq 1-\alpha)=u$);
  • unilatéral supérieur si $\beta=\alpha$; (l'intervalle est cette fois de la forme $[v,+\infty[$);
  • symétrique si $\beta=0$;
  • optimal si son amplitude est la plus courte parmi tous les intervalles de dispersion de niveau $1-\alpha$.
La definition donnée dans la première partie correspond au cas où la variable aléatoire $T$ suit une loi binomiale de paramètres $n$ et $p$.
Consulter aussi...