Introduction à la théorie de l'information
On considère une épreuve aléatoire, et une variable aléatoire $X$ associée à cette épreuve. Comment mesurer l'information moyenne apportée par la connaissance de $X$ sur l'épreuve aléatoire? Prenons l'exemple suivant : on lance un dé non pipé et on considère les 3 variables aléatoires suivantes :
- $X_1$ qui vaut 0 si le nombre tiré est pair, 1 s'il est impair.
- $X_2$ qui vaut 0 si le nombre tiré est 1 ou 2, 1 si le nombre tiré est 3 ou 4, 2 si le nombre tiré est 5 ou 6.
- $X_3$ qui vaut le nombre tiré.
Il est intuitivement clair que la connaissance de $X_3$ renseigne plus sur le déroulement de l'épreuve aléatoire que la connaissance de $X_2,$ qui elle-même renseigne plus que celle de $X_1.$ La notion d'entropie permet de mathématiser cette heuristique.
Si $X$ est une variable aléatoire discrète, l'entropie de $X$ est définie par : $$H(X)=-\sum_x P(X=x)\log(P(X=x)).$$ Dans cette définition, la base du logarithme est souvent choisie égale à 2. Pour une variable aléatoire $X$ admettant une densité $f$, son entropie est définie par $$ H(X)=-\int_{\mathbb R}f(x)\log(f(x))dx.$$ L'entropie se mesure alors en shannons, ou en bits (binary information unit).
Il nous faut encore mesurer l'incertitude ou le désordre, liée à l'expérience aléatoire. Si $\{a_1,\dots,a_N\}$ est l'ensemble des issues possibles de l'expérience, l'entropie vaut : $$H(\mathcal E)=-\sum_i P(\{a_i\})\log(P(\{a_i\})).$$ On retrouve ici la définition physique (ou mieux, thermodynamique) de l'entropie : mesure du désordre d'un système. La variable aléatoire $X$ renseigne totalement sur le déroulement de l'expérience $\mathcal E$ si $H(X)=H(\mathcal E).$
Exemple :
- Si $X$ est une variable aléatoire équidistribuée qui peut prendre $n$ valeurs, l'entropie de $X$ est : $$H(X)=-\sum_{k=1}^n \frac 1n\log\left(\frac 1n\right)=\log(n).$$ Il est facile de voir que parmi les variables à $n$ valeurs, l'entropie $H(X)$ est maximale lorsque $X$ est équirépartie : une variable aléatoire apporte en moyenne un maximum d'informations lorsqu'elle peut prendre chaque valeur avec une égale probabilité.
- Dans l'exemple du dé, on vérifie que : $$H(X_1)=\log(2)<H(X_2)=\log(3)<H(X_3)=\log(6).$$ Dans cet exemple, l'incertitude totale liée à l'expérience est $\log 6.$
- On vous présente 10 cartons sur lesquels sont inscrits sur la face cachée un nombre (tous les nombres sont différents).
Vous pouvez poser des questions du type : "Est-ce que le nombre sur ce carton est plus élevé que sur celui-là".
Vous payez un franc par question, et vous en recevez 15 lorsque vous savez réordonner les cartons. Acceptez-vous de jouer?
Il y a 10! façons d'ordonner les cartons. L'incertitude sur l'ordre dans lequel ils sont rangés vaut donc $\log(10!)\simeq 21,8$ shannons environ. Chaque réponse apporte au plus un shannon d'information. Il faudra, du point de vue de la théorie de l'information, 22 questions en moyenne pour reconstituer l'ordre. Il ne faut pas jouer!
L'argument précédent est toutefois heuristique. Il ne dit pas en particulier quelles sont les questions à poser pour retrouver l'ordre après 22 questions.