Bibm@th

Forum de mathématiques - Bibm@th.net

Bienvenue dans les forums du site BibM@th, des forums où on dit Bonjour (Bonsoir), Merci, S'il vous plaît...

Vous n'êtes pas identifié(e).

Répondre

Veuillez composer votre message et l'envoyer
Nom (obligatoire)

E-mail (obligatoire)

Message (obligatoire)

Programme anti-spam : Afin de lutter contre le spam, nous vous demandons de bien vouloir répondre à la question suivante. Après inscription sur le site, vous n'aurez plus à répondre à ces questions.

Quel est le résultat de l'opération suivante (donner le résultat en chiffres)?
zéro plus soixante dix-huit
Système anti-bot

Faites glisser le curseur de gauche à droite pour activer le bouton de confirmation.

Attention : Vous devez activer Javascript dans votre navigateur pour utiliser le système anti-bot.

Retour

Résumé de la discussion (messages les plus récents en premier)

Weg
10-12-2024 23:09:03

Merci de ta réponse.

Bon, elle peut un peu se résumer à «c’est à l’instinct». Ça me satisfait pas pleinement en terme de rigueur scientifique. Je vais pas insister plus, mais si quelqu’un passe par là et à une idée plus précise sur la question, qu’il n’hésite pas à déterrer le sujet.

Glozi
26-11-2024 23:43:33

Bonsoir,
Je vais essayer de reformuler la manière dont je comprends tes questions (qui sont je trouve très pertinentes). En stats on a des observables $X_1,\dots,X_N\in \mathbb{R}^d$ et on suppose qu'ils ont été générés aléatoirement et indépendamment par une même loi de proba  $\mathbb{P}$ sur $\mathbb{R}^d$. L'objectif des stats c'est de partir de ces observables et de "deviner" ce qu'est $\mathbb{P}$ (afin par exemple de faire des prédictions). Clairement, si on suppose que $\mathbb{P}$ peut être absolument quelconque alors on n'est pas sorti de l'auberge (il y aurait bcp trop de choix !) Du coup on suppose que $\mathbb{P}$ fait partie d'une famille restreinte $\mathcal{P}$ qu'on paramétrise généralement par quelques paramètres réels (par exemple l'ensemble des lois $\mathcal{P}=\{N(\mu,\sigma^2)\ |\ \mu,\sigma\in \mathbb{R}\}$). Si j'ai bien compris, tes questions portent autour de savoir comment déterminer quelle famille $\mathcal{P}$ on prend a priori et comment le justifier.

Je ne fais pas de stats mais de ce que je comprends de la philosophie de la chose :
On préfère faire une hypothèse qu'on a une famille de lois simples/usuelles (typiquement des gaussiennes, des poissons, des binomiales) tout simplement parce qu'on sait faire des calculs avec ça et qu'on a ensuite des tests efficaces (et rigoureux sous ces hypothèses). On a par ailleurs des tests sur un jeu de données qui permettent de rejeter (à 95% par exemple) le fait que notre jeu de données provienne d'une même loi Gaussienne (ou Poisson ou Binomiale etc...). Si ces tests ne rejettent pas notre jeu de données alors tant mieux, notre modèle n'est pas rejeté donc on continue avec (mais évidemment ça ne prouve pas qu'on a des gaussiennes (ou autres) et en pratique ça ne sera jamais exactement le cas), sinon c'est pas de chance, car on ne sait "rien" faire...

Pour moi une étude statistique sérieuse doit expliquer le modèle utilisé et donc dire qu'on a supposé que $\mathbb{P}$ faisait partie de telle famille de lois (et en outre justifier que le modèle n'est pas à côté de la plaque de manière évidente en montrant qu'il n'est pas rejeté par les tests en rigueur). Si quelqu'un doit prendre une décision à partir de cette étude il me parait en effet fondamental qu'il soit au courant de l'incertitude issue du choix du modèle.

J'imagine que l'intuition qui nous dit si tel ou tel jeu de données est gaussien vient avec l'expérience. Il me semble que quand on a des données brutes elles sont souvent "travaillées" et sont rarement utilisées sous forme brute (ie il faut trouver une bonne fonction $f$ déterministe telle que les $f(X_i)$ ressemble à des gaussiennes). Sinon, pour revenir au cas gaussien, on attend d'une variable gaussienne qu'elle soit très concentrée autour de son espérance et que sa loi soit symétrique, si ces deux conditions ne sont pas vérifiées alors ce modèle parait déjà peu pertinent (évidemment tu as mentionné des tests plus précis, mais là je parle juste d'intuition).

Sinon je n'ai aucune idée sur les tests statistiques qui sont "à la mode" et ceux qui sont "périmés" tu es sûrement plus au fait. J'imagine que les protocoles du genre "faire tel test, puis si ça marche tel autre, puis tel autre etc..." ont été construit de manière empirique avec le temps mais je n'ai aucune certitude, il est possible qu'il y ait une raison plus "mathématique" derrière.

(j'ai conscience que ce message de répond presque pas précisément aux questions de tes posts, mais je trouve le sujet intéressant).

Bonne soirée

Weg
26-11-2024 12:36:21

800 vues et aucune réponse?

Bon, commençons par reformuler d’une façon plus simple.

Vous avez prélevé un échantillon d’une variable quelconque. La loi est *a priori* inconnue. Pour pouvoir effectuer une analyse quelconque vous allez devoir faire une hypothèse ou une inférence sur la loi que suis cette variable.

Comment justifier de façon rigoureuse la loi utilisée? En particulier sur des échantillons relativement petits (la réponse pouvant être «en dessous n valeurs c’est impossible», ou «en dessous de n valeurs la probabilité de se tromper est de…».)

J’imagine que je suis pas le premier à me poser cette question. Est-ce qu’il y a des méthodologies connues pour ce genre de problème?

Weg
16-11-2024 13:37:25

Bonjour à tous,

Je suis nouveau sur le forum. Pour présenter un peu le contexte, j’ai repris les
études dans le domaine des science de l’environnement, où j’ai eu quelques cours d’analyses de données. Bien sûr on est dans le domaine des maths appliqués : le but n’est pas de refaire toute la théorie de la mesure, mais de comprendre les différents outils, leurs principes de fonctionnement, leurs limites, etc.

De même, côté enseignants, aucun d’eux n’est mathématicien. Ils connaissent ces
outils parce qu’ils en ont besoins dans leurs travail de tous les jours, mais
certains maîtrisent mieux que d’autres et en comprennent mieux que d’autre le
fonctionnement sous-jacent. La conséquence, c’est qu’ils ont un peu tendance à
retransmettre leur savoir tel qu’ils ont appris l’utiliser, mais j’ai encore un
peu de mal à trouver les réponses à certaines intérrogations.

Je commence donc par ouvrir un topic sur les tests les plus simples : Fisher &
Student. D’autres questions suivront.

Ces deux tests ont pour principale hypothèse la normalité des données. Et celui
de Student a en plus une hypothèse d’homoscédasticité.

Le problème c’est qu’ils s’agit d’échantillons prélevés sur le terrain, pas toujours très nombreux, pour lesquelles on a pas forcément de raison *a priori* de préviligier une loi plutôt qu’une autre.

Une des méthodes présentées en cours peut se résumer à peu près comme suit :

1. test de Shapiro-Wilk;
    * Si p<0.95 tentative de normalisation et on reprends au 1.
    * Sinon, on passe au 2.
2. test de Fisher.
    * si p<0.95 on déduit avec 95% de certitude que les données n’appartiennent pas au même échantillon.
    * Sinon on passe au 3.
3. test de Student
    * si p<0.95 on déduit avec 95% de certitude que les données n’appartiennent pas au même échantillon.
    * sinon, on ne peux rien déduire.

La méthodo me titille un peu. Le test de SW permets de prouver la non-normalité,
mais pas la normalité. Et celui de F permets de prouver l’hétéroscédasticité,
mais pas l’homoscédasticité. Au mieux, ils permettent de dire «les jeux de
données sont indicernables de jeux de données gaussiens de même variance».
Surtout que lorsqu’il s’agit d’environnement, on a pas toujours la chance
d’avoir des jeux de données de 200 échantillons (les prélèvements peuvent être
destructifs, prendre du temps, etc), Donc les tests auront beaucoup de mal à
invalider H0.

Premiere série de questions :

1/ Qu’est-ce que vous pensez de ce genre de raisonnement. Est-ce que ça vous
parait rigoureux?
2/ Quelles sont les conséquences si on fait un test-t sur des données qu’on
suppose gaussiennes, et que ces dernières de le sont pas.
3/ Faire un test de SW est-il vraiment plus fiable que de simplement vérifier
l’histogramme? Est-ce juste un moyen de quantifier cette normalité par la
valeur de p?


Ensuite, j’ai posé la question à un autre prof qui nous a fait un cours succins
sur les GLM. Lui, il a un avis complètement différents. Il ne l’a pas formulé
comme ça, mais en gros, c’est : «c’est une méthodologie obsolette, tous les
scientifiques ont arrêté de l’utiliser depuis 20 ans, sauf en sciences de
l’environnement. Les tests de Fisher et de Student ont été développés pour des
besoins très particuliers, et ne sont pas adaptés dans notre contexe. Vous ne
devais pas essayer d’inférer a posteriori de la distribution de vos données
d’après vos échantillons, mais vous devais faire vos hypothèses a priori en
fonction des propriétés attendus, et modéliser ensuite avec le bon GLM.».

Cette dernière phrase fait allusion à ce type d’arbre de décision : https://bedeffinianrowedavies.com/stati … nk-1-1.png

D’une certaine manière son raisonnement me parait plus honnête
intellectuellement : on fait une hypothèse parce qu’on a des raisons de la
faire, plutôt que d’essayer de se convaincre par des tests qui ne prouve rien
qu’une hypothèse est bonne parce qu’on en a besoin (enfin c’est mon impression).

D’un autre côté, je ne suis pas non plus certains de la justification des ces
hypothèses. Après tout, une loi de probabilité, c’est à peu de chose près
n’importe quelle fonction dont l’intégrale est égale à 1. Donc lorsqu’il dit
qu’il faut prendre une loi de Poisson si la données est discrète, définie
positive et non majorée, j’ai une peu envie de demander pourquoi pas n’importe
quelle autre loi discrète positive et non majorée. Après tout, il ne doit pas
être difficile de construire une infinité de loi de probabilité qui respecte ces
critères non?

Donc dernière question (pour le moment) :

5/ Est-ce qu’il y a une justification rigoureuse à ce genre de diagramme?
Qu’est-ce que vous pensez de cette méthodologie?

Merci d’avance pour vos réponses.

Pied de page des forums