Bibm@th

Forum de mathématiques - Bibm@th.net

Bienvenue dans les forums du site BibM@th, des forums où on dit Bonjour (Bonsoir), Merci, S'il vous plaît...

Vous n'êtes pas identifié(e).

#1 14-10-2016 16:07:59

Milos
Membre
Inscription : 11-07-2013
Messages : 94

Robustesse d'une régression linéaire

Bonjour,

Pardon d'abord, je ne sais pas si j'aurais mieux fait de poser cette question dans un autre forum ou pas.

J'aimerais savoir ce que vous pensez de la validité d'une régression linéaire quand aucun des deux éléments ne semble suivre une loi normale ? Est-ce un présupposé nécessaire à l'utilisation de ce test ? Ici j'ai un exemple (venant de données historiques) ou aucun d'un des deux ensembles ne suit une loi normale (par exemple avec des diagrammes Q-Q déplorables), avec pourtant un R2 ajusté de 0.922.
Les différents tests complémentaires font tous appel à une méthode des moindres carrés et à chaque fois la probabilité est de moins de 1/10000.

J'ai 28 paires de données.

Désolé si cette question relance une polémique de plus, ça n'est évidemment pas mon intention, je voudrais juste savoir si j'ai "le droit" de faire (ou plutôt de demander à un de mes programmes de faire) un tel calcul.

D'autant qu'ici, on peut supposer un modèle assez évident et que donc si cette corrélation calculée est justifiée, une relation causale est très probable.
Un programme a même reperé un "outlier" qui relecture faite du document de départ était bien une erreur de recopie de ma part.

J'ai la forte impression que ma question est très naïve et si c'est le cas, je vous prie de m'en excuser.

Merci de votre aide,

Milos

Dernière modification par Milos (14-10-2016 16:12:41)

Hors ligne

#2 14-10-2016 16:34:36

Dlzlogic
Banni(e)
Inscription : 25-04-2016
Messages : 461

Re : Robustesse d'une régression linéaire

Bonjour,
Le qualificatif de "linéaire" pour une régression veut dire que la fonction obtenue et ses paramètres peuvent être calculés par un système linéaire de deux équations à deux inconnue.
Je ne vois pas pourquoi les deux ensembles devraient suivre une loi normale.
Un coefficient R² = 0.922, c'est pas mal.
Si tu donne tes 28 couples, je peux calculer la formule de régression.
PS. J'aimerais bien avoir des détails à propos des papillons.

Hors ligne

#3 14-10-2016 16:57:22

Milos
Membre
Inscription : 11-07-2013
Messages : 94

Re : Robustesse d'une régression linéaire

Bonjour,

Dlzlogic a écrit :

Bonjour,
Si tu donne tes 28 couples, je peux calculer la formule de régression.

Ça je sais faire avec une calculette, et mes programmes aussi.

Tant qu'à faire, les programmes me donnent des pentes différentes suivant que je prends une variable comme dépendante ou l'autre, et c'est logique puisqu'ils font leurs calculs avec les moindres écarts de la droite suivant y, et pas selon les distances des points à la droite cherchée, ça ils ne savent pas faire.

Et encore, je connais des tests utilisés en psychologie où on prend la médiane et pas les valeurs donnant les moindres carrés, en partant de l'idée que les valeurs extrêmes de reflètent pas une erreur de mesure, mais des incompréhensions de consigne.
Ça devient dur à trouver sur Google, mais par exemple les méthodes de calcul du Serial Nissen Test éliminent les deux extrêmes de chaque séquence de 10, pour traiter ensuite les 8 valeurs restantes avec des méthodes classiques.

Et par exemple encore, quand on étudie les performances de résoution d'un test de Hanoï à 4 ou 5 disques, comme le minimum est de 15 ou 31 mais le maximum infini (enfin, dans la limite du temps du test), il devient impossible d'appliquer des méthodes connues aux résultats.
Dans ce cas précis, le statisticien de la fac m'a déconseillé formellement de faire une analyse genre ANOVA pour étudier l'influence du facteur différenciant deux groupes.
C'était certes prudent, je crois que de plus c'était nécessaire pour ne pas sembler ridicule. J'ai sous la main la thèse d'une collègue qui a appliqué tranquillement une ANOVA, de plus en différenciant les "bons solveurs" du puzzle, des autres.
Bonjour Bonferroni, j'ai refusé de cosigner quelques articles avec cette distinction des "bons" et mauvais solveurs (pour ne prétendument étudier que le premier cas, le souci est qu'il avait été déjà étudié avant de réaliser le test suivant).

Milos

Hors ligne

#4 14-10-2016 17:10:50

freddy
Membre chevronné
Lieu : Paris
Inscription : 27-03-2009
Messages : 7 457

Re : Robustesse d'une régression linéaire

Salut,

une toute petit précision : pour que les résultats de la régression linéaire puissent être soumis aux tests classiques (FISCHER SNEDECOR, STUDENT, ...), il faut et il suffit que les résidus soient normaux, centrés et indépendants (hypothèse d'homoscédasticité des résidus, écarts entre prévisions et observations du modèle).

Eventuellement, faire un Durbin - Watson pour déceler une éventuelle une autocorrélation d'ordre 1 des résidus. Un R-deux proche de l'unité peut cacher bien d'autres choses qu'une bonne causalité du modèle entre variables explicatives et variable expliquée.

Les variables explicatives ne sont soumises a priori à aucune contrainte de normalité.

Par contre, c'est la taille de l'échantillon qui me parait un peu faible. Faire de la statistique sur de si petits échantilllons relèvent souvent de l'art de la divination.

Bon courage !


De la considération des obstacles vient l’échec, des moyens, la réussite.

Hors ligne

#5 14-10-2016 17:29:24

Dlzlogic
Banni(e)
Inscription : 25-04-2016
Messages : 461

Re : Robustesse d'une régression linéaire

J'ai calculé des centaines de régressions, de toute sorte.
Je veux bien aider, mais il faudra m'éclairer à propos des papillons.
Léon a calculé aussi pas mal de régressions.
Dans tous les cas, ce sera intéressant de comparer nos résultats. Mail pour ça, il faut avoir les couples.

Hors ligne

#6 14-10-2016 18:10:41

Milos
Membre
Inscription : 11-07-2013
Messages : 94

Re : Robustesse d'une régression linéaire

Salut,

Mon programme me donne directement des valeurs y compris celle du test de Durbin-Watson:

Test for Normality 

Test Statistic p-Value
K-S Test (Lilliefors) 0,149 0,125
Shapiro-Wilk Test 0,188 0,000
Anderson-Darling Test 0,817 0,030


Durbin-Watson D-Statistic 1,734 First Order Autocorrelation 0,107


Information Criteria AIC 368,145 AIC (Corrected) 369,188 Schwarz's BIC 372,032

Je ne sais pas si ça t'inspirera, sinon évidemment avec une corrélation pareille on est impressionné.. Mais avec le graphe spécialement s'il est aussi serré, il me semble que ça évite pas mal de pièges, non ?

Merci de ton aide, et à toi tout court

Milos

Hors ligne

#7 14-10-2016 18:22:33

freddy
Membre chevronné
Lieu : Paris
Inscription : 27-03-2009
Messages : 7 457

Re : Robustesse d'une régression linéaire

Re,

la p-value du K-S test (Lilliefors) me semble un peu élevée.
Avec une table pour le D-W, que valent d1 et d2 avec la taille de ton échantillon ? Tu sais qu'il y a des zones d'incertitudes, vérifie que tu n'est pas dedans. As-tu fait le graphe des résidus. S'il y a autocorrélation, ça saute aux yeux, comme pour l'indépendance d'ailleurs.


De la considération des obstacles vient l’échec, des moyens, la réussite.

Hors ligne

#8 14-10-2016 18:23:34

leon1789
Membre
Inscription : 27-08-2015
Messages : 1 203

Re : Robustesse d'une régression linéaire

Bonsoir,
je n'ai pas encore lu les réponses de chacun, mais voici la mienne, à froid.

Milos a écrit :

J'aimerais savoir ce que vous pensez de la validité d'une régression linéaire quand aucun des deux éléments ne semble suivre une loi normale ?

la régression linéaire n'a pas besoin d'un cadre proba-stat pour être validé : c'est une optimisation. Donc, oui, on peut validé un régression linéaire quand aucun des deux éléments ne semble suivre une loi normale.

Milos a écrit :

Désolé si cette question relance une polémique de plus, ça n'est évidemment pas mon intention, je voudrais juste savoir si j'ai "le droit" de faire (ou plutôt de demander à un de mes programmes de faire) un tel calcul.

on a le droit de faire ce qu'on veut... Après il faut voir si on peut justifier cela mathématiquement. Pour l'instant, je ne comprends pas le cadre du problème, donc mes réponses sont d'une généralité peu utile.

Milos a écrit :

D'autant qu'ici, on peut supposer un modèle assez évident et que donc si cette corrélation calculée est justifiée, une relation causale est très probable.

En général, corrélation n'implique pas causalité. Donc il faudra faire une preuve de cette relation. Mais ça, je pense que tu le sais, je ne t'apprends rien. :)

Hors ligne

#9 14-10-2016 18:23:56

Yassine
Membre
Inscription : 09-04-2013
Messages : 1 090

Re : Robustesse d'une régression linéaire

Pour compléter ce qu'a dit freddy,
la régression linéaire consiste d'abord à faire une hypothèse de modélisation entre deux familles de variables aléatoires $x_i$ et $y_i$ (je prend le cas d'une seule variable explicative) : $y_i = \beta_1 + \beta_2 x_i + \varepsilon_i$ et où on fait les hypothèses suivantes :
H1 : $\mathbb{E}[\varepsilon_i] = 0$
H2 : $Covar(\varepsilon_i, \varepsilon_j) = \delta_{ij}\sigma^2$. Ce qui encapsule l'homoscédasticité et la non corrélation des résidus.

Sous ces seules hypothèse, on montre que (théorème de Gauss-Markov) parmi tous les estimateurs $\hat{\beta}_1$ et $\hat{\beta}_2$ de $\beta_1$ et $\beta_2$, l'estimateur des moindres carrés ordinaires (MCO ou OLS en anglais) est celui qui a le minimum de variance. C'est en quelque sorte, le meilleur des estimateurs (au sens où il a la plus faible variance).
Si on ajoute l'hypothèse de normalité des résidus, on montre alors que ce sont également les estimateurs de maximum de vraisemblance (MLE en anglais).

Le $R^2$ donne la part de variance des $y_i$ expliquée par les $x_i$. Plus il est proche de 1, plus on explique la variabilité de $y_i$ par celle de $x_i$. Il faut cependant faire attention aux régressions fallacieuses, avec de très bons $R^2$, notamment dans le cas de résidus auto-corrélés (voir ici des exemples amusants).
Attention si on force une régression sans constante ($\beta_1=0$), le $R^2$ ne peut plus être interprété, et peut même être négatif (RTO : Regression Through the Origin). ça peut être utile quand on a une raison exogène de penser que lorsque $x_i=0$, alors $y_i$ doit être nul.


L'ennui dans ce monde c'est que les idiots sont sûrs d'eux et les gens sensés pleins de doutes. B. Russel

Hors ligne

#10 14-10-2016 19:25:46

Milos
Membre
Inscription : 11-07-2013
Messages : 94

Re : Robustesse d'une régression linéaire

Bonsoir Léon,

leon1789 a écrit :

En général, corrélation n'implique pas causalité. Donc il faudra faire une preuve de cette relation. Mais ça, je pense que tu le sais, je ne t'apprends rien. :)

Dans ce cas précis, on a toute raison de modéliser comme suit

y = a + b*x

C'est avec ce modèle que j'ai une corrélation plutôt élevée entre y et x, et je n'imagine pas d'autre facteur pertinent que y et x, juste des imprécisions sur chacun des deux.

Amicalement

Hors ligne

#11 15-10-2016 06:19:32

Milos
Membre
Inscription : 11-07-2013
Messages : 94

Re : Robustesse d'une régression linéaire

Salut Freddy

freddy a écrit :

la p-value du K-S test (Lilliefors) me semble un peu élevée.
Avec une table pour le D-W, que valent d1 et d2 avec la taille de ton échantillon ? Tu sais qu'il y a des zones d'incertitudes, vérifie que tu n'est pas dedans. As-tu fait le graphe des résidus. S'il y a autocorrélation, ça saute aux yeux, comme pour l'indépendance d'ailleurs.

A vrai dire, je ne sais pas comment je m'y suis pris, mais j'ai repris le fichier avec l'"outlier" ce qui n'arrange rien. De fait j'ai aussi 27 paires et pas 28, la 1ère ligne étant le nom des variables..

Le graphe des résidus vs les prédictions est (excuse moi si c'est tout petit, c'est la première fois que j'insère une image..):

mini_16101507274122165314557364.jpg

Et les valeurs obtenues sont en fait :

Test for Normality   
Test Statistic p-Value
K-S Test (Lilliefors) 0,097 0,787
Shapiro-Wilk Test 0,188 0,000
Anderson-Darling Test 0,211 > 0.15* *The p-value cannot be precisely computed.


Durbin-Watson D-Statistic 1,645 First Order Autocorrelation 0,141


Information Criteria
AIC 348,060
AIC (Corrected) 349,104
Schwarz's BIC 351,948

A ma honte je n'ai pas trouvé de table pour Durbin-Watson..

Amitiés,

Hors ligne

#12 15-10-2016 06:53:49

yoshi
Modo Ferox
Inscription : 20-11-2005
Messages : 16 947

Re : Robustesse d'une régression linéaire

Salut,


(...) (excuse moi si c'est tout petit, c'est la première fois que j'insère une image..)(...)

Casimages te propose toujours deux tailles, tu as choisi mini... Il fallait prendre la ligne du dessous !

@+


Arx Tarpeia Capitoli proxima...

Hors ligne

#13 15-10-2016 09:34:01

freddy
Membre chevronné
Lieu : Paris
Inscription : 27-03-2009
Messages : 7 457

Re : Robustesse d'une régression linéaire

Salut,

refais tout, en l'état, c'est inexploitable (en particulier, les p-value te disent de tout jeter !).
Et poste un joli graphe, possible que les erreurs se comportent bien, au bénéfice du DW dont on doit trouver une table sur la toile.
Pour le R-deux, c'est la part de la variance expliquée par le modèle (les y chapeaux) sur la variance totale de la variable expliquée (les y). Comme montré par yassine, il faut en user avec précaution.
Et 27 voire 26 paires d'information => je ne parierais même pas une vieille chaussette sur le pouvoir de prédiction du modèle, mais je sais qu'en biostat, c'est assez courant.
Notre vie ne tient parfois qu'à un fil :-)


De la considération des obstacles vient l’échec, des moyens, la réussite.

Hors ligne

#14 15-10-2016 10:24:14

Dlzlogic
Banni(e)
Inscription : 25-04-2016
Messages : 461

Re : Robustesse d'une régression linéaire

Bonjour,
Je crois que si on pouvait avoir les 27 ou 28 couples on pourrait discuter sur des valeurs et non sur des résultats de traitements inconnus.

Hors ligne

#15 15-10-2016 13:04:26

Milos
Membre
Inscription : 11-07-2013
Messages : 94

Re : Robustesse d'une régression linéaire

Salut Freddy

freddy a écrit :

refais tout, en l'état, c'est inexploitable (en particulier, les p-value te disent de tout jeter !).
Et poste un joli graphe, possible que les erreurs se comportent bien, au bénéfice du DW dont on doit trouver une table sur la toile.
Pour le R-deux, c'est la part de la variance expliquée par le modèle (les y chapeaux) sur la variance totale de la variable expliquée (les y). Comme montré par yassine, il faut en user avec précaution.
Et 27 voire 26 paires d'information => je ne parierais même pas une vieille chaussette sur le pouvoir de prédiction du modèle, mais je sais qu'en biostat, c'est assez courant.
Notre vie ne tient parfois qu'à un fil :-)

Je croyais que les p-value indiquées ne faisaient que montrer que les données ne suivent pas une loi normale ? et que seul le DW était important ?

J'ai déjà refait tout le calcul et les dernières valeurs avec leur p-value correspondent aux données rectifiées (donc en ayant rectifié cette donnée aberrante signalée par Systat qui était de fait une erreur de recopie, la valeur corrigée étant beaucoup plus proche de la prédiction). Systat ne me signale plus à présent qu'une "large leverage", cette donnée est certes inhabituellement grande mais l'autre de la paire aussi, et il n'y a pas d'erreur de copie ici.

J'essaye donc d'insérer en plus grand ce graphe des résidus-prédictions:

16101507534622165314557375.png

En passant, le test de Shapiro-Wilk me semble assez impitoyable et très souvent rejeter une loi normale, même sur 8 couples de données, existe t-il un moyen de connaître le risque beta de ce test ?

Amicalement, et merci à toi,

Dernière modification par Milos (15-10-2016 14:51:01)

Hors ligne

#16 15-10-2016 13:04:49

freddy
Membre chevronné
Lieu : Paris
Inscription : 27-03-2009
Messages : 7 457

Re : Robustesse d'une régression linéaire

Dlzlogic a écrit :

Bonjour,
Je crois que si on pouvait avoir les 27 ou 28 couples on pourrait discuter sur des valeurs et non sur des résultats de traitements inconnus.

Inconnus de toi, peut-être ... Et puis, discuter, c'est ton "truc". En fait, tu ne discutes pas, tu pinailles, tu ergotes, tu sodomises les diptères, tu allègues, tu diverges, tu déformes, tu provoques, tu supputes, tu soupçonnes, tu accuses, tu sautes du coq à l'âne, ... tu entretiens des échanges qui n'ont plus ni queue ni tête au fil du temps. C'est ça, ton truc, rebondir, rebondir et rebondir. Ce qui est assez amusant est le comportement de ton principal interlocuteur qui te donne toujours la réplique, comme s'il veillait en permanence à ce que tu aies toujours du grain à moudre dans ton moulin à café.

Bon, j'attends les infos de milos.


De la considération des obstacles vient l’échec, des moyens, la réussite.

Hors ligne

#17 15-10-2016 14:02:13

Milos
Membre
Inscription : 11-07-2013
Messages : 94

Re : Robustesse d'une régression linéaire

Bonjour

Dlzlogic a écrit :

Bonjour,
Je crois que si on pouvait avoir les 27 ou 28 couples on pourrait discuter sur des valeurs et non sur des résultats de traitements inconnus.

Sincèrement, vous croyez que j'ai calculé à la main les tests de Lilliefors, Shapiro-Wilk, Anderson-Darling et celui de Durbin-Watson ?

Je me sers de XLStat (un add-on de Excel) et de Systat (un programme commercial, qui permet aussi d'autres types de régression).
Pour les moindres carrés, je dois avoir une calculette qui sait faire ça; Maple et Mathematica aussi.

Si je viens poser des questions sur ce forum, c'est justement que ce n'est pas le tout d'avoir des programmes de calcul dédiés aux statistiques, ou de calcul formel, ou des calculettes : encore faut-il les utiliser à bon escient, et c'est pour ça que je suis très content que Freddy ou Léon me donnent des indications.

Dernière modification par Milos (15-10-2016 14:04:33)

Hors ligne

#18 15-10-2016 14:35:19

Milos
Membre
Inscription : 11-07-2013
Messages : 94

Re : Robustesse d'une régression linéaire

Re-salut

freddy a écrit :

Et 27 voire 26 paires d'information => je ne parierais même pas une vieille chaussette sur le pouvoir de prédiction du modèle, mais je sais qu'en biostat, c'est assez courant.
Notre vie ne tient parfois qu'à un fil :-)

C'est peut-être pour ça qu'en première année de médecine la matière était baptisée "biomathématiques" (on ne faisait rien que de très ordinaire, dérivées, intégrales, .. même pas avec des énoncés rappelant en quoique ce soit de la médecine ou de la biologie) et plus tard des "biostatistiques" (même chose, avec des problèmes du genre "combien de temps va t-on attendre le bus en moyenne")

:-)

Si la question t'intéresse, à l'occasion je t'enverrai un scan des brochures que laissent les labos pour vanter leur dernière m.. (simplement, fais-le moi savoir, j'ai fini par refuser de rencontrer les délégués médicaux, donc il faudra que je demande à des collègues de me prêter la réclame qu'on leur a donné.

@+

Hors ligne

#19 15-10-2016 15:20:11

Dlzlogic
Banni(e)
Inscription : 25-04-2016
Messages : 461

Re : Robustesse d'une régression linéaire

Bonjour Milos,
Si on résume ce topic, ta question est "J'ai fait des calculs avec des données. Voici mes résultats, est-ce bon ? Mais je ne veux pas montrer mes données."
Moi, j'aurais une question : "Pourquoi parle-t-on de test alors qu'il s'agit de calculer une régression ?".

Hors ligne

#20 15-10-2016 16:08:11

Milos
Membre
Inscription : 11-07-2013
Messages : 94

Re : Robustesse d'une régression linéaire

Bonjour,

Dlzlogic a écrit :

Si on résume ce topic, ta question est "J'ai fait des calculs avec des données. Voici mes résultats, est-ce bon ? Mais je ne veux pas montrer mes données."
Moi, j'aurais une question : "Pourquoi parle-t-on de test alors qu'il s'agit de calculer une régression ?".

D'abord, quand j'écrivais ma thèse, ou mon mémoire, ou participais à l'écriture d'une quinzaine ou vingtaine d'articles (on me demandait entre autres mon avis sur la méthodologie de façon collégiale, ou à moi seul la réalisation de calculs statistiques, ou l'écriture de programmes de mesure en temps réel lors de différents tests), je ne me serais jamais permis d'aller demander à mon prof de stats avec qui j'avais des relations amicales, ou son assistant, de faire les calculs à ma place.

C'aurait été se moquer du monde.

La question (ou plutôt les questions) que je posais étaient souvent en premier la façon, selon les méthodes employées, d'obtenir des données qui soient éventuellement calculables ; ensuite et toujours sauf évidence, si j'utilisais un calcul statistique dans un domaine où il était valide, et sinon si on pouvait me suggérer un test valide (ce qui rejoint d'ailleurs la question préalable des données calculables, avant même le début de l'étude; pour les articles que je mentionnais, le coût des études était prohibitif, d'où la nécessité de ne pas les faire pour rien, et le corollaire regrettable qui est que le directeur d'études tient absolument à avoir un résultat positif, un article où l'auteur n'a rien trouvé est rarement publiable). Je ni'rais pas jusqu'à dire ce point a influencé la publication plus que douteuse de Seralini, mais ça n'est pas impossible.

Une exception cependant, une étude il y a quelques années sur la co-presription de médicaments sur des ordonnances de sortie d'hospitalisation. Sachant qu'une ordonnance peut aussi bien avoir deux lignes que 18, qu'évidemment co-prescription veut dire couplage non seulement de 2 médicaments mais aussi bien de 5, il a fallu recourir à des techniques de data mining, j'étais absolument incapable d'imaginer ne serait-ce que le début d'un algorithme calculant ça.
Dans ce cas donc, il m'a fallu me résoudre à solliciter le calcul effectif d'un statisticien du CHU de Nancy, à qui le prof en question m'avait recommandé.
A noter qu'ici on est en statistique surtout descriptive, même si on obtient un graphe, où à partir d'une association on a une intensité d'association vers un autre nœud où il y a éventuellement un médicament ou plusieurs de plus.
C'est avec ce genre de méthodes que Amazon ou autres vendeurs vont me proposer un article qui pourrait m'intéresser quand je me connecte (et encore en ce moment il y a comme un bug puisque Amazon me suggère d'acheter un article que je leur ai déjà acheté).

Sur votre question, que je ne comprends pas très bien, la réponse est peut-être justement ma question, ai-je le droit de faire une régression dans le cas que je cite.
Jusqu'ici, vous n'avez répondu en rien à ma question. Je ne vois pas en quoi vous fournir les données m'avancerait.

Par contre si Freddy en avait besoin, je n'hésiterais pas à les lui communiquer.

Dernière modification par Milos (15-10-2016 16:38:14)

Hors ligne

#21 15-10-2016 16:59:35

Dlzlogic
Banni(e)
Inscription : 25-04-2016
Messages : 461

Re : Robustesse d'une régression linéaire

@ Milos,
Oh, c'est très simple. D'abord vous posez une question purement mathématique sur un forum mathématique. La définition d'une régression linaire est très claire, et votre première question à propos de la non normalité des deux liste me laisse supposer que ces notions ne sont pas très claires pour vous.
D'autre part, ce qui concerne votre profession ne me regarde pas.
Enfin, je n'avais par imaginé à quel point ma remarque à propos de l'utilisation de logiciels de calcul sans bien savoir ce qui se passe était bien ciblée, par exemple vos remarques concernant la méthode des moindres carrés sont parfois assez surprenantes.
Ceci dit, j'ai tout compris, alors bonne chance.
[HS] une petite remarque tout de même, vous n'avez manifestement pas compris mon papier où il question de papillons. Votre observation sur ce forum à ce propos est parfaitement déplacée[/HS]

Hors ligne

#22 15-10-2016 18:20:09

Milos
Membre
Inscription : 11-07-2013
Messages : 94

Re : Robustesse d'une régression linéaire

@Dlzlogic

Bonsoir

Dlzlogic a écrit :

@ D'abord vous posez une question purement mathématique sur un forum mathématique. La définition d'une régression linaire est très claire, et votre première question à propos de la non normalité des deux liste me laisse supposer que ces notions ne sont pas très claires pour vous.

Vous avez parfaitement raison, je pose une question purement mathématique sur un forum mathématique

Ça ne me paraît pas anormal.

Ensuite, et effectivement, la validité d'une régression utilisant la méthode des moindres carrés me posait problème, et j'ai eu des indications satisfaisantes même si dans mon cas précis, la question reste ouverte pour d'autres problèmes que la normalité des distributions (donc et à ce que j'en ai compris, entre autres l'égalité des variances).

Dire que la définition d'une régression linéaire, au sens où vous semblez l'entendre (les moindres carrés), ne me paraît pas si claire même si les contributeurs compétents indiquent que cette méthode est la moins entachée de biais.
Par exemple, un des programmes que j'utilise peut utiliser 22 méthodes de régression y compris bayésiennes.

Ensuite je ne crois pas être trop hors sujet, puisque dans l'exemple que je cite de votre cite vous semblez indiquer "au pif" que des données suivraient peut-être une loi normale, et ceci avec 12 valeurs.
http://www.dlzlogic.com/aides/DangerStat.pdf

Certes vous faites une mise en garde, mais quel "praticien" même de très loin voudrait déduire quoique ce soit d'un aussi petit ensemble, y compris que cet ensemble suit peut-être une loi normale ?

Et en plus c'est une série temporelle, ce qui ne me semble pas indifférent pour le calcul. Les 27 paires de données que je donnais en sont une aussi (les 9 premières paires sont ordonnées selon des dates croissantes non consécutives, les suivantes selon des jours toujours croissants consécutifs).

Si vous aimez tellement avoir des données réelles sur lesquelles travailler, je vous envoie très volontiers une série temporelle de 547 valeurs, qui correspond aux nombres de personnes reçues aux urgences d'un hôpital du 1.1.2015 au 30.6.2016, moyenne de 74,344 patients par jour et écart-type de 10,147 (toutes les dates sont consécutives).

Si vous aimez travailler sur de vraies données, je serais curieux de voir ce que vous ferez de celles là.

Dernière modification par Milos (16-10-2016 00:47:57)

Hors ligne

#23 16-10-2016 08:56:52

freddy
Membre chevronné
Lieu : Paris
Inscription : 27-03-2009
Messages : 7 457

Re : Robustesse d'une régression linéaire

Salut Milos,

je reprends le post #15. Les résidus ne gigotent pas assez et semblent autocorrélées :-), il y a un truc que tu ne captures pas. Cela étant, tu peux l'intégrer dans ton calcul de régression pour estimer les "bonnes" valeurs après décorrélation. As-tu le moyen de voir jusqu'à quel niveau il y a suspicion d'autocorrélation ?

Les p-value sont importantes (pour moi) quand j'ai un base assez large : elles me donnent la probabilité qu'a la valeur du test d'être dépassée. Au dessus de 0,05, je vire. Quand j'ai < 0,001, je fais la roue !

Tous les tests sont à prendre comme une liste de compromis, ils répondent à des questions précises sous des conditions précises d'utilisation.

A la base de tout, tu dois avoir une idée précise du modèle, et notamment du sens de causalité, dont tu souhaites vérifier l'adéquation. Faire de la statistique sans modèle relève de la haute voltige sans filet. Yassine en a montré les limites avec bcp d'humour.

La statistique est un peu comme un couteau suisse : c'est parfait quand on sait s'en servir, c'est diabolique sinon.

Un test simple pour voir les "bonnes" valeurs : tu construits un modèle fictif de la forme [tex]y=ax+b+\epsilon[/tex]
avec [tex]\epsilon[/tex] bruit blanc de variance égale à ce que tu veux. Tu génères une centaine de valeurs, les soumets à test outils et regarde les valeurs des tests en sortie.


De la considération des obstacles vient l’échec, des moyens, la réussite.

Hors ligne

#24 16-10-2016 12:14:23

Milos
Membre
Inscription : 11-07-2013
Messages : 94

Re : Robustesse d'une régression linéaire

Salut Freddy, et merci de ton aide et attention.

A priori, ce modèle y=ax+b dans la limite de mes connaissances physiques devrait correspondre.

Il y a une incertitude sur la valeur de x à chaque observation pour des raisons circonstancielles inconnues, a priori aléatoire mais qui pour des raisons pratiques ne peut raisonnablement être inférieur à disons 8 et jamais supérieur à 110.

Je n'ai pas d'outil décrivant les autocorrélations, autre que des ACF et dérivés pour étudier des séries temporelles. Ici comme chaque paire peut être associée à une date, je viens de regarder mais je ne vois pas de pattern remarquable. Je ne sais pas comment voir si des autocorrélations d'ordre supérieur existent, ni comment "décorréler".

Que je comprenne bien avant de faire des simulations qui ne ressembleraient pas à celle que tu suggères ;

- je tire au hasard une centaine de valeurs de x, avec une loi quelconque conservant x entre 20 et 110, favorisant par réalisme quand même ce que j'ai avec les données de départ : moyenne 36.15, écart-type 20
- de là je calcule y avec ma formule douteuse actuelle 369+24.4 * x, douteuse mais qui est ce que j'ai de mieux en ce moment
- et j'ajoute une valeur aléatoire à y de moyenne nulle et variance quelconque, après quoi je refais le calcul de régression classique ?

Merci encore à toi de me prêter ton temps, amicalement,

Hors ligne

#25 16-10-2016 12:34:27

freddy
Membre chevronné
Lieu : Paris
Inscription : 27-03-2009
Messages : 7 457

Re : Robustesse d'une régression linéaire

Re,

le bruit blanc = loi normale centrée (donc moyenne nulle et sigma quelconque). Tu prends en effet des X comme tu veux, par exemple de 20 à 110 par pas de 5, tu en déduits les Y=aX+b  (avec a et b ayant des valeurs que tu fixes comme tu veux) et tu ajoutes dans chaque cas la réalisation du bruit blanc.
Ton logiciel va (re)trouver a et b et te donner une séries d'indications sur les tests, leur p-value et le D-W qui seront les valeurs "idéales" vers lesquelles il faut tendre dans un "monde idéal".

Pour décorréler, il te faut un outil stat. qui le fasse, tu vas t'emm... à le faire tout seul. Tu devrais trouver quelque chose sur R (gratuit), ou SAS (très cher). Je vais regarder autour de moi ce que j'ai de simple.


De la considération des obstacles vient l’échec, des moyens, la réussite.

Hors ligne

Pied de page des forums