Autocorrélation

marin marais · 06-07-2011 13:53:02

Bonjour à tous et à toutes,

En gros, je sais comment calculer l'autocorrélation d'une série de données, maintenant, que dois-je en faire ? C'est pas vraiment un problème de maths, mais plutôt de traitement du signal... Mais je n'arrive pas à trouver de la doc claire. Je m'en remets donc à vos compétences.

En détails, voila mon problème actuel :

Je bosse sur un projet de satellite d'observation de la Terre à partir de tirs laser. Le laser permet d'estimer l'altitude de la zone observée de la Terre. Cette estimation est biaisée en cas de pentes importantes et quelques autres bricoles.

Du coup, en analysant des modèles numériques de terrain, j'ai pu calculer la probabilité que ma pente soit suffisamment forte pour engendrer un biais. Soit. Sauf que les pentes d'un point de la Terre à un autre ne sont pas indépendantes dans l'espace jusqu'à une certaine distance : si mon laser tire sur une haute montagne, la pente du prochain tir aura de grande chance, elle aussi d'être importante.

Dans ce contexte, l'autocorrélation semble être un bon outil. Je dois pouvoir en déduire la distance à partir de laquelle mes pentes peuvent être considérées comme étant indépendantes. C'est là que mes problèmes commencent...

Voila la définition que j'ai trouvée (dans le cas d'une série stationnaire) :

[tex]
R_k(X)=\frac{1}{n\sigma^2}\sum_{t=1}^{n-k}{(x_t-\mu)(x_{t+k}-\mu)}
[/tex]

Avec [tex]n[/tex], la taille de ma série [tex]X[/tex], d'espérance [tex]\mu[/tex] et de variance [tex]\sigma^2[/tex].

Voila, j'ai mes coefficients [tex]R_k[/tex], maintenant que dois-je faire pour calculer une éventuelle distance au delà de laquelle, selon un seuil de confiance fixé, mes valeurs sont indépendantes. J'imagine qu'il existe un test statistique pour cela, basé sur la loi de distribution suivie par [tex]R_k[/tex] mais je ne vois pas laquelle. Auriez-vous une idée ??? Après plusieurs jours passés dans la bibliothèque de mon institut, je ne sais plus trop où chercher...

Cordialement,
Thomas.

marin marais · 06-07-2011 17:04:14

Pour info, je suis en train de simuler avec MatLab pour savoir vers quoi chercher... Ça sent la loi "t" de Student à plein nez...

En effet :
- L'espérance semble nulle,
- La densité de probabilité semble symétrique par rapport à l'espérance,
- Les queues de distribution sont plus fortes que la loi normale,
- Les flancs de la cloche sont plus resserrés que pour la loi normale.

Sur [tex]10^6[/tex] simulations, les tests d'adéquation du [tex]\chi^2^[/tex] par rapport à la loi normale d'espérance nulle et de variance égale à [tex]n-k[/tex] ont échoués pour [tex]n-k=10[/tex] et [tex]n-k=100[/tex]. Pour [tex]n-k=1000[/tex] et [tex]n-k=10000[/tex], les tests ont réussi, ce qui est logique, d'après le théorème central limite...

Demain, je vais reprendre mes tests d'adéquation avec la loi de student. Après, j'essaierai de le démontrer comme un grand garçon...

Cordialement,
Thomas.

marin marais · 08-07-2011 10:57:19

Bon, d'après les infos que j'ai pu trouvé ça et là, il n'y a pas de solution analytique pour exprimer la densité de probabilité du produit de deux variables aléatoires indépendantes qui suivent la loi normale centrée réduite.

Alors voila comment j'ai procédé :
Soient [tex]X[/tex] et [tex]Y[/tex] deux variables aléatoires indépendantes qui suivent la loi normale centrée réduite.
Soient [tex]((x_i)_{i=1}^n)\in\matnbb{R}^n[/tex] et [tex]((y_i)_{i=1}^n)\in\matnbb{R}^n[/tex], [tex]n[/tex] réalisations respectivement de [tex]X[/tex] et [tex]Y[/tex].

Soit [tex]Z_n[/tex] la variable aléatoire définie par [tex]Z_n=\sum_{i=1}^n{x_iy_i}[/tex]

J'ai pu démontrer que :
- [tex]\mathbb{E}(Z_n)=0[/tex]
- [tex]\mathrm{var}(Z_n)=n[/tex]

D'après le théorème central limite et ces résultats, la distribution de [tex]Z_n[/tex] tend vers la loi normale centrée de variance [tex]n[/tex]. Grâce à des simulations de Monte-Carlo (avec [tex]10^6[/tex] tirs à chaque fois), le test d'adéquation du [tex]\chi^2[/tex] par rapport à cette loi normale est, à [tex]95\,\%[/tex], positif pour [tex]n>150[/tex]. Pour les valeurs inférieures de [tex]n[/tex], l'erreur de définition des bornes du test statistique de mon résultat d'autocorrélation, due à l'approximation de la vraie loi de [tex]Z_n[/tex] par la loi normale, correspond à un biais sur la probabilité qui est inférieur, en valeur absolue, à [tex]0.2\,\%[/tex].

On va dire que ça me suffit largement... Voili voilou, maintenant, c'est parti pour l'analyse de mes pentes !!!

Dernière modification par marin marais (08-07-2011 16:34:22)

freddy · 08-07-2011 22:10:22

Re,

pour la variance, j'ai comme un doute. Et Z ne suit sûrement pas une loi normale, passe par les fonctions caractéristiques pour t'en convaincre.

Sinon, comme je n'ai strictement rien compris à ton pb d'effet de pente dans la mesure de je ne sais quoi, je ne suis pas intervenu.

Enfin, la loi de Student est celle du quotient de deux va : le numérateur suit un loi normale centré réduite, et le dénominateur un Khi carré.

Dernière modification par freddy (08-07-2011 22:11:48)

marin marais · 09-07-2011 10:34:31

Salut ! Merci de te pencher sur mon cas et désolé de ne pas avoir réussi à être clair...

Je ne dis pas que Zn suit la loi normale, je dis qu'en tant que somme de n variables aléatoires, Zn tend vers une loi normale quand n est grand, ce que je confirme par des tests d'adéquation de Pearson à partir de simulations de Monte-Carlo. Aurais-je fait une bétise, ou mal appliqué le théorème central limite ? C'est possible...

Je vais reprendre mes calculs de l'espérance et de la variance puis les poster pour vérification.

Pour ce qui est du fond de mon problème (c'est un peu long...) :

Mon instrument doit restituer l'altitude moyenne de la partie de la surface de la Terre qu'il observe (une tache de 12 m de diamètre). Mais certaines conditions engendrent un biais dans l'estimation de l'altitude, notamment la pente (plus précisément la pente quand la réflectance du terrain n'est pas constante).

Je dois donc calculer la probabilité d'occurrence du biais de mon instrument qui, admettons, correspond à la probabilité que la pente dépasse un seuil donné (44°).

J'ai analysé des modèles numériques de terrain (MNT), fournis par l'IGN, sur des départements entiers et sur certaines villes en particulier. J'ai pu en extraire, pour chacun de ces MNT les courbes empiriques de la densité de probabilité et de la fonction de répartition de la pente. Grâce à cela, je suis capable de calculer la probabilité que ma pente dépasse le seuil à partir duquel mon instrument est biaisé.

L'instrument dans mon satellite doit faire une mesure tous les 70 m à la surface de la Terre. Supposons qu'à un instant donné, il observe une zone très inclinée. Il y a un biais, la mesure est hors tolérance. Passons à la mesure suivante, 70 m plus loin.

Si j'arrête mon analyse au calcul de la probabilité des fortes pentes du paragraphe précédent, ça revient à considérer ma VA pente comme étant non corrélée dans l'espace. La pente de la zone observée à l'instant suivant serait alors indépendante de la précédente. C'est faux, il suffit d'observer la nature : les pentes très fortes s'observent majoritairement dans les régions montagneuses. Réciproquement, si ma pente est très importante, c'est peut-être parce que je suis en région montagneuse. Dans ce cas, si ma pente est forte à un endroit donné, 70 m plus loin, la pente devrait aussi l'être. Je cherche donc à quantifier la corrélation dans l'espace de mes pentes. L'autocorrélation m'a semblé être un outil pertinent pour cela.

Dans ce but, j'ai calculé les coefficients d'autocorrélation [tex]R_k[/tex] (voir mon premier post) des pentes des MNT que j'ai analysés. J'obtiens de jolies courbes, comprises entre -1 et 1. Je cherche à définir le rang k à partir duquel les valeurs des coefficients d'autocorrélation sont suffisamment petites pour que je puisse considérer mes pentes comme étant indépendantes. Ca revient à calculer la distance minimale à partir de laquelle deux valeurs de pente peuvent être considérées comme indépendantes. Pour définir ce rang k, j'ai besoin d'un test statistique sur mes coefficients.

Voila le test que j'ai construit :
Hypothèse H0 : [tex]((p_i)_{i=1}^{n-k})[/tex] et [tex]((p_{i+k})_{i=1}^{n-k})[/tex] sont deux séries indépendantes (mes pentes).
Soient [tex]\mu[/tex] et [tex]\mu'[/tex] les moyennes respectives des [tex]p_i[/tex] et des [tex]p_{i+k}[/tex].
Soient [tex]\sigma[/tex] et [tex]\sigma'[/tex] les écart-types respectifs des [tex]p_i[/tex] et des [tex]p_{i+k}[/tex].
[tex]x_i=\frac{p_i-\mu}{\sigma}[/tex] et [tex]y_i=\frac{p_{i+k}-\mu'}{\sigma'}[/tex] sont les versions centrées réduites des [tex]p_i[/tex] et [tex]p_{i+k}[/tex]
La variable [tex]Z_{n-k}=\sum_{i=1}^{n-k}{x_iy_i}[/tex] tend, pour [tex]n-k[/tex] suffisamment grand, vers la loi normale d'espérance nulle et de variance (à confirmer) [tex]n-k[/tex], que je note [tex]N(0,\sqrt{n-k})[/tex].

J'utilise mon test ainsi :
Je dispose des valeurs des coefficients d'autocorrélation [tex]R_k=\frac{Z_{n-k}}{n}[/tex].
Soient [tex]\gamma_1=P(N(0,\sqrt{n-k})\leq{}2.5\,\%)[/tex] et [tex]\gamma_2=P(N(0,\sqrt{n-k})\leq{}97.5\,\%)[/tex].
Si [tex]\gamma_1\leq{}n\cdot{}R_k\leq\gamma_2[/tex], alors l'hypothèse H0 d'indépendance est validée, sinon, elle est rejetée.

J'espère avoir été plus clair...

Bravo à ceux qui ont eux le courage de me lire jusque là !!!

Thomas.

freddy · 09-07-2011 16:47:22

Re,

tout de suite, il faut que tu saches que le produit de deux va normales n'est pas une va normale !!!

marin marais · 09-07-2011 17:35:41

Oui, je sais et je n'ai pas l'impression d'avoir dit cela ni de l'avoir sous-entendu. Y-aurait-il une étape dans mon raisonnement qui impliquerait - sans que je le sache - le fait que je considère le produit de 2 VA gaussiennes comme une VA gaussienne ?

C'est possible car je dois admettre ma faible maîtrise de ces outils, mais si c'est le cas, je veux bien un petit coup de pouce ;)

J'affirme que la VA qui est la somme de n produits de 2 VA gaussiennes converge vers la loi normale et ce, en me basant sur le théorème central limite.

freddy · 09-07-2011 21:01:59

Re,

as tu pris connaissance de toutes les conditions de l'application du TCL : va identiquement ET indépendamment distribuées ? Quant au sigma du produit de deux VA gaussiennes, j'ai toujours un doute sur son calcul.

Sinon, pour ton problème, le point que je ne comprends pas est : quelle mesure as tu quand la pente est trop forte ? Est ce une mesure aberrante, ou bien décalée (tu dis biaisée, mais un biais se mesure en général ...), ou alors visiblement décalée, ou encore totalement aléatoire ? Ou bien as tu une suite de mesure et tu essaies de savoir si certaines sont fausses.

Pour le pb de pente, ne crains tu pas de déceler aussi des mesures auto corrélées avec des pentes faibles ?

marin marais · 11-07-2011 09:52:56

Salut Freddy et merci encore.

Je crois que j'ai trouvé, grâce à tes qualités de maïeuticien, les failles de mon raisonnement.

Du coup, je commence par détailler mes calculs d'espérance puis de variance. les astérisques (*) signalent les assertions sur lesquelles je ne mettrais plus ma main au feu...

[tex]((x_i)_{i=1}^n)[/tex] et [tex]((y_i)_{i=1}^n)[/tex] sont n réalisations de 2 VA réelles indépendantes X et Y suivant la loi normale centrée réduite. Soit [tex]Z_n[/tex] la VA telle que [tex]Z_n=\sum_{i=1}^n{x_iy_i}[/tex]

[tex]\mathbb{E}(Z_n)=\mathbb{E}(\sum_{i=1}^n{x_iy_i})=\sum_{i=1}^n{\mathbb{E}(x_iy_i)}[/tex] du fait de la linéarité de l'espérance. Sachant que, par hypothèse, [tex]x_i[/tex] et [tex]y_i[/tex] sont indépendants, on a [tex]\mathbb{E}(x_iy_i)=\mathbb{E}(x_i)\mathbb{E}(x_i)[/tex] d'où :
[tex]\mathbb{E}(Z_n)=\sum_{i=1}^n{\mathbb{E}(x_i)\mathbb{E}(y_i)}[/tex]
[tex]x_i[/tex] et [tex]y_i[/tex] ont, par hypothèse, des espérances nulles d'où
[tex]\mathbb{E}(Z_n)=0[/tex]

Jusque là, j'espère avoir bon... Passons aux choses sérieuses...

[tex]\mathrm{var}(Z_n)=\mathrm{var}\big(\sum_{i=1}^n{x_iy_i}\big)=\sum_{i=1}^n{\mathrm{var}(x_iy_i)}+2\sum_{1\leq{}i<j\leq{}n}{\mathrm{cov}(x_iy_i,x_jy_j)}[/tex]

Pour ce qui est de la somme des variances :
[tex]\mathrm{var}(x_iy_i)=\mathbb{E}(x_i^2y_i^2)-(\mathbb{E}(x_iy_i))^2[/tex]
[tex]x_i[/tex] et [tex]y_i[/tex] sont indépendants et d'espérances nulles, annulant ainsi le deuxième terme. Cela implique aussi que [tex]x_i^2[/tex] et [tex]y_i^2[/tex] soient indépendants (*). D'où :
[tex]\mathrm{var}(x_iy_i)=\mathbb{E}(x_i^2)\mathbb{E}(y_i^2)[/tex]
[tex]x_i[/tex] et [tex]y_i[/tex] suivent la loi normale centrée réduite, donc [tex]x_i^2[/tex] et [tex]y_i^2[/tex] suivent la loi du [tex]\chi^2[/tex] à 1 degré de liberté. De ce fait, leurs espérances valent 1.
[tex]\mathrm{var}(x_iy_i)=1[/tex] d'où
[tex]\sum_{i=1}^n{\mathrm{var}(x_iy_i)}=\sum_{i=1}^n{1}=n[/tex]

Passons à la somme des covariances...
[tex]\mathrm{cov}(x_iy_i,x_jy_j)=\mathbb{E}[(x_iy_i-\mathbb{E}(x_iy_i))\cdot{}}(x_jy_j-\mathbb{E}(x_jy_j))]=\mathbb{E}(x_iy_i\cdot{}x_jy_j)[/tex]
Les réalisations de X et Y sont par hypothèse indépendantes donc [tex]x_ix_j[/tex] et [tex]y_iy_j[/tex] sont indépendantes (*). On a alors :
[tex]\mathrm{cov}(x_iy_i,x_jy_j)=\mathbb{E}(x_ix_j)\cdot\mathbb{E}(y_iy_j)[/tex]
J'ai alors brutalement annulé ce terme en supposant que, si i est distinct de j, alors mes deux réalisations de X correspondantes sont indépendantes, comme si elles étaient indépendamment distribuées. Or ce n'est pas le cas...

C'est du coup cette même hypothèse qui me faisait affirmer que la somme de mes Zn tendaient vers la loi normale. OK, je vais me replonger dans mes bouquins... Manifestement, j'en ai besoin :o)

marin marais · 11-07-2011 10:08:21

Pour ce qui est du fond de mon problème, l'instrument (LIDAR à retour d'onde complète) fonctionne sur la rétrodiffusion du sol. On émet un faisceau laser. La surface au sol rétrodiffuse, le capteur enregistre le retour de l'onde, à savoir la puissance reçue en fonction du temps écoulé depuis l'émission. On dispose d'un profil de la puissance rétrodiffusée en fonction du temps. Le temps permet de déduire la distance à l'objet observé. Dans mon cas, j'en déduit l'altitude. Pour estimer la distance observée, on effectue un calcul similaire à celui d'une espérance mathématique à partir d'une densité de probabilité. Ce problème est relativement simple à traiter pour des lidar terrestres et aérien. Les surfaces observées peuvent être assimilées à des points.

Moi j'ai un lidar spatial dont l'empreinte au sol fait 12 m de diamètre. Sur une telle surface, il peut s'en passer des choses. En confiant les problèmes de la végétation et du bâti à des spécialistes, je me suis concentré sur la rugosité, la pente et la réflectance de ma surface. Si ma réflectance varie, c'est un peu comme si je déplace le barycentre de la rétrodiffusion. Si le sol est plat, l'estimation de l'altitude n'est pas perturbée. Par contre s'il y a de la pente, l'erreur entre mon estimation et la vraie altitude moyenne de la surface, mon biais, est proportionnel à la pente. Il s'agit d'une mesure décalée. C'est un problème de justesse, d'exactitude de la mesure et non de dispersion des mesures. C'est la raison pour laquelle je parle de biais.

Avec notre satellite, on n'aura pas de connaissance a priori de la topographie ni de la réflectance (en fait, on se bat avec les constructeurs pour essayer d'en avoir une par l'apport d'un imageur). A défaut d'avoir les moyens de savoir ce que je mesure, j'essaie de déterminer le risque que mon estimation de l'altitude soit entachée d'un tel biais, supérieur à 20 cm. En étant extrêmement pessimiste sur les variations de la réflectance de la surface de la Terre, tant que ma pente est inférieure à 44°, le biais est inférieur à 20 cm.

Forum de mathématiques - Bibm@th.net

#1 06-07-2011 13:53:02

Autocorrélation

#2 06-07-2011 17:04:14

Re : Autocorrélation

#3 08-07-2011 10:57:19

Re : Autocorrélation

#4 08-07-2011 22:10:22

Re : Autocorrélation

#5 09-07-2011 10:34:31

Re : Autocorrélation

#6 09-07-2011 16:47:22

Re : Autocorrélation

#7 09-07-2011 17:35:41

Re : Autocorrélation

#8 09-07-2011 21:01:59

Re : Autocorrélation

#9 11-07-2011 09:52:56

Re : Autocorrélation

#10 11-07-2011 10:08:21

Re : Autocorrélation

Réponse rapide

Pied de page des forums