600 likes | 886 Views
Introduction à l’analyse des séries temporelles . M2 DYNEA Florence Dufour Décembre 2007. http://duduffe.free.fr/M2DYNEA/. Plan du cours. Savoir ce qu’est une série temporelle et voir quelques exemples Pourquoi traiter les séries temporelles Quelques définitions utiles
E N D
Introduction à l’analyse des séries temporelles M2 DYNEA Florence Dufour Décembre 2007 http://duduffe.free.fr/M2DYNEA/
Plan du cours • Savoir ce qu’est une série temporelle et voir quelques exemples • Pourquoi traiter les séries temporelles • Quelques définitions utiles • Tester l’existence d’une tendance • Estimer les différentes tendances • Comment éliminer la tendance générale • Pourquoi et comment prendre en compte l’autocorrélation
Qu’est-ce qu’une série temporelle? Suite d’observations : • mesurées à intervalles réguliers • Indicées par le temps La date à laquelle l’observation est faite est une information importante sur le phénomène observé
Quelques exemples de séries temporelles - 1 Evolution de la population des EU Evolution de la population française Pour ces 2 séries on voit que le temps explique bien le niveau de la série. Une fonction du temps assez lisse capte bien le niveau de la série
Quelques exemples de séries temporelles - 2 Nombre de morts par accident de voiture au R.U. Le niveau moyen reste stable jusqu’à fin 1982 et il y a d’importantes fluctuations saisonnières. En février 1983 une nouvelle législation rend obligatoire le port de la ceinture de sécurité. La saisonnalité contribue donc à expliquer le niveau.
Quelques exemples de séries temporelles - 3 La saisonnalité qui contribue à expliquer le niveau, comme avant En plus la moyenne et la variabilité de la série augmente avec le temps La variance nést pas constante. Les séries dont la variance à une date est fonction de la moyenne à cette date.est appelé série hétéroscédastique
Comment qualifiez-vous cette série? La saisonnalité qui contribue à expliquer le niveau, comme avant Et encore une fois la moyenne et la variabilité de la série augmente avec le temps C’est donc une série hétéroscédastique
Objectifs de l’analyse des séries 3 objectifs principaux: 1) Description: • Diagramme séquentiel (time plot) • Histogramme pour voir la distribution des valeurs • Remarquer les valeurs atypiques ou aberrantes 2) Explication – résumé: Comprendre comment se passent certains processus et avoir une vue synthétique débarrassée de détails de court terme (instituts officiels de statistiques) 3) Prédictif: Prédire dans le futur comment évolue un phénomène
Les définitions • Une série temporelle est une suite d’instants • Une série est dite régulière (rare) s’il n’y a pas de lacunes et que le pas d’échantillonnage ne change pas • On rencontre également des séries temporelles à données manquantes. Pour boucher les trous on peut utiliser un modèle qui prédit les données en prenant en compte les caractéristiques locales et globales • Une série est dite lacunaire ou intermittente lorsque l’on a pas d’observation pendant plusieurs années.
Les définitions Les différentes composantes d’une série temporelle sont: • La tendance générale: Ne peut être étudiée que si l’épisode est terminé et non en cours de formation • Variation saisonnière: Applicable que si l’on dispose de plusieurs observations par an • Composante cyclique: Echelle intermédiaire entre le court et le long terme
Décomposition des séries Il est classique de décomposer une série temporelle en tendance mt, effet saisonnier st, et erreur Ut. Généralement on s’intéresse à un modèle additif : Yt = mt, + st, + Ut avec E(Ut) = 0 Dans le cas où les séries montrent une saisonnalité qui a de plus en plus d’ampleur alors (comme pour les ventes de champagne) un modèle multiplicatif est plus ajusté à la série: Yt = mt, . st, . Ut avec E(Ut) = 0 Suivant l’objectif de l’analyse, le traitement de la série sera différent. Dans le cas où l’on veut regarder le comportement à moyen terme d’une série, il est utile d’éliminer l’effet saisonnier tandis que lorsque c’est le comportement à court terme qui nous intéresse, il est important de garder l’effet saisonnier.
Tester l’existence d’une tendance • Rappel : les test non paramétriques permettent de ne pas faire d’hypothèse sur la distribution des probabilités. • 2 tests non paramétriques de l’existence d’une tendance: • Correlation sur les rangs de Spearman • Corrélation de rang de Mann-Kendall
Corrélation sur les rangs de Spearman Afin de savoir s’il existe une tendance, il faut faire une corrélation entre les valeurs observées et les dates d’observations. Comme la tendance n’est pas forcément linéaire, on va remplacer les valeurs observées par leur rangs, puis calculer la corrélation non paramétrique de Spearman, rs, avec le temps. Soit une série de n observations. Si on appelle le rang moyen, Rx le rang de la valeur de l'observation x, Ry le rang de la valeur de l'abcisse temporelle correspondante, ex, le nombre d'ex-æquo la formule s'écrit:
. Interprétation 1) Les valeurs du coefficient de Spearman sont comprises entre -1 et +1. Si le processus est purement aléatoire, la moyenne de rs est égale à 0 et sa variance est égale à 1/(n-1). La distribution des rs est normale pour n >50. On calcule ici la quantité qui suit une loi t de Student, avec n-2 degrés de liberté, valable pour tout n. 2 ) Il existe une tendance si la corrélation sur les rangs du temps et des observations est significative. 3) Quand la moyenne du coefficient est négative alors la tendance est décroissante et quand elle est positive la tendance est croissante.
et Corrélation de Mann-Kendall Le principe du test de Mann-Kendall de l’existence d’une tendance est d’examiner le signe des différences sur des paires des données observées. Pour un seuil a donné, on refusera Ho (pas de tendance) si :
Estimation de la tendance générale • Par régressions: L'idée simple pour estimer une tendance générale est de vérifier son ajustement par une droite, une parabole, un polynôme d'ordre plus élevé. Ces techniques reposent sur l'algorithme des moindres carrés: on minimise les carrés d'écarts entre les données observées et un polynôme de degré fixé à l'avance. L'estimation des paramètres se fait en considérant un système d'équations de dérivés partielles. La signification de l'ajustement peut se faire par l'inférence statistique si les distributions sont normales, cas malheureusement peu fréquent avec les séries.
Zt = at + b où Zt est la tendance Si on veut plus détailler la série, on peut utiliser une régression polynomiale Mais on est face à une ambiguïté si un ajustement par un polynôme d'ordre 5 par exemple, semble très bien décrire visuellement la tendance générale, l'ajustement simple peut être lui aussi déjà, hautement significatif. Pour savoir si un degré supérieur est nécessaire il faut tester si le coefficient de régression partielle attaché à ce degré est significativement différent de 0.
Estimation de la tendance générale • Par les moyennes mobiles: La méthode des Moyennes Mobiles (MB), correspond à un filtre linéaire. Le filtrage linéaire d'une chronique Zt, consiste à remplacer les diverses valeurs de cette chronique par une combinaison linéaire de ses diverses valeurs : remplacer chaque valeur de la série par la moyenne des valeurs comprises dans 1 fenêtre définie de façon arbitraire. Plus la fenêtre est grande et plus le lissage est fort c’est la moyenne de beaucoup de termes Si on fait un bon choix dans la grandeur de la fenêtre alors la série obtenue peut être considérée comme la tendance générale.
Moyenne mobile simple : C’est donc la somme des valeurs comprises dans la fenêtre et on divise par la somme des coefficients de pondération Une moyenne mobile d’ordre m (calculée sur 2m+1 termes) a la propriété d’éliminer le cycle de même période, la fréquence de coupure du spectre étant égale en effet à : Si 2m + 1 égale période de la série alors on fait apparaître la tendance en moyennant la composante : si 2m + 1 = T alors Ft = MMt Moyenne mobile pondérée : les termes qui sont proches ont plus de poids que les termes qui sont loin Ex : MB simple : 1 1 1 1 1 MB pondérée : 0,3 0,8 1 0,8 0,3
Estimation de la tendance locale 2 méthodes: 1) Différence entre la série totale et la tendance générale St = Yt – Ft où Yt est la série totale et Ft est la tendance générale • Méthode des sommes cumulées: Cette méthode dite des sommes cumulées se propose : • de détecter les changements survenant dans le niveau moyen de la série • de déterminer la date d’apparition de ces changements • d’estimer la valeur moyenne d’intervalles homogènes
Soit une série échantillonnée régulièrement à pas constant, x(t), t variant entre 1 et N. Choisissons une valeur de référence k (par exemple la moyenne). On retire cette valeur k de toutes les estimations de la série, puis on effectue le cumul des valeurs successives : = x1 + x2 - 2k D’où Cette somme cumulée est très sensible au changement de la valeur moyenne d'une série.
Estimation de la composante aléatoire et = Yt – St avex E(et) = 0
Elimination directe: méthode des différence La méthode des différences a pour but d'éliminer la tendance. Ce n'est valable que si la série a une tendance monotone et non "en dents de scie". Pour décrire la méthode, définissons d'abord la notion d'opérateurs de retard. Soit l'opérateur polynomial : Soit: Les différences d'ordre r (successives), sont définies par : où désigne les combinaisons simples de i termes pris r à r.
Exemple: Soient les différences secondes: La transformation de Zt en élimine totalement ou en partie la tendance. La méthode des différences est extrêmement courante lorsqu'on désire se rapprocher de façon rapide et simple de la stationnarité, en répétant le procédé si nécessaire.
Elimination par la méthode des moyennes mobiles La méthode des moyennes mobiles permet également d'éliminer directement toute variation cyclique. Si on dispose d'une série pluriannuelle avec des observations mensuelles, une MB simple centrée de 12 mois (13 mois successifs) élimine la variation saisonnière. Problème du centrage des observations dans la fenêtre de lissage: On démontre qu'une MB calculée sur 12 termes a la propriété d'éliminer le cycle de même période, la fréquence de coupure du spectre (voir chapitre sur l'analyse spectrale), étant égale en effet à:
Cependant on ne peut centrer les observations dans une fenêtre contenant un nombre pair de termes. C'est pourquoi on va considérer un lissage avec une fenêtre à 13 termes. Le filtre de désaisonnalisation s'écrira: Comme il faut considérer le poids de 12 valeurs et non de 13, les observations extrêmes dans la fenêtre, comptent seulement pour moitié. Naturellement, 6 valeurs au début et 6 valeurs à la fin de la série, ne pourront être estimées par cet algorithme. Problème de l'estimation des termes extrêmes de la série lissée La méthode d'addition de valeurs au début et à la fin de la série ne s'applique pas ici si on a à estimer 6 mois successifs au début et à la fin d'une série pluriannuelle. Si la série comporte un grand nombre d'années, on peut préalablement rajouter les valeurs des 6 premiers mois de la deuxième année au début et les valeurs des 6 derniers mois de l'avant dernière année à la fin.
Elimination par la méthode des écarts saisonniers La méthode des différences est également efficace pour éliminer une tendance sinusoïdale. Si on dispose par exemple de séries pluriannuelles avec un pas d'observation mensuel, dans la mesure où on considère que la variabilité saisonnière peut être modélisée par une sinusoïde (ce qui n'est pas le cas général, car souvent les cycles annuels biologiques sont "télescopés" : la période de reproduction printanière est souvent décalée d'une année sur l'autre..), alors on remplace les données Zi par les écarts aux moyennes des mois respectifs. Si la série était une sinusoïde, un tel filtrage aurait pour effet de la transformer en ne droite. Supposons que l'on ait n années, la valeur désaisonnalisée zi du mois i s'écrira:
Pause …
Prendre en compte l’autocorrélation dans les études de corrélation
L’autocorrélation c’est lorsque les données d’une année sont fortement liées aux valeurs l’année précédente L’autocorrélation viole l’hypothèse d’indépendance requise pour la plupart des tests statistiques Pour faire face à ce problème, les scientifiques spécialisés dans les pêches ont mis au point deux types de méthode : - Calculer un degré de liberté modifié prenant en compte l’autocorrélation. - Enlever l’autocorrélation avant de faire le moindre test statistique
Ajuster les degrés de liberté • Méthode pas très utile lorsque les séries temporelles sont courtes. En effet, le calcul des degrés de liberté passe par l’estimation de la fonction d’autocorrélation, difficilement calculable pour les séries courtes. • Plusieurs changements sont opérés entre l’analyse des données brutes et lorsque l’on s’intéresse à traiter l’autocorrélation: • Ajustement de la fonction d’autocorrélation • Changement du nombre de degrés de liberté utilisés pour les corrélations
Fonction d’autocorrélation « normale » = Eq. 1 Fonction d’autocorrélation modifiée pour prendre en compte l’autocorrélation: Eq. 1
N/5 Nombre de degrés de liberté effectifs: Ne pas utiliser N* comme degré de liberté mais N*- 2 Cette prise en compte de l’autocorrélation a tout d’abord été prise en compte par Chelton et modifiée par Pyper et Peterman (1998)
Eliminer l’autocorrélation Le principe est que si les séries sont libérées de leur autocorrélation alors les tests statistiques peuvent leur être appliqués. Cependant, enlever l’autocorrélation revient à enlever la variabilité à court terme. Ainsi, le problème est que si la composante basse fréquence est commune entre les deux séries (processus synchrones ou asynchrones) alors enlever l’autocorrélation revient également à se séparer de la covariance. On est donc dans un cas où l’on tend à augmenter l’erreur de type II, i.e. augmenter la probabilité de ne pas détecter d’importantes relations entre des processus à variation lente à long terme et par exemple la dynamique des populations de poissons.
2 méthodes principales pour éliminer l’autocorrélation: • Prewhithenning: Ajuster un modèle de série temporelle (autoregressif) et analyser les résidus • First differencing: Soustraire chaque point du suivant
Eliminer la variabilité haute fréquence Lorsque l’on est intéressé par la variabilité basse fréquence (long terme), il est fréquent de lisser (smoothing) les Séries temporelles. C’est une approche opposée à l’élimination de l’autocorrélation du fait qu’au lieu de retirer la variabilité basse fréquence, on retire la variabilité haute fréquence. L’hypothèse associée à ce type de traitement est que le « bruit » haute fréquence (court terme), comme l’erreur de mesure, peut voiler la détection d’une importante variabilité basse fréquence commune. Ce processus se fait par exemple très simplement à l’aide des moyennes mobiles.
Conclusions • Lorsqu’on a des données indicées par le temps elles doivent être traitées avec précaution • Il faut savoir à quelle échelle on souhaite travailler, ce que l’on recherche principalement • Si l’on veut faire des études de corrélations ou de régression, il est très important de prendre en compte l’autocorrélation des données