360 likes | 580 Views
Técnicas de Análisis aplicadas al estudio de la variabilidad del sistema climático. Rosa Hilda Compagnucci 2008. Introducido en las investigaciones en Ciencias de la Atmósfera por Obukhov (1947, 1960), Fukuoca (1951) y Lorenz (1956).
E N D
Técnicas de Análisis aplicadas al estudio de la variabilidad del sistema climático Rosa Hilda Compagnucci 2008
Introducido en las investigaciones en Ciencias de la Atmósfera por Obukhov (1947, 1960), Fukuoca (1951) y Lorenz (1956). El objetivo de las EOFs es extractar una representación compacta ó simplificada pero “optima” de los datos que tienen dependencia espacial y temporal. La aproximación de Lorenz (1956) fue expandir los datos en términos de las funciones “optimamente” definidas en el espacio que se asocian a una “amplitud dependiente del tiempo” M variables funciones pm(t) las cuales pueden representar la presión en M estaciones como función del tiempo, observadas en N tiempos. Se expanden como: (1) Donde son una base de funciones EOFsindependientes del tiempo son los coeficientes o “amplitudes” dependientes del tiempo. El número total de funciones es igual al número M de estaciones. La suma (1) debe calcularse para todos los M valores si no se desea perder información. FUNCIONES ORTOGONALES EMPIRICAS (EOFs)
(2) Al truncar (1) la suma tomando sólo K< M funciones queda como (2) y es el error asociado con el truncado Se eligen y tal que sea mínima Lorenz (1956) probó que es mínima cuando: (3) Y (4) Con y donde denota el promedio y denota el desvío del promedio Por (3) las EOFs son ortogonales en el espacio y por (4) las “amplitudes” son ortogonales en el tiempo
(5) El método para encontrar y implica encontrar Donde y es la matriz de N filas por M columnas cuyos elementos son las series temporales y la de anomalías respecto a la media de la variable para la estación m con t=1,….,N matriz cuadrada MxM cuyos elementos son y son de NxM con y en las columnas respectivamente Donde es una matriz con elementos en la diagonal y ceros fuera de ella. Siendo la matriz de covarianza de Queda claro que es la matriz de autovectores y la de autovalores de Q De (5) queda:
Lorenz (1956) que analiza valores de diarios presión a nivel del mar de 64 estaciones de EEUU para los años 1949-1953, interpreta las como posibles índices de circulación. Sugiere también la utilización de matrices de datos de más de dos dimensiones, tales como el análisis conjunto de distintos elementos del tiempo como presión, temperatura y otros, dándoles diferente “peso” a cada uno de ellos para hacerlos comparables. Weare (1990) propone el análisis de EOFs en datos geofísicos de cuatro dimensiones utilizando como variable climática el calor latente, en un enrejado de 4ºlat x 5ºlong., equivalente a 40 puntos de latitud por 70 de longitud para 9 niveles entre superficie y 24kms de altura para el período entre Noviembre de 1982 y Diciembre de 1984. La terminología y el procedimiento para obtener las EOF resultaron ser las más difundidas dentro de la literatura en Ciencias de la Atmósfera. Con el tiempo se aplicaron diversas variantes, pero manteniendo la terminología. La más común de las variantes es calcular las EOFs de la matriz de correlación, pero siempre manteniendo el Modo-S en la estructura de la matriz de entrada, es decir considerando las series de tiempo de las estaciones como variables.
Las Funciones Ortogonales Empíricas no son otra cosa que las Componentes Principales obtenidas de la matriz de covarianza [C] de una matriz de datos en Modo-S. La matriz de una determinada variable del tiempo-espacio contiene N observaciones en el tiempo realizadas en M estaciones o puntos de entejado con lo cual en las M columnas (variables) se hallan las series temporales obtenidas de observar Las EOFs son los “loadings” en la terminología del ACP pero sin haber definido primero a las CPs. A su las series de tiempo de los coeficientes de expansión de las EOFs llamadas también “amplitudes” son las CPs llamadas componentes “scores” en el ACP. ESTE ES UN PUNTO MUY IMPORTANTE A LA HORA DE ANALIZAR LAS EOFs El campo que se obtiene de plotear espacialmente la EOF es equivalente al campo obtenido de las componentes “loadings” con lo cual tienen su mismo significado matemático son ni más ni menos que los valores de covarianza entre la serie de las PC “scores” y las series de desvíos que constituyen las columnas de la matriz original.
Este importante punto develado al transformar la formulación matemática de las EOFs en la formulación del ACP, llevó en la literatura a bastante confusión. La confusión en la interpretación de las EOFs parecería haber comenzado con Kutzbach 1967, queuno de los trabajos más citados en Ciencias de la Atmósfera y disciplinas afines. Analizó una matriz de datos temporo-espaciales de tres variables climatológicas: medias mensuales de presión a nivel del mar, temperatura de superficie y precipitación. Puntos de enrejado: K=23 Período : 25 años de 1941 – 1965 analizados para cada mes (12 grupo de resultados) 25 campos de anomalías normalizadas (mapa medio y mata de desvios estandar de los 25 años para cada mes del ciclo anual) Los N = 25 campos son columna (fn con n=1,…,N vectores-observaciones ) de la matriz de datos [F] M x N que tiene K=23,2K=46 ó 3K=69 filas si se incluyen una, dos o tres variables climáticas. Variables M (dimensiones) normalizadas (de varianza unitaria) = K, 2K ó 3K de acuerdo al número de variables climáticas analizadas (en las filas de [F] la matriz de datos) R matríz M x M simétrica de correlación. En cada punto central el promedio de 2-5 estaciones
Autovectores conteniendo sólo los valores de presión P, sólo temperatura T , precipitación R, PT presión y temperatura y PTR presión temperatura y precipitación. Resolviendo [R]*[E]=[E]*[L] con [R] matriz de correlación del Modo-S Obtiene la matriz [E] de M x M de autovectores (columna) y la matriz [L] de M x M cuyos valores en la diagonal son los autovalores i con i=1…..M y fuera de ella ceros a b a b c d a b c d Llama campos “patrones” a los obtenidos ploteando los autovectores de [R] en los N=23 puntos de observación. • 1º autovector de P • 1º autovector de T • 1º autovector de R • 2º autovector de T • 2º autovector de PTR • 3º autovector de PTR • 4º autovector de PTR • 5º autovector de PTR • 1º autovector de P y T • 1º autovector de PTR
Los coeficientes asociados a los primeros cinco autovectores de los 25 Eneros para PTR • El planteo es representar los campos de cada uno de los 25 meses fn como combinación linear de las amplitudes cin por los autovectores ei. • Por ello Kutzbach interpretó que los campos de PTR para Enero de 1950 y 1958 separecerían al campo del 1º autovector de PTR que lamentablemente no muestra. • Si bien la expresión es válida al retener todos los autovectores, como se vio en la discusión del ACP, la estandarización realizada sobre las filas (Variables) afectan también las observaciones (columnas) con lo cual no resulta una expresión válida para las observaciones originales (columnas que son los “campos” iniciales).
(2) Matriz Xs con m=3 observaciones oi y n=2 variables xsj (1) Factores son los “pesos” utilizados para expresar las variables en Xs como combinación linear de las CPs Análogamente podemos escribir las observaciones como combinación linear de los “loadings” utilizando los “scores” como “pesos” Si bien (2) es una relación válida, no significa que las CPs de las observaciones sean las componentes “loadings” de las variables. La estandarización efectuada sobre las variables x no es válida para las observaciones. Si se desea obtener las CPs de las observaciones se debe transponer la matriz de entrada X tomando ahora las antiguas observaciones como variables y estandarizar sobre ellas. Al estandarizar las variables (columnas de X) las observaciones originales sufren modificaciones la combinación lineal (2) no es una expresión válida para las observaciones originales.
A partir de Kutzbach (1967) se empezó a emplear el Modo-S ( con matriz de correlación, covarianza u otro producto cruzado entre las series temporales) y a interpretar que los “tiempos” para los cuales las “amplitudes” resultan grandes en valor absoluto tienen campos similares a los dados por el autovector (ó EOF) Es así que muchos análisis terminan tratando de interpretar los campos espaciales de covarianzas, ó de las correlaciones como campos espaciales de la variable sinóptico-climática bajo estudio. Un ejemplo actual de esta confusión es el curso reciente de GeoSci 236 de Gidon Eshel que está por publicarse en el 2008 en Princeton University Press “In EOF analysis we also project the original data on a set of orthogonal basis vectors. However, the choice of the basis is different. Here, the first EOF is chosen to be the pattern, without the constraint of a particular analytic form, on which the data project most strongly. In other words, the leading EOF (sometime called the `gravest', or `leading', mode) is the pattern most frequently realized. The second mode is the one most commonly realized under the constraint of orthogonality to the first one, the third is the most frequently realized pattern that is orthogonal to both higher modes, and so on.” http://geosci.uchicago.edu/~gidon/bookProposal/eofs.pdf
http://www.ess.uci.edu/~yu/class/ess210b/lecture.5.EOF.all.pdfhttp://www.ess.uci.edu/~yu/class/ess210b/lecture.5.EOF.all.pdf
Metodología propuesta por Araneo, D. C y R.H. Compagnucci (2003): es el número de puntos de enrejado en la latitud La densidad de puntos en una latitud : con Densidad de referencia latitud de referencia El número de puntos en la latitud es: y [ ] es parte entera distancia entre puntos (grados de longitud) del enrejado equi-densificado Tamaño del Dominio en el ACP : Modo-S / EOFs La distribución del enrejado de puntos afecta el resultado de las CPs en Modo-S cuando de utiliza matriz de covarianza (EOFs) por eso generalmente se pesan los datos por el coseno de la latitud. En caso de utilizar matriz de correlación para el Modo-S la matriz de datos que están multiplicados por el coseno de la latitud dá los mismos resultados que la matriz de datos original, con lo cual se plantean diversos métodos para equi-espaciar los puntos de enrejado
Enrejado latitud x longitud versus enrejado equi-densificado
Datos : Anomalías de la temperatura en la baja estratósfera (~ 70 hPa) del canal 4 del MSU para el período 1979-1997 Igual representación de los campos de anomalías. Ejemplo para Enero de 1979 (a) Diferencias entre los datos originales y los re-interpolados considerando su posición antes de re-interpolar a igual-densidad. Las anomalías con enrejado (b) regular y con (c) enrejado de igual densidad.
DIFERENCIAS ENTRE ENREJADOS • Dado que los autovalores son proporcionales al número de puntos de enrejado en el área de “actividad” de la CPs (área de mayores valores en el campo de “loadings”), cambian las varianzas explicadas y llega a cambiar el orden de las CPs (la 3ºCP en el enrejado original pasa a ocupar el 2º lugar en el equi-densificado) • Algunas CPs desaparecen como es el caso de la 2º CP del enrejado original, que parecería haberse dividido entre la 3º y la 5º del enrejado equi-densifcado. La 2º CPs en el enrejado lat x long es producto del gran agrupamiento de puntos sobre la región polar que lleva a magnificar el peso de la señal sobre el resto de las señales en latitudes menores. Sólo es superada por la señal ecuatorial/tropical que es la CP lider en ambos análisis. • Las series de tiempo que son las CPs, ya que los campos son la correlación entre las series temporales originales y las CPs, cambian de un procedimiento a otro aunque mantengan la estructura de los campos de “loadings” o correlaciones. Casos de la 4º CPs, y entre la 2º sin modificar y la 3º equi- densificada.
Correlación versus covarianza en el ACP y EOF • La varianza de variables como alturas geopotenciales, temperatura y otros son mayores en altas latitudes que en el ecuador. • Por eso al analizar las CPs en Modo-S en el caso de matrices de covarianza (EOFs) la primera componente corresponde generalmente a la variación en altas latitudes. Al utilizar la matriz de correlación las componentes que se relacionan con procesos en altas latitudes pueden cambiar de orden. • El ACP de las anomalías mensuales de temperatura de la baja estratosfera para el H.S. tiene diferentes resultados para: • 1) Modo-S con matriz de covariancia y el enrejado regular lat x long • 2) Modo-S con matriz de covarianza y el enrejado pesado por coseno de latitud que da igual que equi-densificado • 3) Modo-S con correlación y el enrejado lat x long (da igual que “pesado” por el coseno de la latitud) • 4) Modo-S con correlación y el enrejado equi-densificado
1st PC loading 39. 57% 1st PC loading 30. 21% 2nd PC loading 24. 53% 2nd PC loading 20. 89% 3rd PC loading 12. 29% 3rd PC loading 13. 58% 4rd PC loading 5. 95% 4rd PC loading 11. 31% 5th PC loading 4. 04% 5th PC loading 4. 49% 1) 2) • Las señales del Chichon y del Pinatubo están ausentes en las primeras PCs • Cambian las varianzas y los patrones de las PCs y de los patrones de covarianza
1st PC loading 25.94% 2nd PC loading 22.17% 3rd PC loading 15.73% 4th PC loading 8.66% 5th PC loading 5.63% 1st PC loading 38.20% 2nd PC loading 15.08% 3rd PC loading 8.45% 4th PC loading 7.31% 5th PC loading 6.63% 3) 4) • La 1ºCPs muestra el calentamiento de la baja estratósfera debido al Chicon y el Pinatubo • Cambian las varianzas, el orden de los patrones de correlación y su configuración.
Datos: campos medios mensuales de anomalías de 300mb observados en NP=48 puntos de enrejado para M=204 meses (1963-1979) La matriz [X] (3NP x M-2) se construye de tal manera que la primer columna contiene los campos observados en NP puntos de enrejado para tres “tiempos” consecutivos 1º, 2º y 3º mes (vector de 3NP), la segunda columna otros tres campos consecutivos en tiempo pero desfasados en un mes, así sucesivamente hasta que la última columna son los campos de los tres últimos meses. [R]=[X]*[X]T de (3NP x 3NP) : matriz de covarianzas RZ=Z [Z] de (3NP x 3NP) y el autovalor Análisis en Modo-S FUNCIONES ORTOGONALES EMPIRICAS EXTENDIDAS (EEOFs) Weare y Nasstrom (1982) propusieron una variante del análisis de Kutzbach (1967) que llamaron EEOFs Funciones Ortogonales Empiricas extendidas Z=XCTdonde Z son lasEOFs y CT : es el vector de los coeficientes temporales X variable en tres tiempos sucesivos para NP puntos del espacio dimensión 3NP
1º EEOF 2º EEOF Cada vector Z puede ser ploteado como tres mapas y fueron interpretados como anomalias de los campos en 300hPa en tres sucesivos meses. Para la 1ºEEOF concluye que hay “similares velocidades de retrogresión de ~0,3 m s-3 alrededor de un quinto de la velocidad de las ondas de Rossby para esta escala”. La 2º EEOF tambien sugiere una forma retrograda. Sin embargo las EEOFs son campos de covarianza entre las series de amplitudes y las secuencias de campos de la matriz de entrada por ser este tipo de análisis del Modo-S.
Secuencia de Patrones Principales (PSPA) Compagnucci, Araneo y Canziani (2001): propusieron el PSPA como metodología alternativa al EEOFpara obtener secuencias de campos sinópticos Campos en n tiempos consecutivos ordenados en k-secuencias y observados en m puntos de enrejado conforman una matriz [X] con las k-secuencias de campos en las columnas. Cada columna es un vector de k*m Desfasando cada secuencia con la siguiente en un solo tiempo dan un total de n-k+1 columnas [X] es de km por n-k+1 Objetivo:obtener patrones espaciales Modo-T [Xs] es la matriz estandarizada por columnas Matriz [R] de (n-k+1 x n-k+1) correlación entre las columnas que contienen los k-campos secuenciales
Datos: alturas de 1000hPa de 12z en un enrejado igualmente espaciado de 178 puntos para 265 días consecutivos desde el 14-3-1997 al 3-12-1997. Matriz de datos básica con campos espaciales en las columnas (Modo-T): m=178 x n=265 Teniendo en cuenta secuencias k = 5 días [X] : (5m) x (n-k+1) = 890 x 261 NOTESE: la matriz [X] corresponde a la propuesta por Weare y Nasstrom El análisis de EEOFs, acorde con Weare y Nasstrom, obtiene los autovalores y autovectores de la matriz de covarianzas entre las filas de [X] (matriz “lageada” de covarianza de mk x mk). Equivalente a obtenerlos de la matriz de desvíos (estandarizada) por filas de [X] y corresponde al procedimiento en Modo-S El análisis de PSPA los autovectores y autovalores son obtenidos de la matriz de correlación entre las columnas de [X], de dimensión (n-k+1) x (n-+1). Equivalente a obtenerlos de la matriz [X] estandarizada por columnas y corresponde al procedimiento en Modo-T.
RESULTADOS de los análisis de PSPA y del EEOFs para matriz de correlación Gran diferencia entre las varianzas explicadas (autovalores) tanto entre el simple análisis en Modo-S (EOFs) y Modo-T (PCA) como entre el EEOFs y el PSPA
El diagrama de LEV indicaría que al menos las tres primeras componentes serían significativamente distintal al resultado obtenido de datos “ruidosas”
1º Secuencia Principal (SP) y un ejemplo de secuencia, de la matriz [X] de secuencias, que tiene “loading” máximo en valor absoluto (correlación entre la SP y la secuencia) y valores mínimos, casi despreciables con las otras SPs Serie de tiempo de los “loadings” correspondiente a la 1º SP (en línea llena) y a la 1ºCP (en línea punteada)
X X X X X X X X X X 2º Secuencia Principal (SP) y un ejemplo de secuencia, de la matriz [X] de secuencias, que tiene “loading” máximo en valor absoluto (correlación entre la SP y la secuencia) y valores mínimos con las otras SPs Serie de tiempo de los “loadings” correspondiente a la 2º SP (en línea llena) y a la 2ºCP (en línea punteada)
X X X X X X X X X X 3º Secuencia Principal (SP) y un ejemplo de secuencia, de la matriz [X] de secuencias, que tiene “loading” máximo en valor absoluto (correlación entre la SP y la secuencia) y valores mínimos con las otras SPs Serie de tiempo de los “loadings” correspondiente a la 3º SP (en línea llena) y a la 3ºCP (en línea punteada)
X X X X X X X X X X X X X X X X X X X X X X X X X X X La 8º SP de acuerdo con el diagrama de LEV parecería formar parte de la “cola de ruido” sin embargo su estructura de secuencias espaciales “ajusta” bien algunas secuencias como por ejemplo la secuencia de los días 212 a 216 que no podrían ser explicadas por otra SP. Notar que a pesar de tener mayor valor de “loading” con la 1ºSP la estructura de los diás 212 a 216 no se parecen en nada a la 1ºSP.
Diagrama varianza-tiempo de las primeras diez PSs (secuencias principales) obtenido de graficar el cuadrado del valor del “loading” (fij2) de las j-PS (con j=1,…10) para las i-secuencias reales. Contornos de igual varianza separados en 5%. La primera secuencia está omitida pues explica la mayor varianza en casi todos los casos pues es la secuencia más frecuente. Las siguientes PSs representan anomalías del flujo.
Las EEOFs y la serie de tiempo de las “amplitudes” (PC scores acorde a la terminología del ACP) difieren de los resultados obtenidos con el PSPA, sólo la 2º EEOFs y su serie de “amplitudes” se asemeja a la 2ºPS yla serie de “loadings”
Diferencia entre los patrones espaciales, en especial entre la 1º CP y el 1º EOF Los “campos” central de la secuencias tanto de las PSPs como de las EEOFs se asemejan a los patrones correspondientes tanto a las PCs como a las EOFs
Para interpretar las EEOFs se sigue el procedimiento previamente descripto por Weare y Nasstrom (1982) y aplicado en el caso de las PSPs Por ejemplo en la serie de “amplitudes” de la 3ºEEOFs se localiza al máximo valor que corresponde a la secuencia de días 91 a 95 91-95 Continuando la secuencia de días hasta el 103 las EEOFs que tienen mayores “amplitudes” son: 6º EEOFs para los días 94-98 y 1º EEOFs para el 99-103 Los campos de la secuencia de días 91-103 difieren considerablemente de las EEOFs que tendrían que “ajustar” el comportamiento temporal-espacial.
Analizando las series de “loadings” de las secuencias 92-96 el mejor “ajuste” corresponde a la 8ºPS, los días 97-101 es la 2ºPS y finalmente de la 100-103 es la 3ºPS Notar: el día 100 es similar a la 4º escena de la 2ºPS y de la 1º escena de la 3ºPS Existe “ajuste” por las PSPs de la secuencia de días 92 a 103
REFERENCIAS Lorenz EN. 1956. Empirical Orthogonal Functions and Statistical Weather Prediction. Technical report, Statistical Forecast Project Report 1, Dep of Meteor, MIT: 49. Fukuoka A. 1951. A Study of 10-day Forecast (A Synthetic Report), Vol. XXII. The Geophysical Magazine: Tokyo; 177–218. Obukhov AM. 1947. Statistically homogeneous fields on a sphere. Uspethi atematicheskikh Nauk 2: 196–198. Obukhov AM. 1960. The statistically orthogonal expansion of empirical functions. Bulletin of the Academy of Sciences of the USSR. Geophysics Series (English Transl.) 1: 288–291 Gidson Eshel (2000): Empirical Orthogonal Functions, en (Eshel, G., Geophysical Data Analysis, to be published by Princeton University Press, early 2008. ) Kutzbach, J.E., 1967: Empirical Eigenvectors of Sea-Level Pressure, Surface Temperature and Precipitation Complexes over North America. J. Appl. Meteor., 6, 791–802. Araneo, D. C y R.H. Compagnucci(2003): “ Removal of Systematic Biases in S-mode Principal Components Arising from Unequal Grid Spacing”, Journal of Climate, 17 (2) 394-400 Compagnucci R.H., Araneo D. Ch., and Canziani P.O. (2001): “Principal Sequense Pattern Analisis: A New Approach for Understanding the Evolution of Atmospheric Systems”. International J. of Climatology, 21,2 , 197-217. Weare, B.C. (1990) Four-dimensional Empirical Orthogonal Analysis of Climate Variables, Int. Jour., of Clim. 10, 313-319 Weare, B.C., and J.S. Nasstrom, 1982: Examples of Extended Empirical Orthogonal Function Analyses. Mon. Wea. Rev., 110, 481–485.