1 / 16

Robustez y resistencia Cuantiles (percentiles) ‏ Histogramas

Análisis exploratorio de datos univariados. Robustez y resistencia Cuantiles (percentiles) ‏ Histogramas. Robustez y resistencia. Es deseable que un método de análisis de datos sea poco sensible a suposiciones sobre la naturaleza de los datos.

shelly
Download Presentation

Robustez y resistencia Cuantiles (percentiles) ‏ Histogramas

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análisis exploratorio de datos univariados • Robustez y resistencia • Cuantiles (percentiles)‏ • Histogramas

  2. Robustez y resistencia Es deseable que un método de análisis de datos sea poco sensible a suposiciones sobre la naturaleza de los datos. P. ej., que los resultados no dependan esencialmente de que los datos sigan una distribución determinada. Un método es robusto cuando sus resultados no dependen esencialmente de la distribución de los datos. Un método es resistente si no es influido considerablemente por unos pocos datos atípicos (“outliers”)‏

  3. Ejemplo: los conjuntos {11 12 13 14 15 16 17 18 19} y {11 12 13 14 15 16 17 18 91} Distintas medidas de “tendencia central”: En ambos casos, el valor central es 15, pero los promedios son 15 y 23 respectivamente.

  4. Estadísticos de orden Sea { x1, x2, ..., xn } una muestra de datos • Se ordenan en forma ascendente: • { x(1), x(2) , ..., x(n) } son los estadísticos de orden (mismos numeros ordenados en forma creciente)‏ • ( cumpliéndose que x(1) ≤ x(2) ≤ …≤ x(n))‏ • Ej: {7 -2 1 7 -3 4 0} • {-3 -2 0 1 4 7 7}

  5. Cuantiles de una muestra Ej.: 1) Sea la muestra aleatoria {7 -2 1 7 -3 4 0} ¿Cómo podemos estimar un valor central que, en sentido amplio, deje probabilidad ½ a ambos lados? • {-3 -2 0 1 4 7 7} Parece natural tomar un valor que deje la misma cantidad de datos a cada lado, en este caso el 1: {-3 -2 0 1 4 7 7}. Se dice que la mediana de la muestra es 1. q0.5 = 1

  6. Cuantiles… Ej. 2) Sea ahora la muestra {7 1 7 -3 4 0} ¿Cuál será la mediana? • {-3 0 1 4 7 7} Convencionalmente, se suele tomar el punto medio entre los dos valores centrales, o sea (1 + 4) /2 = 2.5. Pero, si no se tiene más información, podría elegirse cualquier valor en ese intervalo (1,4)‏

  7. Media Mediana q0.50 La media está comprendida entre el mínimo y el máximo de la muestra. La mediana “divide el conjunto de datos en dos subconjuntos ordenados con igual cantidad de datos” . Importante: la mediana permite trabajar con estimaciones de probabilidades

  8. Ejemplo: (con muy pocos datos!!)‏ 2 4 9 11 14 2 4 9 11 7004 (outlier)?? La media no es robusta ni resistente Se puede estimar que P (X ≥ 9) ~ 0.5 ~ P(X ≤ 9)‏

  9. Generalizando, sea p tal que 0 < p < 1. • Los p-quantiles (qp) ( o percentiles) son valores que dejan, probabilidad p a su izquierda, y probabilidad 1-p a su derecha. qp • • • • • • • • • • • p 1- p

  10. Los cuantiles más usados… • Mediana q0.5 • Terciles, q0.33 , q0.66 • Cuartiles, q0.25 , q0.75 • estan ubicados a mitad de camino entre q0.5 • y x(1) y x(n). O sea son las medianas para • cada mitad de los datos. Por ejemplo, si n=9, q0.5=x(5), q0.25=x(3) y q0.75=x(7). Si n=11, q0.5=x(6), q0.25=(x(3)+x(4))/2 y q0.75=(x(8)+x(9))/2

  11. Histogramas Precipitación Rivera agosto 1914-1997 Muestran localización, la dispersión, y la simetría, y si los datos son multimodales

  12. Histogramas Precipitación Rivera abril 1914-1997

  13. El Niño y el arrozRoel y Baethgen 2005 Division en cuartiles de las desviaciones en el rendimiento de las cosechas de arroz.

  14. No hay producciones bajas en años Niña, ni altas en años Niño

  15. Años El Niño – La Niña definidos usando TSM en Mayo-Sep

  16. El archivo MJJ_TEMP_INIA.dat contiene la temperatura media durante los trimestres Mayo-Junio promedio de 5 estaciones en Uruguay desde 1970 a 2002. a. Calcular la media y las anomalias de la temperatura. Construya un histograma de las anomalias. b. Ordenar las anomalías de mayor a menor y dividir en cuartiles. El cuartil superior representa los años con temperaturas mayores a lo normal, y el cuartil inferior los años con temperaturas por debajo de lo normal. Los dos cuartiles del medio son los años con temperaturas consideradas normales. c. Considere los años El Niño. Calcule cuantos años corresponden a años de temperatura mayores, menores, y normal respectivamente. Cual es la probabilidad de que en Uruguay las temperaturas sean por encima de lo normal en un año El Niño? d. Cual es la probabilidad que un año con temperaturas por debajo de lo normal sea un año La Niña? Ejercicio

More Related