1 / 72

Estadística espacial y temporal*

Estadística espacial y temporal*. Carlos Reynoso UNIVERSIDAD DE BUENOS AIRES http://carlosreynoso.com.ar. * Introducción al curso y desarrollo del Módulo 1. Objetivos.

noah
Download Presentation

Estadística espacial y temporal*

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Estadística espacial y temporal* Carlos ReynosoUNIVERSIDAD DE BUENOS AIREShttp://carlosreynoso.com.ar * Introducción al curso y desarrollo del Módulo 1

  2. Objetivos • Proporcionar comprensión básica de las herramientas estadísticas convencionales del espacio y el tiempo, y en particular de sus alcances y limitaciones. • Concientizar sobre la problematicidad inherente a herramientas que proporcionan (por definición) información sesgada y estática, ligada a supuestos de normalidad, homogeneidad y monotonía. • Informar sobre formas alternativas de elaborar conocimiento y permitir la intervención en asuntos temporales y espaciales.

  3. Módulo 1 – Estadísticas convencionales • Argumentos, conceptos y límites de las estadísticas convencionales. Problemas fundamentales: distribuciones normales vs Ley de Potencia. • Dilemas de la prueba estadística de la hipótesis nula. Justificación del modelado complejo como alternativa y complemento del modelado estadístico clásicos. • Demarcación: ciencias de la complejidad vs pensamiento complejo. • Principales algoritmos de la complejidad. Herramientas de estado de arte y su uso en proyectos de misión crítica a escala real.

  4. Módulo 2 – Estadísticas temporales • Estadísticas de la temporalidad. Dinámica no lineal y series temporales complejas en ciencias humanas. Modelos espaciales/temporales en geografía humana. Modelos de cambio y transiciones de fase. Criticalidad auto-organizada. Modelado complejo de procesos temporales: sincronización y control de caos. Significación y etiología de las medidas de análisis de recurrencia. Estado del arte y perspectivas. Ejercicios de análisis y diagnosis de series temporales con análisis de recurrencia. Ejercicios de dinámica no lineal aplicada a la hidrodinámica, modelado hidrológico y problemáticas análogas.

  5. Módulo 3 – Estadísticas de la espacialidad • Geoestadística clásica y geoestadística de la complejidad. Conceptos fundamentales y programas de cálculo y modelado. Problemas y alcances del modelado a escala regional. Ejercicios de contrastación entre análisis clásicos y complejos.

  6. Módulo 4 – Estadísticas reticulares • Estadísticas reticulares de la sociedad, el espacio y el tiempo. Redes sociales y redes espaciales. Alcances y limitaciones de la estadística reticular basada en presunciones de normalidad. Práctica razonada en análisis, medición y estadísticas reticulares.

  7. Agenda de la presentación • Tipificación de modelos • Modelos estadísticos en la teoría y en la práctica • La estadística como herramienta de la retórica • Falacias, paradojas y técnicas de prevaricación • Dilemas de la prueba estadística de la hipótesis nula • Estadísticas robustas y no paramétricas • Complejidad estadística como proyecto en construcción

  8. Tipificación de modelos

  9. Estadísticas • Estadísticas en general • Presunciones de normalidad • No robustas, paramétricas • Estadísticas espaciales • Presunciones de homogeneidad • Estadísticas temporales • Presunciones de monotonía • Análisis de series temporales • Series temporales no lineales • Presentación separada • Transiciones de fase • Presentación separada

  10. Estadísticas – Demasiadas cosas • Conceptos y técnicas de muestreo • Estadísticas descriptivas • Medidas de tendencia central • Teoremas del límite central (TLC, CLT) • Probabilidad • Distribuciones de probabilidad (PDF) • Multiplicidad de distribuciones • Regresión lineal simple y múltiple • Análisis de frecuencia acumulativa, intervalos de confianza • Descubrimiento de patrones • Patrones espaciales, atractores, minería de datos, minería de Web

  11. Introducción a la estadística

  12. Distribución normal • Cerca del 68% del conjunto se encuentra a 1 desviación estándar de la media, 95 a 2 y 99,7 a 3 • Las desviaciones que excedan 2 veces la DE se considerarán significativas • Regla de 68-95-99,7 • Mal llamada “curva de Bell”

  13. Distribución normal • Igual que el resto de las estadísticas, no es una matemática antigua • Se remonta a Friedrich Gauss y por eso se la llama gaussiana • Exaltada por el antropólogo Francis Galton:

  14. Distribución normal • Consolidada en ciencias sociales por Émile Durkheim: • Sociología: Ciencia para distinguir los estados normales de los estados patológicos • Anomia = falta de normalidad • Crimen = una “desviación” • Suicidio = varía en función inversa al grado de integración en la pauta normal

  15. Distribución normal • Exaltada por Karl Marx, también basado en Adolphe Quételet:

  16. Estaturas “normales” • Datos de Nassim Taleb:

  17. Mandelbrot & Hudson

  18. Fundamentación normal de la NHST • Requisito de muestreo aleatorio • ¿De dónde viene el 5%?

  19. Fundamentación normal de la NHST

  20. Ley de potencia • Independiente de escala = No hay valores normales, ni una media, ni una escala característica • La dispersión de los valores puede ser de orden astronómico

  21. Escenarios independientes de escala • Leyes de Pareto, Gutenberg-Richter, Omori, Zipf, Richardson • Citas bibliográficas entre miembros de la comunidad académica, colaboraciones en reportes de investigación • Relaciones sexuales (!!), agendas telefónicas • Nexos sintácticos entre palabras en un texto o discurso • Clientelismo, influencia • Alianzas tecnológicas • Relaciones entre actores de cine • Sinapsis neuronales • Contactos entre personas de una organización • Cadenas alimentarias • Conexiones entre organismos vinculados al metabolismo o proteínas reguladoras • Propagación de enfermedades y virus informáticos • Alternativa al concepto de epidemiología de las representaciones (Dan Sperber)

  22. Diversidad de distribuciones • Benford, Benini, Benktander, Bernoulli, beta, binomial, binomial negativa, de Bose-Einstein, Bradford, Bull, Burr, Cantor, Cauchy (o Breit-Wigner, o Lorentz), Champernowne, Chernoff, chi cuadrado, de Davis, Dirichlet, doble gamma, doble Weibull, de Erlang, exponencial, geométrica, de Gauss, Gibrat, Gompertz, gamma, Heaps, hiper­exponencial, hiper­geométrica, de Horton, Kleiber, Kumaraswamy, Laplace, Lévy, logarítmica, logística, log­normal, Lotka, de Moyal, multinormal, de Nakagami, Pareto, Poisson, Pólya, Rademacher, Rayleigh, Rice, secante hiperbólica, de Wigner o semi­circular, Skellam, de Student, triangular, uniforme, de von Misses, Wald, Wallenius, Yule-Simon, zeta, los tres tipos de valor extremo (Gumbel, Fréchet, Weibull) y por supuesto la distribución de Zipf, Zipf/Mandelbrot o LP • Casi no hay tests de no-normalidad

  23. Ejemplo – Distribución logística (1/2) • Promovida por Joseph Berkson (1938) • Afirmaba que el cigarrillo no causaba cáncer de pulmón • Distribución simétrica pero de cola pesada • Biología/ecología – Crecimiento de especies en competencia • Epidemiología – Dispersión [spreading] de epidemias • Mercadeo – Difusión de ventas de nuevos productos • Energía – Difusión y sustitución de fuentes energéticas primarias (curva de Hubbert) • Hidrología – Distribución de descargas de ríos (o régimen de lluvias) en el largo plazo

  24. Ejemplo – Distribución logística (2/2)

  25. Dilemas de la estadísticaen general

  26. Dilemas de la estadística en general • Falta de fundamentación lógica y matemática • Problemas específicos de dominio • Diferentes lógicas en lo espacial y temporal • Autocorrelación • Falta de robustez • Teorema de Arrow • Nelson Goodman • Similitudes, diferencias, analogías • Explosión combinatoria • Cantidades precisas, cualidades inciertas • Umberto Eco – Charles Hockett (prevaricación) 

  27. Prevaricación (1/2)

  28. Prevaricación (2/2)

  29. Catálogo de problemas • Problema del límite [boundary] • Efecto del borde [edge] • Efecto de forma • Problema de escala • Problema de la autocorrelación espacial [pattern problem] • Waldo Tobler y la primera ley de la geografía • Problema del cambio de soporte (COSP) • Promediación por captura a diferentes escalas • Falacia ecológica • Falacia locacional • Cada actor se sitúa en un solo sitio • Nadie “vive” en los lugares más atestados • Oficinas, estadios, ferrocarriles, malls • Problema de la Unidad Areal Modificable (MAUP) →

  30. Problemas de estadística espacial

  31. Problema de la Unidad Areal Modificable (MAUP) • Stan Openshaw

  32. Problema de la Unidad Areal Modificable (MAUP) /1/2) • Descubierto por Gehlke y Biehl (1934) y descripto por Stan Openshaw (1984) • Vinculado a problemas de autocorrelación espacial y a la falacia ecológica • Doble problema • Problema de escala • Problema de agregación • No hay reglas, ni estándares, ni convenciones internacionales para orientar la agregación de datos espaciales.

  33. Problema de la Unidad Areal Modificable (MAUP) (2/2) • Los resultados derivados de datos recolectados en áreas pequeñas pueden ser diferentes si la recolección es sobre áreas más grandes • P. ej. diversidad ecológica • Personas, viviendas, edificios, manzanas, barrios, zonas urbanas, regiones, partidos, provincias, zonas geográficas, países, confederaciones.

  34. Problema de la Unidad Areal Modificable (MAUP) • Hay un número inmenso de organizaciones areales posibles, arrojando resultados diversos en cualquier medición. • No es sólo un problema técnico sino un problema conceptual inevitable. • Yule y Kendall (1950s) basados en Gehlke y Biehl (1934) demostraron que se puede producir cualquier correlación entre 0 y 1 meramente eligiendo un tamaño adecuado de la unidad areal

  35. Catástrofres de la presunción de normalidad • Falta de robustez de los parámetros de la estadística paramétrica • Insuficiencia de los modelos de normalidad en su propio terreno • La normalidad como horizonte de posibilidades de las consultoras financieras • La “falsa medida del hombre” como matriz de referencia universal • Escamoteo de la diversidad de distribuciones • Ocultamiento de los fracasos históricos 

  36. El indicador del agujero de ozono como outlier

  37. El agujero de ozono • Los métodos computacionales programados para identificar y suprimir outliers son responsables de haber retrasado la investigación sobre el agujero de ozono durante años (desde 1976 a 1985, por lo menos) por considerar que las desviaciones del 10% por debajo de la normalidad (180 unidades de Dobson) detectadas por los instrumentos TOMS del satélite Nimbus 7 se debían a errores en la toma y filtrado de datos. • Revisados los programas del satélite y eliminados los filtros, se comprobó que el agujero venía siendo detectado por los sensores satelitales desde mucho antes sin que nadie hiciera nada al respecto (Farman, Gardiner y Shanklin 1985). • Véase descargo de Friedrich Pukelsheim (“mito urbano”)

  38. Efectos colaterales no significativos • Laboratorios Merck • Anti-inflamatorio Rofecoxib (marca Vioxx) • Entre 5 y 8 casos fatales que no se manifestaron en el grupo de control • 4,95% de significancia • En el mejor escenario, poco menos de 5.000 muertes cada 100.000 cajas !! • Desde 2005 se revirtió la jurisprudencia • La Corte Suprema de USA, Wall Street Journal, etc., menos retrógrados que ciertos antropólogos

  39. Prueba estadística de la hipótesis nula (NHST) http://carlosreynoso.com.ar/atolladeros-del-pensamiento-aleatorio-batallas-en-torno-de-la-prueba-estadistica/

  40. Prueba estadística de la Hipótesis Nula (1/24) • Prehistoria – Arbuthnott (1710) • Prueba estadística de la existencia de Dios. • Mayor proporción de nacimientos de hombres que de mujeres en Londres durante 82 años

  41. Prueba estadística de la Hipótesis Nula (2/24) • Prehistoria – Ysydro Edgeworth (1885) • Se preguntaba si “las diferencias observadas entre las estaturas medias de 2315 criminales y la estatura media de 8585 adultos británicos de sexo masculino es significante”. • Por influencia de Edgewoth se habla también de prueba estadística de significancia.

  42. Prueba estadística de la Hipótesis Nula (3/24) • Ronald Fisher • Statistical methods for the research worker (1925) • The design of experiments (1935)

  43. Prueba estadística de la Hipótesis Nula (4/24) • Ronald Fisher • Es posible argumentar desde las observaciones a las hipótesis. • Para lograrlo, se define primero una hipótesis nula. • La HN se ve des-probada si la muestra estimada se desvía de la media de la distribución de muestreo por una cantidad mayor a la de un criterio especificado, llamado el nivel de significancia o valor crítico de p, el cual se sugiere se fije en un valor del 5%. • La prueba fisheriana de significancia se centra en el rechazo de la hipótesis nula.

  44. Prueba estadística de la Hipótesis Nula (5/24) • Neyman y Pearson (1930s en adelante) • Introducen la Hipótesis Alternativa • No hablan de significancia, sino de Prueba de Hipótesis • Introducen los tipos de error I y II

  45. Prueba estadística de la Hipótesis Nula (6/24) • Errores de tipo I y II

  46. Prueba estadística de la Hipótesis Nula (7/24) • Clifford Geertz, Conocimiento Local • Tipificación al revés de lo correcto • No corresponde hablar de “aceptar” hipótesis sino de rechazar vs no poder rechazar la hipótesis nula • Tampoco el investigador está condenado a equivocarse, ni es posible situarse “entre” un error y otro

  47. Prueba estadística de la Hipótesis Nula (8/24) • Resumen de Fisher vs Neyman-Pearson:

  48. Prueba estadística de la Hipótesis Nula (9/24) • Supongamos que en 20 intentos hemos obtenido 14 caras y 6 cruces • El valor de p sería la probabilidad de que se obtengan por lo menos 14 caras en 20 intentos • La probabilidad se puede calcular de diversas formas. P. ej. por coeficientes binomiales

  49. Prueba estadística de la Hipótesis Nula (10/24) • Como la distribución binomial es simétrica para una moneda de dos caras, el valor de p para un test de doble cola es simplemente el doble del valor obtenido en la ecuación • 0,0576… x 2 = 0,1152 • Como este valor de p excede a 0,05, la observación es consistente con la HN, esto es, con la afirmación de que el resultado observado puede deberse solamente al azar. • Aunque la moneda no cayó en forma pareja, no nos es posible rechazar la HN al nivel del 5%. • Si lo hiciéramos, incurriríamos en lo que en una prueba de hipótesis sería un error de Tipo I

  50. Prueba estadística de la Hipótesis Nula (11/24) • La lógica de las pruebas de significancia o hipótesis es inválida • Jacob Cohen (1994) • Este primer razonamiento sería válido (modus tollens, negación del antecedente negando el consecuente) • Pero el razonamiento es probabilístico: • Otro caso de la misma falacia sería:

More Related