670 likes | 779 Views
La reemergencia bayesiana en el Siglo XXI: los detalles de un episodio simple y elocuente. Universidad Autónoma de Barcelona Servei d'Estadística. Luis Carlos Silva Ayçaguer CNICM, La Habana. Barcelona 2 de diciembre, 2011. Thomas S. Kuhn (1922-1996) La estructura de las
E N D
La reemergencia bayesiana en el Siglo XXI: los detalles de un episodio simple y elocuente Universidad Autónoma de Barcelona Servei d'Estadística Luis Carlos Silva Ayçaguer CNICM, La Habana Barcelona 2 de diciembre, 2011
Thomas S. Kuhn (1922-1996) La estructura de las revoluciones científicas (1962). PARADIGMAS“(...)realizaciones científicas universalmente reconocidas que, durante cierto tiempo, proporcionan modelos de problemas y soluciones a una comunidad científica”.
¿Por qué un nuevo paradigma inferencial? Deconstrucción : “Desmontaje de un concepto o de una construcción intelectual por medio de su análisis, mostrando así contradicciones y ambigüedades”. Diccionario de la Real Academia Española
Valoración crítica de los valores “p” y las pruebas de significación Una polémica escamoteada
“la utilidad de los valores p es completamente limitada y nosotros nos mantenemos reclamando eutanasia para tales procedimientos” Anderson DR, Burnham KR (2002) Avoiding pitfalls when using information–theoretic methods. Journal of Wildlife Management 66: 912–918.
Loftus GR (1991) On the tyranny of hypothesis testing in the social sciences. Contemporary Psychology 36:102-105. “es difícil imaginar una manera menos apropiada para traducir los datos en conclusiones”
Gill J (2004) Grappling with Fisher’s Legacy in Social Science Hypothesis Testing: Journal de la Société Française de Statistique psblade.ucdavis.edu/papers/denis.pdf “Las PSE no deberían siquiera existir, mucho menos deberían prosperar como el método dominante para presentar evidencias estadísticas en las ciencias sociales. Ellas entrañan una bancarrota intelectual y son profundamente inconsistentes tanto desde una perspectiva lógica como práctica.”
Rozeboom WW (1997) Good science is abductive, not hypothetico-deductive. En LL Harlow, SA Mulaik, & JH Steiger (Eds.), What if there were no significance tests? (pp. 335–391). Hillsdale, NJ: Erlbaum. “Las PSE constituyen con toda seguridad el más idiota proceder jamás institucionalizado en el entrenamiento maquinal de los estudiantes de ciencia”
INFERENCIA ESTADÍSTICA A principios de siglo XX las anécdotas clínicas poblaban las revistas médicas ¿Qué significaban los resultados? EDITORES ¿Cómo cuantificar la evidencia y complementar los razonamientos verbales?
Karl Pearson (1857-1939) Biometrika ( A journal for the statistical study of biological problems), fue fundada en 1901por Galton, Weldon, Pearson y Davenport.
Ronald Fisher (Londres, 1890-Australia, 1962) • Aportes a la estadística: • introducción de los valores p • análisis de la varianza • principio de la aleatorización • idea de la replicación
Ho: la Sra. no tiene ese don L L T L L T L T L L L T T T T T Se observa el número de aciertos obtenidos se dice que hay una diferencia estadísticamente significativa Si
INFERENCIA ESTADÍSTICA Ho: d=0 Fisher (década de los 20) Se observa Medida de la discrepancia de los datos con la hipótesis, llamada a tener un papel informal (no especificado), junto con el resto de la información, en el flujo inferencial
En la década de los 30... Egon Pearson Jerzy Neyman ...los valores p no resuelven el problema inferencial
INFERENCIA ESTADÍSTICA Ho: d=0 Neyman y Pearson (década de los 30) H1: d0 se computa Se observa Y se adopta una decisión Ho: d=0 se rechaza Si Ho: d=0 Se acepta Si
Departamento de EC, MP y SP e HC (1899) (1925) (1935) (1956) (1928) (1941)
Los padres de la estadística se divorcian • Neyman :”los métodos de Fisher eran "peores que inútiles". • Fisher: “ Neyman bien podría haber seleccionado un tema acerca del cual pudiera disertar con alguna autoridad" Pero también se divorcian de Bayes (Pearson, Neyman y Fisher eran antibayesianos furiosos
Falacia Transposición de condicionantes P(H|D) = P(D|H)
¿Cuál es la probabilidad de que un velocista que gane una medalla olímpica (M) sea negro (N)? P(N|M) =0.98 o más ¿Cuál es la probabilidad de que una persona de raza negra elegido al azar (N) sea medallista olímplico (M)? P(M|N)=0.0001 o menos
p= P(H0|D) “Normas para la presentación de comunicaciones libres a premio al mejor trabajo” del XIII CONGRESO NACIONAL DE MEDICINA en Argentina del año 2003 “Las abreviaturas y siglas en tablas y figuras, deben aclararse en las leyendas respectivas, pero NS (no significativo), ES (error estándar), DS (desvío estándar), IC95 (intervalo de confianza del 95 %) y p (probabilidad de que la hipótesis nula sea cierta) no requieren aclararse.”
Rossi JS (1997) A case study in the failure of psychology as a cumulative science: The spontaneous recovery of verbal learning. En L. L. Harlow, S. A. Mulaik, & J. H. Steiger (Eds.), What if there were no significance tests? (pp. 175–197). Hillsdale, NJ: Erlbaum. Es importante que los investigadores sean precavidos con la potencia de sus experimentos; no solo han de poder detectarse los efectos buscados, sino que también debe evitarse la detección de pequeños efectos triviales.
Sacket (1979) Las muestras demasiado pequeñas pueden servir para no probar nada, las muestras demasiado grandes pueden servir para no probar nada.
Eligiendo entre dos trayectos urbanos en París 10 veces 12 veces
Eligiendo entre dos trayectos urbanos en París n=10 tm=22 min p=0,18 n=12 tm=41 min
Eligiendo entre dos trayectos urbanos en París n=232 tm=31 min P=0,02 n=225 tm=34 min
31 min 34 min
“En lo que concierne al tamaño muestral, es concebible que las diferencias en homeostasis de la glucosa y en la distribución de tejido adiposo entre los grupos pudiera haber sido detectadas con un tamaño de muestra mayor”. (Bitnun, 2003) “Se tomaron mediciones de la RVIP, pero no mostraron efectos de la ingestión de agua; sin embargo, no podemos descartar la posibilidad de que se hubieran detectado cambios con un tamaño de muestra mayor”. (Neave, Scholey, Emmett, Moss, Kennedy y Wesnes, 2001) “Es de esperar que en un estudio con un tamaño de muestra mayor, la diferencia entre estos valores y los del resto del grupo sea estadísticamente significativa”. (Perich, González, Valdés, Arranz, 2002)
“El presente estudio, de Salud mostró un aumento en el riesgo para la mortalidad neonatal, pero éste no fue significativo. Sin embargo, …con un mayor tamaño de muestra esta asociación, después del ajuste, podría ser significativa”. (Delgado, Muñoz, Orejuela y Sierra, 2003) “Con un tamaño de muestra mayor, estas diferencias pudieran pasar a ser estadísticamente significativas”. (Kowatch y col, 2000) “Aunque no confiable a los niveles convencionales de significación estadística, la tendencia de los datos sugiere que de haber tenido una muestra mayor, y por tanto mayor potencia, los hallazgos relacionados con el folato hubieran sido similares a los hallados para la vitamina B12”. (Bunce, Kivipelto y Wahlin, 2004)
“La adición de fluoxetina a la PUVA ha mostrado una tendencia hacia una más rápida mejoría, pero no alcanza el nivel de significación estadística. Por lo tanto, una muestra mayor puede ser considerada”. (Mitra, 2001) CIENCIA FICCIÓN: “Obsérvese que si bien hallamos que la diferencia entre el consumo de opiáceos para mujeres y hombres fue significativa, con, una muestra MENOR probablemente no la hubiéramos encontrado”. (Silva, 2011)
BAYES Y LA INFERENCIA INDUCTIVA BAYES CAPTÓ LA IMPORTANCIA DE DESARROLLAR UNA TEORÍA CUANTITATIVA Y EXACTA DEL RAZONAMIENTO INDUCTIVO
BAYES - PRICE -LAPLACE 1702-1761 1723-1791 1749-1827
Número de artículos registrados en PUBMED en cuyos títulos y resúmenes aparece el término “bayesian” en dos decenios consecutivos
Inferencia con parámetros con distribución normal
Si la distribución a priori para es N( pr , pr) entonces la distribución a posteriori es N( pt , pt) Los valores pt , pt dependerán de pr , pr y de los datos que se observaron ( dt , dt ) según las fórmulas siguientes:
Un ejemplo simple y elocuente
IC(95%): 0,23 – 0,97 Reducción relativa:
Pocock SJ, Spiegelhalter DJ (1992) Grampian region early anistreplase trial, British Medical Journal 305: 1015. Editor: Mucha publicidad se ha dado, y se dará, a los hallazgos del ensayo con anistreplase en la región de Grampian en la que los pacientes que recibieron tratamiento trombolítico en la vivienda tuvieron un 49% menos de muertes que aquellos que la recibieron en el hospital. Desafortunadamente, el ensayo fue ciertamente muy pequeño como para estimar de una manera confiable una reducción en la mortalidad, de modo tal que la significación pudiera haberse alcanzado solo si (en virtud del azar o de un sesgo) una poco plausible diferencia muy grande se hubiera observado. En tales circunstancias un análisis bayesiano provee una interpretación útil una vez que se coloque un hallazgo sorprendente en el contexto de una visión a priori más cautelosa