390 likes | 728 Views
4. Distribuciones de Probabilidad. Probabilidad : Con una muestra aleatoria o experimento aleatorio , la probabilidad que una observación tome un valor en particular es la proporción de veces que el resultado ocurriría en una secuencia muy larga de observaciones .
E N D
4. Distribuciones de Probabilidad • Probabilidad: Con unamuestraaleatoria o experimentoaleatorio, la probabilidadqueunaobservación tome un valor en particular es la proporción de vecesque el resultadoocurriría en unasecuenciamuylarga de observaciones. • Generalmentecorresponde a la proporciónpoblacional (y por lo tanto, cae entre 0 y 1) ya sea paraunapoblación real o conceptual.
Reglasbásicas de probabilidad Sean A, B posiblesresultados • P(no A) = 1 – P(A) • Para A y B, posiblesresultadosdistintos P(A o B) = P(A) + P(B) • P(A y B) = P(A)P(B dado A) • Para resultados “independientes” P(B dado A) = P(B), entonces P(A y B) = P(A)P(B)
Datos de GSS 2006 Happiness Income Very Pretty Not too Total --------------------- Above Aver. 272 294 49 615 Average 454 835 131 1420 Below Aver. 185 527 208 920 --------------------- Total 911 1656 388 2955 Sea A = average income, B = very happy • P(A) estimadapor 1420/2955 = 0.481 (“probabilidad marginal”), P(no A) = 1 – P(A) = 0.519 • P(B dado A) estimadapor 454/1420 = 0.320 (“probabilidadcondicional ”) • P(A y B) = P(A)P(B dado A) estimadapor 0.481(0.320) = 0.154 (igual a 454/2955, “probabilidadconjunta”)
B1: una persona selec. aleatoriamentees “very happy” B2: segunda persona selec. aleatoriamentees “very happy” • P(B1), P(B2) estimadapor 911/2955 = 0.308 • P(B1 y B2) = P(B1)P(B2) estimadapor (0.308)(0.308) = 0.095 • Si, porotrolado, B2 se refiere a la pareja de la persona B1, B1 y B2 probablemente no son independientes y estafórmula no esapropiada
Distribución de probabilidad de una variable • Lista de los posiblesresultados de una “variable aleatoria” y susprobabilidades • Variable discreta: asignaprobabilidades P(y) a valoresindividualesy, con
Ejemplo • Seleccionaunamuestraaleatoria de 3 personas y preguntasiestán a favor (F) o en contra (C) de un sistema de saludpúblico y = número a favor (0, 1, 2, ó 3) • Para posibles muestras de tamaño n = 3, MuestrayMuestray (C, C, C) 0 (C, F, F) 2 (C, C, F) 1 (F, C, F) 2 (C, F, C) 1 (F, F, C) 2 (F, C, C) 1 (F, F, F) 3
Si la poblaciónestáigualmentedividida entre F y C, estasochomuestras son igualmenteposibles y la distribución de probabilidad de la variable aleatoriay (el número a favor) es y P(y) 0 1/8 1 3/8 2 3/8 3 1/8 • (Caso especial de la “distribución binomial”, en Cap. 6) • En la práctica, lasdistribuciones de probabilidad son estimadas de datosmuestrales y entoncestienenuna forma de distribuciones de frecuencias
Datos GSS • Ejemplo: y = número de personas queconocen a alguienque se hayasuicidado en los últimos 12 meses (variable “suiknew”). Distribución de probabilidadestimadaes y P(y) 0 .895 1 .084 2 .015 3 .006
Media (valor esperado) • Como lasdistribuciones de frecuencias, distribuciones de probabilidadtienenmedidasdescriptivas tales como media y desviaciónestándar • Media (valor esperado) • µ = 0(0.895) + 1(0.084) + 2(0.015) + 3 (0.006) = 0.13 representa un “resultadopromedio de unasecuencialarga” (media = moda = 0)
Desviaciónestándar • Desviaciónestándar – medida de unadistancia “típica” de un resultado de la media, denotadapor (No vamos a necesitarcalcularestafórmula) • Si unadistribucióntieneaprox. forma de campana, entonces: • Toda o casitoda la distribucióncaedentro del intervaloµ - 3σ y µ + 3σ • Probabilidad del 0.68 caedentro de µ - σ y µ + σ
Ejemplo • De un resultadomásadelante en el capítulo, si n personas son seleccionadasaleatoriamente de unapoblación con proporción quefavorecesistema de saludpúblico (1- , se oponen), entonces y = número de personas en la muestraqueestá a favor, tieneunadistribución de probabilidad con forma de campana con p. ej., con n = 1000, = 0.50, obtenemosµ = 500, σ = 16 • Casitoda la distribucióncae entre 500 – 3(16) = 452 y 500 + 3(16) = 548 • Es decir, casiseguro entre 45% y 55% de la muestradiráestar a favor de un sistema de saludpública
Variables continuas • Variables continuas: probabilidadesasignadas a intervalos de números • Ejemplo: Cuano y tomamuchosvalores, como en el últimoejemplo, se considera continua paratérminosprácticos. Entonces, si la distribución de probabilidadtieneaprox. forma de campana, • La distribución de probabilidadmásimportantepara variables continuases la distribución normal
Distribución normal • Es simétrica y con forma de campana (fórmula en Ejercicio 4.56) • Se caracterizapor la media (m) y desviaciónestándar (s), representando el centro y la dispersión • La probabilidaddentro de un número particular de desviacionesestándar de la media mes la mismaparatodaslasdistribucionesnormales • Unaobservación individual de unadistribuciónaprox. normal tieneprobabilidad • 0.68 de caer a 1 desviaciónestándar de la media • 0.95 de caer a 2 desviacionesestándar • 0.997 de caer a 3 desviacionesestándar
Tabla A • Tabla A da la probabilidad en la cola derechaarriba de µ + zσparavariosvalores de z. Segundo decimal del valor de z z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 0.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641 … … 1.4 .0808 .0793 .0778 .0764 .0749 .0735 .0722 .0708 .0694 .0681 1.5 .0668 .0655 .0643 .0630 .0618 .0606 .0594 .0582 .0571 .0559 ... ...
Ejemplo: ¿Cuáles la probabilidad de caer entre µ - 1.50σ y µ + 1.50σ ? • z = 1.50 tieneuna prob. a la derecha = 0.0668 • La prob. de la cola izq. = 0.0668 porsimetría • La prob. se las dos colas = 2(0.0668) = 0.1336 • Prob. entre µ - 1.50σ y µ + 1.50σ = 1 – 0.1336 = 0.87 Ejemplo: z = 2.0 da • Prob. de las dos colas = 2(0.0228) = 0.046 • Probabilidad entre µ ± 2σes 1 - 0.046 = 0.954
Ejemplo: ¿Qué valor-z corresponde al percentil-99? Es decir, ¿qué valor-z resulta en µ + zσ = percentil-99? • Probabilidad de la cola derecha = 0.01 tiene z = 2.33 • 99% caeabajo de µ + 2.33σ Ejemplo: Si el coeficienteintelectual (IQ) tieneµ = 100, σ = 16, entonces percentil-99% µ + 2.33σ = 100 + 2.33(16) = 137 Nota: µ - 2.33σ = 100 – 2.33(16) = 63 es el percentil-1% 0.98 = probabilidadque IQ caiga entre 63 y 137
Ejemplo ¿Qué valor de z haceque el intervaloµ ± zσincluyaexactamente el 95% de la curva normal? • Probabilidad total en las dos colas = 0.05 • Probabilidad en la cola derecha = 0.05/2 = 0.025 • z = 1.96 µ ± 1.96σcontieneprobabilidad 0.950 (µ ± 2σcontieneprobabilidad 0.954) Ejercicio: Intentapara 99%, 90% (debesobtener 2.58, 1.64)
Ejemplo MinessotaMultiphasic Personality Inventory (MMPI), basado en respuestas de 500 preguntas de verdadero/falso, proveecalif. paravariasescalas (p.ej., depresión, ansiedad, abuso de sustancias), con µ = 50, σ = 10. Si la distribuciónes normal y unacalificación ≥ 65 esconsideradamuyalta, quéporcentajeeséste? • z = (65 - 50)/10 = 1.50 • Prob. de la cola derecha = 0.067 (menosque 7%)
Notas de valores-z • Valor-z representa el número de desviacionesestándarque un valor está de la media de la distribución • Un valor y está z = (y - µ)/σdesviacionesestándar de µ Ejemplo: y = 65, µ = 50, σ = 10 z = (y - µ)/σ = (65 – 50)/10 = 1.5 • El valor-z esnegativocuando y estápordebajo de µ (p.ej., y = 35 tienez = -1.5)
Distribución normal • La distribución normal estándaresunadistribución normal con µ = 0 y σ = 1 • Por la distribución, z = (y - )/ = (y - 0)/1 = y Es decir, valor original = valor-z; µ+ zσ = 0 + z(1) = z (usamos la normal estándarparainferenciaestadístcaempezando en Cap. 6, dondeciertasestadísticas son convertidasparatenerunadistribución normal estándar) • Porquées la distribución normal importante? Hoy aprenderemosquesiestudiosdiferentestomanmuestrasaleatorias y calculanestadísticas (p.ej., media muestral) paraestimar un parámetro (p.ej., media poblacional), la colección de los valores de lasestadísticas de estosestudiosusualmentetienenaprox. unadistribución normal. (Y?)
Distribución muestral • Unadistribuciónmuestrallista los posiblesvalores de la estadística (p.ej., media muestral y proporciónmuestral) y susprobabilidades Ejemplo: y = 1 si a favor del sistemapúblico de salud y = 0 si se opone • Para posiblesmuestras de tamañon = 3, considera la media muestral Muestra Media Muestra Media (1, 1, 1) 1.0 (1, 0, 0 ) 1/3 (1, 1, 0) 2/3 (0, 1, 0) 1/3 (1, 0, 1) 2/3 (0, 0, 1) 1/3 (0, 1, 1) 2/3 (0, 0, 0) 0
Para datosbinarios (0, 1), media muestralesigual a proporciónmuestral de casos “1”. Para la población es la proporciónpoblacional de casos “1” (p.ej., a favor del sistema de saludpública) • ¿Qué tan cercaestá la media muestral de la media poblacional µ? • Para responder esto, debemospoder responder, “¿Cuáles la distribución de probabilidad de la media muestral?”
Distribuciónmuestral • Distribuciónmuestral de unaestadísticaes la distibución de probabilidadpara los posiblesvalores de la estadística • Ejemplo. Asume P(0) = P(1) = ½. Para una variable aleatoria de tamañon = 3, cadauno de las 8 possible muestras son igualmenteprobables. La distribuciónmuestral de la proporciónmuestrales ProporciónmuestralProbabilidad 0 1/8 1/3 3/8 2/3 3/8 1 1/8 (Intentaparan = 4)
Distribución muestral de la media muestral • esuna variable, susvaloresvarian de muestra a muestraalrededor de la media poblacionalµ • La desviaciónestándar de la distribuciónmuestral de se llama error estándarde • Para el muetreoaleatorio, la distribuciónmuestral de tieneuna media µ y error estándar
Ejemplo • Para datosbinarios (y =1 ó 0) con P(Y=1) = (con 0 < < 1), se puedemostrarque (Ej. 4.55b, y caso especial de la fórmula anterior en p.11 de estasnotas con n = 1) • Cuando = 0.50, = 0.50, y el error estándares • nerror estándar • .289 • 100 .050 • 200 .035 • 1000 .016
Nota el error estándardecrece a medidaquen crece (esdecir, tiende a caermáscerca de µ) • Con n = 1000, error estándar = 0.016, asíquesi la distribuciónmuestraltiene forma de campana, con unaaltaprobabilidad, la proporcióncae a 3(0.016) = 0.05 de la proporciónpoblacional de 0.50 (esdecir, entre 0.45 and 0.55) • Ejemplo: Número de vecesy = 1 (esdecir, número de personas a favor) es 1000×(proporción), asíque la variable que “cuenta” el número de personas tiene media = 1000(0.50) = 500 y desv. est. 1000(0.016) = 16 (como en un ejemplo anterior en p. 11)
Consecuenciapráctica: Este capítulopresentaresultadosteóricosacerca de la dispersión (y forma) de lasdistribucionesmuestrales, peroestoimplicacómo, en la práctica, los diferentesestudios en el mismotemapuedenvariar de estudio a estudio (y, por lo tanto, qué tan precisocadaestudiotiende a ser) • Ejemplo: Túplaneasunamuestra de 200 personas paraestimar la proporciónpoblacionalqueestá a favor de un sistema de saludpúblico. Otrospuedenestarhaciendo lo mismo. Cómovariarán los resultados entre los estudios (y qué tan precisos son susresultados)? • La distribuciónmuestral de la proporciónmuestral a favor del sistema de saludpúblicotiene un error estándarque describe la variabilidad de estudio a estudio.
Ejemplo Muchosestudiantestomanunamuestra de n = 200 paraestimarproporciónpoblacional • Lanzarunamoneda 200 vecessimula el procesocuando la proporciónpoblacional = 0.50. • En teoría, hemosvistoque la proporciónmuestralvaría de estudio a estudio (esdecir, de estudiante a estudiante) alrededor de 0.50 con un error estándar de 0.035 • Evidenciaempírica: Tomé los datosqueustedesgeneraron y calculéque el conjunto de todaslasproporcionesmuestrales (0.515 = 103/200, 0.470 = 94/200, etc.) tieneuna media de 0.488 y unadesviaciónestándar de 0.028. (OK, hicetrampa y borré un outlier de 0.67) • Forma? Parecida a forma de campana. Porqué?
Teorema Central del Límite • Teorema Central del Límite: Para muestreoaleatorio con n “grande”, la distribuciónmuestral de la media muestraltieneaprox. unadistribución normal • Es aprox. normal sin importar la forma de la distribuciónpoblacional • Qué tan “grande” debe de ser n depende de qué tan asimétricasea la distribuciónpoblacional, perousualmente n ≥ 30essuficiente • Puedeverificarseempíricamente, haciendosimulaciones con el applet de “sampling distribution” en www.prenhall.com/agresti
Ejemplo Muestraaleatoria de 100 estudiantesseleccionadosparaestimar la proporciónquehanparticipado en actividad A. Encuentra la probabilidad de la proporciónmuestralcaiga entre 0.04 de la proporciónpoblacional, si la proporciónpoblacional = 0.30 (esdecir, entre 0.26 y 0.34) y = 1, sí y = 0, no µ = = 0.30 • Por el TCL, distribuciónmuestral de la media muestral (la proporción de “sí”) esaprox. normal con • media = 0.30, • error estándar =
0.26 tiene valor-z = (0.26 - 0.30)/0.0458 = -0.87 • 0.34 tiene valor-z = (0.34 - 0.30)/0.0458 = 0.87 • P(media muestral≥ 0.34) = 0.19 • P(media muestral ≤ 0.26) = 0.19 • P(0.26 ≤ media muestral ≤ 0.34) = 1 – 2(0.19) = 0.62 La probabilidades 0.62 que la proporciónmuestralcaiga a 0.04 de la proporciónpoblacional
Ejemplo Lanzamiento de monedas, n = 200 porestudiante • Si la probabilidad de águila = 0.50, entonces la proporciónmuestral de águilas en 200 lanzamientosvaría de estudiante a estudiante de acuerdo a unadistribución normal con • media = 0.50, y • error estándar 0.035 (¿cómo?) • Seríainusualque la proporción de águilasestuvierapordebajo de 0.40 o porarriba de 0.60 (porqué?) • Cómocambiaría el intervalo de valoresfactibles (0.40, 0.60) a medidaquen crece? (p.ej., n = 1000 en unaencuesta)
No se dejen “engañarporaleatoriedad” • Hemosvistoquealgunascosas son muypredecibles (esdecir, qué tan cerca la media muestralcae de la media poblacional, parauna n determinada) • Pero, en el cortoplazo, aleatoriedad no es “regular” comounoesperaría (Por lo general, yopuedepredecirquién “falsificó” los lanzamientos de monedas • En 200 lanzamientos de unamonedabalanceada, • P(la secuenciamáslarga de Carasconsecutivas < 5) = 0.04 • La distribución de probabilidad de Carasconsecutivastieneµ = 7 • Implicaciones: deportes (ganar/perder, éxito/fracaso individual), mercado de accionessube o bajadía con día, …
Algunoscomentarios • Consecuencia del TCL: Cuando el valor de una variable esresultado de promediarmuchasinfluenciasindividuales, ningunadomina, la distribuciónesaprox. normal (p.ej., coef. intelectual, presión arterial) • En la práctica, no conocemosµ, peropodemosusar la dispersión de la distribuciónmuestralcomo base para la inferencia de parámetrosdesconocimos (veremoscómo en los próximos dos capítulos) • Ahorapodemosdiscutirtrestipos de distribuciones:
Distribución de la población – descritaporparámetros tales comoµ, σ (generalmentedesconocidos) • Distribución de la muestra – descritaporestadísticas de la muestra tales como media muestral , desviaciónestándars • Distribuciónmuestral de unaestadística– distribuciones de la probabilidad de los posiblesvalores de la estadísticamuestral; determina la probabilidadqueunaestadísticacaigadentro a ciertadistancia del parámetropoblacional (gráficomostrandodiferencias)
Ejemplo (categórica): Encuestasobresistema de salud • Estadística = proporciónmuestralqueestá a favor del plan de sistema de saludpropuesto • Cuáles (1) la distribuciónpoblacional, (2) distribución de la muestra, (3) distribuciónmuestral? • Ejemplo (cuantitativa): Experimentosobre el impacto de uso de celular en tiempos de reacción • Estadística =media muestral del tiempo de reacción • Cuáles (1) la distribuciónpoblacional, (2) distribución de la muestra, (3) distribuciónmuestral?
Por el Teorema Central del Límite (opciónmúltiple) • Todaslas variables tienenaprox. distribucionesmuestralesnormalessiunamuestraaleatoriatiene al menos 30 observaciones • Distribucionespoblacionales son normalescuando el tamaño de la poblaciónesgrande (al menos 30 observ.) • Para muestrasgrandes, la distribuciónmuestral de la media muestralesaprox. normal, sin tomar en cuenta la forma de la distribuciónpoblacional • La distribuciónmuestral se parecemás a la distribuciónpoblacionalsi el tamaño de muestraaumenta • Todaslasopcionesanteriores