520 likes | 824 Views
Descriptores numericos de una distribucion. Objetivos. Describiendo distribuciones con numeros Medidas de tendencia central: media y la mediana Medidas de dispersion: percentiles y desviacion estandar. Medida de tendencia central: la media. La media o el promedio aritmetico
E N D
Objetivos Describiendo distribuciones con numeros • Medidas de tendencia central: media y la mediana • Medidas de dispersion: percentiles y desviacion estandar
Medida de tendencia central: la media La media o el promedio aritmetico Para calcular la media, se añaden todos los valores y luego se divide entre el numero de individuos. “Es el centro de la masa.” Suma de las alturas 1598.3 Dividido entre 25 mujeres = 63.9 cm
( i ) ( x ) ( i ) ( x ) i = 1 x = 5 8 . 2 i = 14 x = 6 4 . 0 1 14 i = 2 x = 5 9 . 5 i = 15 x = 6 4 . 5 2 15 i = 3 x = 6 0 . 7 i = 16 x = 6 4 . 1 3 16 i = 4 x = 6 0 . 9 i = 17 x = 6 4 . 8 4 17 i = 5 x = 6 1 . 9 i = 18 x = 6 5 . 2 5 18 i = 6 x = 6 1 . 9 i = 19 x = 6 5 . 7 6 19 i = 7 x = 6 2 . 2 i = 20 x = 6 6 . 2 7 20 i = 8 x = 6 2 . 2 i = 21 x = 6 6 . 7 8 21 i = 9 x = 6 2 . 4 i = 22 x = 6 7 . 1 9 22 i = 10 x = 6 2 . 9 i = 23 x = 6 7 . 8 10 23 i = 11 x = 6 3 . 9 i = 24 x = 6 8 . 9 11 24 i = 12 x = 6 3 . 1 i = 25 x = 6 9 12 25 . 6 S = 1 5 9 8 . 3 n = 2 5 i = 13 x = 6 3 . 9 13 Nocion matematica: mujer altura mujer altura Aprendamos inmediatamante como usar las calculadoras.
altura de 25 mujeres en una clase • Aca la forma de la distribucion es muy irregular porque? • Podremos tener mas de una especie o fenotipo? Los resumenes numericos deben tener sentido • La distribucion de las alturas parece ser coherente y simetrica. La media en un buen resumen numerico.
58 60 62 64 66 68 70 72 74 76 78 80 82 84 Un resumen numerico unico no tendria sentido
2. Si n es impar, la mediana es la observacion (n+1)/2 en la lista n = 25 (n+1)/2 = 26/2 = 13 Mediana = 3.4 3. Si n es par, la mediana es el promedio de las 2 observaciones centrales n = 24 n/2 = 12 Mediana = (3.3+3.4) /2 = 3.35 Medidas de tendencia central: la mediana La mediana es el punto central de una distribucion- un numero tal que la mitad de las observaciones son mas pequeñas y la otra mitad son mas grandes • Ordenar las observaciones desde • la mas pequeña hasta la mas grande. • n = numero de observaciones • ______________________________
Comparemos la Mediana y la Media La mediana y la media son la misma sólo si la distribucion es simétrica. La mediana es una medida de tendencia central que es resistente a sesgo y a los outliers. La Media no lo es. Media y mediana en una distribución simétrica Media Mediana Media y mediana en una distribución asimétrica Sesgo Izq Sesgo Der Media Mediana Media Mediana
Sin outliers Con outliers La media es desviada considerablemente hacia la derecha por los outliers (de 3.4 a 4.2). La mediana, es solo modificada ligeramente por los outliers (de 3.4 a 3.6). Media y Mediana de una distribucion con outliers Percent of people dying
Media y mediana de una distribucion simetrica Enfermedad X: La Media y la Mediana son iguales En una distribucion sesgada Mieloma Multiple : La Media esta desviada hacia el sesgo Impacto de datos sesgados
1) Primero se calcula la variancia s2. 2) Luego se calcula la raiz cuadrada para obtener la desviacion estandar s. Medidas de dispersion: desviación estandar La desviacion estandar se usa para describir la variacion alrededor de la media Media ± 1 s.d.
Cálculos … Altura de mujeres (pulgadas) Uno NUNCA calcula esto a mano, Favor practicar con su calculadora. Media = 63.4 Suma de las desviaciones al cuadrado from mean = 85.2 Degrees freedom (df) = (n − 1) = 13 s2 = variance = 85.2/13 = 6.55 inches squared s = standard deviation = √6.55 = 2.56 inches
Objetives Las distribuciones normales • Curvas de densidad • Distribucion Normal • La regla 68-95-99.7 • La distribucion Normal estandar • Usando la tabla Normal estandar • Encontrar un valor dada una proporcion
Curvas de densidad Una curva de densidad es un modelo matematico de distribucion. Siempre esta sobre el eje horizontal. El area total bajo la curva es, por definicion igual a 1 ó 100%. El area bajo la curva para un rango de variables esta en proporcion de todas las observaciones para ese rango Histograma de una muestra con su curva de densidad teorica que describe a la poblacion
Las curvas de densidad vienen en cualquier forma. Algunas son conocidas matematicamante otras no.
Distribucion Normal Las distribuciones Normales—o de Gauss— son una familia de curvas de densidad con forma de campana, simetricas y definidas por una media m (mu) y una desviacion estandar s (sigma): N (m, s). x x e = 2.71828… la base del logaritmo natural π = pi = 3.14159…
Una familia de curvas de densidad Las medias son la misma (m = 15) Mientras las desviaciones estandar son diferentes (s = 2, 4, y 6). Las medias son diferentes (m = 10, 15, y 20) Mientras que las desviaciones estandar son las mismas (s = 3).
Todas las curvas Normales N (m, s) comparten las mismas propiedades • Cerca de 68% de todas las observaciones estan dentro de 1 desviacion estandar (s) de la media (m). • Cerca de 95% de todas las observaciones estan dentro de 2 s de la media m. • Casi todas (99.7%) las observaciones estan dentro de las 3 s de la media. Punto de inflexion media µ = 64.5 desviacionestandars = 2.5 N(µ, s) = N(64.5, 2.5) Recordatorio: µ (mu) es la media de la curva ideal mientras que es el promedio de una muestra σ (sigma) es la desviacion estandar de la curva ideal, mientras que s es la d.e. de una muestra.
N(64.5, 2.5) N(0,1) => Standardized height (no units) La distribucion normal estandar Debido a que todas las distribuciones estandar comparten las mismas propiedades podemos estandarizar nuestros datos para transformar cualquier curva normal N (m, s) en la curva normal estandar N(0,1). Para cada x calculamos un nuevo valor, z (llamado el valor z).
Cuando x es 1 desviacion estandar mas grande que la media entonces z = 1. Cuando x es 1 desviacion estandar mas grande que la media entonces z = 2. Estandarizando: calculando los valores z Un valor-zmide el numero de desviaciones estandar a la que un dato x se encuentra de la media m. Cuando x es mayor que la media, z es positivo. Cuando x es menor que la media, z es negativo
Ejemplo: altura en mujeres N(µ, s) = N(64.5, 2.5) La altura en mujeres sigue la distribucion N(64.5″,2.5″). Cual es el porcentaje de mujeres mas pequeñas de 67 pulgadas? Area= ??? Area = ??? Media µ = 64.5" Desviacion estandar s = 2.5" x (altura) = 67" m = 64.5″x = 67″ z = 0 z = 1 Calculamos z,el valor estandarizado de x: Gracias a la regla 68-95-99.7 , podemos concluir que el porcentaje de mujeres mas pequeñas de 67” debe ser aproximadamante: .68 + mitad de (1 − .68) = .84, or 84%.
.0082 es el area bajo N(0,1) a la izq de z = -2.40 0.0069 es el area bajo N(0,1) Izq dez = -2.46 .0080 es el area bajo N(0,1) Izq de z = -2.41 Usando la Tabla La tabla de z muestra el area bajo la curva Normal estandar hacia la izquierda de cualquier valor de z. (…)
Porcentaje de mujeres mas pequeñas de 67” Para z = 1.00, el area bajo la curva Normal estandar a la izquierda de z es 0.8413. N(µ, s) = N(64.5”, 2.5”) Area ≈ 0.84 Conclusion: 84.13% de la mujeres son mas pequeñas que 67″. restando 1 − 0.8413, o 15.87%, de mujeres son mas grandes que 67". Area ≈ 0.16 m = 64.5” x = 67” z = 1
Area = 0.9901 Area = 0.0099 z = -2.33 Area a la derecha de z = area izquierda de -z Area a la derecha de z = 1 − area izquierda de z Tips usando la Tabla Z Gracias a que la distribucion normal es simetrica, hay dos maneras en las que se puede calcular el area bajo la curva normal a la derecha del valor Z.
La asociacion de colegios atleticos (NCAA) requiere que los atletas tengan por lo menos 820 en los examenes de SAT combinados verbal y matematicos para completar su primer año. Los scores SAT del 2003 fueron aproximadamante normales con una media 1026 y desviacion estandar 209. Que proporcion de estudiantes calificaran para NCAA (SAT ≥ 820)? Area right of 820 = Total area − Area left of 820 = 1 − 0.1611 ≈ 84% Note: The actual data may contain students who scored exactly 820 on the SAT. However, the proportion of scores exactly equal to 820 being 0 for a normal distribution is a consequence of the idealized smoothing of density curves.
Tips usando la Tabla Z Para calcular el area entre dos valores z, primero obtener el area bajo N(0,1) a la izquierda del valor z de la Tabla. Luego restar el area pequeña del area grande. Un error comun es restar los valores de z. area entre z1 y z2 = area izq de z1 – area izq de z2 El area bajo N(0,1) para un valor cualquiera es cero.
La NCAA define un “partial qualifier” como alguien elegible para practicar y recibir una bolsa de estudiante atleta pero no para competir si tienen un SAT de por lo menos 720. Cual es la proporcion de todos los estudiantes que toman el SAT que serian partial qualifiers? O dicho de otra manera, cual es la proporcion que tendra scores entre 720 y 820? Area entre = Area izq de 820 − Area izq de 720 720 y 820 = 0.1611 − 0.0721 ≈ 9% Alrededor de 9% de todos los estudiantes que toman el SAT tendran scores entre720 y 820.
Lo divertido de trabajar con datos normalemente distribuidos es que podemos manipularlos y encontrar respuestas a preguntas que involucran distribuciones aparentemente no comparables. Lo hacemos estandarizando los datos. Lo que implica cambiar la escala de tal manera que la media es 0 y la desv. Estandar es igual a 1. si hacemos esto a distribuciones diferentes las hacemos comparables. N(0,1)
What improvement did we get by adding better food? Example: Gestation time in malnourished mothers What are the effects of better maternal care on gestation time and premies? The goal is to obtain pregnancies of 240 days (8 months) or longer. • 266 s 15 • 250 s 20
Under each treatment, what percent of mothers failed to carry their babies at least 240 days? Vitamins only m = 250, s = 20, x = 240 Vitamins only: 30.85% of women would be expected to have gestation times shorter than 240 days.
Vitamins and better food m= 266, s= 15, x = 240 Vitamins and better food: 4.18% of women would be expected to have gestation times shorter than 240 days. Compared to vitamin supplements alone, vitamins and better food resulted in a much smaller percentage of women with pregnancy terms below 8 months (4% vs. 31%).
Finding a value given a proportion When you know the proportion, but you don’t know the x-value that represents the cut-off, you need to use Table A backward. • State the problem and draw a picture. • 2. Use Table A backward, from the inside out to the margins, to find the corresponding z. • 3. Unstandardize to transform z back to the original x scale by using the formula:
Example: Women’s heights Women’s heights follow the N(64.5″,2.5″) distribution. What is the 25th percentile for women’s heights? mean µ = 64.5" standard deviation s = 2.5" proportion = area under curve=0.25 We use Table A backward to get the z. On the left half of Table A (with proportions 0.5), we find that a proportion of 0.25 is between z = -0.67 and –0.68. We’ll use z = –0.67. Now convert back to x: The 25th percentile for women’s heights is 62.825”, or 5’ 2.82”.
Respuesta (variable dependiente) : Contenido de alcohol en sangre y x Variable explicativa (independiente) : numero de cervezas Variables explicativas y de respuesta Una variable de respuesta mide el resultado de un estudio. Una variable explicativa explica cambios en la variable de respuesta. Tipicamante, la variable explicativa o independiente se grafica en el eje x y la variable de respuesta o dependiente en el eje y.
Algunos plots no tienen varibles claras. Las calorias explican los los contenidos de sodio?
No relacion No linear Forma y direccion de una asociacion Linear
Asociacion Positiva : Valores altos de una variable tienden a ocurrir junto con valores altos de la la otra variable. AsociacionNegativa:Valores altos de una variable tienden a ocurrir junto con valores bajos de la la otra variable.
Sin relacion: x e y varian independendientemente.Conocer x no dice nada acerca de y. One way to remember this: The equation for this line is y = 5. x is not involved.
Tiempo de nado: x = 35, sx = 0.7 Pulso: y = 140 sy = 9.5 El coeficiente de correlacion “r” El coeficiente de correlacion es una medida de la direccion y la fuerza de una relacion. Se calcula usando la media y la desviacion estandar de las variables x ey . La correlacion solo puede ser usada para describir variables CUANTITATIVAS. Variables categoricas no tienen medias ni desv. estandar.
Parte del calculo involucra encontrar a z, el valor estandarizado que usamos cuando se trabaja con una distribucion normal. Uds. No quieren hacer esto a mano. Asegurense de saber otener este valor con su calculadora!
Estandarizacion: Nos permite comparar correlaciones entre data sets donde las variables estan medidas en unidades diferentes o cuando las variables son diferentes. Por ejemplo podemos comparar la correlacion entre tiempo de nado y pulso y tiempo de nado y ritmo respiratorio.
r = -0.75 r = -0.75 “r” no distingue entre variables explicativas y de respuesta El coeficiente de correlacion , r, trat a x e y simetricamente.
r = -0.75 z-score plot is the same for both plots r = -0.75 “r” no tiene unidades Cambiar las unidades de la variable no cambia el coeficiente de correlacion “r,” porque eliminamos todas las unidades al estandarizar z-scores).
“r” va de −1 a +1 “r” cuantifica la fuerza y la direccion de una relacion linear entre dos variables cuantitativas. Fuerza: Que tan bien los puntos siguen una linea recta. Direccion es positiva cuando individuos con valores de x mas altos tienden a tener valores de y mas altos.
Cuando la variabilidad en una o ambas variables decrece, el coeficiente de correlacion se hace mas fuerte(cerca a +1 o −1).
Cuidado usando la correlacion Solo para relaciones lineares. Nota: a veces se puede transformar datos no lineares a formas lineares, por ejemplo tomando el logarithmo. Luego se puede calcular la correlacion usando los datos transformados.
Puntos de influencia Correlaciones se calculan usando medias y dsv. Estandar y por lo tanto NO son resistentes a los outliers. Mover un solo punto fuera de la tendencia general disminuye la correlacion de −0.91 a −0.75.
Prueben en el website http://www.whfreeman.com/bps3e Añadir 2 outliers disminuye r de 0.95 a 0.61.