1.02k likes | 1.65k Views
Capítulo 1. Estadística Descriptiva 1.3: Medidas de Localización 1.4: Medidas de Dispersión. Parámetros y estadísticos. Parámetro: Es una cantidad numérica calculada sobre una población
E N D
Capítulo 1. Estadística Descriptiva 1.3: Medidas de Localización 1.4: Medidas de Dispersión Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 1
Parámetros y estadísticos • Parámetro: Es una cantidad numérica calculada sobre una población • La altura media de los individuos de un país • La idea es resumir toda la información que hay en la población en unos pocos números (parámetros). • Estadístico: Ídem (cambiar población por muestra) • La altura media de los que estamos en este sala. • Somos una muestra (¿representativa?) de la población. • Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador. Normalmente nos interesa conocer un parámetro, pero por la dificultad que conlleva estudiar a *TODA* la población, calculamos un estimador sobre una muestra y “confiamos” en que sean próximos. Más adelante veremos como elegir muestras para que el error sea “confiablemente” pequeño. Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 2
La media El promedio (media) de n números es Media poblacional: Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 3
Distintos Estadísticos Descriptivos Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 4
Un brevísimo resumen sobre estadísticos • Posición • Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. • Cuantiles, percentiles, cuartiles, deciles,... • Centralización • Indican valores con respecto a los que los datos parecen agruparse. • Media, mediana y moda • Dispersión • Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización. • Desviación típica, coeficiente de variación, rango, varianza • Forma • Asimetría • Apuntamiento o curtosis Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 5
Se define el cuantilde orden a como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada a. Casos particulares son los percentiles, cuartiles, deciles, quintiles,... Estadísticos de posición Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 6
Percentil de orden k = cuantil de orden k/100 La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85% Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. Primer cuartil = Percentil 25 = Cuantil 0,25 Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana Tercer cuartil = Percentil 75 = cuantil 0,75 Estadísticos de posición Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 7
Ejemplos • El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se considera “demasiado bajo”? • Percentil 5 o cuantil 0,05 • ¿Qué peso es superado sólo por el 25% de los individuos? • Percentil 75 • El colesterol se distribuye simétricamente en la población. Se considera patológico los valores extremos. El 90% de los individuos son normales ¿Entre qué valores se encuentran los individuos normales? • Entre el percentil 5 y el 95 • ¿Entre qué valores se encuentran la mitad de los individuos “más normales” de una población? • Entre el cuartil 1º y 3º Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 8
Ejemplo • ¿Qué peso no llega a alcanzar el 25% de los individuos? • Primer cuartil = percentil 25 = 60 Kg. • ¿Qué peso es superado por el 25% de los individuos? • Tercer cuartil= percentil 75= 80 kg. • ¿Entre qué valores se encuentra el 50% de los individuos con un peso “más normal”? • Entre el primer y tercer cuartil = entre 60 y 80 kg. • Obsérvar que indica cómo de dispersos están los individuos que ocupan la “parte central” de la muestra. Ver más adelante rango intercuartílico. • Los diagramas de caja (‘boxplot’) sintetizan esta información (y algo más). 50% 25% 25% 25% 25% Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 9
Ejemplo ≥20%? ≥ 90%? Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 10
Centralización Añaden unos cuantos casos particulares a las medidas de posición. En este caso son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse. • Media (‘mean’) Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por el tamaño muestral. • Media de 2,2,3,7 es (2+2+3+7)/4=3,5 • Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos. • Centro de gravedad de los datos • Mediana (‘median’) Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos (percentil 50). Si el número de datos es par, se elige la media de los dos datos centrales. • Mediana de 1,2,4,5,6,6,8 es 5 • Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5 • Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos. • Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7! • Moda (‘mode’) Es el/los valor/es donde la distribución de frecuencia alcanza un máximo. Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 11
Algunas fórmulas • Datos sin agrupar: x1, x2, ..., xn • Media • Datos organizados en tabla • si está en intervalos usar como xi las marcas de clase. Si no ignorar la columna de intervalos. • Media • Cuantil de orden α • i es el menor intervalo que tiene frecuencia acumulada superior a α ·n • α=0,5 es mediana Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 12
Altura mediana Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 13
Ejemplo con variables continuas En el histograma se identifica “unidad de área” con “individuo”. Para calcular la media es necesario elegir un punto representante del intervalo: La marca de clase. La media se desplaza hacia los valores extremos. No coincide con la mediana. Es un punto donde el histograma “estaría en equilibrio” si tuviese masa. Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 14
Ejemplo (continuación) • Moda = marca de clase de (60,70] = 65 • Cada libro ofrece una fórmula diferente para la moda (difícil estar al día.) Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 15
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 16
En el caso de los pesoslos alumnos de ingeniería Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 17
Media de un conjunto de números • Para un conjunto dado de números x1, x2 ,... xn,la medida más conocida es la media o promedio aritmético del conjunto. Como muy a menudo se piensa a los xi como constituyentes de una muestra, el promedio aritmético también se denomina media muestral y se denota como . Definición: Lamedia muestralde un conjunto de números está dada por ( , se lee “xraya”) La suma de los valores de la variable bajo estudio dividida por el número total de objetos de la población, se denota y está definida por22 ( , se lee “mu”) Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 18
NOTA • El símbolo , indica que se han promediado observaciones de un conjunto de tamaño n de una población, es fundamentalmente distinto de ya que las muestras de una población pueden tener valores diferentes entre ellas dentro de la población. Mientras que la media poblacional es una sola (constante). Sin embargo si tomamos la media de todas las medias muestrales posibles se esperaría obtener el valor de la media poblacional . Esta propiedad de hace de este sea un estimador insesgado de Esta propiedad es muy importante, pues rara vez de conoce la media de la población Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 19
Observación práctica • Al escribir se recomienda usar un dígito decimal más que el correspondiente a la exactitud de los xi .así si las distancias de frenado a 120 km son x1 = 125 y x2 = 131m,… podría ser = 127.3 m. Es claro que en este caso, que el tamaño poblacional N, es desconocido y que, en consecuencia, también. Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 20
Ej. 1.3 Agrietamiento por corrosión • En un estudio sobre el agrietamiento por corrosión cáustica bajo tensiones del hierro y acero, debido a que suelen presentar fallas en torno de los remaches en calderas de acero y en rotores de máquinas de vapor. • Si x = longitud de la grieta (m) 0H 96 89 1L 27 03 40 46 18 1H 61 85 2L 49 04 12 33 42 2H 58 53 71 85 3L 02 24 3H 4L 4H 50 Tallo: dígito de las decenas Hoja : dígitos de las unidades y de las décimas Y como , la media muestral es Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 21
Geometría de la media 20 10 30 40 Media corresponde geométricamente al punto de equilibrio de los datos pensando como un sistema de pesas Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 22
Efecto de punto alejado attach(ej0113) dotchart(lgrieta,col=6) abline(v = mean(lgrieta,trim=0.00), col = 4, lty = 4) abline(v = mean(lgrieta,trim=0.05), col = 3, lty = 3) legend(35, 10,c("media","media recortada al 5%"),col=3:4,lty=3:4) ej0113<-read.table("ej01.13.txt",h=T) stem(ej0113$lgrieta,2) The decimal point is 1 digit(s) to the right of the | 0 | 9 1 | 00234 1 | 569 2 | 0134 2 | 55679 3 | 02 3 | 4 | 4 | 5 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 23
Propiedades de la media (como operador) • Si , entonces • Luego, Resumiendo es decir, el operador raya (media) es lineal • En general Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 24
Mediana La mediana muestral, es el valor medio en un conjunto de datos arreglado en orden ascendente. Para un número par de datos la mediana es el promedio de los dos del medio. Mediana poblacional: Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 25
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 26
Valor único si n es par Promedio de estos dos valores ordenados: Promedio de los dos valores medios si n es par Mediana (Fórmula de cálculo) La medianamuestral se obtiene al ordenar las n observaciones (incluyendo los valores repetidos) de menor a mayor magnitud. Entonces se calcula La mediana poblacional, por su parte, se denota Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 27
Cuantificación de hierro en la sangre • Concentración de globulina receptora de hierro, para una muestra de mujeres con pruebas de laboratorio de evidente anemia por deficiencias de hierro Lista de valores ordenados 7.6 8.3 9.3 9.4 9.4 9.7 10.4 11.5 11.9 15.2 16.2 20.4 Como n = 12 es par, se promedia n/2 = 6° valor con el 7° valor ordenado: Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 28
Sesgo negativo Simétrica Sesgo positivo Mediana Poblacional • Análogo a como valor muestral, hay un valor de media poblacional, hay un valor poblacional de la mediana muestral, el que se denota por . Y del mismo modo es estimador de . • Las relaciones entre y depende de la forma de la distribución de una población. Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 29
Ejemplo de mediana En un curso de 85 notas de una prueba la mediana, es el 43avo número si las notas son listadas en orden ascendente. (Nota: En este caso existen 42 arriba de la mediana y 42 abajo de la mediana). 40 41 42 43 44 45 46 57.5 57.5 60.0 60.0 60.0 62.5 62.5 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 30
Ejemplo de Media y Mediana Para encontrar la mediana, primero se ordenan los valores Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 31
Relaciones entre Medias y medianas poblacionales • Distribución poblacional • Sensitividad a la observaciones extremas (outliers) Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 32
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 33
simétrica Asimetría positiva Asimetría negativa Tres diferentes formas de población Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 34
Frecuencia Concentración en receptor Asimetría positivaEx 1.14, Concentración, Pág 31 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 35
Sensitividad a los Valores Extremos Un conjunto de datos contiene 19 familias, con 8 familias que ganan US$30,000 por año, 10 ganan US$35,000 por año, y que 1 gana $1 millones por año. Si la distribución es altamente asimétrica, la mediana es la mejor elección Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 36
Modo El modo, Mo de una serie estadística es el valor de la característica más frecuente o dominante en la muestra. El modo corresponde a la clase se frecuencia máxima en la distribución de frecuencias. Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 37
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 38
Medias recortadas Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 39
Robustez: Medias Recortadas • Las medias y medianas están influidas por los valores atípicos de manera diferente, la media en gran medida y la mediana nada en absoluto. Las medidas a las cuales son o muy poco o nada afectadas por las observaciones atípicas se llaman robustas. Una familia de medidas robustas tienen sus valores entre la media y la mediana. Se consiguen recortando los extremos de la distribución previo el cálculo de la media, y por este motivos se llaman medias recortadas. • Una media recortada al 10% se obtiene recortando el 10% de los datos de las valores más grandes y el 10% de los más pequeños. Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 40
Ejemplo de Media recortada (Trimmed mean) • Duración (en horas) de las lámpara incandescentes • Se registró las duración en horas de 20 horas de cierto tubo incandescente: Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 41
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 42
Primer cuartil Segundo cuartil Tercer cuartil 2° cuartil = mediana Otras medidas de localización • La mediana (poblacional o muestral) divide el conjunto (ordenado) de datos en dos partes iguales. Si se dividen los datos en más de dos partes se pueden obtener medidas de localización más finas. 4 Cuartiles (partes) Quintiles = división de cinco partes Decíles = división de diez partes Percentiles = división de 100 partes Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 43
Datos categóricos y proporción muestral • Dada una muestra aleatoria de tamaño n de una variable de valores x la proporción muestral se define como Donde x se enciende como la suma de los valores de presencia, al codificar los elementos de alguna clase con 1 ó 0 según tengan o no alguna característica distintiva. La proporción poblacional se denota por p Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 44
Tareas • Ejercicios (sección 1.3 (pares(33-43))) Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 45
1.4 Medidas de Variabilidad Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 46
Medidas de variabilidad • Las medidas de localización da sólo información parcial sobre un conjunto de datos o su distribución. Las distintas muestras o poblaciones pueden tener medidas idénticas de centralidad pero diferentes entre sí en otros aspectos característicos importares. En seguida se presentan los diagramas de puntos de tres muestras con la misma media y mediana, pero que difieren completamente en la cantidad de variabilidad. Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 47
Medidas de Variabilidad 1 2 3 30 40 50 50 50 Muestras de medidas con centralidad idénticas, pero distintas variabilidades (tienen la misma media y mediana: pero distinta variabilidad) La variabilidad es distinta en las tres muestras Rango muestra 1 Rango muestra 2 > Rango muestra 3 Ojo! es en realidad “=“ Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 48
Medidas de Variabilidad para Datos Muestrales • Rango = Valor máximo – valor mínimo (también llamado Intervalo o recorrido) En el caso de la figura anterior el rango de la muestra 1 es la de mayor variabilidad y la muestra 3 es la de menor variabilidad. Rango muestra 1 = Rango muestra 2, pero claramente hay menos dispersión en la segunda que en la primera muestra. ¡El rango depende mucho de los valores extremos! Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 49
Desviaciones de la Media • Se llaman desviaciones respecto de la media (transformación de centramiento) al resultado de restar media de cada una de las n observaciones de la muestra Una desviación positiva si la observación es mayor (está a la derecha de la media en el eje de medición) que la media y es negativa si es menor que la media Media Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 50