330 likes | 521 Views
Estadística Descriptiva: 2. Medidas de Tendencia y Dispersión. Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María. Estadística Descriptiva Objetivo. Obtener información desde una muestra, que permita entender o formular hipótesis acerca del fenómeno que se estudia.
E N D
Estadística Descriptiva:2. Medidas de Tendencia y Dispersión Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María
Estadística DescriptivaObjetivo • Obtener información desde una muestra, que permita entender o formular hipótesis acerca del fenómeno que se estudia. • Herramientas básicas: • Gráficos: descripciones cualitativas • Estadísticas: descripciones cuantitativas de la tendencia y variabilidad presente en una muestra.
Si tuvieramos que resumir en un sólo valor representativo todo el conjunto de observaciones, ¿qué valor usamos?. Medidas de Tendencia
Moda: Valor o clase de valores que se observa con • mayor frecuencia en la muestra. • Puede no existir o no ser único. • Funciona para cualquier tipo de dato: categóricos, ordinales ó numéricos. Medidas de Tendencia
Promedio o Media Muestral: Centro geométrico del conjunto de valores observados • Requiere datos numéricos Medidas de Tendencia
Mediana: Se trata del valor que divide el rango de valores observados en dos mitades con el mismo número de observaciones • Su cómputo requiere ordenar la muestra • Si tenemos un número impar de observaciones la mediana es exactamente el valor del centro: (n+1)/2 • Si tenemos un número par de observaciones la mediana se computa “usualmente” como el promedio de las observaciones n/2 y (n/2)+1 Medidas de Tendencia
Robustez de la Media versus la Mediana • La media es extremadamente sensible a situaciones en que hay valores numéricamente muy distantes del resto (outliers) • La mediana en cambio permite obtener valores más representativos en estos casos • Ejemplo: (1, 2, 2, 2, 3, 9) Medidas de Tendencia
Mediana 0,5000 Moda 0,4500 Media Aritmética 0,4000 0,3500 0,3000 0,2500 0,2000 0,1500 Q1 Q2 Q3 Q4 0,1000 0,0500 0,0000 0 1 2 3 4 5 6 7 Rango Medidas de Tendencia
Robustez de la Media versus la Mediana Medidas de Tendencia
Medidas de Tendencia (…) en los 70 (…) la razón de los salarios del percentil noventa y el percentil diez era de 3.4 veces, en 2005 ésta estaba en alrededor de 5 veces
Percentiles: valores que acumulan una cierta frecuencia relativa. El i-ésimo percentil es el primer valor que acumula al menos i/100 Medidas de Tendencia 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 102,5 166,5 110,5 118,5 126,5 134,5 142,5 150,5 158,5
Percentiles: Medidas de Tendencia Si los datos se ordenan de orden ascendente de magnitud, entonces el percentil Pi para i = 1, 2, … 99 si es entero en otro caso
Cuartiles: valores que acumulan una frecuencias de 1/4 (Q1) , 2/4 (Q2) y 3/4 (Q3) Medidas de Tendencia 102,5 166,5 110,5 118,5 126,5 134,5 142,5 150,5 158,5
Cuartiles: Medidas de Tendencia Si los datos se ordenan de orden ascendente de magnitud, entonces el cuartil Qi para i = 1, 2, 3 si es entero en otro caso
Es muchos casos las medidas de tendencia anteriores deben o quieren calcularse sobre datos que ya han sido agrupados Medidas de Tendencia Límites 106,5-114,5 114,5-122,5 122,5-130,5 130,5-138,5 138,5-146,5 146,5-154,5 154,5-162,5 Marca 110,5 118,5 126,5 134,5 142,5 150,5 158,5 Frecuencias ABS - REL - REL. AC. 5 0,125 0,125 3 0,075 0,2 5 0,125 0,325 8 0,2 0,525 6 0,15 0,675 7 0,175 0,85 6 0,15 1
9 Histograma 8 7 6 5 4 3 2 1 0 110,5 118,5 126,5 134,5 142,5 150,5 158,5 • La organización en clases permite reducir el efecto del ruido o errores en los datos: se pesa un intervalo y su frecuencia, no la frecuencia de un sólo valor Medidas de Tendencia
Promedio o Media Muestral con datos agrupados Medidas de Tendencia ni ni-1 ni+1 ni : Frec. relativa Clase i fi : Frec. relativa Clase i Ci : Marca Clase i k : N° de clases C1 C2 C3
Moda con datos agrupados. La clase modal se determina como la clase con mayor frecuencia. Medidas de Tendencia D1 nM D2 n1 n2 L : Límite inferior Clase modal aM : Amplitud Clase Modal (CM) D1 : nM - n1 D2 : nM - n2 nM : Frec. absoluta Clase Modal n1 : Frec. absoluta Clase anterior a CM n2: Frec. absoluta Clase posterior a CM aM CM L
Mediana con datos agrupados Medidas de Tendencia ojiva Fe-1 fe L : Límite inferior Clase Mediana (C Me) Fe-1 : Frec. Rel. Acumulada hasta antes (C Me) fe : Frecuencia Rel. (C Me) ae : Amplitud (C Me) ae L
Percentiles con datos agrupados Medidas de Tendencia L :Límite inferior percentil i-ésimo FPi-1: Frec. Rel. acumulada hasta antes de la clase percentil i-ésimo aPi : Amplitud percentil i-ésimo fPi : Frecuencia Rel. de la clase del percentil i-ésimo ojiva FPi-1 fPi aPi L
Cuartiles con datos agrupados Medidas de Tendencia L :Límite inferior cuartil i-ésimo FPi-1: Frec. Rel. acumulada hasta antes de la clase del cuartil i-ésimo aPi : Amplitud cuartil i-ésimo fPi : Frecuencia Rel. de la clase del cuartil i-ésimo ojiva FCi-1 fCi aCi L
Medidas de Tendencia: Valores representativos de toda la muestra: Media, Moda, Mediana, Quartiles y Percentiles.
¿Cómo damos cuenta de la variabilidad del conjunto de observaciones?: podemos medir las diferencias observadas con respecto a nuestras medidas de tendencia Medidas de Dispersión
Índice de Variación: Frecuencia con que no se observa la moda o la clase modal en la muestra Medidas de Dispersión
Varianza Muestral: promedio de las diferencias al cuadrado con respecto a la media. Medidas de Dispersión Datos Agrupados: Datos NO Agrupados: fi : Frec. relativa Clase i xi : Marca Clase i x : Media Aritmética ni : Frec. absoluta Clase i n: Tamaño Muestra k : N° de clases s2 : Variancia Muestral x : Media Aritmética xi : i-ésimo valor observado n: Tamaño Muestra _ _
Desviación Estándar: Raíz cuadrada de la varianza. • Tiene las mismas “unidadesde medida” que las observaciones de la muestra Medidas de Dispersión Datos Agrupados: Datos NO Agrupados:
Desviación Media: Promedio de las diferencias absolutas con respecto a la media. • Tiene las mismas “unidadesde medida” que las observaciones de la muestra Medidas de Dispersión Datos Agrupados: Datos NO Agrupados:
Rango: Diferencia entre el máximo y el mínimo valor observado en la muestra. • Rango Percentil: Diferencia entre P90 y P10: aproximación más robusta al rango. • Rango InterCuartílico: Distancia promedio de los cuartiles con respecto a la mediana (segundo quartil) Medidas de Dispersión
Medidas de Dispersión: grado de variabilidad con respecto a las tendencias: Tasa de Variación, Varianza Rango InterQuartílico.
BoxPlots Cuartiles 1, 2 y 3 Q1 Q2 Q3 Valores Atípicos Valores Atípicos 3 IRQ 3 IRQ Mediana Media
BoxPlots • Representación visual para describir, simultáneamente, varias características importantes tales como: • Centro • Dispersión • Asimetría de la distribución • Identificación de las observaciones (valores) atípicas Q1 Q2 Q3 3 IRQ 3 IRQ