270 likes | 554 Views
Contenidos. Medidas de Tendencia Central Medidas de Variabilidad Taller práctico. Medidas Descriptivas. Orden o Posición Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. (percentiles, cuantiles, etc.) Centralización
E N D
Contenidos • Medidas de Tendencia Central • Medidas de Variabilidad • Taller práctico
Medidas Descriptivas • Orden o Posición • Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. (percentiles, cuantiles, etc.) • Centralización • Indican valores con respecto a los que los datos parecen agruparse ( Media, mediana y moda) • Dispersión • Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización ( Varianza, desviación estándar, rango, coef. De variación, etc.) • Forma • Asimetría • Apuntamiento o curtosis
MEDIDASDE TENDENCIA CENTRAL
Medidas de tendencia central • Corresponde a aquellos valores hacia los cuales tienden a aglomerarse los datos de una muestra. • Las principales medidas de tendencia central son tres: promedio o media aritmética, mediana y moda.
PROMEDIO O MEDIA ARITMÉTICA • Estadígrafo de tendencia central más conocido y usado. • Dada una colección de datos, el promedio se define como LA SUMA DE LOS DATOS DIVIDIDA POR LA CANTIDAD DE DATOS. • Es aplicable a variables cuantitativas y no es aplicable a escalas nominales. • La media aritmética, a menudo, puede mal interpretarse si los datos no entran en un grupo homogéneo.
Si xi es el valor de la variable y ni su frecuencia, tenemos que: Si los datos están agrupados utilizamos las marcas de clase, es decir cien vez de xi.
VENTAJAS. Concepto familiar para la mayoría de las personas y es intuitivamente claro. Cada conjunto de datos tiene una media, es una medida que puede calcularse y es única debido a que cada conjunto de datos posee una y sola una media. Es útil para llevar a cabo procedimientos estadísticos como la comparación de medias de varios conjuntos de datos. . DESVENTAJAS Puede verse afectada por valores extremos que no son representativos del resto de los datos. Resulta tedioso calcular la media debido a que utilizamos cada uno de los puntos de dato de nuestro cálculo. Somos incapaces de calcular la media para un conjunto de datos que tiene clases de extremo abierto, ya sea en el inferior o en el superior de la escala. Ventajas y desventajas de usar la media
MEDIANA • Es aquel valor que divide la muestra en dos partes iguales, esto es la mitad de los casos caen por debajo de la mediana y la otra mitad se ubican por encima de la mediana. • Requiere una ordenación previa de los datos; escala ordinal y de intervalos.
VENTAJAS. Los valores extremos no afectan a la mediana tan intensamente como a la media. La mediana es fácil de entender y se puede calcular a partir de cualquier tipo de datos – incluso a partir de datos agrupados con clases de extremo abierto – a menos que la mediana entre en una clase de extremo abierto. . Podemos encontrar la mediana incluso cuando nuestros datos son descripciones cualitativas, en lugar de números. . DESVENTAJAS. Ciertos procedimientos estadísticos que utilizan la mediana son más complejos que aquellos que utilizan la media. Debido a que la mediana es una posición promedio, debemos ordenar los datos antes de llevar a cabo cualquier cálculo. Esto implica consumo de tiempo para cualquier conjunto de datos que contenga un gran número de elementos. Por consiguiente, si deseamos utilizar una estadística de muestra para estimar un parámetro de población, la media es más fácil de usar que la mediana. . Ventajas y desventajas de usar la mediana
Ejemplo Mediana Se tiene la edad de siete pacientes : 44, 42, 45, 42, 47, 52, 65 • Se ordenan según magnitud 42, 42, 44, 45, 47, 52, 65 • Cuando el número de datos es impar, la mediana es el valor central => 45 • Cuando el número de datos es par, la mediana es el promedio aritmético de los dos datos centrales (44 + 45)/ 2 = 44,5
MODA O MODO • Es una categoría que ocurre con mayor frecuencia. ( valor que más se repite en una muestra). • Se usa con cualquier nivel de medición. • Para niveles de medición nominal , es la única medida de posición que se puede determinar.
VENTAJAS La moda, al igual que la mediana, se puede utilizar como una posición central para datos tanto cualitativos como cuantitativos. También, al igual que la mediana, la moda no se ve mayormente afectada por los valores extremos. Incluso si los valores extremos son muy altos o muy bajos, nosotros escogemos el valor más frecuente del conjunto de datos como el valor modal. Podemos utilizar la moda sin importar qué tan grandes o qué tan pequeños sean los valores del conjunto de datos, e independientemente de cuál sea su dispersión. La podemos utilizar aun cuando una o más clases sean de extremo abierto. DESVENTAJAS Muy a menudo, no existe un valor modal debido a que el conjunto de datos no contiene valores que se presenten más de una vez. En otras ocasiones, cada valor es la moda, pues cada uno de ellos se presenta el mismo número de veces. Otra desventaja consiste en que cuando los datos contienen dos, tres o más modas, resultan difíciles de interpretar y comparar. Ventajas y desventajas de usar la moda
MEDIDAS DE VARIABILIDAD
La dispersión es importante porque: • Proporciona información adicional que permite juzgar la confiabilidad de la medida de tendencia central. • Si los datos se encuentran ampliamente dispersos, la posición central es menos representativa de los datos. • Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser capaces de distinguir qué presentan esa dispersión antes de abordar esos problemas.
Tipos de medidas de dispersión • ABSOLUTAS • Están expresadas en la misma unidad de medida que los datos Ejemplo: desv. estándar, recorrido,fractiles • RELATIVAS • Se definen como el cuociente entre una medida de dispersión absoluta y una medida de tendencia central. Están expresadas independientemente d la unidad de medida de los datos (excepto a la varianza) Ejemplo : coeficiente de variación media de Pearson
Cuales son las que veremos........... • Amplitud, Rango, Recorrido,Recorrido intercuartilico • Fractiles • Varianza • Desviación Estándar • Coeficiente de variación media de Pearson
AMPLITUD, RANGO O RECORRIDO • Se define como la diferencia entre el valor máximo y el valor mínimo de una serie. • Se define como XM - Xm (valor máx. – valor mín.). • Cuando más grande sea el rango mayor será la dispersión de los datos de una distribución. • Su limitación es que este estadígrafo depende sólo de dos valores, y frente a valores muy extremos no reflejaría la variabilidad real de los valores. • Ignora la naturaleza de la variación entre todas las demás observaciones, y se ve muy influido por los valores extremos.
Amplitud, Rango, Recorrido y Recorrido Intercuartilico • Las distribuciones de extremo abierto no tienen alcance, pues no existe un valor más alto o más bajo en la clase de extremo abierto. • Cuando los valores próximos al mínimo y al máximo de los datos están excesivamente alejados del resto, es más representativo trabajar con un recorrido más corto. Para ello se usa el recoorido intercualitico que se define como : RI = Q3 – Q1 ó RI = P75 – P25
FRACTILES • En una distribución de frecuencias, una fracción o proporción dada de los datos cae en un fractil o por debajo de éste. La mediana, por ejemplo, es el fractil 0,5, puesto que la mitad de los datos es menor o igual a este valor. • Los fractiles dividen a la serie de observaciones ordenadas según magnitud ,son parecidos a los porcentajes. • Los fractiles tienen nombres especiales, dependiendo del número de partes iguales en que se dividen los datos. • Los fractiles que los dividen en 10 partes iguales se conocen como deciles. • Los cuartiles dividen los datos encuatro partes iguales. • Los percentiles (p) dividen el conjunto de datos en 100 partes iguales. • El punto fractil es siempre el punto en el o debajo del cual cae la proporción establecida de valores.
Ejemplos • Mediana: • Fractil 0,5 • Percentil 50 • Cuartil 2 • Cuartil • Fractil 0,25 • Percentil 25 • Cuartil 1 • Déciles • Fractil 0,1 • Percentil 10
VARIANZA DE LA POBLACIÓN • La varianza y la desviación estándar estiman “cuánto se desvía, en promedio, un conjunto de observaciones, respecto a su media. • Cada población tiene una varianza, que se simboliza con s 2 (sigma cuadrada). • Para calcular la varianza de una población, dividimos la suma de las distancias al cuadrado entre la media y cada elemento de la población entre el número total de observaciones de dicha población. σ2= å (x - m )2 / N s2 = varianza de la población.X = elemento u observación. • = media de la población. N = nº de elementos de la población. • La raíz cuadrada de un número positivo puede ser tanto positiva como negativa. Cuando tomamos la raíz cuadrada de la varianza para calcular la desviación estándar, los estadísticos solamente consideran la raíz cuadrada positiva.
VARIANZA DE LA MUESTRA • Cada muestra tiene una varianza, que se simboliza con s 2 (sigma cuadrada). • Para calcular la varianza de una muestra, dividimos la suma de las distancias al cuadrado entre la media y cada elemento de la población entre el número total de observaciones de dicha población. s2 = å (x - x)2 / (n – 1) • Estos resultados indican a cuántas desviaciones estándar se halla una observación en particular por arriba o por debajo de la media de la muestra.
DESVIACIÓNESTANDARD • La varianza y la desviación estándar estiman “cuánto se desvía, en promedio, un conjunto de observaciones, respecto a su media. • Se expresa en las mismas unidades de la escala de medición de la variable. • Cuanto mayor es la dispersión de los datos alrededor de la media, mayor es la desviación estándar. • la desviación estardard se simboliza con “s” para la muestra y con σ para la población • La desviación estándar de la población, o s , es simplemente la raíz cuadrada de la varianza de la población.
Coef. de variación de Pearson • Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se utiliza el coeficiente de variación de Pearson • Se define como el cociente entre la desviación típica y el valor absoluto de la media aritmética • CV = S / I x I • CVrepresenta el número de veces que la desviación típica contiene a la media aritmética y por lo tanto cuanto mayor es CVmayor es la dispersión y menor la representatividad de la media.
NO OLVIDAR • Las letras griegas siempre se refieren a parámetros de la población y las letras latinas se refieren a estadísticas de la muestra. • Recordar utilizar N como denominador cuando se calcula la desviación estándar de la población,pero n – 1 para calcular la desviación estándar de la muestra.