390 likes | 686 Views
Análisis de Datos I. Medidas de Tendencia Centrael. Semestre Otoño 2009. Medidas de Tendencia Central (MTC). Una Medida de Tendencia Central constituye un valor que se encuentra en el centro o la mitad de un conjunto de datos
E N D
Análisis de DatosI Medidas de Tendencia Centrael Semestre Otoño 2009
Medidas de Tendencia Central (MTC) Una Medida de Tendencia Central constituye un valor que se encuentra en el centro o la mitad de un conjunto de datos Hay muchas formas de determinar el centro, de manera que tenemos muchas medidas de tendencia central entre las que se incluyen Media, Mediana, Moda y Mitad del Rango
1. Media La Media (Aritmética) generalmente es la más importante de todas las Medidas de Tendencia Central y otras medidas utilizadas para describir datos Es conocida Tradicionalmente con el nombre de Promedio
Definición Media: “Medida de Tendencia Central que se interpreta como el valor más problable de encontrar en una distribución determinada de datos. Esta Medida de Tendencia Central se obtiene sumando los puntajes y dividiendo el total entre el número de puntajes”
Fórmula La Media se denota como (denominada equis barra) si el conjunto de datos es una muestra Si se usan los Puntajes de una Población, la media se simboliza con μ (Denominada Mu minúscula)
Notación ∑ Sumatoria de un conjunto de valores x Variable que se usa para representar los valores de datos individuales n Número de valores de una muestra N Número de valores de una Población Es la media de un conjunto de valores muestrales Es la media de todos los valores de una población
Ejemplo Verificación del Plomo en el aire: A Continuación se presentan cantidades de plomo medidas en el aire (microgramos por metro cúbico) Las mediciones que se presentan a continuación son reales y corresponden a los valores de plomo registrados en el edificio 5 del World Trade Center inmediatamente después de la destrucción causada por los ataques terroristas del 11 de sept. de 2001. 5.40 1,10 0,42 0,73 0,48 1,10
Solución ¿Cómo interpreto este resultado?
La media del Nivel de Plomo es 1,538 Sin embargo, además de este valor promedio, que es el valor más probable de encontrar en las mediciones de plomo, se puede observar un valor extremo de 5,40 muy distante a los demás Sería importante examinar este dato distante En efecto el nivel de plomo de 5,40 se midió un día después del colapso de las torres gemelas de manera que los niveles de contaminación ya habían aumentado notablemente
Observaciones: Con este ejemplo queda al descubierto una desventaja de la Media: “Su sensibilidad a cada valor de modo que un puntaje extremo o excepcional puede afectarla de manera drástica” ¿Cómo resolvemos este problema? Utilizando otra medida de Tendencia Central: La Mediana
2. Mediana Definición Mediana: “Medida de Tendencia Central que implica el valor que está en el medio de la distribución y la divide en dos mitades iguales, cuando los valores originales de los datos se presentan en orden de magnitud creciente (o decreciente)”
Notación La Mediana se suele clasificar con los siguiente Símbolos Me: (Mediana) : Equis con tilde
Procedimiento de Cálculo Para Calcular la Mediana, primero se debe clasificar los valores, ordenándolos de menor a mayor • Luego se debe: • Si el número de valores de IMPAR, la mediana es el número que se localiza exactamente en la mitad de la lista • Si el número de valores es PAR, la mediana se obtiene calculando la media de los dos números centrales de la distribución ordenada de datos
Ejemplo 1: Verificación del plomo en el aire A continuación se presentan cantidades de plomo en el aire. Calcule la Mediana de esta muestra de datos 5.40 1,10 0,42 0,73 0,48 1,10
Solución: Primero ordenamos los valores 0,42 0,48 0,73 1,10 1,10 5,40 Puesto que el número de valores es par (6), la mediana se obtiene al calcular la media de los dos valores intermedios 0,73 y 1,10
Interpretación: El número que se encuentra exactamente en la mitad de la lista ordenada o Mediana es 0,915 Note que la mediana (0,915) es muy diferente de la media (1,538) obtenida del mismo conjunto de datos ¿Por qué? Por el efecto que el puntaje 5,40 tuvo en la media Si este valor extremo se redujera a 1,20 la media caería de 1,538 a 0,838 pero la mediana no cambiaría
Ejemplo 2: Verificación del plomo en el aire Repita el ejemplo anterior, después de incluir el valor de medición de plomo de 0,66 registrada otro día Es decir calcule la Mediana de esta muestra de datos 5.40 1,10 0,42 0,73 0,48 1,10 0,66
Solución: Primero ordenamos los valores 0,42 0,48 0,66 0,731,10 1,10 5,40 Puesto que el número de valores impar (7), la mediana es exactamente el valor a la mitad de la lista ordenada 0,73
Observaciones: Después de los ejemplos citados nos damos cuenta que la mediana no se ve afectada por valores extremos como sucede con la media Por ello se utiliza la mediana cuando la muestra tiene pocos datos y además extremos
3. Moda Definición Moda: “Medida de Tendencia Central que representa al o los valores que tienen una mayor frecuencia de apariciones en la distribución de datos” Modalidades: 1. Cuando dos valores ocurren con la misma frecuencia y esta es la más alta, ambos valores son moda, por lo que el conjunto es BIMODAL 2. Cuando más de dos valores ocurren con la misma frecuencia y esta es la más alta, todos los mencionados valores son modas, por lo que el conjunto de datos es MULTIMODAL 3. Cuando ningún valor se repite, se dice que no hay moda o que el conjunto es AMODAL
Notación La Moda se suele clasificar con los siguiente Símbolos Mo: (Moda) M: (Moda)
Ejemplo: Calcule las modas de los siguientes conjuntos de datos: • 5,40 1,10 0,42 0,73 0,48 1,10 • 27 27 27 55 55 55 88 99 • 1 2 3 6 7 8 9 10
Solución: • El número 1,10 es la moda, ya que es el valor que ocurre con mayor frecuencia (2 veces) • Los números 27 y 55 son modas, ya que ambos ocurren con las frecuencia más alta (3 veces). La distribución es multimodal • No hay moda, ya que ningún valor se repite. La distribución es amodal
Observaciones: La moda no se utiliza mucho con variables cuantitativas o datos numéricos Sin embargo de las MTC mencionadas la Moda es la única que puede utilizarse con datos de nivel nominal de medición (nombres, etiquetas o categorías) Ejemplo: Una encuesta encontró que el 84% de los estudiantes universitarios tiene aparato de televisión; 76% videocasetera; el 60% DVD; y el 39% videojuegos El televisor es el aparato más frecuente, la moda es el televisor No se puede calcular media o mediana en este ejemplo
4. Mitad del rango Definición Mitad del rango: “Medida de Tendencia Central que constituye el valor que está a medio camino , entre el puntaje más alto y el más bajo, en el conjunto original de datos”
Procedimiento de Cálculo Para Calcular la Mitad del Rango se debe sumar el valor máximo con el valor mínimo y luego dividir dicha suma entre 2
Observaciones: • La mitad del rango se utiliza en pocas ocasiones pues al utilizar sólo los valores máximo y mínimo es demasiado sensible a dichos extremos • Sin embargo, posee 3 características positivas: • Es fácil de calcular • Ayuda a reforzar que existen diferentes formas para definir el centro de un conjunto de datos • En ocasiones se utiliza de manera incorrecta como si fuese la mediana, de manera que es posible disminuir la confusión al definir con claridad la mitad del rango con respecto a la mediana
Ejemplo: Verificación del plomo en el aire A continuación se presentan nuevamente medidas de las cantidades de plomo en el aire en el lugar donde estaba el world trade center días después de la tragedia 5.40 1,10 0,42 0,73 0,48 1,10
Solución La mitad del rango es 2,910
5. Otras Medidas Asociadas5.1 Media de una Distribución de Frecuencias Cuando los datos se encuentran resumidos en una distribución de frecuencias es probable que no conozcamos los valores exactos de un intervalo en particular. Para que el cálculo sea posible pretenderemos que todos los valores de la distribución son iguales a la marca de clase o intervalo Este procedimiento genera una aproximación de la media pues no se basa en la lista original de datos
Ya que cada marca de clase se repite un número de veces igual a la frecuencia de clase, la sumatoria de todos los valores muestrales En esta fórmula f denota la frecuencia y x representa la marca de clase El número total de valores muestrales es la sumatoria de frecuencias ∑f
Primero multiplique cada frecuencia y marca de clase después sume los productos Sumatoria de las frecuencias
5.2 Media Ponderada Cuando los datos representan distintos niveles de importancia, el investigador puede querer rescatar tal ponderación en el cálculo de una MTC Así, la media ponderada se obtiene asignando distintos pesos a los valores, tal como se expresa en la siguiente fórmula:
Ejemplo: Suponga que necesitamos una media de tres calificaciones de una asignatura (6,5; 5,8; 4,7) La primera calificación cuenta con el 20%, la segunda con el 30% y la tercera el 50% de la asignatura
5.3 Sesgo o Asimetría Una Distribución de datos está sesgada si no es simétrica y se extiende más hacia un lado que hacia el otro Una distribución de datos es simétrica si la mitad izquierda de su histograma es aproximadamente una imagen en espejo de su mitad derecha
Sesgo o Asimetría Negativa: En esta distribución la media y la mediana están a la izquierda de la moda Suelen tener la una media menor a la mediana Poseen una cola izquierda más larga Moda Media Mediana
Curva Simétrica: Esta curva carece de sesgo La media, la Mediana y la Moda son iguales o coinciden Moda = Media = Mediana
Sesgo o Asimetría Positiva: En esta distribución se aprecia una cola derecha más larga, mientras que la media y la mediana están a la derecha de la moda Suelen tener la una media mayor a la mediana Más comunes que las Asimetrías Negativas Moda Media Mediana