130 likes | 586 Views
Estadística Descriptiva. Definición: Procedimientos que permiten organizar, resumir y presentar la información contenida en un conjunto de datos de una variable de interés. Métodos: Cálculo y análisis de medidas descriptivas de los datos Elaboración de tablas, diagramas y gráficos
E N D
Estadística Descriptiva • Definición: • Procedimientos que permiten organizar, resumir y presentar la información contenida en un conjunto de datos de una variable de interés. • Métodos: • Cálculo y análisis de medidas descriptivas de los datos • Elaboración de tablas, diagramas y gráficos • Las variables de interés para un investigador pueden ser de dos tipos: Cualitativas o Cuantitativas • Cualitativas: expresan categorías o atributos (profesión, sexo, procedencia) • Cuantitativas: se expresan numéricamente (edad, peso, sueldo)
Medidas Descriptivas (para datos cuantitativos x1, . . . xn ) • Tendencia Central • media aritmética • mediana • media truncada • media geométrica • otras • Dispersión: • rango, • desviación estandar, • rango intercuartílico, • desviación mediana, • otras • Otras medidas: • curtosis, • coeficiente de asimetría • coeficiente de variación • otras
Algunas medidas de tendencia central • Media Aritmética: • Mediana: valor tal que “el 50% de los datos está por encima y el otro 50% está por debajo”.(atención: con esta definición puede haber más de una mediana para un conjunto de datos) • Media Truncada: media aritmética después de “eliminar” un a% de los datos.(atención:a debe ser pequeño, como mucho 10) • Media Geométrica: (para datos que toman valores mayores que cero)
Algunas medidas de dispersión • Rango: xmax – xmin • Desviación estándar: • Desviación mediana: mediana de “las desviaciones de los datos de la mediana”. • Rango intercuartílico: rango, luego de “eliminar el 25% superior y el 25% inferior”. Si denotamos por q1 al primer cuartil (valor tal que el 25% está por debajo y el 75% por arriba) y q3 al tercer cuartil (valor tal que el 75% está por debajo y el 75% está por arriba) entonces el rango intercuartílico (ri) es Q3-Q1
Ejemplo • Consideremos los siguientes datos, que corresponden a los salarios mensuales (miles de bolívares fuertes) de ingenieros e ingenieras con dos años de experiencia (Datos A corresponde a hombres y Datos B a mujeres): Datos A: 1,51 2,25 1,65 1,15 1,85 1,80 4,75 1,25 2,00 1,50 1,80 Datos B: 1.05 1.42 1.81 1.89 2.09 1.52 1.98 1,61
Diagrama de cajas • Representación gráfica de los cuartiles, que permite distinguir aspectos de la distribución de los datos, así como la presencia de valores extremos. • Para el caso de los datos del ejemplo anterior se tiene:
Datos Agrupados • Tabla de Frecuencias: resultado de agrupar los datos en intervalos disjuntos (numéricos) o categorías diferentes (categóricos) con el propósito de observar como están distribuidos. • Se elaborarán tablas de frecuencias con base en una matriz de datos (ver al lado) que se construyó a partir de la información recogida en una encuesta realizada a un grupo de 39 estudiantes. Los datos completos están en una de las hojas del archivo excel denominado DATOS VARIOS
Datos Agrupados Tabla de frecuencia para el dominio del idioma inglés (variable cualitativa) Tabla de frecuencia para la edad (variable cuantitativa) El 46,2% de los encuestados manifestó tener un domino alto del idioma inglés El 12,8% de los encuestados tiene edad superior a los 25 años, mientras que el 64,1% tiene, como máximo, 23 años ¿Que porcentaje (aprox.) de los estudiantes tendrán edades entre 20,5 años y 24,3 años? ¿Que valor (aprox) tiene la mediana?
Graficando datos categóricos agrupados Gráfico de barras para los datos de la variable domino del idioma inglés Gráfico de torta para los datos de la variable domino del idioma inglés
27 29 17 19 21 23 25 17 19 21 25 23 27 29 Graficando datos numéricos agrupados Polígono de frecuencia acumulada para los datos de la variable edad (frecuencia absoluta) Histograma y polígonode frecuencia para los datos de la variable edad (frecuencia absoluta) • Atención: • De manera análoga se construyen el histograma, el polígono de frecuencia y el polígono de frecuencia acumulada a partir de las frecuencias relativas. • A partir de los datos agrupados es posible obtener buenas aproximaciones de la media, mediana, desviación estándar, etc, de los datos originales.