540 likes | 767 Views
ESTADISTICA DESCRIPTIVA. ANGELICA RAMOS LOPEZ ING. DE ALIMENTOS. " El poder se nutre de la información y el conocimiento". INTRODUCCION. La Estadística Descriptiva nace de la necesidad de extraer y sumir la información relevante contenida en grandes volúmenes de datos.
E N D
ESTADISTICA DESCRIPTIVA • ANGELICA RAMOS LOPEZ • ING. DE ALIMENTOS " El poder se nutre de la información y el conocimiento".
INTRODUCCION • La Estadística Descriptiva nace de la necesidad de extraer y sumir la información relevante contenida en grandes volúmenes de datos. • Esta necesidad está motivada por la incapacidad de la mente humana para comprender la información contenida en conjuntos grandes de datos por la mera visión de listados de dichos datos.
¿QUÉ ES LA ESTADÍSTICA? • Conjunto de métodos y técnicas que permiten recopilar, presentar, analizar y tomar decisiones respecto de un conjunto de datos. • Es una ciencia que nos proporciona un conjunto de métodos y técnicas que nos permite recolectar, clasificar, analizar, presentar y describir datos en forma adecuada a fin de tomar decisiones frente a una incertidumbre o predecir o afirmar algo de la población en estudio.
CONCEPTOS GENERALES O BASICOS POBLACION Es el conjunto de todos los elementos (personas, animales, plantas, objetos, etc.) que contienen una o más características observables. Cada elemento de una población de le denomina unidad estadística o unidad análisis. MUESTRA Es una parte representativa o subconjunto representativo de la población. Al número de elementos de la muestra se le denomina tamaño de la muestra y al procedimiento de obtener la muestra se le llama muestreo. PARÁMETRO Es una medida descriptiva que resume alguna característica de la población.
CONCEPTOS GENERALES O BASICOS DATOS Son valores recopilados de cualquier número de observaciones relacionadas sobre una o más características de una población o de una muestra. VARIABLES Son características definidas sobre las unidades de análisis que conforman una población y que pueden tomar diferentes valores. Todas las variables tienen una escala de registro llamada unidad de medida. FUENTES DE DATOS Son los registros existentes y/o métodos (encuestas, estudios experimentales, etc.) que sirven para obtener información con fines de trabajo estadístico.
DEFINICIÓN DE VARIABLE. VARIABLE Característica de interés de los miembros de una población que toma distintos valores. CUALITATIVAS Sus valores corresponden a conceptos, atributos o cualidades no son medibles CUANTITATIVAS Son medibles, sus valores corresponden a números reales DISCRETAS Sólo toman algunos valores reales. CONTINUAS Toman infinitos valores de un intervalo de números reales.
EJEMPLO Nº1: Responda a las siguientes cuestiones sobre el tipo de variable cuando clasificamos a los alumnos de una clase: 1. La variable deporte que practican es: • Cualitativa (b) Discreta (c) Continua 2. La variable número de hermanos es: • Cualitativa (b) Discreta (c) Continua 3. La variable Tiempo que ven televisión en una semana es: • Cualitativa (b) Discreta (c) Continua 4. La variable peso es: (a) Cualitativa (b) Discreta (c) Continua 5. La variable color de su pelo es: (a) Cualitativa (b) Discreta (c) Continua 6. La variable altura es: (a) Cualitativa (b) Discreta (c) Continua
ANÁLISIS DESCRIPTIVO Datos sin agrupar Datos agrupados Tablas de frecuencias Medidas de tendencia central, Medidas de dispersión, gráficos.
TABLAS DE DISTRIBUCION DE FRECUENCIAS. • Es una técnica estadística para organizar datos en clases y cada una se les aplica la frecuencia correspondiente. • Sirve para visualizar y organizar los datos. • Facilita la comprensión de la información contenida en la muestra.
Frecuencia absoluta Tabla para datos cualitativos Nivel educacional ni fi %fi i Basica 10 0.303 30.3 Media 11 0.333 33.3 Universitaria 12 0.363 36.3 Total 33 1 100 Frecuencia acumulada Tabla para datos cuantitativos discretos Frecuencia relativa
ORGANIZACIÓN Y PRESENTACIÓN DE DATOS Representación tabular de la información de variables de tipo categórico • Cuando la variable es de tipo categórico, la organización y presentación de los datos se hace de la siguiente manera: 1º) Se determina el número de clases que la variable está tomando. 2º) Se obtienen las frecuencias absolutas (ni) para cada clase, las cuales son el número de veces que se presenta cada clase. 3º) Se obtienen las frecuencias relativas (fi) para cada clase, las cuales están definidas por el cociente , donde n es el número total de datos. 4º) Se obtienen las frecuencias relativas porcentuales (%) para cada clase, las cuales son las frecuencias relativas multiplicadas por 100. 5º) Se obtienen las frecuencias acumuladas (Ni) para cada clase, la cual es igual a la suma de las frecuencias absolutas de los datos anteriores.
FORMULAS FRECUENCIA RELATIVA Donde N, es el tamaño de la muestra FRECUENCIA ABSOLUTA ACUMULADA FRECUENCIA RELATIVA PORCENTUAL FRECUENCIA RELATIVA ACUMULADA FRECUENCIA ACUMULADA PORCENTUAL
Ejemplo 3.1 • Se ha realizado un estudio del numero de empleados de 15 fiambrerías de una zona de Buenos Aires con los siguientes resultados: • 4; 5; 4; 3; 3; 6; 4; 5; 3; 3; 4; 5; 3; 6. • Construir la tabla estadística empleando frecuencias absolutas simples y acumuladas y, también, frecuencias relativas en porcentaje, simples y acumuladas.
EJERCICIO PRACTICO 1. Se han tomado las ventas en miles de soles de 40 supermercados de nuestro país correspondiente al mes de Octubre del año pasado. Los resultados fueron: 168 160 168 175 175 160 165 154 163 165 168 168 158 149 160 161 162 166 163 159 178 169 158 163 171 170 165 150 167 164 162 165 163 156 174 165 173 172 168 168. a) Identifique la variable y su tipo, así como la población y la muestra. b) Construya la tabla de distribución de frecuencias de la información obtenida.
EJERCICIO PRACTICO 2 • La tabla siguiente (incompleta) resume las notas obtenidas por 80 alumnos de un instituto en selectividad. Responder: • El número de Suspendidos es: • 20 (b) 30 (c) 40 2. El número de sobresalientes es: (a) 10 (b) 12 (c) 14 3. La proporción de Notables es: (a) 0.20 (b) 0.25 (c) 16 4. La suma de las frecuencias absolutas fi es: (a) 100 (b) 80 (c) Otro valor
REPRESENTACIONES GRÁFICAS. VARIABLES Cualitativa Discreta Continua Gráfico DE BARRAS • Histograma • Polígono de frecuencias. OJIVA GRAFICO CIRCULAR
HISTOGRAMA DE FRECUENCIAS • es una representación gráfica mediante rectángulos adyacentes donde en el eje horizontal se representan los intervalos de clase y en el eje vertical se representa los valores de las frecuencias (absolutas o relativas). • El histograma se construye dibujando barras contiguas que tienen como base la amplitud de cada intervalo y como alturas las frecuencias respectivas.
Polígono de Frecuencias • Para la construcción de un polígono de frecuencias, se marcan los puntos medios de cada uno los intervalos en la parte superior de cada barra del histograma de frecuencias, los cuales se unen con segmentos de recta.
OJIVA. • Una grafica similar al polígono de frecuencias es la ojiva, pero esta se obtiene de aplicar parcialmente la misma técnica a una distribución acumulativa y de igual manera que estas, existen las ojivas mayor que y menor que. • Una gráfica de distribución de frecuencias acumuladas es llamada una ojiva. Se trazan los límites reales superiores contra las frecuencias acumuladas.
Gráficos Variable Cualitativa. Gráfico barras Gráfico circular
Gráficos variable discreta Gráfico de BARRAS OJIVA Gráfico Circular
MEDIDAS DE TENDENCIA CENTRAL • Son estadísticos que proporcionan valores representativos de la muestra, de tal manera que todos los datos muéstrales caen en torno a estos valores. • Son valores de la variable que están situados en el centro o alrededor del punto medio de un conjunto de datos. Este valor también se le denomina indicador estadístico o estadístico o estadígrafo.
LA MEDIA ARITMÉTICA O MEDIA MUESTRAL O PROMEDIO MUESTRAL. • La media aritmética de una variable se define como la suma ponderada de los valores de la variable por sus frecuencias relativas y lo denotaremos por y se calcula mediante la expresión: Xi representa el valor de la variable o en su caso la marca de clase.
MEDIA ARITMÉTICA O MEDIA MUESTRAL a) Para datos cuantitativos no agrupados donde x es el valor del dato no agrupado, n es el total de los datos y el símbolo Σ significa sumar. • Para datos cuantitativos agrupados donde xies la marca de clase del intervalo i, n es el total de los datos y el símbolo Σ significa sumar los productos entre paréntesis.
VENTAJAS Y DESVENTAJAS DE LA MEDIA ARITMETICA • Desventajas de la media aritmética • No es conveniente utilizarla cuando los datos se aglomeran en los extremos del conjunto de datos ordenados habiendo poca información en las partes centrales de la distribución. • Los datos están fuertemente sesgados. En este caso se prefiere utilizar la mediana. • Ventajas de la media aritmética • Es una medida que tiene en cuenta toda la información suministrada. • Es la más estable de las medidas de tendencia central. • Puede ser utilizada como dato para análisis estadísticos posteriores.
EJERCICIO PRACTICO Nº 3 Se han tomado las ventas en miles de soles de 40 supermercados de nuestro país correspondiente al mes de Octubre del año pasado. Los resultados fueron: 168 160 168 175 175 160 165 154 163 165 168 168 158 149 160 161 162 166 163 159 178 169 158 163 171 170 165 150 167 164 162 165 163 156 174 165 173 172 168 168. Obtener la media aritmética de dichos resultados.
EJERCICIO PRACTICO Nº 4 • En una clase de 10 alumnos se han registrado las siguientes las calificaciones: 6 alumnos un 5, 3 alumnos un 7 y un alumno un 9. Obtener la nota media.
MEDIANA MUESTRAL • es el valor central de la variable, es decir, supuesta la muestra ordenada en orden creciente o decreciente, el valor que divide en dos partes la muestra. • Para calcular la mediana debemos tener en cuenta si la variable es discreta o continua. • Cálculo de la mediana en el caso discreto: Tendremos en cuenta el tamaño de la muestra. • Si n es impar, hay un término central, el término que será el valor de la mediana. • Si n es par, hay dos términos centrales, la mediana será la media de esos dos valores
Cálculo de la mediana en el caso continúo: • Si la variable es continua, la tabla vendrá en intervalos, por lo que se calcula de la siguiente forma: • Nos vamos a apoyar en un gráfico de un histograma de frecuencias acumuladas. De donde la mediana vale: donde aies la amplitud del intervalo.
EJEMPLO • Supongamos los pesos de un grupo de 50 personas se distribuyen de la siguiente forma: • Como el tamaño de la muestra es n=50, buscamos el intervalo en el que la frecuencia acumulada es mayor que 50/2=25, que en este caso es el 3º y aplicamos la fórmula anterior. Luego la mediana será Me=
VENTAJAS Y DESVENTAJAS DE LA MEDIANA MUESTRAL • Ventajas de la mediana muestral • La mediana se utiliza cuando los datos están fuertemente sesgados. • No está afecta a los valores extremos de los datos. • Se utiliza también en las variables categóricas ordinales. • Desventajas de la mediana muestral • Es una medida que no tiene en cuenta los valores que toman las variables en los extremos de los datos ordenados en la muestra.
LA MODA MUESTRAL • es un valor o medida de tendencia central en una muestra de datos de variables tanto categóricas como cuantitativas que se repite con mayor frecuencia, y se representa por el símbolo Mo. Si el conjunto de datos tiene una moda se llama unimodal, si tiene dos modas se llama bimodal, y al conjunto de datos que tiene más de dos modas se llama multimodal.
LA MODA MUESTRAL • Para datos categóricos (o cualitativos) nominales u ordinales: Se determina la categoría (o las categorías) que más se repite (o repiten).
LA MODA MUESTRAL • b) Para datos cuantitativos no agrupados y cuantitativos discretos agrupados: Se determina el valor (o los valores) del conjunto de datos que más se repite (o repiten).
LA MODA MUESTRAL • Para datos cuantitativos continuos agrupados: Cuando la información se encuentra agrupada en intervalos de igual tamaño la moda se calcula con la siguiente expresión.
Ejemplo: A pesar que el valor 444.44 no es un dato real de la información asumimos ese parámetro como el de mayor ocurrencia.
VENTAJAS Y DESVENTAJAS DE LA MODA MUESTRAL • Ventajas de la moda muestral • Se puede calcular tanto para datos categóricos como para los cuantitativos. b) No está afectada por los valores extremos de los datos ordenados. • Desventajas de la moda muestral • Es muy difícil de interpretar o comparar cuando la distribución es multimodal.
MEDIDAS DE DISPERSION • Las medidas de dispersión indican que tan lejos o tan cerca se encuentran unos datos de otros en una distribución de frecuencia. La medida representativa mas utilizada para analizar la dispersión de datos es la media. Las más importantes son: • Rango • La desviación media • La desviación típica o estándar • El coeficiente de variación • La varianza.
RANGO O RECORRIDO • Es la medida de dispersión que indica la distancia entre el valor mayor y menor en un grupo de datos. • Se denota como R. Realmente no es una medida muy significativa e la mayoría de los casos, pero indudablemente es muy fácil de calcular. R = Xmax – Xmin Xmax, Xmin son el máximo y el mínimo valor de la variable X, respectivamente.
DESVIACION MEDIA • La desviación media, mide la distancia absoluta promedio entre cada uno de los datos, y el parámetro que caracteriza la información. Usualmente se considera la desviación media con respecto a la media aritmética:
VARIANZA MUESTRAL • es una medida de variación que mide la dispersión cuadrática de los datos con respecto a la media aritmética, y se representa por el símbolo s2. Su unidad de medida es el cuadrado de la unidad de medida utilizada para medir los datos.
DESVIACION ESTANDAR MUESTRAL • es la raíz cuadrada de la varianza muestral, y se representa por la letra s; es decir: • Es la más completa entre las medidas de dispersión porque interviene la unidad de medida que se usa para medir los datos y el número total de ellos.