120 likes | 355 Views
ESTADISTICA Ciencia que trata de la recogida, clasificación, representación y resumen de datos y de las conclusiones (inferencias) que pueden extraerse sobre las poblaciones a partir de los datos muestrales . POBLACIÓN. POBLACIÓN. muestreo. inferencia. MUESTRA. -------------------
E N D
ESTADISTICA Ciencia que trata de la recogida, clasificación, representación y resumen de datos y de las conclusiones (inferencias) que pueden extraerse sobre las poblaciones a partir de los datos muestrales. POBLACIÓN POBLACIÓN muestreo inferencia MUESTRA ------------------- “La vida es el arte de llegar a conclusiones a partir de evidencias insuficientes”. Samuel Butler
Tipos de VARIABLESNominales- CualitativasOrdinales Discretas - CuantitativasContinuas
Cualitativas: Sus modalidades no necesitan números para ser expresadas. Nominales: Sus modalidades no tienen un orden natural. Ordinales: Sus modalidades tienen un orden natural. Cuantitativas: Sus valores necesitan números para ser expresados. Discretas: Sus valores son aislados (entre dos consecutivos no hay otro). Continuas: Sus valores son continuos (entre cada dos valores hay infinitos).
Otra clasificación para las variables cuantitativas: Escala de intervalo: No tienen cero absoluto y tiene sentido calcular diferencias entre sus valores, pero no cocientes. Escala de razón: Tienen cero absoluto y tiene sentido calcular diferencias y cocientes entre sus valores. Clasificación práctica: Por el número de valores razonablemente posibles de la variables (si tiene pocos valores se maneja como discreta y si tiene muchos como continua). El límite entre “pocos” y “muchos” valores posibles debe establecerse en términos prácticos: serán pocos si existe la posibilidad de comprender tablas, gráficas e informes sobre los datos si se enumera de uno en uno cada valor posible, sin agruparlos en intervalos.
Distribución del grupo sanguíneo de una muestra de 500 donantes
Distribución del número de hermanos de una muestra de 13 escolares4 3 0 1 0 7 2 0 1 1 5 2 0Datos ordenados0 0 0 0 1 1 1 2 2 3 4 5 7
Distribución del peso (Kg.) de una muestra de 500 estudiantes
Normas para la construcción de TABLAS y GRAFICAS • TABLAS: • Deben tener un enunciado que las explique por sí mismas. • Deben indicar los totales de las columnas. • Deben indicar las unidades de medida de la/s variable/s. • Deben tener el mismo número de decimales en los números de una misma columna. • GRAFICAS: • - DEBEN TENER LONGITUDES o SUPERFICIES PROPORCIONALES A LAS FRECUENCIAS. • - Deben adecuarse al tipo de variable, respetando el orden de las modalidades en las variables ordinales y el lugar que ocupa cada valor en las variables numéricas. • - En los histogramas, la longitud de los intervalos debería ser igual en todos. • - En los histogramas, no debe haber huecos entre los intervalos. • - En los histogramas, el número de intervalos debería estar entre 5 y 15, dependiendo del tamaño de la muestra: a mayor cantidad de datos, mayor número de clases.
Medidas para la muestra del grupo sanguíneo (n = 500) • Medidas de posición:NO HAY, porque el grupo sanguíneo es una característica NOMINAL y no tiene orden. • Medidas de centralización: SOLO LA MODA, que es el grupo sanguíneo 0 (cero), por ser el más frecuente. • Medidas de dispersión:NO HAY, porque el grupo sanguíneo es una característica NOMINAL y no tiene orden.
Medidas para la muestra del número de hermanos (n =13) Es una variable discreta, con un n pequeño. Medidas de posición: a partir de (n+1)/2 = 7º, etc. Mediana = 1 (valor central). Cuartiles: Q1 = 0; Q3 = 3.5 Deciles y percentiles, no tienen sentido (n pequeño). Medidas de centralización: Moda = 0 (el más frecuente). Mediana = 1 (valor central). Media = 2.00 (reparto igualitario, centro de equilibrio). Medidas de dispersión: a partir de la suma, que es 26, y de la suma de cuadrados, que es 110, de los datos. Varianza = 4.833 Desviación standard = 2.20 Coeficiente de variación = 109.9% (gran dispersión).
Medidas para la muestra del peso (n =500) Es una variable continua, con un n grande. Medidas de posición: a partir de n/2 = 250º, etc. Intervalo de la mediana: [65-70) (valor aproximado = 68.19). Intervalo del primer cuartil: [60-65) (valor aproximado = 63.35). Intervalo del tercer cuartil: [70-75) (valor aproximado = 73.71). Medidas de centralización: Intervalo de la moda = [65-70) (valor aproximado = 67.48). Intervalo de la mediana: [65-70) (valor aproximado = 68.19). Media aproximada = 66.78 Medidas de dispersión: a partir de la suma aproximada, que es 33390, y de la suma de cuadrados aproximada, que es 2256475, de los datos. Varianza = 53.489 Desviación standard = 7.31 Coeficiente de variación = 11.0% (pequeña dispersión).
Normas para la construcción de TABLAS y GRAFICAS CAUSAS MAS FRECUENTES DE LAS GRAFICAS INADECUADAS O ERRONEAS: - RUPTURA DE LA PROPORCIONALIDAD ENTRE LONGITUDES o SUPERFICIES Y FRECUENCIAS. - Porque se “tumban” los diagramas de sectores, cambiando el círculo a una elipse. (ERRONEAS). - Porque se da “grosor” tridimensional en cualquier gráfica, creando sensaciones que hacen perder la dimensionalidad de la percepción (¿dos dimensiones, tres dimensiones?. (INADECUADAS). - Porque se cortan los ejes, en particular el que refleja las frecuencias (suele ser el vertical). (INADECUADAS). - Porque en los histogramas la longitud de los intervalos no es igual en todos y se dibujan directamente las frecuencias, no las densidades de frecuencia. (ERRONEAS). - Porque en los pictogramas (gráficas con figuras) se hacen proporcionales a las frecuencias tanto las bases como las alturas. (ERRONEAS). - CONFUSION PORQUE SE INTENTA EXPRESAR DEMASIADA INFORMACION EN UNA SOLA GRAFICA (gráficas “superpuestas”). (INADECUADAS).