610 likes | 968 Views
ESTADÍSTICA. ■ Definición y conceptos básicos. ■ Organizando los datos: Tablas y Gráficas. ■ Parámetros estadísticos:. De centralización: media, moda y mediana. De dispersión: rango, varianza y desviación típica. 06/10/2014. 1. IPFA de Cádiz Ámbito Científico.
E N D
ESTADÍSTICA ■Definición y conceptos básicos ■ Organizando los datos: Tablas y Gráficas ■ Parámetros estadísticos: De centralización: media, moda y mediana De dispersión: rango, varianza y desviación típica 06/10/2014 1 IPFA de Cádiz Ámbito Científico
La Estadística es la Ciencia de la • Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de Descriptiva • deducir las leyes que rigen esos fenómenos, Probabilidad • y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones. Inferencia En este curso sólo veremos Estadística Descriptiva IPFA de Cádiz Ámbito Científico
Pasos en un estudio estadístico Plantear hipótesis sobre una población Los fumadores tienen “más bajas” laboralesque los no fumadores ¿En qué sentido? ¿Mayor número? ¿Tiempo medio? Decidir qué datos recoger (diseño de experimentos) Qué individuos pertenecerán al estudio (muestras) Fumadores y no fumadores en edad laboral. Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades crónicas? Qué datos recoger de los mismos (variables) Número de bajas Tiempo de duración de cada baja ¿Sexo? ¿Sector laboral? ¿Otros factores? Recoger los datos (muestreo) Describir (resumir) los datos obtenidos tiempo medio de baja en fumadores y no (estadísticos) % de bajas por fumadores y sexo (frecuencias), gráficos,... IPFA de Cádiz Ámbito Científico
Población y muestra Conceptos básicos: Población es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). • Normalmente es demasiado grande para poder abarcarlo. • Llamaremos individuo a cada elemento de la población, aunque no sea persona. Muestra es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones). • Debe ser representativa y aleatoria . Por ejemplo: Si vamos a hacer un estudio sobre la educación de adultos y sabemos que el 60% del alumnado son mujeres, cuando elijamos la muestra debemos procurar que el 60 % de la misma sean mujeres . IPFA de Cádiz Ámbito Científico
Con el dato anterior (60% de alumnado de adultos son mujeres) y suponiendo que el 30% del alumnado de adultos está empleado, completar la tabla siguiente si hemos elegido una muestra de 400 alumnos: Actividad: 120 280 400 Como la muestra es de alumnos 240 Como el 60% de alumnado es mujer: 160 Como el 40% de alumnado es hombre: El 30% de alumnado (tanto mujer como hombre) está empleado: 48 72 168 Las mujeres desempleadas: 112 Los hombres desempleados: Para completar las celdas que nos faltan, basta con sumar las dos de arriba de cada una. IPFA de Cádiz Ámbito Científico
Conceptos básicos (Cont.): El tamaño de la muestra N Número de individuos que forman la muestra. Carácter estadístico Cada una de las propiedades o cualidades que nos permite clasificar a los individuos de una población. La edad , el número de hijos, sexo, mes del año en el que prefiere las vacaciones, el estado civil , día de la semana que libra de trabajar, el número de aprobados en una asignatura ….. Variable estadística xi : Conjunto de valores que puede tomar un carácter estadístico. Ejemplos: la edad en años: 20, 23, 24 ,45 , …. el número de hijos: 0, 1 , 2, 3, ………. sexo: mujer , hombre. mes del año que prefiere las vacaciones: enero, febrero, marzo, abril, …… el estado civil: casado/a, soltero/a, divorciado/a, …… los días de la semana : lunes, martes, miércoles, ….. el número de aprobados en una asignatura: 30, 25, 0, 2 , …. IPFA de Cádiz Ámbito Científico
Tipos de variables Cualitativas Cuantitativas o Numéricas Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos). Se asocian con palabras. Se pueden medir y expresar con números (tiene sentido hacer operaciones algebraicas con ellos) Pueden ser: Son las que pueden tomar solamente un número finito de valores numéricos aislados. ■Discretas: Dia de la semana Estado de satisfacción ( muy bueno, bueno, regular, malo,…) Número de hermanos Edad en años Frutos de un árbol ■Continuas: Si entre dos valores, son posibles infinitos valores intermedios Altura Peso de los frutos de un árbol Generalmente se utiliza el término modalidad cuando hablamos de caracteres cualitativos y el término valor cuando estudiamos caracteres cuantitativos.Por ejemplo el carácter cualitativo <Estado Civil> puede adoptar las modalidades : casado, soltero, viudo. El carácter cuantitativo <Edad> puede tomar los valores : 10, 12, 25, 43 años, ... IPFA de Cádiz Ámbito Científico
Por ejemplo: • En los individuos de la población española, de uno a otro es variable: • El grupo sanguíneo • {A, B, AB, O} Variable Cualitativa • Su nivel de felicidad “declarado” • {Deprimido, Ni fu ni fa, Muy Feliz} Variable cualitativa • El número de hijos • {0,1,2,3,...} Variable cuantitativa discreta • La altura • {1’62 ; 1’74; ...} Variable cuantitativa continua Una vez que tenemos los datos de la muestra es necesario organizarlos, ordenarlos …… IPFA de Cádiz Ámbito Científico
Presentación ordenada de datos: Tablas y Gráficas Gráfica Muestra Tabla de frecuencia • Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra. ¡¡¡ Vamos a conocerlas!!! IPFA de Cádiz Ámbito Científico
Tablas de frecuencia 30,8 88,3 11,7 100,0 • Exponen la información recogida en la muestra, de forma que no se pierda nada de información (o poca). Suelen contener los siguientes datos: • Variable estadística xi: La pondremos en la primera columna por la izquierda. • En las siguientes columnas pondremos todos o algunos de los siguientes valores: • Frecuencias absolutas fi: Contabilizan el número de individuos de cada valor (modalidad) • Frecuencias relativas hi: Idem, pero dividido por el total de individuos • Frecuencias acumuladas Fi: Acumulan el valor de las filas de arriba. • Porcentajes: Se pueden poner acumulado o sin acumular Ejemplos: IPFA de Cádiz Ámbito Científico
Ejemplo ¿Cuántos individuos tienen menos de 2 hijos? frec. indiv. sin hijos + frec. indiv. con 1 hijo = 419 + 255= 674 individuos ¿Qué porcentaje de individuos tiene 6 hijos o menos? 97,3% ¿Qué cantidad de hijos es tal que al menos el 50% de la población tiene una cantidad inferior o igual? 2 hijos Frecuencia absoluta Porcentaje Porcentaje acumulado ≥50% IPFA de Cádiz Ámbito Científico
27,6 44,4 69,1 83,3 91,7 95,3 97,2 1,9 98,9 1,7 100,0 Actividad: En la tabla siguiente: ■ ¿Qué porcentaje de individuos tienen menos de tres hijos Solución : 27,6 % + 16,8 % + 24,7 % = 69,1 % ■ ¿Qué porcentaje de individuos tienen más de tres y menos de siete? Solución : 8,4 % + 3,6 % + 1,9 % = 13,9 % IPFA de Cádiz Ámbito Científico
Frecuencia absoluta fi Hemos preguntado la edad a los 30 alumnos de una clase de adultos,obteniendo las siguientes respuestas: 20 , 21 , 19 , 23 , 25 , 23 , 21 , 20 , 23 , 18 22 , 24 , 18 , 21 , 20 , 20 , 24 , 19 , 22 , 23 21 , 23 , 20 , 23 , 25 , 23 , 22 , 23 , 24 , 18 Realizamos un recuento: Ya tenemos la Tabla de frecuencias absolutas: 3 18 2 19 5 20 4 21 3 22 8 23 24 3 2 25 30 Comprobamos que la suma es 30 (tamaño de la muestra N = 30 alumnos) IPFA de Cádiz Ámbito Científico
Frecuencia absoluta acumulada Fi La tabla anterior nos mostraba las frecuencias absolutas de cada valor de la variable estadística tabulada , pero en ocasiones necesitamos saber la frecuencia absoluta de un conjunto de valores ( frecuencia acumulada Fi ) . A partir de la tabla de frecuencias absolutas obtenemos la de frecuencias absolutas acumuladas sin más que sumar a la frecuencia absoluta de cada valor las de los valores anteriores. 3 Para ello, añadimos a la tabla una nueva columna. 5 3 +2 10 Rellenamos esta columna poniendo en cada celda la frecuencia absoluta de ese valor sumada a la frecuencia absoluta de los anteriores: 5 +5 14 10 +4 17 14+3 17+8 25 28 25+3 30 28+2 El valor de la última celda de esta columna tiene siempre que coincidir con el tamaño de la muestra N Total: 30 IPFA de Cádiz Ámbito Científico
Frecuencia relativa hi A veces no basta con conocer la frecuencia absoluta: 10 alumnos en una muestra de 30 no tienen el mismo “peso” que 10 alumnos en una muestra de 20. Para tener en cuenta esta circunstancia, en la tabla de frecuencias absolutas introducimos la columna de frecuencia relativa hi , que calculamos dividiendo la frecuencia absoluta entre el tamaño de la muestra (nº total de datos) N: IPFA de Cádiz Ámbito Científico
Seguimos con la tabla anterior. Vamos a expresar la frecuencia relativa en notación decimal: 0,100 La suma de las frecuencias absolutas tiene que coincidir con el tamaño de la muestra N ► 0,067 0,167 0,133 La suma de las frecuencias relativas nos tiene que dar siempre 1. 0,100 ► 0,267 0,100 0,067 Total: 30 1 IPFA de Cádiz Ámbito Científico
Porcentajes En ocasiones, en las tablas de datos nos piden que incluyamos una columna con los porcentajes (tanto por ciento) de cada valor de la variable estadística, por ser éste una magnitud de uso muy común y de fácil cuantificación. A partir de una tabla que tenga las frecuencias relativas, basta con multiplicar éstas por 100 para obtener la columna de porcentajes: 10 6’7 16’7 13’3 10 26’7 10 6’7 06/10/2014 17 IPFA de Cádiz Ámbito Científico
Se ha preguntado a los 25 alumnos de una clase por el número de hermanos que tiene cada uno, obteniéndose el siguiente resultado: Actividad: 2 , 2 , 1 , 0 , 3 , 0 , 2 , 6 , 4 , 3 , 1 , 6 , 2 , 1 , 4 , 3 , 5 , 2 , 6 , 3 , 1 , 0 , 7 , 2 , 4 Organiza los datos en una tabla de frecuencias absolutas y relativas. 1.. Analizando los datos vemos que los valores de la variable xinúmero de hermanos van desde el 0 al 7. Dibujamos la tabla y añadimos estos valores. 3 0 0,12 2.. Contamos en la lista el número de veces que aparece cada uno de estos valores y colocamos ese número en la columna de la frecuencia absoluta. 1 4 0,16 2 6 0,24 Debemos comprobar que la suma de las frecuencias absolutas nos tiene que dar 25, que es el tamaño de la muestra N. 4 0,16 3 3.. La columna de frecuencia relativa hi la completamos dividiendo la frecuencia absoluta fi por el tamaño de la muestra N : 3 0,12 4 5 0,04 1 3 6 0,12 Debemos comprobar que la suma de las frecuencias relativas nos tiene que dar 1. 7 1 0,04 Total: 25 1 IPFA de Cádiz Ámbito Científico
Completa la tabla anterior con las frecuencias acumuladas, tanto las absolutas como las relativas. Actividad: Hemos añadimos dos nuevas columnas, una para las f.absolutas acumuladas y otra para las relativas acumuladas. 0’12 3 0’12 0 3 1 4 7 3 + 4 0’16 0’12+0’16 0’28 2 6 13 0’24 7 + 6 0’52 0’28+0’24 13 + 4 17 4 0’52+0’16 0’68 0’16 3 3 17 + 3 0’80 0’68+0’12 20 0’12 4 20 + 1 21 0’84 0’04 5 0’80+0’04 1 24 0’96 3 21 + 3 6 0’12 0’84+0’12 0’04 1’00 25 1 24 + 1 7 0’96+0’04 Total: 25 1 IPFA de Cádiz Ámbito Científico
Tablas de frecuencia de variables cuantitativas continuas En las tablas que hasta ahora hemos visto, la variable era cuantitativa discreta, que sólo tomaba unos cuantos valores diferentes ( en concreto , ocho valores), pero si la variable cuantitativa a tabular fuera contínua (o discreta con muchos valores diferentes) necesitaríamos una tabla con muchas filas, lo que no sería eficaz. Consideremos el caso siguiente: En una academia se ha medido la altura (en metros) de un grupo de 20 alumnos, obteniéndose el siguiente resultado: 1’75 , 1’69 , 1’70 , 1’63 , 1’72 , 1’82 , 1’62 , 1’66 , 1’73 , 1’89 1’87 , 1’64 , 1’68 , 1’76 , 1’86 , 1’74 , 1’71 , 1’84 , 1’67 , 1’74 Vemos que casi cada valor es diferente. Tendríamos una tabla con casi 20 filas y la frecuencia absoluta de cada uno sería 1. En estos casos, los datos deben agruparse en clases o intervalos. La primera columna de las tablas anteriores se divide en dos, una para los intervalos y otra para la marca de clase, que es el valor medio de cada intervalo y que se toma como valor de la variable estadística xi. La marca de clase se calcula como la semisuma de los extremos del intervalo. Por ejemplo si un intervalo fuera: [4’0-8’0) la marca de clase sería: [1’65-1’70) la marca de clase sería: Como la altura menor es 1,62 m y la mayor 1,89 m, elegiremos los siguientes intervalos , tomados de 5cm en 5 cm ( intervalos de igual amplitud): IPFA de Cádiz Ámbito Científico
1’75 1’75 , 1’69 1’69 , 1’70 1’70 , 1’63 1’63 , 1’72 1’72 , 1’82 1’82 , 1’62 1’62 , 1’66 1’66 , 1’73 1’73 , 1’89 1’89 ▪Dibujamos la tabla con los intervalos. 1’87 1’65 1’68 1’76 1’86 1’74 1’71 1’84 1’67 1’74 1’87 , 1’65 , 1’68 , 1’76 , 1’86 , 1’74 , 1’71 , 1’84 , 1’67 , 1’74 ▪Calculamos las marcas de clase. ▪La frecuencia absoluta de cada intervalo es: ▪Finalmente, calculamos las frecuencias relativas dividiendo cada frecuencia absoluta por el tamaño de la muestra N (20 alumnos) 1’63 0’10 2 1’68 5 0’25 6 0’30 1’73 1’78 2 0’10 1’83 2 0’10 3 0’15 1’88 20 Total: Intervalo cerrado por la izquierda [ , nos indica que 1,65 pertenece a este intervalo. [1’65-1’70) Intervalo abierto por la derecha ) , nos indica que 1,70 pertenece al intervalo siguiente. 06/10/2014 21 IPFA de Cádiz Ámbito Científico
Actividad: Un alumno de Bachillerato realiza exámenes durante un trimestre con los siguientes resultados: 5 , 9 , 5 , 6 , 5 , 8 , 8 , 5 , 6 , 5 , 8 , 6 , 5 , 6 , 8 , 9 , 7, 6 , 7, 8 , 7 , 8 , 6 ¿Cuál es el carácter (variable) estadístico de estos datos? Las calificaciones de los exámenes de un trimestre ¿Qué valores toma la variable estadística? 5 , 6 , 7 , 8 y 9 23 ¿Cuál es el tamaño de la muestra? 6 ¿Cuál es la frecuencia absoluta del valor 6 ? ¿Cuál es la frecuencia relativa del valor 8? Construye la tabla de frecuencias absoluta y relativa , de porcentajes y acumuladas. 6 6 0’26 0’26 26 26 6 12 0’26 0’52 26 52 3 0’13 0’65 13 65 15 6 21 0’26 0’91 26 91 2 23 0’09 1 9 100 23 1’00 Total : 100 IPFA de Cádiz Ámbito Científico
GRÁFICOS Además de la tablas de frecuencias, para apreciar con una simple mirada la magnitud o posición de las variables, se suelen efectuar una representación gráfica de los datos. Los sistemas de gráficos más usuales son: IPFA de Cádiz Ámbito Científico
Gráficos para variables cualitativas Diagramas de barras Alturas proporcionales a las frecuencias (abs. o rel.) Se pueden aplicar también a variables discretas Diagramas de sectores (ciclogramas) El área de cada sector es proporcional a su frecuencia (absoluta o relativa) Pictogramas Fáciles de entender. El área de cada modalidad debe ser proporcional a la frecuencia. IPFA de Cádiz Ámbito Científico
Son diferentes en función de que las variables sean discretas o continuas. Valen con frecuencia absolutas o relativas. Diagramas de barras para variables discretas Se deja un hueco entre barras para indicar los valores que no son posibles Histogramas para variables continuas El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo. Gráficos para variables numéricas En las diapositivas que siguen vamos a ver uno a uno los gráficos más representativos. IPFA de Cádiz Ámbito Científico
Diagrama de barras: se utiliza para frecuencias absolutas o relativas, acumuladas o no, de una VARIABLE DISCRETA. En el eje de abcisas (eje horizontal), situaremos los diferentes valores de la variable. En el eje de ordenadas ( eje vertical ) la frecuencia de cada valor. Levantaremos barras o columnas SEPARADAS de altura correspondiente a la frecuencia adecuada. (Diagrama de barras elaborado con el programa Excel) IPFA de Cádiz Ámbito Científico
Vamos a dibujar el diagrama de barras de la tabla edad de los alumnos (Diapositiva 13) 1..Dibujamos dos ejes perpendiculares: 2.. En el eje horizontal representaremos la variable estadísticaxi( en este caso, la edad de los alumnos), y marcamos el eje con los valores que toma la variable. Como la primera división de la escala es 18 y cada marca representa un año, cambiamos el eje x por este otro, para “romper” la escala. 3.. En el eje vertical representaremos las frecuencias absolutasfi , para lo cualmarcamos el eje con los valores de estas: 4.. Finalmente dibujamos las barras verticales de frecuencia, centradas en las marcas del eje horizontal. fi 8 Opcionalmente, se puede poner el nombre de la variable estadística como Título del gráfico) 6 4 2 xi 25 18 19 22 23 20 21 24 Edad de los alumnos 06/10/2014 27 IPFA de Cádiz Ámbito Científico
Histogramas: diagrama de barras para distribuciones cuantitativas continuas En el eje de abcisas (eje horizontal), situaremos los intervalos o las marcas de clase de la variable. En el eje de ordenadas ( eje vertical ) la frecuencia. Levantaremos barras o columnas AGRUPADAS igual de anchas que los intervalos y de altura correspondiente a la frecuencia de cada valor. (Histograma elaborado con el programa Excel) IPFA de Cádiz Ámbito Científico
Vamos a dibujar el histograma de la tabla altura de los alumnos (Diapositiva 21) 1..Dibujamos dos ejes perpendiculares: 2.. En el eje horizontal representaremos los intervalos de la variable estadísticaxi( en este caso, la altura de los alumnos). 3.. En el eje vertical representaremos las frecuencias absolutasfi , para lo cualmarcamos el eje con los valores de estas: 4.. Finalmente dibujamos las barras verticales de frecuencia, con una anchura como la del intervalo. 8 7 6 5 4 3 2 1 xi [1’60-1’65) [1’65-1’70) [1’80-1’85) [1’85-1’90) [1’70-1’75) [1’75-1’80) Altura de los alumnos 06/10/2014 29 IPFA de Cádiz Ámbito Científico
Diagrama de sectores (Ciclogramas): también conocido como diagrama de "tartas“. Se divide un círculo en tantas porciones como valores o modalidades tenga la variable (cualitativa o cuantitativa), de modo que a cada uno le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. (Diagrama de sectores elaborado con el programa Excel) IPFA de Cádiz Ámbito Científico
Polígono de frecuencias:Son gráficos lineales que se utilizan en el caso de una variable cuantitativa. Para realizar estos polígonos unimos los puntos medios de las bases superiores del diagrama de barras o del histograma según la variable sea agrupada o no agrupada. Un ejemplo sería el gráfico que nos muestra la evolución de la temperatura de un enfermo. IPFA de Cádiz Ámbito Científico
183.273 133.363 101.468 88.073 Algeciras Cádiz Jerez San Fernando (Datos Censo 2001) Pictogramas: Son gráficos en los que se utilizan unos dibujos relacionados con el carácter estadístico que se representa y que tienen unos tamaños proporcionales a la frecuencia de cada valor o modalidad. Por ejemplo, para representar el censo de varias ciudades , podemos presentar la figura de una persona con diferentes tamaños, en proporción al número de habitantes de cada ciudad. (Pictograma de barras elaborado con el programa Excel) También hay pictogramas que consisten en diagrama de barras en los que las barras se sustituyen por dibujos alusivos a la variable ( como el de la derecha) IPFA de Cádiz Ámbito Científico
Otros gráficos: Cartogramas:Consisten en representar sobre un mapa cada valor o modalidad del carácter estadístico objeto de estudio con un color . Llevan adjunto una leyenda en la que nos indican el significado de los colores. IPFA de Cádiz Ámbito Científico
Climogramas Un climograma o diagrama ombrotérmico es un gráfico en el que representamos simultáneamente los valores de la temperatura media mensual, mediante una línea, y los de precipitaciones mensuales medias, mediante barras verticales, para los doce meses del año de una zona geográfica determinada. (Climograma elaborado con el programa Excel) IPFA de Cádiz Ámbito Científico
Pirámides de población Cuando se realizan representaciones correspondientes a edades de población, cambiamos el eje Y por el eje X para obtener las llamadas pirámides de población, que no son más que 2 histogramas a izquierda y derecha, para hombres y mujeres (Pirámide elaborado con el programa Excel) IPFA de Cádiz Ámbito Científico
Parámetros estadísticos Las tablas y gráficos no son base suficiente en la que asentar las conclusiones de un estudio estadístico. Para tratar de hacer lo más objetiva posible la interpretación de datos se recurre a ciertos números extraídos de los datos llamados parámetros o medidas estadísticas. Estos parámetros, de alguna manera, nos permite resumir y sintetizar un gran número de datos y nos proporcionan una idea lo más aproximada posible a alguna característica de toda la distribución. Casi en su totalidad, sólo tienen sentido para variables estadísticas cuantitativas y se dividen en cuatro tipos de los cuales sólo estudiaremos los dos más importantes: • Parámetros estadísticos • Parámetros de centralización • Parámetros de dispersión Proponen un representante que ejemplifique al resto de la población y tienden a situarse hacia el centro del conjunto ordenado de los datos. Indican si los valores tienden a agruparse en torno a un valor o están separados entre sí. Los más importantes son: Los más importantes son: El rango o recorrido La desviación típica La media La moda La varianza La mediana 06/10/2014 36 IPFA de Cádiz Ámbito Científico
La media De los tres parámetros que vamos a estudiar, es el de uso más cotidiano y conocido La media aritmética de una variable estadística es la suma de los valores de dicha variable dividido por el número de valores. Se representa por . Si las calificaciones de un alumno en una determinada materia durante el primer trimestre fueron: 3’6 , 8 , 5’5 , 6 Fácilmente obtenemos la nota media: Si los datos los tenemos agrupados en una tabla de frecuencias, procederemos del siguiente modo: Añadimos una nueva columna en la que pondremos el resultado de multiplicar cada valor xi por su frecuencia fi , para ahorrarnos tener que sumar ,por ejemplo, 12 veces el número 14. 36 Calculamos los totales de las dos últimas columnas. 104 168 Finalmente, calculamos la media dividiendo el total de la 3ª columna (suma de todos los valores) entre el total de la 2ª (número de valores) 135 160 Total : 42 603 06/10/2014 37 IPFA de Cádiz Ámbito Científico
Para el cálculo anterior , hemos aplicado la “misma fórmula” que para el cálculo de la nota media, hemos sumado todos los valores y hemos dividido por el número total de todos ellos, sólo que en este segundo caso, como sabíamos que el valor 12 se repetía 3 veces, el valor 13 se repetía 8 veces, …. en vez de sumar tres veces 12 hemos sumado 36 ( 3·12) y en vez de sumar ocho veces el valor 13 hemos sumado 104 ( 8·13), …… Podemos expresar todo mediante la fórmula: ¿Y si los datos están agrupados en intervalos? Procederemos como en el caso anterior, sólo que como valores xi tomaremos las marcas de clase de los intervalos. Calculamos las marcas de clase xi de cada intervalo, tal como vimos en las diapositivas 20 y 21, esto es, sumamos los dos extremos del intervalo y dividimos por 2. 50 500 Completamos la última columna multiplicado la 2ª por la 3ª. 150 6750 250 7500 Calculamos los totales de las dos últimas columnas. 350 5250 Finalmente, calculamos la media dividiendo el total de la 4ª columna entre el total de la 3ª: Total : 100 20000 06/10/2014 38 IPFA de Cádiz Ámbito Científico
Las calificaciones en la asignatura de historia del arte de los 40 alumnos de una clase viene dada por la siguiente tabla: Actividad: Hallar la calificación media de la clase. A la tabla que nos dan ,con xi y fi , le añadimos una tercera columna xi·fi: 2 Aplicamos la fórmula que nos permite calcular la media: 4 12 20 40 54 21 32 27 212 06/10/2014 39 IPFA de Cádiz Ámbito Científico
Actividad: Calcular la media de la siguiente distribución. A partir de la gráfica , construimos la tabla de frecuencias correspondiente: Completamos la tercera columna: 0 20 100 240 160 Finalmente, aplicamos la fórmula que nos permite calcular la media: 150 60 Total : 260 730 06/10/2014 40 IPFA de Cádiz Ámbito Científico
La mediana Si tenemos un conjunto de datos, por ejemplo las edades de los componentes de un equipo de fútbol-sala: 20 , 22 , 18 , 19 , 18 , 21 , 20 y queremos saber cúal de esos datos es el mediano, los ordenamos de menor a mayor: 20 18 , 18 , 19 , 20 , 20 , 21 , 22 Vemos que el de en medio tiene tiene 20 años. Bien, pues a este valor se le llama en Estadística lamediana de ese conjunto de datos y lo representaremos así: Me = 20 Se llama mediana de una variable estadística a un valor de la variable, tal que el número de observaciones menores que él es igual al número de observaciones mayores que él. En el ejemplo anterior, la mediana es única , ya que el número de datos es impar. Pero ¿cuál sería la mediana del siguiente conjunto de datos ?: 18 , 19 , 19 , 20 , 21 , 21 , 22 , 22 20 21 Cuando el número de datos es par, tendremos dos valores centrales y tomaremos como mediana la media aritmética de esos dos valores: Aunque este valor no pertenezca al conjunto de datos 06/10/2014 41 IPFA de Cádiz Ámbito Científico
La mediana (Cont1.) Supongamos que los datos los tenemos agrupados en una tabla de frecuencia como esta: Podríamos calcular la mediana como en los casos anteriores, ordenándolos de menor a mayor, pero como son muchos datos (62) sería muy tedioso. Debemos buscar un método más cómodo. 16 16+19 Para ello, le añadimos a la tabla una nueva columna en la que vamos a calcular las frecuencias absolutas acumuladas: 35 35+10 45 Sabemos que el número contenido en la última celda de esta columna (Ver diapositiva 14) coincide con el número total de datos N. 45+13 58 58+4 62 Y como estamos buscando la mediana, calculamos : Con esta cálculo hemos averiguado que el valor que estamos buscando ocupa el lugar número 31 en la lista de todos los valores. Vemos en la tabla que la primera frecuencia acumulada que supera esa cifra es la que corresponde a x2 = 4 y en consecuencia la mediana vale: Me = 4 En estos casos, la mediana viene dada por el primer valor de la variable cuya frecuencia absoluta acumulada excede a la mitad del número de datos. Vamos a calcular la mediana de la siguiente distribución de datos: 06/10/2014 42 IPFA de Cádiz Ámbito Científico
La mediana (Cont.2) Como estamos buscando la mediana, calculamos : Comprobamos que la mitad del número de datos , 20 , coincide ( y no excede ) con la frecuencia absoluta acumulada correspondiente a un valor, x3 =14 En estos casos, la mediana es la semisuma entre este valor y el siguiente de la tabla: N Finalmente, trataremos el caso de una distribución contínua de datos, con intervalos de clase: Como estamos buscando la mediana, calculamos : La frecuencia acumulada que excede a esta cantidad es 13 , a la que le corresponde el intervalo mediano [1’70-1’75) En las distribuciones contínuas de datos sólo calcularemos el intervalo mediano, el correspondiente a una frecuencia acumulada que excede a la mitad del número de datos N N 06/10/2014 43 IPFA de Cádiz Ámbito Científico
Actividad: La tabla siguiente nos muestra el resultado de la evaluación (número de suspensos) de un grupo de alumnos. Determinar la mediana. En primer lugar , calcularemos las frecuencias acumuladas. 4 9 4 + 5 Calculamos : 9 + 6 15 > 16 15 + 7 22 La frecuencia acumulada que excede este valor es la que corresponde al cuarto valor x4 = 3 , en consecuencia la mediana de este conjunto de datos es: 22 + 4 26 26 + 3 29 29 + 1 30 Me = 3 N 30 + 2 32 06/10/2014 44 IPFA de Cádiz Ámbito Científico
La moda En la vida social y cultural, lo que está de moda es lo que más se lleva o lo que más se ve o se oye. Con este mismo significado se utiliza en Estadística. Se llama moda de una variable estadística al valor de dicha variable que presenta mayor frecuencia absoluta. Se representa por Mo. Por ejemplo en la siguiente distribución de datos: Frecuencia absoluta más alta Moda En consecuencia : Mo = 10 Puede suceder que haya dos valores con igual frecuencia absoluta más alta. Por ejemplo: x2 = 4 Hay dos valores : con la frecuencia más alta , 24. x4 = 6 M0 = 4 Hay dos modas: M0 = 6 Se dice que es una distribución bimodal. 06/10/2014 45 IPFA de Cádiz Ámbito Científico
Actividad: Las calificaciones de un alumno en los exámenes realizados durante un mes han sido: 7’4 , 2 , 6’5 , 5 , 6’7 , 6’5 , 9 Determinar la moda. Como debemos de localizar al valor ( la nota en esta caso) que aparece un mayor número de veces, la moda es: Mo = 6’5 Actividad: Calcular la moda de la siguiente distribución discreta de valores: El valor con mayor frecuencia absoluta, y por tanto la moda , es: Mo = 8 Actividad: En el gráfico que se muestra ,¿ cúal es la moda? La moda es 1 suspenso, ya que es el valor (modalidad) con mayor porcentaje y, por tanto, mayor frecuencia absoluta. 06/10/2014 46 IPFA de Cádiz Ámbito Científico
La moda (Cont.) Cuando los datos los tengamos agrupados en intervalos de clases sólo calcularemos el intervalo en el que se encuentra la moda. Supongamos la siguiente tabla: Vemos que la frecuencia absoluta mayor , 77 , corresponde al intervalo de clase [8-12). Diremos que la clase modal de esta distribución de datos es [8-12). Cuando los datos de la variable estadística estén agrupados en intervalos de clase, llamaremos clase modal de la distribución al intervalo de clase al que le corresponde una mayor frecuencia absoluta. OPCIONAL En realidad sólo hemos calculado el intervalo donde está la moda Mo . Podríamos calcular la moda aplicando la siguiente fórmula: = Límite inferior del intervalo modal = Amplitud del intervalo = Diferencia entre la frecuencia absoluta de la clase modal y la anterior = Diferencia entre la frecuencia absoluta de la clase modal y la posterior 06/10/2014 47 IPFA de Cádiz Ámbito Científico
RangooRecorrido La investigación acerca de una distribución queda incompleta si sólo se estudian las medidas de centralización, siendo imprescindible conocer si los datos numéricos están agrupados o no alrededor de los valores centrales y de lo separado que están los datos entre sí . A esto es a lo que se le llama dispersión. El primer parámetro de este tipo que veremos es el rango o recorrido. Los datos que siguen se refieren al peso en kg de dos grupos de personas: Grupo B : 66 , 63 , 80 , 72 , 61 , 58 Grupo A : 45 , 20 , 75 , 81 , 55 , 62 En el grupo A los valores extremos son: En el grupo B los valores extremos son: 20 y 81 58 y 80 Diremos que en el Grupo A el recorrido es: Y en el Grupo B el recorrido vale: 81 kg – 20 kg = 61 kg 80 kg – 58 kg = 22 kg Como ambos grupos tienen el mismo número de datos , podemos decir que en el Grupo B los datos están más concentrados por tener un recorrido menor. Se llama rango o recorrido de una distribución a la diferencia entre el mayor valor de la variable y el menor valor de la misma. Para calcular este parámetro, sólo tenemos en cuenta dos valores ( los extremos) de la distribución y si pretendemos obtener una medida más fiable de la dispersión , deberíamos de tener en cuenta a todos los datos. Esto es lo que haremos en los siguientes parámetros. 06/10/2014 48 IPFA de Cádiz Ámbito Científico
Varianza Si tenemos un conjunto de datos , una manera de saber lo alejado o lo centrado que está un dato xiserá compararlo con la media . Así, definiremos la desviación respecto a la media de un dato xi como: Veamoslo con un ejemplo. Tenemos la siguiente tabla de frecuencias: Calculamos la media, tal como vimos en la diapositiva 37: 3 – 5 – 2 –10 15 4 20 4 – 5 – 1 –10 40 1 10 0 5 – 5 0 0 45 0 Le añadimos una nueva columna para calcular las desviaciones: 4 6 – 5 1 4 24 1 7 – 5 2 16 4 32 56 36 180 0 66 En principio, si calculáramos la media aritmética de todas las desviaciones, obtendríamos un dato que nos permitiría cuantificar la dispersión global de este conjunto de datos, pero podemos comprobar que la suma de todas las desviaciones es cero , ya que las positivas se compensarán con las negativas. Para evitar esto, añadiremos una nueva columna, con las desviaciones al cuadrado y otra con la suma: Pues bien , la media de los cuadrados de las desviaciones es la varianza σ2: 06/10/2014 49 IPFA de Cádiz Ámbito Científico
Varianza (Cont.) La expresión anterior de la varianza σ2 se puede poner de esta otra manera, sacando el factor común : Podemos comprobar que aplicada a la tabla anterior, nos conduce al mismo resultado: Podemos comprobar que aplicada a la tabla anterior, nos conduce al mismo resultado: Añadimos una nueva columna: Aplicamos la fórmula anterior: 3 – 5 5 ·32 45 – 2 –10 15 4 20 10 ·42 4 – 5 – 1 160 –10 40 1 10 9 ·52 0 5 – 5 0 0 225 45 0 4 6 – 5 1 4 4 ·62 24 1 144 7 – 5 2 8 ·72 392 16 4 32 56 36 180 0 66 966 Se llama varianza de una variable a la media aritmética de los cuadrados de las desviaciones respecto a la media. Se representa por σ2opor s2 La varianza, al obtenerse a partir de los cuadrados de las desviaciones, no tiene la misma unidad que los datos. Para subsanar esto, se introduce un nuevo parámetro, la desviación típica. 06/10/2014 50 IPFA de Cádiz Ámbito Científico