240 likes | 413 Views
TRABAJO DE INTRODUCCIÓN. A LA ESTADÍSTICA. Laura López, Marta de Juan, Laura Mallo. Grupo 72. LADE. INTRODUCCIÓN. Nuestro trabajo va a consistir en el análisis de dos variables cuantitativas continuas. Primeramente analizaremos cada una de ellas por separado y
E N D
TRABAJO DE INTRODUCCIÓN A LA ESTADÍSTICA. Laura López, Marta de Juan, Laura Mallo. Grupo 72. LADE
INTRODUCCIÓN Nuestro trabajo va a consistir en el análisis de dos variables cuantitativas continuas. Primeramente analizaremos cada una de ellas por separado y posteriormente realizaremos un análisis conjunto de ambas variables. La estructura del trabajo será la siguiente: Análisis de la primera variable continua Análisis de la segunda variable continua Análisis de ambas variables
Los datos del trabajo proceden de la base de datos de la página web del Instituto Nacional de Estadística ( INE ). Se trata de datos de carácter nacional y representan el gasto medio según el nivel de formación ( con o sin estudios universitarios) del sustentador principal en bienes y servicios de consumo perteneciente al período de 2006. PRESENTACIÓN DE DATOS
1.- ANÁLISIS DE LA PRIMERA VARIABLE CONTINUA Se trata de la variable gasto medio por persona con estudios universitarios comprendidos entre 4,07 y 1499,29. 1.1.-Medidas de centralización -La media: representa el equilibrio o centro de gravedad de las observaciones. -Media:305,214 1.2-Medidas de dispersión -Desviación típica: mide la dispersión de los datos con respecto a la media. A mayor desviación típica, mayor dispersión de los datos respecto a la media. Toma valores no negativos. -Desviación típica:344,227 -Varianza: es el cuadrado de la desviación típica -Varianza:118492,0 -Rango: indica la diferencia entre el mayor y el menor de los datos -Rango:1495,22 -Coeficiente de asimetría -Coeficiente de asimetría:4,64031.Presenta una asimetría a la derecha, lo que significa que hay más datos pequeños.
-Curtosis : 4,98476. Como es positiva es leptocúrtica, lo que significa una menor dispersión ( mucho pico). -Máximo:1499,29 -Mínimo:4,07 1.3.- DIAGRAMA DE CAJA Como podemos observar en esta gráfico, los lados verticales de esta caja pasan por el primer y el tercer cuartil, y la línea vertical que aparece dentro del rectángulo, es la representada por la media. La caja del diagrama contiene la mitad central de los datos. Este es el gráfico de Caja y Bigotes para el gasto medio por persona con estudios universitarios. Es una buena herramienta que muestra varios aspectos sobre los datos.
La parte rectangular del gráfico se extiende desde el cuartil inferior hasta el cuartil superior , cubriendo la mitad central de la muestra. La línea central dentro de la Caja, muestra la localización de la mediana de la muestra. El signo “+” indica la localización de la media de la muestra. Los bigotes se extienden desde la caja hasta los valores mínimo y máximo de la muestra, excepto los datos atípicos o los datos atípicos lejanos, los cuales se representan por separado. Los datos atípicos son los que quedan a más de 1,5 veces el rango intercuartílico por encima o por debajo de la caja y se representan como pequeños cuadrados. Los datos atípicos lejanos se representan se representan como pequeños cuadrados con el signo más en su interior. En este caso existen 3 datos atípicos y 1 lejano. 1.4 – HISTOGRAMA El histograma es un gráfico para la distribución de una variable cuantitativa continua que representa frecuencias mediante áreas.
En el gráfico se observa que lo que más predomina el gasto medio inferior a 500 €. Se puede comentar sobre este histograma cierta apreciación visual, tiene asimetría por la derecha. 1.5- GRÁFICO DE DISPERSIÓN. Este es el gráfico de dispersión o nube de puntos para gasto medio por persona con estudios universitarios.
1.6-TABLA DE FRECUENCIAS. Tabla de Frecuencias para con estudios Las frecuencias muestran el número de valores en cada intervalo, mientras que las frecuencias relativas muestran las proporciones en cada intervalo.
1.7-DIAGRAMA DE TALLO Y HOJAS. Diagrama de Tallo y Hojas para con: unidad = 100,0 1|2 representa 1200,0 14 0|00000001111111 (11) 0|22222333333 5 0|5 ALTO|792,98 948,61 1024,66 1499,29 Aquí se muestra la distribución de frecuencias para con estudios. El rango de datos ha sido dividido en intervalos de 3 (llamados tallos), cada uno representado por una fila de la tabla. El tallo se etiqueta utilizando los primeros dígitos de los valores que se encuentran dentro del intervalo. En cada fila, los valores de los datos individuales son representados por un dígito (llamado hoja) a la derecha de la línea vertical. Esto nos da un histograma de los datos . Si hay cualquier punto que queda alejado de la mayoría de los otros (llamados datos atípicos), se sitúan en tallos altos y bajos separados. En este caso, hay 4 datos atípicos. Los datos atípicos se representan en el gráfico de caja y bigotes. La columna de números situada más a la izquierda contiene el recuento acumulado desde la parte superior de la tabla hacia la inferior, deteniéndose en la fila que contiene la mediana.
2. ANÁLISIS DE LA SEGUNDA VARIABLE CONTINUA Se trata de la variable gasto medio por persona con estudios universitarios comprendidos entre 1,33 y 1364,22 . 2.1.-Medidas de centralización -La media: representa el equilibrio o centro de gravedad de las observaciones. -Media:162,374 2.2-Medidas de dispersión -Desviación típica: mide la dispersión de los datos con respecto a la media. A mayor desviación típica, mayor dispersión de los datos respecto a la media. Toma valores no negativos. -Desviación típica:260,71 -Varianza: es el cuadrado de la desviación típica -Varianza:67969,6 -Rango: indica la diferencia entre el mayor y el menor de los datos -Rango:1362,89 -Coeficiente de asimetría -Coeficiente de asimetría:8,38314.Presenta una asimetría a la derecha, lo que significa que hay más datos pequeños.
-Curtosis : 4,98476. Como es positiva es leptocúrtica, lo que significa una menor dispersión (mucho pico). -Máximo:1354,22 -Mínimo:1,33 2.3.-DIAGRAMA DE CAJA.
Como podemos observar en esta gráfico, los lados verticales de esta caja pasan por el primer y el tercer cuartil, y la línea vertical que aparece dentro del rectángulo, es la representada por la media. La caja del diagrama contiene la mitad central de los datos. Este es el gráfico de Caja y Bigotes para el gasto medio por persona con estudios universitarios. Es una buena herramienta que muestra varios aspectos sobre los datos. La parte rectangular del gráfico se extiende desde el cuartil inferior hasta el cuartil superior , cubriendo la mitad central de la muestra. La línea central dentro de la Caja, muestra la localización de la mediana de la muestra. El signo “+” indica la localización de la media de la muestra. Los bigotes se extienden desde la caja hasta los valores mínimo y máximo de la muestra, excepto los datos atípicos o los datos atípicos lejanos, los cuales se representan por separado. Los datos atípicos son los que quedan a más de 1,5 veces el rango intercuartílico por encima o por debajo de la caja y se representan como pequeños cuadrados. Los datos atípicos lejanos se representan se representan como pequeños cuadrados con el signo más en su interior. En este caso existen 2 datos atípicos y 2 lejano. 2.4 – HISTOGRAMA.
El histograma es un gráfico para la distribución de una variable cuantitativa continua que representa frecuencias mediante áreas. En el gráfico se observa que lo que más predomina el gasto medio inferior a 200€ . Se puede comentar sobre este histograma cierta apreciación visual, tiene asimetría por la derecha. 2.5– GRÁFICO DE DISPERSIÓN. Este es el gráfico de dispersión o nube de puntos para gasto medio por persona sin estudios Universitarios o estudios de primer grado.
2.7- DIAGRAMA DE TALLO Y HOJAS Diagrama de Tallo y Hojas para sin: unidad = 10,0 1|2 representa 120,0 (16) 0|0000012466677899 14 1|001224456 5 2|7 ALTO|351,41 390,48 584,02 1364,22 Aquí se muestra la distribución de frecuencias para sin estudios. El rango de datos ha sido dividido en intervalos de 3 (llamados tallos), cada uno representado por una fila de la tabla. El tallo se etiqueta utilizando los primeros dígitos de los valores que se encuentran dentro del intervalo. En cada fila, los valores de los datos individuales son representados por un dígito (llamado hoja) a la derecha de la línea vertical. Esto nos da un histograma de los datos. Si hay cualquier punto que queda alejado de la mayoría de los otros (llamados datos atípicos ), se sitúan en tallos altos y bajos separados. En este caso, hay 4 datos atípicos. Los datos atípicos se representan en el gráfico de caja y bigotes. La columna de números situada más a la izquierda contiene el recuento acumulado desde la parte superior de la tabla hacia la inferior, deteniéndose en la fila que contiene la mediana.
3. ANÁLISIS DE DOS VARIABLES CUANTITATIVAS CONJUNTAS Tenemos: Una variable cuantitativa continua: Gasto medio por persona con estudios universitarios (€/persona) Una variable cuantitativa continua: gasto medio por persona sin estudios universitarios (€/persona) -Muestra 1 : Gasto medio por persona con estudios universitarios. -Muestra 2 : Gasto medio por persona sin estudios universitarios. -Muestra 1: 30 valores comprendidos desde 4,07 hasta 1499,29 -Muestra 2: 30 valores comprendidos desde 1,33 hasta 1364,22 3.1- DIAGRAMA DE CAJA MÚLTIPLE. Existen 5 datos atípicos y 3 atípicos lejanos.
3.4- RECTA DE REGRESIÓN. La salida muestra los resultados de ajuste al modelo linear para describir la relación entre gasto medio y nivel de estudios. La ecuación del modelo ajustado, mostrado como una línea continua es: estudios universitarios=110,231+1,20083*sin estudios/con estudios 1er grado
Análisis de Regresión - Modelo Lineal Y = a + b*X ----------------------------------------------------------------------------- Variable dependiente: con estudios Variable independiente: sin estudios ----------------------------------------------------------------------------- Error Estadístico Parámetro Estimación estándar T P-Valor ----------------------------------------------------------------------------- Ordenada 110,231 31,4774 3,50191 0,0016 Pendiente 1,20083 0,103739 11,5755 0,0000 ----------------------------------------------------------------------------- Análisis de la Varianza ----------------------------------------------------------------------------- Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor ----------------------------------------------------------------------------- Modelo 2,84233E6 1 2,84233E6 133,99 0,0000 Residuo 593955,0 28 21212,7 ----------------------------------------------------------------------------- Total (Corr.) 3,43628E6 29 Interpretación: existe una correlación positiva, ya que en un principio a un mayor Nivel de estudios, en general un trabajo mejor remunerado, lo que permite mayores ingresos para dedicarlo al consumo.
Coeficiente de Correlación = 0,909479 R-cuadrado = 82,7152 porcentaje R-cuadrado (ajustado para g.l.) = 82,0979 porcentaje Error estándar de est. = 145,646 Error absoluto medio = 111,404 Estadístico de Durbin-Watson = 1,7906 (P=0,2538) Autocorrelación residual en Lag 1 = 0,0486201 Dado que el p-valor en la tabla ANOVA es inferior a 0.01, existe relación estadísticamente significativa entre con estudios y sin estudios para un nivel de confianza del 99%. El estadístico R-cuadrado indica que el modelo explica un 82,7152% de la variabilidad en con estudios. El coeficiente de correlación es igual a 0,909479, indicando una relación relativamente fuerte entre las variables. El error estándar de la estimación muestra la desviación típica de los residuos que es 145,646. Este valor puede usarse para construir límites de la predicción para las nuevas observaciones seleccionando la opción Predicciones del menú del texto. El error absoluto medio (MAE) de 111,404 es el valor medio de los residuos. El estadístico Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación significativa basada en el orden en el que se han introducido los datos en el fichero. Dado que el p-valor es superior a 0.05, no hay indicio de autocorrelación serial en los residuos.
3.5. Residuos atípicos y puntos influyentes. El error absoluto medio (MAE) de 111,404 es el valor medio de los residuos. El estadístico Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación significativa basada en el orden en el que se han introducido los datos en el fichero. Dado que el p-valor es superior a 0.05, no hay indicio de autocorrelación serial en los residuos. Residuos Atípicos ---------------------------------------------------------------------------- Y Residuo Fila X Y Predicha Residuo Estudentizado ---------------------------------------------------------------------------- 1 1364,22 1499,29 1748,42 -249,133 -4,67 15 141,39 566,37 280,016 286,354 2,12 18 351,41 948,61 532,214 416,396 3,46 ---------------------------------------------------------------------------- Puntos Influyentes ---------------------------------------------------------------------------- Y Residuo Fila X Y Predicha Estudentizado Influencia ---------------------------------------------------------------------------- 1 1364,22 1499,29 1748,42 -4,67 0,766132 ---------------------------------------------------------------------------- Influencia media de un punto = 0,0666667