E N D
Unidad 4 Análisis de los Datos
12-3 • Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia central, variabilidad, representaciones gráficas. Se pretende conocer cada variable así como detectar errores, valores extremos, etc. • Estadística Bivariable: estudia las relaciones entre pares de variables, utilizando estadísticos como el coeficiente de correlación, chi-cuadrado,t de Student, y representaciones gráficas diversas.
12-4 Análisis Multivariante: analiza simultáneamente dos o más variables. Los métodos pueden ser predictivos cuando existe una variable criterio o independiente que explica o identifica por un conjunto de variables independientes o explicativas.Ej:Regresión lineal, regresión logística, análisis discriminante, árboles de segmentación, análisis de la varianza o reductivos: cuando se estudian las relaciones entre un conjunto de variables sin que exista una variable a identificar. Ej: análisis factorial, correspondencias binarias, correspondencias múltiples, etc.
12-10 Análisis Bivariante – relación entre dos variables. • Dos variables cuantitativas: Correlación. Regresión lineal simple. • Dos variables cualitativas: Tabulación cruzada. Porcentajes. Estadístico Chi-cuadrado y otros. • Una cuantitativa y una cualitativa: ANOVA ( análisis de la varianza). Se dividen a su vez en paramétrico para dos grupos (T Student) y más de dos grupos(Test F).
12-3 Análisis de correlación • Análisis de correlación: se usa un grupo de técnicas estadísticas para medir la fuerza de la relación (correlación) entre dos variables. • Diagrama de dispersión: gráfica que describe la relación entre las dos variables de interés. • Variable dependiente: la variable que se pronostica o estima. • Variable independiente: la variable que proporciona la base para la estimación. Es la variable predictora.
12-4 Coeficiente de correlación de Pearson, r • El coeficiente de correlación (r) es una medida de la intensidad de la relación entre dos variables. Indica si hay una relación lineal entre las mismas. • Requiere datos con escala de intervalo o de razón (variables). • Puede tomar valores entre -1.00 y 1.00. • Valores de -1.00 o 1.00 indican correlación fuerte y perfecta. • Valores cercanos a 0.0 indican correlación débil. • Valores negativos indican una relación inversa y valores positivos indican una relación directa.
12-5 Correlación negativa perfecta 10 9 8 7 6 5 4 3 2 1 0 Y 0 1 2 3 4 5 6 7 8 9 10 X
12-6 Correlación positiva perfecta 10 9 8 7 6 5 4 3 2 1 0 Y 0 1 2 3 4 5 6 7 8 9 10 X
12-7 Correlación cero 10 9 8 7 6 5 4 3 2 1 0 Y 0 1 2 3 4 5 6 7 8 9 10 X
12-8 Correlación positiva fuerte 10 9 8 7 6 5 4 3 2 1 0 Y 0 1 2 3 4 5 6 7 8 9 10 X
12-10 Coeficiente de determinación • El coeficiente de determinación, r2 - la proporción de la variación total en la variable dependiente Y que está explicada por o se debe a la variación en la variable independiente X. • El coeficiente de determinación es el cuadrado del coeficiente de correlación, y toma valores de 0 a 1.
12-15 Análisis de regresión • Propósito: determinar la ecuación de regresión; se usa para predecir el valor de la variable dependiente (Y) basado en la variable independiente (X). • Procedimiento: seleccionar una muestra de la población y enumerar los datos por pares para cada observación; dibujar un diagrama de dispersión para visualizar la relación; determinar la ecuación de regresión.
12-16 Análisis de regresión • La ecuación de regresión: Y’= a + bX, donde: • Y’ es el valor promedio pronosticado de Y para cualquier valor de X. • a es la intercepción en Y, o el valor estimado de Y cuando X = 0 • b es la pendiente de la recta, o cambio promedio en Y’ por cada cambio de una unidad en X • se usa el principio de mínimos cuadrados para obtener a y b:
12-18 Error estándar de la estimación • Elerror estándar de la estimación mide la dispersión de los valores observados alrededor de la recta de regresión. • Fórmulas usadas para calcular el error estándar:
Análisis de • Regresión y Correlación Múltiples
13-3 Análisis de regresión múltiple • Para dos variables independientes, la fórmula general de la ecuación de regresión múltiple es: • X1 y X2 son las variables independientes. • a es la intercepción en Y. • b1 es el cambio neto en Y por cada cambio unitario en X1, manteniendo X2 constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta o bien coeficiente de regresión.
13-4 Análisis de regresión múltiple • La ecuación general de regresión múltiple con k variables independientes es: • El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación. • Como estimar b1, b2, etc. es muy tedioso, existen muchos programas de cómputo que pueden utilizarse para estimarlos.
13-5 Error estándar múltiple de la estimación • El error estándar múltiple de la estimación es la medida de la eficiencia de la ecuación de regresión. • Está medida en las mismas unidades que la variable dependiente. • Es difícil determinar cuál es un valor grande y cuál es uno pequeño para el error estándar.
13-6 Error estándar múltiple de la estimación • La fórmula es: • donde n es el número de observaciones y k es el número de variables independientes.
13-13 EJEMPLO • Un estudio de mercado para la cadena de tiendas autoservicio Super Dollar analiza la cantidad anual que gastan en comida las familias de cuatro o más miembros. Se piensa que tres variables independientes se relacionan con los gastos en comida. Esas variables son: ingreso familiar total, tamaño de la familia y si la familia tiene hijos en la universidad.
13-14 EJEMPLO continuación Ingresos ($1000) Tamaño de la familia Hijos en universidad Gastos en comida Familia
13-15 EJEMPLO continuación • Use un software, para desarrollar la matriz de correlación. • Del análisis proporcionado por el software, la ecuación de regresión es: • ¿Qué gastos en comida estima para una familia de 4 integrantes, sin hijos en la universidad y con ingresos de $50,000? • Y’= 954 + 10.9*50 +748*4+565*0= 4491