1 / 23

Unidad 4

Unidad 4. Análisis de los Datos. 12-3.

cole-obrien
Download Presentation

Unidad 4

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Unidad 4 Análisis de los Datos

  2. 12-3 • Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia central, variabilidad, representaciones gráficas. Se pretende conocer cada variable así como detectar errores, valores extremos, etc. • Estadística Bivariable: estudia las relaciones entre pares de variables, utilizando estadísticos como el coeficiente de correlación, chi-cuadrado,t de Student, y representaciones gráficas diversas.

  3. 12-4 Análisis Multivariante: analiza simultáneamente dos o más variables. Los métodos pueden ser predictivos cuando existe una variable criterio o independiente que explica o identifica por un conjunto de variables independientes o explicativas.Ej:Regresión lineal, regresión logística, análisis discriminante, árboles de segmentación, análisis de la varianza o reductivos: cuando se estudian las relaciones entre un conjunto de variables sin que exista una variable a identificar. Ej: análisis factorial, correspondencias binarias, correspondencias múltiples, etc.

  4. 12-10 Análisis Bivariante – relación entre dos variables. • Dos variables cuantitativas: Correlación. Regresión lineal simple. • Dos variables cualitativas: Tabulación cruzada. Porcentajes. Estadístico Chi-cuadrado y otros. • Una cuantitativa y una cualitativa: ANOVA ( análisis de la varianza). Se dividen a su vez en paramétrico para dos grupos (T Student) y más de dos grupos(Test F).

  5. Regresión y correlación lineal simple y múltiple

  6. 12-3 Análisis de correlación • Análisis de correlación: se usa un grupo de técnicas estadísticas para medir la fuerza de la relación (correlación) entre dos variables. • Diagrama de dispersión: gráfica que describe la relación entre las dos variables de interés. • Variable dependiente: la variable que se pronostica o estima. • Variable independiente: la variable que proporciona la base para la estimación. Es la variable predictora.

  7. 12-4 Coeficiente de correlación de Pearson, r • El coeficiente de correlación (r) es una medida de la intensidad de la relación entre dos variables. Indica si hay una relación lineal entre las mismas. • Requiere datos con escala de intervalo o de razón (variables). • Puede tomar valores entre -1.00 y 1.00. • Valores de -1.00 o 1.00 indican correlación fuerte y perfecta. • Valores cercanos a 0.0 indican correlación débil. • Valores negativos indican una relación inversa y valores positivos indican una relación directa.

  8. 12-5 Correlación negativa perfecta 10 9 8 7 6 5 4 3 2 1 0 Y 0 1 2 3 4 5 6 7 8 9 10 X

  9. 12-6 Correlación positiva perfecta 10 9 8 7 6 5 4 3 2 1 0 Y 0 1 2 3 4 5 6 7 8 9 10 X

  10. 12-7 Correlación cero 10 9 8 7 6 5 4 3 2 1 0 Y 0 1 2 3 4 5 6 7 8 9 10 X

  11. 12-8 Correlación positiva fuerte 10 9 8 7 6 5 4 3 2 1 0 Y 0 1 2 3 4 5 6 7 8 9 10 X

  12. 12-10 Coeficiente de determinación • El coeficiente de determinación, r2 - la proporción de la variación total en la variable dependiente Y que está explicada por o se debe a la variación en la variable independiente X. • El coeficiente de determinación es el cuadrado del coeficiente de correlación, y toma valores de 0 a 1.

  13. 12-15 Análisis de regresión • Propósito: determinar la ecuación de regresión; se usa para predecir el valor de la variable dependiente (Y) basado en la variable independiente (X). • Procedimiento: seleccionar una muestra de la población y enumerar los datos por pares para cada observación; dibujar un diagrama de dispersión para visualizar la relación; determinar la ecuación de regresión.

  14. 12-16 Análisis de regresión • La ecuación de regresión: Y’= a + bX, donde: • Y’ es el valor promedio pronosticado de Y para cualquier valor de X. • a es la intercepción en Y, o el valor estimado de Y cuando X = 0 • b es la pendiente de la recta, o cambio promedio en Y’ por cada cambio de una unidad en X • se usa el principio de mínimos cuadrados para obtener a y b:

  15. 12-18 Error estándar de la estimación • Elerror estándar de la estimación mide la dispersión de los valores observados alrededor de la recta de regresión. • Fórmulas usadas para calcular el error estándar:

  16. Análisis de • Regresión y Correlación Múltiples

  17. 13-3 Análisis de regresión múltiple • Para dos variables independientes, la fórmula general de la ecuación de regresión múltiple es: • X1 y X2 son las variables independientes. • a es la intercepción en Y. • b1 es el cambio neto en Y por cada cambio unitario en X1, manteniendo X2 constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta o bien coeficiente de regresión.

  18. 13-4 Análisis de regresión múltiple • La ecuación general de regresión múltiple con k variables independientes es: • El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación. • Como estimar b1, b2, etc. es muy tedioso, existen muchos programas de cómputo que pueden utilizarse para estimarlos.

  19. 13-5 Error estándar múltiple de la estimación • El error estándar múltiple de la estimación es la medida de la eficiencia de la ecuación de regresión. • Está medida en las mismas unidades que la variable dependiente. • Es difícil determinar cuál es un valor grande y cuál es uno pequeño para el error estándar.

  20. 13-6 Error estándar múltiple de la estimación • La fórmula es: • donde n es el número de observaciones y k es el número de variables independientes.

  21. 13-13 EJEMPLO • Un estudio de mercado para la cadena de tiendas autoservicio Super Dollar analiza la cantidad anual que gastan en comida las familias de cuatro o más miembros. Se piensa que tres variables independientes se relacionan con los gastos en comida. Esas variables son: ingreso familiar total, tamaño de la familia y si la familia tiene hijos en la universidad.

  22. 13-14 EJEMPLO continuación Ingresos ($1000) Tamaño de la familia Hijos en universidad Gastos en comida Familia

  23. 13-15 EJEMPLO continuación • Use un software, para desarrollar la matriz de correlación. • Del análisis proporcionado por el software, la ecuación de regresión es: • ¿Qué gastos en comida estima para una familia de 4 integrantes, sin hijos en la universidad y con ingresos de $50,000? • Y’= 954 + 10.9*50 +748*4+565*0= 4491

More Related