200 likes | 211 Views
Learn why quantification is important in finding patterns, correlations, and causal relationships using regression analysis. Explore the fundamentals and elements of regression equations and the significance of scatterplots.
E N D
WHY QUANTIFICATION?LA RECTA DE REGRESIÓN(Y SUS FUNDAMENTOS LÓGICOS)
EVERYDAY MEASUREMENT Barack Obama is much smarter than Donald Trump. San Diego is a very pleasant place to live. Some classes are harder than others. Blue jeans are more comfortable than other pants.
ANALYTICAL GOAL • Finding patterns within a large array of observations • Seeking correlations between factors/variables • Explaining presence (or absence) of correlations; i.e., causal patterns • Note: Logic similar to comparative method
ESQUEMA • Las reglas del juego: variables de intervalo y la medición de la intensidad de la relación • La recta de regresión = la forma de la relación • Nota: la importancia del diagrama de puntos (o del scatterplot) • Ejemplos siguen
DIMENSIONES DE ASOCIACIONES ESTADÍSTICAS • Forma (o dirección) • Intensidad (o fuerza) • Confianza (o probabilidad = “significance” en inglés)
ELEMENTOS BÁSICOS Construcción del modelo: Identificación de la variable respuesta (dependiente) y de la variable explicativa (independiente) La pendiente b de la recta de regresion: Cuánto varía la variable respuesta cuando la variable explicativa incrementa en una unidad; o sea, determina el ángulo de la recta La ordenada en el origen a: El valor previsto de la variable respuesta cuando el valor de la explicativa es cero
Example: % High School Graduates (X) and % Turnout (Y)
Regression Equation: High School Graduates and Turnout
LA REDUCCIÓN DE ERROR PRE = (E1 – E2)/E1 • Guessing Y without knowing X: mean value of Y E1 = Σ(Yi –Y)2 • Guessing Y given knowledge of X: Yi = a + bXi Stipulations: a linear relationship, such that sum of squared deviations of observed values of Y from predicted values is minimal—thus, the line of “least squares”
E1 = suma de desviaciones cuadradas de la media E2 = suma de desviaciones cuadradas de la recta de regresión Reducción relativa de error = (E1 – E2)/E1 Una medición directa de la intensidad de la relación, mientras La recta de la regresión—o sea, la ecuación misma—muestra la forma de la relación.
INTENSIDAD DE LA ASOCIACIÓN Símbolo = r2 = (E1 – E2)/E1 = (varianza total – varianza no explicada)/varianza total = varianza explicada/varianza total
El coeficiente de correlación r Comprendido entre -1 y 1 Forma de la relación Simétrico El coeficiente de determinación r2 Fluctúa desde 0 y 1 Intensidad de la relación Valores ejemplares: 0.10, 0.30, 0.50+
Estimated turnout = -26.27 + .87 (% graduates) When X is zero, predicted y = - .26.27 Question: Where is X when predicted value of Y = 0? Answer: Around 30.2 (compare to minimal value of X) Slope = +.87 (for every 1 percent increase in high-school graduates, an increase of .87 percent in turnout)
On the Importance of the Scattergram 1. Visual confirmation of observed relationship 2. Identify patterns in deviations from the line—that is, in patterns among “residual values” 3. This is crucial since different arrays of data can produce identical regression lines (same form, that is, but different strength) 4. Identification of “outliers” (extreme cases)