380 likes | 879 Views
CAPÍTULO 4. Introducción a la Estadística. Modelos de regresión. Distribuciones Bidimensionales. Se estudian 2 caracteres estadísticos de la población. Por ejemplo: Las tallas y pesos de un grupo de personas. Distribuciones Bidimensionales.
E N D
CAPÍTULO 4 Introducción a la Estadística. Modelos de regresión
Distribuciones Bidimensionales • Se estudian 2 caracteres estadísticos de la población. • Por ejemplo: Las tallas y pesos de un grupo de personas.
Distribuciones Bidimensionales • ¿Qué relación puede haber entre las tallas y los pesos de un grupo de personas? • NO ESTRICTAMENTE FUNCIONAL
Distribuciones Bidimensionales • Francis Galton (1822-1911) • Relación entre las estaturas de padres e hijos. • La estatura de los hijos “regresaba” a la media general. • De aquí el término REGRESIÓN.
Modelos de regresión • PROBLEMA • Obtener un modelo matemático que relacione dos o más variables a partir de un número limitado de observaciones.
Tipos de dependencia • Dependencia funcional exacta • Dependencia estadística o correlación • Independencia
Dependencia funcional • Las variables x e y están relacionadas mediante una fórmula. • A un valor de x le corresponde exactamente un valor de y. • Ejemplo: Altura desde la que cae un cuerpo y tiempo que tarda en llegar al suelo.
Dependencia EstadísticaCorrelación • Los valores de x e y siguen pautas similares, pero su relación no es exacta. • Ejemplos: • Estatura y peso. • Edad del marido y de la mujer. • Nivel de lluvias y cosechas.
Dependencia Estadística Positiva Función de regresión: RECTA
Dependencia Estadística Positiva Función de regresión: Parábola
Independencia • Las variables x e y no tienen ninguna relación o pauta entre ellas. • Ejemplo: Estatura de los alumnos y calificación en Matemáticas.
Modelos de regresión • Problemas Fundamentales: • Determinar la función de regresión: recta, parábola, exponencial, potencial, … • Medir el nivel de aproximación de dicha función a los puntos.
Parámetros marginales • Partimos de n observaciones efectuadas para las variables x e y. • Calculamos las medias y varianzas marginales.
Parámetros marginales • Medias: • Varianzas:
Covarianza • Nos indica si hay (o no) dependencia lineal entre las variables x e y.
Covarianza • Si existe dependencia lineal entre x e y. • Dependencia Directa: • Dependencia Inversa: • Si x e y son independientes.
Covarianza • Se expresa en las mismas unidades que las variables. • Ejemplo: x es el peso (en kg) y es la estatura (en cm) Covarianza se expresa en kg por cm.
Covarianza • Un problema que presenta es que es una magnitud absoluta • No indica si el grado de dependencia entre las variables es elevado. • Sólo nos dice si existe dependencia (o no) y su tipo (directa o inversa)
Coeficiente de correlación lineal • Es una medida del grado de dependencia entre las variables x e y.
Coeficiente de correlación lineal • No tiene unidad de medida. Es sólo un número. • Tiene el mismo signo que la covarianza (Sxy). Porque las desviaciones típicas son positivas: Sx>0 y Sy>0
Coeficiente de correlación lineal • -1 r 1 • Cuanto más se aproxime r a 1 o -1 mayor es la dependencia entre x e y. • En tal caso, una recta aproximará casi de forma perfecta la nube de puntos.
Coeficiente de correlación lineal • -1 r 1 • Si r es próximo a 0, no existirá dependencia lineal. • Aunque puede existir otro tipo de dependencia: polinómica, potencial, exponencial, etc.
Función de regresión • Función f que aproxime los datos observados para las variables x e y. • Nube de puntos Tipo de función más adecuada para el ajuste.
Tipos de funciones de regresión • Lineal: f(x) = a + bx • Polinómica: f(x) = ao + a1x + … + anxn • Exponencial: f(x) = aebx • Potencial: f(x) = axb
Ajuste por mínimos cuadrados • Se hace mínima la suma de los cuadrados de las diferencias entre los valores observados (yi) y los valores teóricos f(xi):
Regresiónexponencial • El problema se hace lineal tomando logaritmos:
Regresiónlineal • La pendiente es: • La recta pasa por el centro de gravedad de la nube de puntos:
Error Típico o Error Estándar • Mide la precisión (bondad) del ajuste de una función de regresión:
Error Típico o Error Estándar • Si tenemos varias funciones de ajuste, se calcula el Error Típico de cada una, y el menor error será el que nos dará la mejor función de ajuste. • El número e(f) no es una medida absoluta de la bondad del ajuste, sino que es una medida para comparar entre varias funciones la mejor.
Regresiónpotencial • El problema se hace lineal tomando logaritmos: