120 likes | 339 Views
Modelo de regresión con dos variables: Problema de Estimación. la primera tarea consiste en estimar la función de regresión poblacional (FRP) con base en la función de regresión muestra (FRM) en la forma más precisa posible. En el apéndice A se analizan dos métodos de estimación frecuentes:
E N D
Modelo de regresión con dos variables: Problema de Estimación. la primera tarea consiste en estimar la función de regresión poblacional (FRP) con base en la función de regresión muestra (FRM) en la forma más precisa posible. En el apéndice A se analizan dos métodos de estimación frecuentes: mínimos cuadrados ordinarios (MCO ) máximo verosimilitud (MV). El método de MCO es el más común en el análisis de regresión, sobre todo por ser mucho más intuitivos y matemáticamente más sencillo que el método de máxima verosimilitud
Método de mínimos cuadrados ordinarios (MCO) método de mínimo cuadrados ordinarios se atribuye a Carl Friedrich Gauss, matemático alemán, A partir de ciertos supuestos, el método de mínimos cuadrados presenta propiedades estadísticas muy atractivas que lo han convertido en uno de los más eficaces y populares del análisis de regresión. Para entenderlo, primero explicaremos el principio de los mínimos cuadrados. Recuerde la FRP de dos variables: Yᵢ= β1+ β2Xᵢ+uᵢ Sin embargo, la FRP no es observable directamente. Se calcula a partir de la FRM: Yᵢ= β1+ β2Xᵢ+uᵢ = Yᵢ+uᵢ Donde ŷᵢ es el valor estimado (media condicional) de ŷᵢ. Pero, ¿cómo se determina la FRM? Para hacerlo, se procede de la siguiente forma. Primero, se expresa la ecuación uᵢ = Yᵢ + Yᵢ = Yᵢ - β1 - β2Xᵢ
Ahora, dados n pares de observaciones de Y y X, nos interesa determinar la FRM de manera que puede lo más cerca posible de la Y observada. Con este fin se adopta el siguiente criterio: se seleccionar la FRM de modo que la suma de los residuos Σ ûᵢ = Σ (Yᵢ-Yᵢ) sea la menor posible. Este criterio, aunque es intuitivamente atractivo, no es muy bueno, como se ve en el diagrama de dispersión hipotético de la figura
(1) (2) (3) (4) (5) (6) (7) (8) 4 1 2.929 1.071 1.147 4 0 0 5 4 7.000 -2.000 4.000 7 -2 4 7 5 8.357 -1.357 1.841 8 -1 1 12 6 9.714 2.286 5.226 9 3 9 28 16 0.0 12.214 0 14 Nota: Ŷᵢ = 1.572 + 1.357Xi (es decir β1 = 1.572 y β2 = 1.357) Ŷ2 = 3.0 + 1.0Xi(es decir β1 = 3.0 y β2 = 1.0) Û1 = (Y – Ŷ1) Û2 = (Y – Ŷ2)
Es evidente que: Σûᵢ² = f (β1, β2) Es decir, la suma de los residuos elevados al cuadro es algún tipo de función de los estimadores β1 y β2. Por cada conjunto dado de datos con diferentes valores para β1 y β2, se obtendrá como resultado û Diferentes y, por consiguiente, valores diferentes de Σûᵢ². Para ver esto claramente, consideramos las cifras hipotéticas de Y y de X de los primeras dos columnas de la tabla. Realicemos ahora dos experimentos. En el experimento 1, sea β1=1.572 y β2=1.357 (Por ahora no preocupa la forma como se obtuvieron estos valore; es decir, se trata de conjeturas). Con estos valores β Y los valores de X datos en la columna (2) de la tabla 3.1, se calcula fácilmente la Yᵢ es estimada dada en columna (3) de la tabla y denotada Ŷᵢ(El sub índice indica el primer perímetro ). Ahora realizaremos otro experimento, pero esta vez con los valores de β1=3 y β2=1. Los valores estimados de Y a partir de este experimento están dados por Y en la columna (6) de la tabla. Como los valores de β En los dos experimentos son diferentes, se obtienen también valores diferentes para los residuos estimados, como aparece en la tabla; û1, Corresponden a los del primero experimento y û2 Corresponden a los del segundo. Los cuadros de estos residuos están dados en las columnas (5) y (8). Como es lógico, según se esperaba de la ecuación, esta suma de residuos al cuadro son diferentes, pues se basan en conjuntos diferentes de valores de β.
El principio o método de mínimos cuadrados elige β1 y β2 de manera que, para una muestra o conjunto de datos determinados, Σûᵢ²es la pequeña posiblemercado de pintores. Como se observa en el proceso de diferenciación genera las siguientes ecuaciones para estimar β1 y β2: ΣYᵢ = nβ1 + β2Σxᵢ ΣYᵢXᵢ = β1ΣXᵢ + β2Σxᵢ² Donde n es el tamaño de la muestra. Estas ecuaciones simultáneas se conocen como ejecución normal. Al resolver las ecuaciones normales al mismo tiempo, obtenemos: Donde Ẋ y Ẏ son las medias muéstrales de X y Y, y donde se define Xᵢ= (Xᵢ-X) y Yᵢ= (Yᵢ-Ῡ). De aquí en adelante adoptaremos la convención de utilizar letras minúsculas para representar desviaciones respecto de los valores medios.
El último paso se obtiene directamente de la ecuación mediante manipulación algebraica simple. Por cierto, advierta que, con identidades algebraicas simples, la formula para estimar β2 se expresa también como: Los estimadores obtenidos antes se conocen como estimadores de mínimos cuadrados, pues se deberían del principio de mínimos cuadrados. Observe las siguientes propiedades numéricas de los estimadores obtenidos con el método de MCO: “propiedad numéricas son las que se mantienen como consecuencia de uso de mínimos cuadrados ordinarios, sin considerar la forma como se generaron los datos”. En breve consideramos también las propiedades estadísticas de los estimadores MCO, es decir, propiedades “que se mantienen solo con ciertos supuestos sobre la forma como se generaron los datos”.
Los estimadores de MCO se expresan únicamente en términos de la cantidad (es decir, X y Y) observables(es decir, muestras). Por consiguiente, se calculan en facilidad. • Son estimadores puntuales: dad la muestra, cada estimador proporciona un solo valor (puntual) del parámetro poblacional pertinente. (En el capítulo 5 consideramos los estimadores por intervalos, que proporcionan un intervalo de valores posibles para los parámetros poblacionales no conocidos.) • Una vez obtenidos los estimadores de MCO de los datos de la muestra, se obtiene sin problema la línea de regresión maestral. La línea de regresión así obtenida tiene los siguientes propiedades:
2.- El valor medio de Y estimada =ŷᵢ es igual al valor medio de Y real para • Ῡ = β1+ β2Xᵢ • = (Ῡ-β2Ẋ)+β2Xᵢ • = Ῡ+β2 (Xᵢ-Ẋ) • Al sumar ambos lados de esta última igualdad sobre los valores muéstrales y dividir por el tamaño n de la muestra, obtenemos: • Ŷ = Ῡ • Donde se aprovecha que Σ (Xᵢ-Ẋ) =0. (¿Por qué?) • 1.- Pasa a través de la medidas muéstrales de Y y X. Esto es evidente por la ecuación, pues esta ecuación puede escribirse Ῡ= β1 + β2Ẋ, como se observa gráficamente en la figura. • 3.- El valor medio de los residuos û es cero. Del apéndice 3A, sección de 3A.1, la primera ecuación es • -2 Σ (Yᵢ-β1-β2Xᵢ)=0 • Pero, como ûᵢ = ŷᵢ - β1 – β2Xᵢ, la ecuación se reduce a -2Σûᵢ = 0, y se tiene que û =0⁶. • Como resultado de la propiedad anterior, la regresión muestral • Yᵢ = β1+ β2Xᵢ+ûᵢ
Diagrama que muestra como línea de regresión muestral pasa a través de los valores de la medias muéstrales de Y y X. Y Ŷ = β1-Β2Xi Ŷ X X
Puede definirse de una forma en la cual Y y X se expresan como desviación de sus medias. Para precisar lo anterior, sume en ambos lados para obtener Σ Yᵢ=nβ1 + β2 Σ Xᵢ+ Σ ûᵢ = nβ1+ β2 Σ Xᵢ donde Σ ûᵢ=0 Al dividir la ecuación entre n, obtenemos Ῡ = β1+ β2Ẋ Si restamos la ecuación obtenemos Yᵢ -Y= β2 (Xᵢ- Ẋ)+ûᵢO Yᵢ = β2Xᵢ+ûᵢ Donde Yᵢ y Xᵢ, de acuerdo con lo convenido, representan desviaciones de los valores respectivos de sus medias (muéstrales). La ecuación se conoce como forma de desviación. Observe que el termino del intercepto β1 ha desaparecido. Pero este término siempre podrá estimarse mediante X. Una ventaja de la forma de desviación es que esta simplifica a menudo los cálculos de las formulas. Observe de paso que, en forma d desviación, la FRM se escribe como Yᵢ = β2Xᵢ Mientras que en las unidades de medición originales, dicha expresión era ŷᵢ =β1 + β2 Xᵢ.
4.- Los residuos ûᵢ no están correlacionados con el valor pronosticado de Yᵢ, lo cual se verifica de la siguiente manera: con la forma de desviación se escribe • Σ Yᵢ ûᵢ = β2 Σ Xᵢ ûᵢ • = β2 Σ Xᵢ (Yᵢ- β2 Xᵢ) • = β2 Σ XᵢYᵢ- β2² Σ Xᵢ² • = β2² Σ Xᵢ²- β2² Σ Xᵢ² • =0 • Donde se aprovecha que β2 = ΣXᵢyᵢ/Σx²ᵢ. • 5.- Los residuos ûᵢ no están correlacionados con Xᵢ, es decir, ΣûᵢXᵢ =0, Esto se desprende de la ecuación (2) en el apéndice 3A, sección 3A.1.