290 likes | 482 Views
Исследование остаточных величин. В задачу регрессионного анализа входит не только построение самой модели, но и исследование случайных отклонений, т.е. остаточных величин. Оценки параметров регрессии должны отвечать определенным критериям:
E N D
Исследование остаточных величин. • В задачу регрессионного анализа входит не только построение самой модели, но и исследование случайных отклонений, т.е. остаточных величин.
Оценки параметров регрессии должны отвечать определенным критериям: • Несмещенность оценки (математическое ожидание остатков равно нулю). • Эффективность(оценки имеют наименьшую дисперсию). • Состоятельность( увеличение точности с увеличением объема выборки )
Указанные критерии оценок (несмещенность, состоятельность, эффективность) обязательно учитываются при разных способах оценивания. • Так как метод наименьших квадратов строит оценки регрессии на основе минимизации суммы квадратов остатков, то очень важно исследовать поведение остаточных величин регрессии i
Исследование остатковiпредполагают проверку наличия следующих пятипредпосылок МНК: • случайный характер остатков; • нулевая средняя величина остатков, не зависящих от x; • гомоскедастичность – дисперсия каждого отклонения одинаковая для всех значений x; • отсутствие автокорреляции остатков. Значения остатков распределены независимо друг от друга; • остатки подчиняются нормальному распределению.
Если распределение случайных остатков не соответствует некоторым предпосылкам МНК, то следует корректировать модель.
Прежде всего, проверяется случайный характер остатков - первая предпосылка МНК. • С этой целью строится график зависимости остатков i от теоретических значений результативного признака yx .
8 6 4 2 20 -2 2 4 6 8 10 12 14 16 18 -4 -6 -8
Если на графике получена горизонтальная полоса (из точек, как показано на рис.), то остатки i представляют собой случайные величины и МНК оправдан, теоретические значения yx аппроксимируют фактические значения y. • Возможны следующие случаи: если i зависит от yx , то: • остатки не случайны (рис. а); • остатки не имеют постоянной дисперсии (рис. в); • остатки носят систематический характер (рис. б),
В этих случаях необходимо либо применять другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии до тех пор, пока остатки не будут случайными величинами.
Вторая предпосылка МНК относительно нулевой средней величины остатков означает, что .
В соответствии с третьей предпосылкой МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора остатки должны иметь одинаковую дисперсию. Если это условие не соблюдается, то имеет место гетероскедастичность. • Наличие гетероскедастичности можно наглядно видеть из графика зависимости остатков от теоретических значений результативного признака.
Примеры гетероскедастичности: • дисперсия остатков растет по мере увеличения x;
дисперсия остатков достигает максимальной величины при средних значениях переменной х и уменьшается при минимальных и максимальных значениях х;
максимальная дисперсия остатков при малых значениях х и дисперсия остатков однородна по мере увеличения значений х
Метод Гольдфельда — Квандта • При малом объеме выборки, что наиболее характерно для эконометрических исследований, для оценки гетероскедастичности может использоваться метод Гольдфельда — Квандта.
метод Гольдфельда — Квандта., включает в себя следующие шаги. • 1. Упорядочение n наблюдений по мере возрастания переменной у. • 2. Исключение из рассмотрения С центральных наблюдений;при этом (n - С): 2 > р, где р — число оцениваемых параметров.
3. Разделение совокупности из наблюдений на две группы (соответственно с малыми и большими значениями фактора x) и определение по каждой из групп уравнений регрессии. • 4. Определение остаточной суммы квадратов для первой и второй групп и нахождение их отношения:
При выполнении нулевой гипотезы о гомоскедастичности отношение Rбудет удовлетворять F-критерию с : (n-C-2p):2 степенями свободы для каждой остаточной группы квадратов. • Чем больше величина превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин.
четвертая предпосылка МНК - отсутствие автокорреляции остатков, т. е. значения остатков распределены независимо друг от друга. • Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Коэффициент корреляции между и , где - остатки текущих наблюдений, - остатки предыдущих наблюдений (например, j = i - 1), может быть определен по формуле:
Наряду с предпосылками МНК должны соблюдаться определенные требования относительно переменных, включаемых в модель. • Это возможно, если число наблюдений n превышает число оцениваемых параметров m.
Пример использования метода Гольдфельда — Квандта • Поступление доходов в бюджет Санкт-Петербурга (у — млрд руб.) в зависимости от численности работающих на крупных и средних предприятиях (х -тыс. чел.) экономики районов за 1994 г.
№п/п Районы города xi yi 1 Павловский 3 4,4 -1,0 5,4 2 Кронштадт 6 8,1 2,5 5,6 3 Ломоносовский 8 12,9 4,9 8,0 4 Курортный 18 20,8 16,6 4,2 5 Петродворец 20 15,5 19,0 -3.5 6 Пушкинский 23 28,8 22,5 6,3 7 Красносельский 39 37,5 41,4 -3,9 8 Приморский 49 48,7 53,2 -4,5 9 Колпинский 60 68,6 66,1 2,5 10 Фрунзенский 74 104,6 82,6 22,0 11 Красногвардейский 79 90,5 88,5 2,0 12 Василеостровский 95 88,3 107,4 -19,1 13 Невский 106 132,4 120,4 12,0 14 Петроградский 112 122,0 127,4 -5,4 15 Калининский 115 99,1 131,0 -31,9 16 Выборгский 125 114,2 142,7 -28,5 17 Кировский 132 150,6 151,0 -0,4 18 Московский 149 156,1 171,0 -14,9 19 Адмиралтейский 157 209,5 180,5 29,0 20 Центральный 282 342,9 327,8 15,1 Итого 1652 1855,5 1855,5 0,0
В соответствии с уравнением найдены теоретические значения иотклонения от их фактических значений , т. е. ..
Итак, остаточные величиныобнаруживают тенденцию к росту по мере увеличения и
Этот вывод подтверждается и по критерию Гольдфельда – Квандта. • Для его применения необходимо определить сначала число исключаемых центральных наблюдений C. • При n=20 беремC=4(при n=60C= 16, при n=30C=8). Тогда в каждой группе будет по 8 наблюдений. Результаты расчетов представлены в таблице.
Уравнения регрессии Уравнения регрессии Уравнения регрессии x x x y y y 1 -я группа с первыми 8 районами: r =0,979 F = 136,4 1 -я группа с первыми 8 районами: r =0,979 F = 136,4 1 -я группа с первыми 8 районами: r =0,979 F = 136,4 3 3 3 4,4 4,4 4,4 5,7 5,7 5,7 -1,3 -1,3 -1,3 1,69 1,69 1,69 6 6 6 8,1 8,1 8,1 8,5 8,5 8,5 -0,4 -0,4 -0,4 0,16 0,16 0,16 8 8 8 12,9 12,9 12,9 10,3 10,3 10,3 2,6 2,6 2,6 6,76 6,76 6,76 18 18 18 20,8 20,8 20,8 19,6 19,6 19,6 1,2 1,2 1,2 1,44 1,44 1,44 20 20 20 15,5 15,5 15,5 21,4 21,4 21,4 -5,9 -5,9 -5,9 34,81 34,81 34,81 23 23 23 28,8 28,8 28,8 24,2 24,2 24,2 4,6 4,6 4,6 21,16 21,16 21,16 39 39 39 37,5 37,5 37,5 38,9 38,9 38,9 -1,4 -1,4 -1,4 1,96 1,96 1,96 49 49 49 48,7 48,7 48,7 48,1 48,1 48,1 0,6 0,6 0,6 0,36 0,36 0,36 Сумма Сумма Сумма 68,34 68,34 68,34 2-я группа с последними 8 районами: r =0,969 F =93,4 2-я группа с последними 8 районами: r =0,969 F =93,4 106 106 132,4 132,4 110,7 110,7 21,7 21,7 470,89 470,89 112 112 122,0 122,0 118,7 118,7 3,3 3,3 10,89 10,89 115 115 99,1 99,1 122,7 122,7 -23,6 -23,6 556,96 556,96 125 125 114,2 114,2 136,1 136,1 -21,9 -21,9 479,61 479,61 132 132 150,6 150,6 145,4 145,4 5,2 5,2 27,04 27,04 149 149 156,1 156,1 168,2 168,2 -12,1 -12,1 146,41 146,41 157 157 209,5 209,5 178,9 178,9 30,6 30,6 936,36 936,36 282 282 342,9 342,9 346,1 346,1 -3,2 -3,2 10,24 10,24 Сумма Сумма 2638,40 2638,40 • Проверка регрессии на гетероскедастичность.
Уравнения регрессии 2-я группа с последними 8 районами: r =0,969 F =93,4 x 106 y 132,4 110,7 21,7 470,89 112 122,0 118,7 3,3 10,89 115 99,1 122,7 -23,6 556,96 125 114,2 136,1 -21,9 479,61 132 150,6 145,4 5,2 27,04 149 156,1 168,2 -12,1 146,41 157 209,5 178,9 30,6 936,36 282 342,9 346,1 -3,2 10,24 Сумма 2638,40
Величина , что превышает табличное значение – F-критерия 4,28 при 5 %-ном уровне значимости для числа степеней свободы 6 для каждой остаточной суммы квадратов , подтверждая тем самым наличие гетероскедастичности.