660 likes | 982 Views
ТЕМА 2. Множественный регрессионный анализ. Понятие множественной регрессии. Множественной регрессией называют уравнение связи с несколькими независимыми переменными: y* = f (x 1 ,x 2 ,...,x p ), Переменная у называется зависимой, объясняемой или результативным признаком.
E N D
ТЕМА 2 Множественный регрессионный анализ
Понятие множественной регрессии Множественной регрессией называют уравнение связи с несколькими независимыми переменными: y* = f (x1,x2,...,xp), Переменная у называется зависимой, объясняемой или результативнымпризнаком. х1, х2, …, хp – независимые, объясняющие переменные или факторные признаки (факторы). Соответствующая регрессионная модель имеет вид y = f (x1,x2,...,xp) + ε, где ε -ошибка модели, являющаяся случайной величиной.
Постановка задачи множественной регрессии по имеющимся данным n наблюдений за совместным изменением p+1 параметраy и xjи ((yi,xj,i); j=1, 2, ...,p; i=1, 2, ...,n) необходимо определить аналитическую зависимость y* = f(x1,x2,...,xp), наилучшим образом описывающую данные наблюдений.
Отбор факторов при построении множественной регрессии К факторам, включаемым в модель, предъявляются следующие требования: 1. Факторы не должны быть взаимно коррелированы . 2. Включение фактора в модель должно приводить к существенному увеличению доли объясненной части в общей вариации зависимой переменной.
Линейная зависимость между объясняющими переменными xiиxjсчитается установленной, если rxixj≥ 0,8. Сами факторы называются явно коллинеарными (эмпирическое правило).
Матрица коэффициентов корреляции
Для оценки мультиколлинеарности факторов можно использовать величину определителя Det |R| Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность между факторами и тем ненадежнее результаты множественной регрессии. Det |R|=0,000038
Способы преодоления линейной зависимости между факторами. • исключение одного из коррелирующих факторов; • переход с помощью линейного преобразования к новым некоррелирующим независимым переменным. • переход к смещенным оценкам, имеющим меньшую дисперсию.
Выбор формы уравнения регрессии Линейная множественная регрессия имеет вид y*= a +b1∙x1+b2∙x2+ ...+bp∙xp . Например, Qd= 2,5-0,12P + 0,23 I.
Степенная множественная регрессия имеет вид Например, Y=0,89K 0.23 L0.81
Оценка параметров уравнения линейноймножественной регрессии y*= a +b1∙x1+b2∙x2+ ...+bp∙xp S =(y*i-yi)2 → min
«Стандартизованные» переменные Уравнения множественной регрессии в стандартизованных переменных принимает вид: Величины βi называются стандартизованными коэффициентами.
Система нормальных уравнений МНК в стандартизованных переменных принимает вид:
Тогда нормализованное уравнение будет иметь вид: Находим коэффициенты уравнения регрессии.
Свободное слагаемое равно: Таким образом уравнение регрессии примет вид:
Проверка качества уравнения регрессии. F-критерий Фишера
Значение F-критерия Фишера при уровне значимости 0,05
Скорректированный, улучшенный коэффициент множественной детерминации
Точность коэффициентов регрессии. Доверительные интервалы [( X'X)-1 ]ii-диагональный элемент матрицы (X'X )-1.
Величину [( X'X)-1 ]ii можно вычислить как: где Aii-алгебраическое дополнение к элементу ii матрицы (X'X ) .
Для оценки статистической значимости коэффициентов регрессии применяется t-критерий Стьюдента. Согласно t-критерию Стьюдента, выдвигается «нулевая» гипотеза H0 о статистической незначимости коэффициента уравнения регрессии. Эта гипотеза отвергается при выполнении условия t > tтаб, гдеtтабопределяется по таблицамt-критерия Стьюдента по числу степеней свободы k = n-p-1 и заданному уровню значимости α.
Доверительные интервалы для параметров biуравнения линейной регрессииопределяются соотношениями: Величина tα,n-2 представляет собой табличное значение t-критерия Стьюдента на уровне значимости α при степени свободы n–p-1.
Проверим значимость каждого параметра
Значениеt-критерия Стьюдента при уровне значимости 0,10; 0,05; 0,01
Проверим значимость каждого параметра Проверим значимость каждого параметра гипотеза принимается
Рассчитаем доверительные интервалы для каждого параметра
Частные уравнения регрессии.Частная корреляция y*= a +b1∙x1+b2∙x2+ ...+bp∙xp Уравнение парной регрессии или
где На основе частных уравнений регрессии определяют частные коэффициенты эластичности где bi – коэффициенты регрессии для фактора хi в уравнении множественной регрессии; y*xip–значение результативного фактора, полученное из частногоуравнения регрессии при данном значении фактора хi.
Средние частные коэффициенты эластичности
имеет t-распределение Стьюдента с n–p–1 степенями свободы. Если t>t1–α;n–p–1,то коэффициент считается значимым. В случае только двух факторов х1 и х2 формула принимает вид
Проверка остатков регрессии Наблюдаемые отклонения ei=yi- f(x1i,x2i,…,xpi) Тест ранговой корреляции Спирменапроверяет наличие монотоннойзависимости между дисперсией ошибки и величиной фактора. Наблюдения(значения фактора xi и остатки ei) упорядочиваются по величине фактора x ивычисляется коэффициент ранговой корреляции Спирмена. где di – разность между рангами значений xi и ei в i-наблюдении.
Коэффициент ранговой корреляции ρx,e считается значимым на уровнезначимости α при n > 10, если выполняется условие где tα, n-2 – табличное значение t-критерия Стьюдента на уровне значимости αи при числе степеней свободы (n–2).
Значениеt-критерия Стьюдента при уровне значимости 0,10; 0,05; 0,01
Критерий Дарбина-Уотсона Т.о. если в остатках re1 = 1, то d = 0, re1 = -1, d = 4. Если автокорреляция остатков отсутствует, то re1 = 0 и d =2. Величина d изменяется в диапазоне 0 ≤ d ≤ 4.