330 likes | 848 Views
ПОДБОР ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ ДЛЯ ЛИНЕЙНОЙ МОДЕЛИ. Лекция 11. С формальной точки зрения, объясняющие переменные в линейной эконометрической модели должны обладать следующими свойствами: • иметь высокую вариабельность; • быть сильно коррелированными с объясняемой переменной;
E N D
ПОДБОР ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ ДЛЯ ЛИНЕЙНОЙ МОДЕЛИ Лекция 11
С формальной точки зрения, объясняющие переменные в линейной эконометрической модели должны обладать следующими свойствами: • иметь высокую вариабельность; • быть сильно коррелированными с объясняемой переменной; • быть слабо коррелированными между собой; • быть сильно коррелированными с представляемыми ими другими переменными, не используемыми в качестве объясняющих*.
Объясняющие переменные подбираются с помощью • статистических методов. • Процедура подбора переменных состоит из • следующих этапов: • На основе накопленных знаний составляется • множество так называемых потенциальных • объясняющих переменных (первичных переменных), • в которое включаются все важнейшие величины, • влияющие на объясняемую переменную. • Такие переменные будем обозначать • Х1 Х2, ..., Хт.
Собирается статистическая информация о • реализациях как объясняемой переменной, • так и потенциальных объясняющих переменных. • Формируется вектор у наблюдаемых значений • переменной Y и матрица X наблюдаемых • значений переменных Х1, Х2, ..., Хтв виде
3. Исключаются потенциальные объясняющие • переменные, характеризующиеся слишком низким • уровнем вариабельности. • Рассчитываются коэффициенты корреляции • между всеми рассматриваемыми переменными. • Множество потенциальных объясняющих • переменных редуцируется с помощью • выбранной статистической процедуры
Исключение квазинеизменных переменных Предварительным условием присвоения различным величинам статуса объясняющих переменных считается достаточно высокая вариабельность. В качестве меры вариабельности используется коэффициент вариации где Xj — среднее арифметическое переменной X;.
тогда как Sj — стандартное отклонение переменной Xj. Задается критическое значение коэффициента вариации v*, например v* = 0,10. Переменные, удовлетворяющие неравенству vi<v* признаются квазинеизменными и исключаются из множества потенциальныхобъясняющих переменных. Эти переменные не несут значимой информации
Пример 1. Для описания объема производства на предприятии (Y), измеряемого в млн руб., рассматриваются четыре величины: Х1— количество работающих, тыс. чел.; Х2 — стоимость машин и оборудования, млн руб.; Х3 — длительность простоя машин, дней; Х4— инвестиционные затраты, млн руб. Значения конкретных переменных за период 1991—2000 гг. представлены в табл. 1.
Призаданном критическом значении коэффициента = 0,15 проверяем, обладают ли потенциальны объясняющие переменные достаточно высокой вариабельностью. v* Стандартные отклонения потенциальных объясняющих переменных равны соответственно:
Коэффициенты вариации рассматриваемых переменных принимают следующие значения: Поскольку значение коэффициента Х4 меньше заданного критического значения v*=0,15данная переменная (инвестиционные затраты) признается квазинеизменнои переменной и удаляется из множества потенциальных объясняюших переменных
Вектор и матрица коэффициентов корреляции Для оценивания силы линейной зависимости объясняемой переменной Yот потенциальных объясняющих переменных Х1, Х2, .., Хт рассчитываются коэффициенты корреляции:
Эти коэффициенты представляются в виде вектора корреляции:
Коэффициенты корреляции между потенциальными объясняющими переменными Х1, Х2, ..., Хт рассчитываются по формуле
образуют матрицу корреляции R: Матрица R симметрична, т. е. rij= rji.
Метод анализа матрицы коэффициентов корреляции Идея этого метода сводится к выбору таких объясняющих переменных, которые сильно коррелируют с объясняемой переменной и, одновременно, слабо коррелируют между собой. В качестве исходных точек рассматриваются вектор R0 и матрица К
Для заданного уровня значимости (например, 5%, т.е. 0,05) и для (п — 2) степеней свободы рассчитывается так называемое критическое значение коэффициента корреляции: где /* — значение t-распределения Стьюдента для заданного уровня значимочти и для (п — 2) степеней свободы.
Критическое значение коэффициента корреляции r* • также может априорно задаваться аналитиком. • Процедура подбора объясняющих переменных • состоит из следующих этапов: • Из множества потенциальных объясняющих • переменных исключаются все элементы, которые • удовлетворяют неравенству • abs(ri)< r* • поскольку они несущественно коррелируют • объясняемой переменной.
Из оставшихся переменных объясняющей признается • такая переменная Хh, для которой • \rh\ = max{ri}, • поскольку Xhявляется носителем наибольшего количества • информации об объясняемой переменной. • 3. Из множества потенциальных объясняющих переменных исключаются все элементы, которые удовлетворяют неравенству • rhi >r* • поскольку эти переменные слишком сильно коррелируют • с объясняющей переменной , и, следовательно, только • воспроизводят представляемую ею информацию. • Этапы 1—3 повторяются вплоть до момента опустошения • множества потенциальных объясняющих переменных.
Метод показателей информационной ёмкости Идея метода показателей информационной емкости cводится к выбору таких объясняющих переменных,которые сильно коррелированы с объясняемой переменной, и одновременно, слабо коррелированы между собой. В качестве исходных точек этого метода рассматриваются вектор R0и матрица R. Рассматриваются все комбинации потенциальных объясняющих переменных, общее количество которых составляет I = 2n-1.
Для каждой комбинации потенциальных объясняющих переменных рассчитываются индивидуальные и интегральные показатели информационной емкости. Индивидуальные показатели информационной ёмкости в рамках конкретной комбинации рассчитываются по формуле
В этом выражении l обозначает номер переменной, а тl — количество переменных в рассматриваемой комбинации. Интегральные показатели информационной емкости потенциальных объясняющих переменных рассчитываются по формуле
Индивидуальные у интегральные показатели информационной ёмкости нормируются в интервале [0; 1]. Их значения оказываются тем больше чем сильнее объясняющие переменные коррелируют с объясняемои перемени и чем слабее они коррелируют между собой. В качестве объясняющих выбирается такая комбинация переменных, которой соответствует максимальное значение интегрального показателя информационной емкости.
Пример 4. Необходимо подобрать объясняющие переменные для линейной модели, описывающей производство скота в живом весе в расчёте на 1 га сельхозугодий (У) на некотором аграрном предприятии. Рассматривается cледующее множество потенциальных объясняющих переменных: Х1 — урожай кормовой кукурузы, Х2 — доля стоимости растительной агропродукции в общей стоимости продукции сельского хозяйства, Х3 — средние закупочные цены мяса в живом весе, Х4 — использование комбикормов.
На основе статистических данных за 1986—2000 гг. построен вектор коэффициентов корреляции между переменной У и переменными Х1 Х2, Х3, Х4, а также матрица коэффициентов корреляции между переменными X1,Х2,Х3, Х4:
Выберем объясняющие переменные при помощи метода показателей информационной емкости. Поскольку рассматриваются четыре потенциальные объясняющие переменные, необходимо проанализировать L = 24 — 1 = 15 комбинаций переменных Перечислим все эти комбинации:
Интегральные показатели информационной емкости одноэлементных комбинаций идентичны индивидуальным показателям емкости, Которые, в свою очередь, равны квадратам коэффициентов корреляции между объясняемой переменной и потенциальными объясняющими переменными. Taкимобразом
Для двухэлементной комбинации С5 = (Х1, Х2) рассчитываются два индивидуальных показателя информационной емкости: h51, относящийся к переменной Х1, и h52, относящийся к переменной Х2: Интефальный показатель информационной емкости этой комбинации равен: H5 = h51 + h52 = 0,113 + 0,390 = 0,503.
После проведения аналогичных расчетов для остальных двухэлементных комбинаций получаем:
В свою очередь, рассмотрим трехэлементную комбинацию С11= {Х1, Х2, X3). Рассчитаем индивидуальные показатели информационной ёмкости:
После проведения аналогичных расчетов для остальных трехэлементных комбинаций получаем: Интегральный показатель информационной емкости этой комбинации равен:
Далее рассчитаем индивидуальные показатели информационной ёмкости переменных Х\, Х2, Х3 и Х4(комбинация С15):
Интегральный показатель информационной ёмкости равен: H15=h15,1 + h15,2 + h15,з + h15,4 = 0,585. Максимальное значение интегрального показателя Информационной ёмкости равно 0,668 и относится к комбинации С9, включающей переменные Х2и Х4. Это означает, что в линейной модели, описывающей уровень производства скота в живом весе на 1 га сельхозугодий на рассматриваемом аграрном предприятии,в качестве объясняющих переменных должны применятьсяХ2— доля стоимости растительной агропродукции в общей стоимости продукции сельского хозяйства, Х4 — использование комбикормов. Модель примет вид