530 likes | 1.24k Views
Лекция 7 Многомерный регрессионный анализ. Многомерный регрессионный анализ. был разработан для прогнозирования экономической активности в различных отраслях экономики (денежные потоки, уровни доходов, банковские ставки, уровень рождаемости, безработицы и т.д.)
E N D
Лекция 7Многомерный регрессионный анализ
Многомерный регрессионный анализ • был разработан для прогнозирования экономической активности в различных отраслях экономики (денежные потоки, уровни доходов, банковские ставки, уровень рождаемости, безработицы и т.д.) • полезен для прогнозов будущих тенденций и для оценки и корректировки текущей стратегии (оценки настоящего)
Многомерная регрессия Для прогноза зависимой переменной используется более одной независимой переменной Признаки хорошей независимой переменной: • связанна с зависимой переменной • не имеет тесной связи с любой другой независимой переменной Мультиколлинеарность
Многомерная регрессия Зависимая переменная – объем продаж молока Независимые переменные: цена за 1 л, расходы на рекламу
Многомерная регрессия Корреляционная матрица составляется из коэффициентов корреляции, вычисленных для каждой возможной пары переменных • r12 = r21 и т. д. • r11 = r22 = r33 = 1
Многомерная регрессионная модель Математическое ожидание зависимой величины является линейной функцией всех объясняющих ее переменных Многомерная регрессионная функция генеральной совокупности
Многомерная регрессионная модель Статистическая модель многомерной регрессии Метод наименьших квадратов
Многомерная регрессионная модель Пример с молоком
Интерпретация коэффициентов регрессии • b0 – свободный член (значение при Х1 и Х2, равных нулю) • b1и b2 – частные или чистые коэффициенты регрессии (среднее изменение при единичном изменении соответствующей независимой переменной и постоянных значениях других независимых переменных)
Статистический анализ модели многомерной регрессии • вычисления проводятся на компьютере
Статистический анализ модели многомерной регрессии SST = SSR+SSE df: n-1 = k + n-k-1
Стандартная ошибка оценки Стандартная ошибка оценки измеряет отклонение имеющихся данных (Y) от их оценок ( )
Стандартная ошибка оценки Пример с молоком: • 2 независимые переменные: цена за 1 л и расходы на рекламу стандартная ошибка оценки = 1.42 • 1 независимая переменная: цена 1 л стандартная ошибка оценки = 2.5 Вывод: использование многомерной регрессии позволяет сделать более точный прогноз
Значимость регрессии Гипотезы: df=k, n-k-1
Значимость регрессии • Коэффициент детерминации • Многомерный коэффициент корреляции (характеризует корреляцию между зависимой переменной и прогнозом) • Для многомерной регрессии
Значимость регрессии Одна независимая переменная SST=SSR+SSE 222=172.023+49.977 R2=0.77 Пример с молоком Две независимые переменные SST=SSR+SSE 222=207.86+14.14 R2=0.94
Отдельные независимые переменные Проверочная статистика t df = n-k-1
Прогнозирование будущих значений зависимой переменной Границы интервала прогноза величины Y:
Анализ остатков Рычаг – мера влияния i-й точки данных на положение функции регрессии Стандартизированный остаток
Анализ остатков Метки (большие стандартизированные остатки)
Предостережения при прогнозировании • прогнозирование вне допустимого множества • небольшой объем выборки • большое количество независимых переменных • в идеале – 10 наблюдений на одну независимую переменную • вычисление функции регрессии для одной части данных и проверка ее на оставшихся данных • при уровне значимости 0,05 отношение F было хотя бы в 4 раза больше соответствующего критического значения
Фиктивные переменные Фиктивные, или индикаторные, переменные используются для определения взаимосвязи между качественными независимыми переменными и зависимой переменной
Применение в менеджменте • Маркетинг – вывод нового товара на рынок • Агрономы – урожайность • Медики – давление крови • Менеджеры по персоналу – уровень заработной платы • Менеджеры по рекламе – изменение мнения покупателей • Руководство компаний – месторасположение розничных магазинов
Многомерный регрессионный анализ Мультиколлинеарность Выбор «наилучшего» уравнения регрессии Анализ всех возможных регрессий Пошаговая регрессия
Мультиколлинеарность Стоимость дома • Год строительства • Жилая площадь • Кол-во комнат • Кол-во продаваемых домов Неточная линейная зависимость – неустойчивость полученных оценок • Рассчитанные величины больше ожидаемых • Неверный знак отдельных коэффициентов • Значимость регрессии по F-тесту при незначимых t-статистиках отдельных коэффициентов
Мультиколлинеарность Мультиколлинеарность –линейная зависимость между двумя или более независимыми переменными Степень мультиколлениарности определяется фактором роста дисперсии - коэффициент детерминации из регрессии j-й независимой переменной по оставшимся (к-1)независимым переменным VIF близко к 1 – нет проблемы мультиколлинеарности больше 1- оценка коэффициента при этой независимой переменной неустойчива
Мультиколлинеарность Стоимость выпуска газеты: тираж, кол-во семей, объем продаж
Мультиколлинеарность При наличии в модели мультиколлинеарности для оценки эффекта одной отдельно взятой независимой переменной можно: • Использовать метод, отличный от метода наименьших квадратов • Найти и удалить из набора данных одну или более избыточных независимых переменных • Представить зависимую переменную Y как линейную комбинацию некоррелирующих между собой независимых переменных Х • Тщательно отобрать независимые переменные в начале исследования • Создать новые переменные Х посредством масштабирования (нулевое среднее значение и одно и то же выборочное среднеквадратичное отклонение)
Выбор «наилучшего» уравнения регрессии • Определение набора возможных независимых переменных • Отбор переменных, неадекватных для данному случаю (например, при значительных ошибках измерения; недоступности данных; высокой их стоимости) • Сокращение списка независимых переменных (нет «наилучшего» набора переменных, процесс отбора субъективен)
Выбор «наилучшего» уравнения регрессии
Выбор «наилучшего» уравнения регрессии
Выбор «наилучшего» уравнения регрессии 1 шаг – изучение корреляционной матрицы 2 шаг – анализ всех возможных регрессий или пошаговая регрессия
Анализ всех возможных регрессий 1этап – все возможные уравнения регрессии ( ) 2 этап – разделение уравнений на множества (по количеству оцениваемых параметров)
Анализ всех возможных регрессий 3 этап – выбор наилучшей независимой переменной (или переменных) из каждой группы с определенным числом параметров
Анализ всех возможных регрессий 4 этап – выбор наилучшего уравнения Желательно иметь наибольшее из возможных значений показателя детерминации, НО максимально простое уравнение регрессии Это уравнение объясняет 89,48% вариации переменной Y
Пошаговая регрессия Процедура пошаговой регрессии предусматривает добавление в уравнение отдельных независимых переменных, по одной переменной на каждом этапе 1. Рассматриваются все возможные простые регрессии (наибольшая корреляция с зависимой переменной) 2. Следующая вводимая переменная должна привносить наибольший вклад в регрессионную сумму квадратов (F для включения) 3. Проверка уравнения (проверка на значимость независимой переменной на уровне 5%) , F=4 – критерий для включения или исключения 4. Этапы 2 и 3 повторяются, пока все возможные добавления не окажутся незначимыми, а все возможные удаления – значимыми Результат пошаговой регрессии – регрессионная модель, содержащая только независимые переменные с величинами t, значимыми на указанном уровне
Пошаговая регрессия Пример • Первая переменная – возраст • Вторая переменная – результат теста способностей • Тест на тревожность не имеет тесной связи с объемом продаж • Потенциально хорошие переменные опыта работы и среднего балла совместно с переменной возраста создают проблему мильтиколлинеарности
Упражнения 1. Что измеряет в многомерной регрессии частный или чистый коэффициент? 2. Пусть уравнение регрессии имеет вид: Спрогнозируйте значение У при Х1=20 и Х2=7.
Упражнения 3. Объясните каждое из следующих понятий: а) корреляционная матрица б) R2 в) мультиколлинеарность г) остатки д) фиктивная переменная е) пошаговая регрессия