460 likes | 940 Views
Лекция 6 Линейная регрессия. Простая линейная регрессия. Простая линейная регрессия. Простая линейная регрессия. r = -0.88 достаточно тесная обратная взаимосвязь. Прогнозирование. минимально-максимальный метод линейная регрессия. Минимально-максимальный метод. низкая точность метода
E N D
Простая линейная регрессия • r = -0.88 • достаточно тесная обратная взаимосвязь
Прогнозирование • минимально-максимальный метод • линейная регрессия
Минимально-максимальный метод • низкая точность метода • Y = 27.43-0.71X
Простая линейная регрессия Генеральная совокупность Выборка
Простая линейная регрессия • метод наименьших квадратов(наименьшая сумма квадратов ошибок)
Простая линейная регрессия Математические ожидания возможных значений У на одной прямой при изменении Х
Прогнозирование с использованием линейной регрессии • Два источника неопределенности: • неопределенность, обусловленная отклонением точек данных от выборочной прямой регрессии • неопределенность, обусловленная отклонением выборочной прямой регрессии от регрессионной прямой генеральной совокупности
Простая линейная регрессия: ошибки Ошибка (ε) – расстояние между значением У и его математическим ожиданием Стандартная ошибка оценки– степень отличия реальных значений Y от оценочных Стандартная ошибка прогноза- вариативность около Y для данного значения Х
Простая линейная регрессия Границы интервала прогноза величины У: df = n-2 Для большой выборки - 95%-ный интервал:
Простая линейная регрессия Предположения, положенные в основу модели линейной регрессии: • для заданного значения Х генеральная совокупность значений У имеет нормальное распределение относительно регрессионной прямой совокупности • разброс генеральной совокупности точек данных относительно регрессионной прямой совокупности остается постоянным всюду вдоль этой прямой (дисперсия генеральной совокупности не увеличивается и не уменьшается) • слагаемые ошибок εнезависимы между собой • в генеральной совокупности существует линейная зависимость между Х и У
Разложение дисперсии наблюдение = прогноз + отклонение или наблюдаемое значение Y объясненное линейной зависимостью остаток или отклонение от линейной зависимости
Разложение дисперсии = + n - 1 = n – 2 + 1
Разложение дисперсии SST = SSR+SSE 222 = 172.023 + 49.977 SSR/SST = 0.775 77.5% объясняется взаимосвязью Х и У
Разложение дисперсии Таблица ANOVA для прямолинейной регрессии
Разложение дисперсии SST = SSR+SSE 222 = 172.023 + 49.977 общая вариация объясненная вариация необъясненная вариация
Коэффициент детерминация b0=32.75 регрессионная прямая Yпрогноз.-Yср (объясненное посредством Х) Yср=11 Y – Yср(всего) Y.-Yпрогноз (необъясненное посредством Х)
Коэффициент детерминации Выборочный коэффициент детерминации • измеряет долю изменчивости Y, которую можно объяснить с помощью информации об изменчивости (разнице значений) независимой переменной Х
Коэффициент детерминации 77.5% изменчивости количества продаваемого молока можно объяснить разницей в цене за 1 л
Коэффициент детерминации Для прямолинейной регрессии коэффициент детерминации равен квадрату коэффициента корреляции
Проверка гипотез Проверочная статистика t
Проверка гипотез t расч. = - 5.25 t табл. = 2.306 отклонить нулевую гипотезу
Проверка гипотез Проверка нулевой гипотезы с помощью таблицы ANOVA df = 1, n-2 Область отклонения гипотезы:
Проверка гипотез F расч. = 27.54 F табл. = 5.32 отклонить нулевую гипотезу
Анализ остатков Предположения, сделанные для модели прямолинейной регрессии • Связь между переменными является линейной • Ошибки являются независимыми • Дисперсии ошибок равны • Значения ошибки нормально распределены
Анализ остатков Проверка соответствия предполагаемой модели • Построить гистограмму значений остатков • Расположить остатки по значениям оцениваемых величин • Расположить остатки по значениям объясняющих переменных • Расположить остатки по времени их появления, если исходные данные хронологически упорядочены