Построить линейную регрессию зависимости ежемесячных затрат на техническое обслуживание Y (тыс. руб.) автомобиля от его ежемесячного пробега Х (тыс. км) по приведенным данным.
Х 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
У 13 16 15 20 19 21 26 21 30 32 30 35 34 40 39
Решение
Внесем выборочные данные и построим диаграмму рассеяния (рис. 2.1).
Рис. 2.1. Диаграмма рассеяния
По диаграмме рассеяния можно сделать вывод о существовании линейной связи между переменными. Будем искать оценочное уравнение, характеризующее зависимость y(x) в виде уравнения у=b0 + b1x.
Оценка параметров определяется соотношениями:
Проведем все необходимые вычисления, используя вспомогательные таблицы (рис. 2.2 и рис. 2.3).
Рис. 2.2 Вспомогательные таблицы для вычисления b0, b1
Рис. 2.3. Вычисление параметров уравнения регрессии
По результатам вычислений b0 = 0,995, b1 = 1,929.
Линейное уравнение регрессии, характеризующее зависимость между переменными имеет вид:
У = 0,995 + 1,929х
3. Вычислим коэффициент парной корреляции по формуле:
Составим вспомогательную таблицу (рис. 2.4).
Рис. 2.4 Вспомогательная таблица
По результатам вычислений парный коэффициент корреляции равен:
rxy = 0,972
что свидетельствует о сильной корреляционной связи между переменными. Оценим значимость коэффициента корреляции, то есть гипотезу о равенстве нулю генерального коэффициента корреляции. Вычислим наблюдаемое значение t-статистики:
14,8
Сравним наблюдаемое значение t-статистики с критическим t(α,n -2) = t(0,05;13) = 2,16 (критическая область двухсторонняя, поскольку конкурирующая гипотеза Н1: yx 0)
. Критическое значение определяется в Excel с помощью функции СТЬЮДРАСПОБР:
Так как tнабл > tкрит, то нулевая гипотеза о равенстве нулю коэффициента корреляции генеральной совокупности отвергается. Таким образом, коэффициент корреляции является значимым, что говорит в свою очередь о значимости уравнения регрессии.
Коэффициент детерминации равен:
R2 = rxy2 = 0.9722 = 0.944
Значение R2 говорит о том, что 94,4% вариации зависимой переменной (ежемесячных затрат на техническое обслуживание автомобиля) объясняется вариацией фактора (ежемесячного пробега).
Вычислим среднюю ошибку аппроксимации:
Составим вспомогательные таблицы (рис.2.5). В графе Y^ вычисляется теоретическое значение переменной Y по полученному уравнению регрессии:
yˆ 0,995+1,929х
Рис. 2.5 Вспомогательные таблицы
Вычислим среднюю ошибку аппроксимации:
Итак, средняя ошибка аппроксимации (рис.2.5) составила 7,3%, что говорит о хорошем качестве подгонки построенной линейной регрессии к выборочным данным.
4. Построить точечные и интервальные прогнозы среднего зависимой переменной для выборочных значений независимой переменной.
Рассчитаем прогноз ежемесячных затрат на техническое обслуживание при ежемесячном пробеге х0 = 22 тыс. км.
Для этого подставим значение х0 = 22 в теоретическое уравнение регрессии 0,995+1,929х
0,995+1,929*22 = 43,4 тыс