Парная регрессия и корреляция
Исходные данные:
Требуется:
1. Для характеристики зависимости y от x рассчитать параметры линейной регрессии.
2. Оценить полученную модель регрессии через среднюю ошибку аппроксимации, коэффициент детерминации и F-критерий Фишера.
Решение
1.
Линейная регрессия имеет вид
yx=a+b*x+ε
где a и b – параметры регрессии, а – значение ошибки.
Для расчета параметров составляется и решается относительно a и b система уравнений:
n∙a+b∙x=ya∙x+b∙x2=y∙x
Из системы получаются готовые формулы расчета коэффициентов
b=y∙x-y∙xx2-(x)2
a=y-b∙x
Расчеты проводим в Excel во вспомогательной таблице
b=4369,79-63,06∙69,304808,80-69,302=-0,0104
a=63,06--0,0104∙69,30=63,78
Записываем уравнение
yx=63,78-0,0104*x
Параметр b=-0,0104 показывает, что при увеличении x на 1 единицу происходит снижение y на 0,0104 единиц.
Тесноту связи между y и x оценивает линейный коэффициент корреляции
rxy=bσxσy
где σx – среднеквадратичное отклонение фактора x, σy – среднеквадратичное отклонение зависимой переменной y.
σy=y2-y2
σx=x2-x2
σy=3979,67-63,062=1,862
σx=4808,80-69,302=2,512
b=-0,0104
Получаем коэффициент корреляции
rxy=-0,0104∙2,5121,862=-0,014
Коэффициент корреляции очень близок к нулю, поэтому можно сделать вывод о том, что линейная связь между y и x практически отсутствует.
2
.
Оценку качества построенной модели регрессии дает коэффициент детерминации R2, равный квадрату коэффициента корреляции:
R2=rxy2
R2=-0,0142=0,0002
Коэффициент детерминации показывает долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака y. У нас получается, что регрессия объясняет всего 0,02% дисперсии y.
Качество построенной модели очень плохое.
Также оценку качества дает средняя ошибка аппроксимации:
A=1n∙y-yxy∙100%
A=17∙0,15358∙100%=2,19%
Допустимый предел значений A – не более 8-10%, а у нас получилось 2,19% - точность аппроксимации хорошая.
Для проверки гипотезы H0 о статистической незначимости уравнения регрессии и показателя тесноты связи используется F-критерий Фишера