Парная регрессия и корреляция
Задание на самостоятельную работу:
x y
71,1 63,3
69,7 62,8
70,7 70,1
67,9 68,3
69,6 65,6
69,2 62,5
68,4 63,3
Требуется:
1. Для характеристики зависимости y от x рассчитать параметры линейной регрессии.
2. Оценить полученную модель регрессии через среднюю ошибку аппроксимации, коэффициент детерминации и F-критерий Фишера.
Решение
Пункт 1.
Требуется рассчитать параметры a и b уравнения парной линейной регрессии yx=a+b*x
Чтобы найти a и b решается следующая система:
na+bx=yax+bx2=yx
Путем аналитического решения этой системы получаем готовые формулы для расчета коэффициентов регрессии
a=y-b*x
b=yx-y*xx2-(x)2
Заполняем в Excel расчетную таблицу
x y x2 y*x
y2
1 71,1 63,3 5055,2 4500,63
4006,9
2 69,7 62,8 4858,09 4377,16
3943,8
3 70,7 70,1 4998,49 4956,07
4914,0
4 67,9 68,3 4610,41 4637,57
4664,9
5 69,6 65,6 4844,16 4565,76
4303,4
6 69,2 62,5 4788,64 4325,00
3906,3
7 68,4 63,3 4678,56 4329,72
4006,9
Сумма 486,6 455,9 33833,6 31691,91
29746,1
Среднее 69,51 65,13 4833,37 4527,42
4249,45
b=4527,42-65,13∙69,514833,37-69,512=0,044
a=65,13-0,0439∙69,51=62,08
Подставляем рассчитанные коэффициенты в уравнение
yx=62,08+0,044*x
Тесноту связи изучаемых явлений оценивает линейный коэффициент корреляции rxy для линейной регрессии
rxy=bσxσy
где σ – среднеквадратичное отклонение; расчеты сведены в таблице:
σy=y2-y2; σx=x2-x2
σy=4249,4-65,132=2,778
σx=4833,37-69,512=1,063
Получаем коэффициент корреляции
rxy=0,044*2,7781,063=0,017
Коэффициент корреляции меняется в пределах от -1 до +1 , причем если он равен нулю, то считается что связь отсутствует
.
У нас получилось, что rxy близок к нулю, поэтому можно сказать, что линейная связь между y и x практически отсутствует.
Пункт 2.
Оценку качества построенной модели регрессии дает коэффициент детерминации R2, равный квадрату коэффициента корреляции:
R2=rxy2
R2=0,0172=0,0003
Коэффициент детерминации характеризует долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака y.
Полученный коэффициент детерминации 0,03% говорит о плохом качестве найденного уравнения.
Также оценку качества дает средняя ошибка аппроксимации:
A=1ny-yxy*100%
x y yx=62,08+0,044*x
Ai = y-yxy
71,1 63,3 65,198 0,02999
69,7 62,8 65,137 0,03721
70,7 70,1 65,181 0,07018
67,9 68,3 65,058 0,04747
69,6 65,6 65,132 0,00713
69,2 62,5 65,115 0,04184
68,4 63,3 65,080 0,02811
Сумма = 0,26192
A=17∙0,26192∙100%=3,742%
Допустимый предел значений A – не более 8-10%, а у нас получилось 3,742% - точность аппроксимации хорошая.
Для проверки гипотезы H0 о статистической незначимости уравнения регрессии и показателя тесноты связи используется F-тест