Используя данные таблицы 5 построить двумерные регрессионные модели:
модель 1 модель 2
здесь ,
здесь ,
Для каждой модели следует:
1) построить уравнение регрессии;
2) рассчитать общую дисперсию, объясненную и необъясненную регрессией части дисперсии;
3) рассчитать дисперсии оценок и ;
4) рассчитать коэффициент корреляции, коэффициент детерминации и скорректированный коэффициент детерминации;
5)проверить гипотезы о незначимости коэффициентов модели и о незначимости регрессии в целом;
6) найти доверительные интервалы для параметров регрессии на уровне значимости 95%.
Сделать выводы.
Сравнить качество построенных моделей. Какая модель предпочтительнее?
Решение
Модель 1.
Определим значение х и y и представим их в таблице.
Здесь ,
№ y
x
1 0,74 1,19
2 0,74 1,20
3 0,73 1,19
4 0,72 1,13
5 0,71 1,10
6 0,70 1,05
7 0,69 1,00
8 0,69 1,00
9 0,69 1,02
10 0,68 0,98
11 0,68 0,97
12 0,68 0,95
13 0,68 0,97
14 0,70 0,96
15 0,70 0,97
16 0,70 0,98
17 0,69 0,92
18 0,69 0,92
19 0,69 0,94
20 0,70 0,99
Модель уравнения регрессии принимает вид:
y=α+*x
Определим параметры линейного уравнения регрессии методом наименьших квадратов. Система нормальных уравнений имеет вид:
a·n + b·∑x = ∑y
a·∑x + b·∑x2 = ∑y·x
Для расчета параметров регрессии построим расчетную таблицу.
x
y
x2 y2 x*y
1,19 0,74 1,4161 0,5476 0,8806
1,2 0,74 1,44 0,5476 0,888
1,19 0,73 1,4161 0,5329 0,8687
1,13 0,72 1,2769 0,5184 0,8136
1,1 0,71 1,21 0,5041 0,781
1,05 0,7 1,1025 0,49 0,735
1 0,69 1 0,4761 0,69
1 0,69 1 0,4761 0,69
1,02 0,69 1,0404 0,4761 0,7038
0,98 0,68 0,9604 0,4624 0,6664
0,97 0,68 0,9409 0,4624 0,6596
0,95 0,68 0,9025 0,4624 0,646
0,97 0,68 0,9409 0,4624 0,6596
0,96 0,7 0,9216 0,49 0,672
0,97 0,7 0,9409 0,49 0,679
0,98 0,7 0,9604 0,49 0,686
0,92 0,69 0,8464 0,4761 0,6348
0,92 0,69 0,8464 0,4761 0,6348
0,94 0,69 0,8836 0,4761 0,6486
0,99 0,7 0,9801 0,49 0,693
∑20,43 14 21,0261 9,8068 14,3305
Для наших данных система уравнений имеет вид:
20a + 20,43b = 14
20,43a + 21,026b = 14,331
Домножим уравнение (1) системы на (-1.022), получим систему, которую решим методом алгебраического сложения.
-20,43a -20,879 b = -14,308
20,43*a + 21,026*b = 14,331
Получаем:
0,147*b = 0,0225
Откуда b = 0,1881
Теперь найдем коэффициент «a» из уравнения (1):
20a + 20,43*b = 14
20a + 20,43*0,1881 = 14
20a = 10,158
a = 0,5079
Уравнение регрессии принимает вил:
y = 0,19 x + 0,51
Рассчитаем параметры уравнения регрессии по следующим формулам.
Выборочные средние определим по формулам:
x=xin
y=yin
xy=xiyin
Выборочные дисперсии определим по формулам:
S2x=xi2n-x2
S2y=yi2n-y2
Среднеквадратические отклонения определим по формулам:
Sx=S2(x)
Sy=S2(y)
x=20,4320=1,022
y=1420=0,7
xy=14,3320=0,717
S2x=21,0320-1,0222=0,00784
S2y=9,8120-0,72=0,00034
Sx=0,00784=0,0886
Sy=0,00034=0,0184
Несмещенной оценкой дисперсии возмущений является величина, рассчитанная по формуле:
S2=∑(yi-yx)2n-m-1=0,0012518=7,0Е-5
S2 = 7,0Е-5 - необъясненная дисперсия или дисперсия ошибки регрессии.
Стандартная ошибка оценки рассчитывается по формуле:
S=S2=7,0Е-5=0,00834
Стандартное отклонение случайной величины a рассчитывается по формуле:
Sa=S*∑x2n*S(x)=0,00834*21,0320*0,0886=0,0216
Стандартное отклонение случайной величины b рассчитывается по формуле:
Sa=Sn*S(х)=0,0083420*0,0886=0,021
Коэффициент корреляции определим по формуле:
rxy=x*y-x*yS(x)*S(y)=0,717-1,022*0,70,0886*0,0184=0,903
Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < rxy < 0.3: слабая;
0.3 < rxy < 0.5: умеренная;
0.5 < rxy < 0.7: заметная;
0.7 < rxy < 0.9: высокая;
0.9 < rxy < 1: весьма высокая;
В нашем примере связь между признаком Y и фактором X весьма высокая и прямая.
Коэффициент детерминации определим по формуле:
R2=0,9032=0,816
Таким образом, в 81,6% случаев изменения х приводят к изменению y
. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 18,4% изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.
H0: b = 0, то есть между переменными x и y отсутствует линейная взаимосвязь в генеральной совокупности;
H1: b ≠ 0, то есть между переменными x и y есть линейная взаимосвязь в генеральной совокупности.
Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента.
tкрит(n-m-1;α/2) = tкрит(18;0,025) = 2,445
tb=bSb=0,1180,0211=8,93
Поскольку 8,93 > 2,445, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
ta=aSa=0,5080,0216=23,52
Поскольку 23,52 > 2,445, то статистическая значимость коэффициента регрессии а подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b - tкрит Sb; b + tкрит Sb)
(0,19 – 2,445*0,0211; 0,19 + 2,445*0,0211)
(0,137; 0,24)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a - tкрит Sa; a + tкрит Sa)
(0,508– 2,445*0,0216; 0,508+ 2,445*0,0216)\
(0,455; 0,561)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
F-статистика. Критерий Фишера.
Выдвигаем нулевую гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α.
Определим фактическое значение F-критерия по формуле:
F=R21-R2*n-m-1m
F=0,8161-0,816*20-1-11=79,77
Табличное значение определяется по таблицам распределения Фишера:
k1=1 и k2=18, Fтабл = 4,41
Поскольку фактическое значение F>Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).
Выводы.
Изучена зависимость Y от X. На этапе спецификации была выбрана парная линейная регрессия. Оценены её параметры методом наименьших квадратов. Статистическая значимость уравнения проверена с помощью коэффициента детерминации и критерия Фишера. Установлено, что в исследуемой ситуации 81,6% общей вариабельности Y объясняется изменением X. Установлено также, что параметры модели статистически значимы. Возможна экономическая интерпретация параметров модели - увеличение X на 1 ед.изм. приводит к увеличению Y в среднем на 0,19 ед.изм.
Модель 2.
Определим значение х и y и представим их в таблице. Здесь , .
№ y
x
1 0,74 0,30
2 0,74 0,30
3 0,73 0,30
4 0,72 0,32
5 0,71 0,33
6 0,70 0,35
7 0,69 0,37
8 0,69 0,37
9 0,69 0,36
10 0,68 0,38
11 0,68 0,38
12 0,68 0,39
13 0,68 0,38
14 0,70 0,38
15 0,70 0,38
16 0,70 0,38
17 0,69 0,40
18 0,69 0,40
19 0,69 0,39
20 0,70 0,37
Определим параметры линейного уравнения регрессии методом наименьших квадратов