По территориям региона приводятся данные за 199X г.:
Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х Среднедневная заработная плата, руб. у
1 85,00 145,00
2 92,00 148,00
3 87,00 142,00
4 79,00 154,00
5 106,00 164,00
6 113,00 195,00
7 67,00 139,00
8 98,00 170,00
9 85,00 152,00
10 87,00 162,00
11 86,00 158,00
12 117,00 173,00
Требуется:
Построить линейное уравнение парной регрессии y по x.
Рассчитать линейный коэффициент парной корреляции, коэффициент детерминации и среднюю ошибку аппроксимации.
Оценить статистическую значимость уравнения регрессии в целом и отдельных параметров регрессии и корреляции с помощью F - критерия Фишера и t -критерия Стьюдента.
Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x, составляющем 107% от среднего уровня.
Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.
На одном графике отложить исходные данные и теоретическую прямую.
Проверить вычисления в MS Excel.
Решение
1. Построить линейное уравнение парной регрессии y по x.
Для построения линейного уравнения парной регрессии составляем вспомогательную таблицу 1.
На основе данных таблицы 1 находим параметры регрессии:
b=xy-x×yx2-x2=14 724,666667-158,5×91,8333338 623-91,8333332= 0,891607;
a=y-b×x=158,5- 0,891607 ×91,833333= 76,620770.
Получено уравнение регрессии:
y= 76,620770+0,891607×x .
Параметр регрессии позволяет сделать вывод, что с увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастет в среднем на 0,892 руб. или 89 коп.
После нахождения уравнения регрессии заполняем столбцы 7–10 вспомогательной таблицы 1.
2. Рассчитать линейный коэффициент парной корреляции, коэффициент детерминации и среднюю ошибку аппроксимации.
Рассчитаем коэффициент корреляции:
ryx=b×σxσy=0,891607× 13,770944 15,069284 = 0,814788.
Значение линейного коэффициента парной корреляции близко к 1, значит между переменными х и у высокая, тесная прямая корреляционная связь.
Коэффициент детерминации:
R2=ryx2= 0,8147882=0,663879.
Значение коэффициента детерминации R²=0,663879 говорит о том, что в 66,39% случаев изменения x приводят к изменению y. Другими словами - точность подбора уравнения регрессии - средняя. Остальные 33,61% изменения у объясняются факторами, не учтенными в модели (а также ошибками спецификации).
Таблица 1
Вспомогательная таблица
№ х у ух х² у² ŷ у-ŷ (у-ŷ)²
Аi
1 2 3 4 5 6 7 8 9 10
1 85,00 145,00 12 325,00 7 225,00 21 025,00 152,407353 -7,407353 54,868881 5,108519
2 92,00 148,00 13 616,00 8 464,00 21 904,00 158,648601 -10,648601 113,392706 7,195001
3 87,00 142,00 12 354,00 7 569,00 20 164,00 154,190567 -12,190567 148,609921 8,584906
4 79,00 154,00 12 166,00 6 241,00 23 716,00 147,057712 6,942288 48,195362 4,507979
5 106,00 164,00 17 384,00 11 236,00 26 896,00 171,131097 -7,131097 50,852546 4,348230
6 113,00 195,00 22 035,00 12 769,00 38 025,00 177,372345 17,627655 310,734217 9,039823
7 67,00 139,00 9 313,00 4 489,00 19 321,00 136,358430 2,641570 6,977893 1,900410
8 98,00 170,00 16 660,00 9 604,00 28 900,00 163,998242 6,001758 36,021096 3,530446
9 85,00 152,00 12 920,00 7 225,00 23 104,00 152,407353 -0,407353 0,165937 0,267995
10 87,00 162,00 14 094,00 7 569,00 26 244,00 154,190567 7,809433 60,987246 4,820638
11 86,00 158,00 13 588,00 7 396,00 24 964,00 153,298960 4,701040 22,099777 2,975342
12 117,00 173,00 20 241,00 13 689,00 29 929,00 180,938773 -7,938773 63,024109 4,588886
Сумма 1 102,00 1 902,00 176 696,00 103 476,00 304 192,00 1 902,00
915,929691 56,868175
среднее 91,833333 158,500 14 724,666667 8 623,00 25 349,333333 158,50
76,327474 4,739015
2095500σ
00σ
13,770944 15,069284
1657355080σ²
00σ²
189,638889 227,083333
Качество модели определяет средняя ошибка аппроксимации^
Ai=1nAi=56,86817512=4,739015.
Величина средней ошибки аппроксимации составила 4,739015%, т.е
. в среднем расчетные значения отклоняются от фактических на 4,739015%, ошибка допустимая. Поскольку ошибка меньше 10%, то данное уравнение можно использовать в качестве регрессии.
3. Оценить статистическую значимость уравнения регрессии в целом и отдельных параметров регрессии и корреляции с помощью F - критерия Фишера и t -критерия Стьюдента.
Выдвигаем гипотезы:
H0: b = 0, то есть между переменными x и y отсутствует линейная взаимосвязь в генеральной совокупности;
H1: b ≠ 0, то есть между переменными x и y есть линейная взаимосвязь в генеральной совокупности.
Фактическое значение F-критерия Фишера составит:
Fфакт=ryx21-ryx2=0,6638791-0,663879= 19,751192.
Табличное значение критерия при пятипроцентном уровне значимости и степенях свободы k1=1 и k2= 12-1-1=10 составляет табл F = 4,964603.
Fфакт= 19,751192 >Fтабл=4,964603, следовательно, гипотеза H0 о случайном характере зависимости у от х отвергается и принимается альтернативная гипотеза H1- с вероятностью 0,95 выявленная зависимость у от х носит неслучайный характер, полученное уравнение статистически значимо, надежно и может быть использовано для прогноза.
Оценим статистическую значимость параметров регрессии и коэффициента корреляции на уровне значимости a = 0,05, используя t - статистику Стьюдента. Выдвигаем гипотезы: H0: rxy= 0, нет линейной взаимосвязи между переменными; H1: rxy ≠ 0, есть линейная взаимосвязь между переменными.
Остаточная дисперсия на одну степень свободы:
Sост2=(y-y)2n-2=915,92969112-2=91,59296909.
Sост=Sост2=91,59296909= 9,570422.
Определим стандартные ошибки:
ma=Sост×x2n×x2n-x2=
= 9,570422 ×103 476,0012×103 476,0012-91,8333332= 18,629703;
mb=Sостn×x2n-x2=9,570422 12×103 476,0012-91,8333332= 0,200621