Таблица 1 – Данные о доходах и расходах на продукты питания
7 вариант
доход расходы на питание
6530,42 4120,02
12887,56 5868,56
12893,03 6594,00
13139,07 4333,57
14199,79 6333,26
15087,88 2640,88
16117,56 6724,76
16185,25 5775,91
17475,48 6183,31
18222,15 6034,15
18359,13 7621,05
18643,73 8858,37
19486,64 1304,34
19486,64 1304,34
19613,78 3568,18
20499,37 1941,73
20772,72 9914,32
20867,05 6787,19
22132,51 5322,51
22292,14 10208,71
23473,52 11803,49
23569,03 10081,23
23760,16 11740,08
24981,01 7343,09
25345,10 9505,61
25476,37 11563,65
25897,37 12306,17
25967,20 10827,04
28525,34 11796,26
29962,28 8365,54
30584,14 14935,23
32069,03 13131,49
34224,31 11921,77
37743,05 13997,28
38616,36 13391,70
39182,73 14790,01
39873,23 13642,05
41832,96 15608,10
41870,42 12989,22
По данным, представленным в таблице 1 выполнить задание.
Построить поле корреляции и сформулировать гипотезу о форме связи.
Рассчитать ковариацию по формуле и при помощи встроенной функции.
Рассчитать линейный коэффициент корреляции и при помощи встроенной функции.
Рассчитать коэффициент детерминации по формуле.
Сформулировать вывод о форме, направлении и тесноте связи.
Рассчитать параметры линейного уравнения регрессии по формулам и при помощи встроенных функций.
Построить на корреляционном поле линию уравнения регрессии и вывести параметры и коэффициент детерминации.
Рассчитать коэффициент эластичности и β˗коэффициент.
Проверить параметры уравнения регрессии на адекватность.
Проверить построенную модель на адекватность.
Проверить ряд остатков на адекватность.
Проверка на случайность ряда остатков.
Проверка на равенство нулю математического ожидания ряда остатков.
Проверка на постоянство дисперсии ряда остатков
Проверка на независимость ряда остатков
Проверка на распределение ряда остатков по нормальному закону
Определить меру точности модели.
Построить точечное прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от его среднего уровня.
Определить доверительный интервал прогноза для уровня значимости α=0,05.
Сформулировать вывод.
Решение
1. Построим поле корреляции
Поле корреляции (диаграмма рассеяния) позволяет визуально оценить тесноту и направление связи между переменными. Поле корреляции представлено на рисунке 1.
Рисунок 1 – Поле корреляции
Вывод. Расположение облака точек на поле корреляции вытянуто от левого нижнего угла в правый верхний угол, это говорит о наличии прямой корреляционной связи меду признаками. Т.е. с увеличением доходов, расходы на продукты питания тоже возрастают (и наоборот). По форме распределения точек можно предположить линейную зависимость.
2. Рассчитаем ковариацию
Предварительно построим таблицу
Таблица 1 – Расчетные данные
№ x y x2 y2 x*y
1 6530,42 4120,02 42646385,38 16974564,80 26905461,01
2 12887,56 5868,56 166089202,75 34439996,47 75631419,11
3 12893,03 6594 166230222,58 43480836,00 85016639,82
4 13139,07 4333,57 172635160,46 18779828,94 56939079,58
5 14199,79 6333,26 201634036,04 40110182,23 89930962,02
6 15087,88 2640,88 227644122,89 6974247,17 39845280,53
7 16117,56 6724,76 259775740,35 45222397,06 108386722,79
8 16185,25 5775,91 261962317,56 33361136,33 93484547,33
9 17475,48 6183,31 305392401,23 38233322,56 108056310,24
10 18222,15 6034,15 332046750,62 36410966,22 109955186,42
11 18359,13 7621,05 337057654,36 58080403,10 139915847,69
12 18643,73 8858,37 347588668,31 78470719,06 165153058,52
13 19486,64 1304,34 379729138,49 1701302,84 25417204,02
14 19486,64 1304,34 379729138,49 1701302,84 25417204,02
15 19613,78 3568,18 384700365,89 12731908,51 69985497,52
16 20499,37 1941,73 420224170,40 3770315,39 39804241,71
17 20772,72 9914,32 431505896,20 98293741,06 205947393,35
18 20867,05 6787,19 435433775,70 46065948,10 141628633,09
19 22132,51 5322,51 489847998,90 28329112,70 117800505,80
20 22292,14 10208,71 496939505,78 104217759,86 227573992,54
21 23473,52 11803,49 551006141,19 139322376,18 277069458,58
22 23569,03 10081,23 555499175,14 101631198,31 237604812,31
23 23760,16 11740,08 564545203,23 137829478,41 278946179,21
24 24981,01 7343,09 624050860,62 53920970,75 183437804,72
25 25345,1 9505,61 642374094,01 90356621,47 240920636,01
26 25476,37 11563,65 649045428,38 133718001,32 294599825,95
27 25897,37 12306,17 670673772,92 151441820,07 318697437,77
28 25967,2 10827,04 674295475,84 117224795,16 281147913,09
29 28525,34 11796,26 813695022,12 139151749,99 336492327,23
30 29962,28 8365,54 897738222,80 69982259,49 250650651,83
31 30584,14 14935,23 935389619,54 223061095,15 456781165,25
32 32069,03 13131,49 1028422685,14 172436029,62 421114146,75
33 34224,31 11921,77 1171303394,98 142128599,93 408014352,23
34 37743,05 13997,28 1424537823,30 195923847,40 528300038,90
35 38616,36 13391,7 1491223259,65 179337628,89 517138708,21
36 39182,73 14790,01 1535286330,25 218744395,80 579512968,53
37 39873,23 13642,05 1589874470,63 186105528,20 543952597,32
38 41832,96 15608,1 1749996542,36 243612785,61 652933022,98
39 41870,42 12989,22 1753132070,98 168719836,21 543864096,87
Сумма 937845,51 341178,2 25560902245,47 3611999009,21 9303973330,85
Среднее 24047,32 8748,16 655407749,88 92615359,21 238563418,74
Ковариация – оценка меры взаимодействия двух случайных величин.
Вспомогательные расчеты представлены в таблице 2.
EQ cov(x,y) = \x\to(x·y) - \x\to(x)·\x\to(y) = 238563418.74 - 24047.321·8748.158 = 28193652.24
Вывод. - связь между признаками прямая.
Для расчета ковариации в среде Excel используем встроенную статистическую функцию КОВАР:
=КОВАРИАЦИЯ.Г(F4:F42;G4:G42)
Получаем: 28193652,24
Результаты расчетов совпадают.
3. Рассчитаем линейный коэффициент корреляции
Коэффициент корреляции показывает тесноту и направление линейной связи между переменными. Чем ближе значение коэффициента к единице (по модулю), тем более тесная связь между признаками.
Рассчитывается по формуле:
, где
- средние квадратические отклонения признаков.
Выборочные дисперсии:
EQ S2(x) = \f(∑x2i;n) - \x\to(x)2 = EQ \f(25560902245.47;39) - 24047.3212 = 77134113.71
EQ S2(y) = \f(∑y2i;n) - \x\to(y)2 = EQ \f(3611999009.21;39) - 8748.1582 = 16085087.23
Среднеквадратическое отклонение
EQ S(x) = \r(S2(x)) = \r(77134113.71) = 8782.603
EQ S(y) = \r(S2(y)) = \r(16085087.23) = 4010.622
Расчет коэффициента корреляции:
EQ rxy = \f(\x\to(x·y) -\x\to(x)·\x\to(y);S(x)·S(y)) = EQ \f(238563418.74 - 24047.321·8748.158;8782.603·4010.622) = 0.8
Вывод. Коэффициент корреляции показывает, что связь между доходами и расходами на питание высокая и прямая.
Для расчета коэффициента корреляции в среде Excel используем встроенную статистическую функцию КОРРЕЛ:
=КОРРЕЛ(F4:F42;G4:G42) = 0,8
Получаем:
Результаты расчетов совпадают.
4. Рассчитаем коэффициент детерминации
Коэффициент детерминации характеризует долю вариации результативного признака под влиянием фактора, включенного в модель.
R2= 0.82 = 0.6407
т.е. в 64.07% случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - средняя. Остальные 35.93% изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).
5. Построим линейное уравнение регрессии
Общий вид линейного уравнения парной регрессии:
, где
- расчетные теоретические значения результативного признака для i-го наблюдения;
a и b – параметры линейного уравнения парной регрессии;
b – коэффициент регрессии, который показывает на сколько в среднем изменяется значение результативного признака у при увеличении фактора х на единицу измерения.
xi – значение факторного признака для i-го наблюдения.
367665839470Параметры линейного уравнения найдем с помощью метода наименьших квадратов (МНК). Для определения параметров необходимо решить систему линейных уравнений:
a*n + b*∑x = ∑y
a*∑x + b*∑x2 = ∑y*x
Для расчета параметров используем готовые формулы, которые вытекают из этой системы.
320040246380Для наших данных система уравнений имеет вид
39a + 937845.51*b = 341178.17
937845.51*a + 25560902245.466*b = 9303973330.854
367031563245Домножим уравнение (1) системы на (-24047.321), получим систему, которую решим методом алгебраического сложения.
-937845.51a -22552672027.379 b = -8204420972.183
937845.51*a + 25560902245.466*b = 9303973330.854
Получаем:
3008230218.087*b = 1099552358.671
Откуда b = 0.3655
Теперь найдем коэффициент «a» из уравнения (1):
39a + 937845.51*b = 341178.17
39a + 937845.51*0.3655 = 341178.17
39a = -1618.148
a = -41.491
Получаем эмпирические коэффициенты регрессии: b = 0.3655, a = -41.491
Уравнение регрессии (эмпирическое уравнение регрессии):
y = 0.3655*x – 41,491
Вывод. Коэффициент регрессии b = 0,3655 показывает, что при увеличении дохода на 1 денежную единицу сумма расходов на питание в среднем увеличивается на 0,3655 денежных единиц.
В среде Excel для расчета параметров модели можно использовать встроенную статистическую функцию ЛИНЕЙН. Выделяем область (5 строк и 2 столбца) для вывода результатов.
=ЛИНЕЙН(C4:C42;B4:B42;1;1)
Значение коэффициента b 0,365514698 -41,4909725 Значение коэффициента а
Среднеквадратическое отклонение b 0,045002412 1152,10371 Среднеквадратическое отклонение а
Коэффициент детерминации R^2 0,640667603 2468,26247 Среднеквадратическое отклонение yрасч
Критерий Фишера F 65,96872829 37 Число степеней свободы
Регрессионная сумма квадратов 401902576,6 225415825 Остаточная сумма квадратов
Рисунок 4 – Использование функции ЛИНЕЙН
Получили линейное уравнение парной регрессии:
y = 0.3655*x – 41,491
Результаты совпадают.
Также для построения модели и расчета характеристик по модели можно использовать надстройку «Анализ данных», инструмент «Регрессия».
Рисунок 5 – Диалоговое окно надстройки Анализ данных
Рисунок 6 – Использование инструмента Регрессия
Рисунок 7 – Вывод итогов
Получили линейное уравнение парной регрессии: y = 0.3655*x – 41,491
Результаты совпадают.
Рисунок 8 – Фактические данные и линия регрессии
6
. Рассчитаем коэффициент эластичности и β-коэффициент
Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения.
Коэффициент эластичности находится по формуле:
EQ E = \f(∂y;∂x) \f(x;y) = b\f(\x\to(x);\x\to(y))
EQ E = 0.366\f(24047.321;8748.158) = 1.005
В нашем примере коэффициент эластичности больше 1. Следовательно, при изменении Х на 1%, Y изменится более чем на 1%. Другими словами - Х существенно влияет на Y.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:
EQ βj = bj\f(S(x);S(y)) = 0.366\f(8782.603;4010.622) = 0.8
Т.е. увеличение x на величину среднеквадратического отклонения Sx приведет к увеличению среднего значения Y на 80% среднеквадратичного отклонения Sy.
7. Проверим параметры уравнения регрессии на адекватность
Фактические значения результативного показателя получаем путем последовательной подстановки в уравнение регрессии.
Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)
Таблица 2 – Расчетные данные
x y y(x) (yi-ycp)2 (y-y(x)) (y-y(x))2 (xi-xcp)2 |y - yx|:y
6530,42 4120,02 2345,47 21419663,25 1774,55 3149015,21 306841812,56 0,43
12887,56 5868,56 4669,10 8292085,82 1199,46 1438700,40 124540260,43 0,20
12893,03 6594 4671,10 4640397,57 1922,90 3697540,61 124418202,56 0,29
13139,07 4333,57 4761,03 19488589,02 -427,46 182723,95 118989934,84 0,10
14199,79 6333,26 5148,74 5831733,34 1184,52 1403085,32 96973862,25 0,19
15087,88 2640,88 5473,35 37298847,07 -2832,47 8022891,53 80271578,90 1,07
16117,56 6724,76 5849,71 4094140,30 875,05 765705,33 62881105,86 0,13
16185,25 5775,91 5874,46 8834259,39 -98,55 9711,27 61812156,78 0,02
17475,48 6183,31 6346,05 6578446,32 -162,74 26485,55 43189091,10 0,03
18222,15 6034,15 6618,97 7365840,54 -584,82 342017,56 33932614,49 0,10
18359,13 7621,05 6669,04 1270372,91 952,01 906321,37 32355514,23 0,12
18643,73 8858,37 6773,07 12146,64 2085,30 4348491,27 29198793,20 0,24
19486,64 1304,34 7081,16 55410429,47 -5776,82 33371676,50 20799809,08 4,43
19486,64 1304,34 7081,16 55410429,47 -5776,82 33371676,50 20799809,08 4,43
19613,78 3568,18 7127,63 26832174,21 -3559,45 12669712,01 19656283,75 1,00
20499,37 1941,73 7451,33 46327464,91 -5509,60 30355692,74 12587954,66 2,84
20772,72 9914,32 7551,24 1359933,33 2363,08 5584130,57 10723010,20 0,24
20867,05 6787,19 7585,72 3845396,30 -798,53 637654,15 10114122,17 0,12
22132,51 5322,51 8048,27 11735065,63 -2725,76 7429749,73 3666500,28 0,51
22292,14 10208,71 8106,61 2133211,55 2102,10 4418808,28 3080659,53 0,21
23473,52 11803,49 8538,43 9335052,38 3265,06 10660645,60 329247,32 0,28
23569,03 10081,23 8573,34 1777080,41 1507,89 2273744,62 228762,06 0,15
23760,16 11740,08 8643,20 8951596,03 3096,88 9590686,03 82461,31 0,26
24981,01 7343,09 9089,44 1974216,66 -1746,35 3049722,05 871775,58 0,24
25345,1 9505,61 9222,52 573733,22 283,09 80142,45 1684230,93 0,03
25476,37 11563,65 9270,50 7926994,05 2293,15 5258552,05 2042181,70 0,20
25897,37 12306,17 9424,38 12659447,93 2881,79 8304722,88 3422682,16 0,23
25967,2 10827,04 9449,90 4321749,52 1377,14 1896508,30 3685936,26 0,13
28525,34 11796,26 10384,94 9290924,55 1411,32 1991824,00 20052656,23 0,12
29962,28 8365,54 10910,16 146396,69 -2544,62 6475104,89 34986742,70 0,30
30584,14 14935,23 11137,46 38279857,39 3797,77 14423043,99 42730005,66 0,25
32069,03 13131,49 11680,21 19213597,62 1451,28 2106211,23 64347818,98 0,11
34224,31 11921,77 12468,00 10071811,82 -546,23 298364,31 103571109,80 0,05
37743,05 13997,28 13754,15 27553279,62 243,13 59112,91 187572999,16 0,02
38616,36 13391,7 14073,36 21562480,40 -681,66 464655,14 212256904,11 0,05
39182,73 14790,01 14280,37 36503973,11 509,64 259730,14 229080612,58 0,03
39873,23 13642,05 14532,76 23950176,90 -890,71 793365,43 250459402,98 0,07
41832,96 15608,1 15249,07 47058801,43 359,03 128902,00 316328962,85 0,02
41870,42 12989,22 15262,76 17986605,15 -2273,54 5168997,45 317662866,19 0,18
937845,51 341178,17 341178,17 627318401,91 0,00 225415825,33 3008230434,51 19,40
Несмещенной оценкой дисперсии возмущений является величина:
EQ S2 = \f(∑(yi - yx)2;n - m - 1)
EQ S2 = \f(225415825.326;37) = 6092319.603
S2 = 6092319.603 - необъясненная дисперсия или дисперсия ошибки регрессии (мера разброса зависимой переменной вокруг линии регрессии).
EQ S = \r(S2) = \r(6092319.603) = 2468.26
S = 2468.26 - стандартная ошибка оценки.
Стандартная ошибка регрессии рассматривается в качестве меры разброса данных наблюдений от смоделированных значений. Чем меньше значение стандартной ошибки регрессии, тем качество модели выше.
Sa - стандартное отклонение случайной величины a.
EQ Sa = S·\f(\r( ∑x2);n S(x))
EQ Sa = 2468.26·\f( \r(25560902245.47);39·8782.603) = 1152.104
Sb - стандартное отклонение случайной величины b.
EQ Sb = \f(S;\r(n)·S(x))
EQ Sb = \f( 2468.26;\r(39)·8782.603) = 0.045
t-статистика. Критерий Стьюдента.
С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые характерны для конкретного статистического наблюдения (конкретного набора значений x и y).
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля.
Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для генеральной совокупности используют статистические методы проверки гипотез.
В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от нуля параметра или статистической характеристики в генеральной совокупности. Наряду с основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о неравенстве нулю параметра или статистической характеристики в генеральной совокупности.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.
H0: b = 0, то есть между переменными x и y отсутствует линейная взаимосвязь в генеральной совокупности;
H1: b ≠ 0, то есть между переменными x и y есть линейная взаимосвязь в генеральной совокупности.
В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента.
Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике).
Табличное значение определяется в зависимости от уровня значимости (α) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений