Согласно п. 2 методических указаний сформировать выборку для исследований.
2. Построить корреляционное поле между обеспечением электрической энергией, млн. руб., и выбросами загрязняющих веществ в атмосферный воздух, отходящих от стационарных источников, тыс. тонн. Выдвинуть гипотезу о тесноте и виде зависимости между обеспечением электрической энергией и выбросами загрязняющих веществ в атмосферный воздух.
3. Оценить тесноту линейной связи между обеспечением электрической энергией и выбросами загрязняющих веществ в атмосферный воздух с надежностью γ=0,95.
4. Рассчитать коэффициенты линейного уравнения парной регрессии для зависимости выбросов загрязняющих веществ в атмосферный воздух от объема производства электрической энергии. Дать содержательную интерпретацию параметров уравнения.
5. Построить доверительные интервалы для параметров модели парной регрессии с доверительной вероятностью γ=0,95. Дать их содержательную интерпретацию.
6. Проверить статистическую значимость параметров уравнения парной регрессии с надежностью γ=0,95.
7. Проверить качество построенного уравнения регрессии с помощью средней ошибки аппроксимации и с помощью коэффициента детерминации. С помощью F -критерия Фишера оценить статистическую значимость уравнения регрессии с надежностью γ=0,95.
8. Прогноз объема производства электроэнергии для некоторого региона на 2020 год на 6% выше среднего по выборке. Дать точечный и интервальный прогноз с надежностью γ=0,95 выбросов загрязняющих веществ в атмосферный воздух для этого региона.
Перечень показателей для регрессии:
1. Зависимая переменная (Y): выбросы загрязняющих веществ в атмосферный воздух, отходящих от стационарных источников, тыс. тонн, за 2017 год.
2. Независимая переменная X1: объем отгруженных товаров собственного производства, выполненных работ и услуг собственными силами по виду экономической деятельности «обеспечение электрической энергией, газом и паром; кондиционирование воздуха», млн. руб., за 2017 год.
Источник информации:
Статистический сборник «Регионы России. Социально-экономические показатели. 2018» (сайт www.gks.ru / Официальная статистика / Публикации / Каталог публикаций).
Решение
1. Сформированная выборка для исследования представлена в таблице 1.
Таблица 1. Исходные данные
№ пп № региона Субъект РФ Объем отгруженных товаров собственного производства, выполненных работ и услуг собственными силами по виду экономической деятельности «обеспечение электрической энергией, газом и паром; кондиционирование воздуха», млн. руб., за 2017 год.
(Х) Выбросы загрязняющих веществ в атмосферный воздух, отходящих от стационарных источников, тыс. тонн, за 2017 год.
(У)
1 78 Амурская область 36087 133
2 24 Ленинградская область 99029 226
3 73 Томская область 35969 263
4 42 Чеченская Республика 14379 15
5 40 Карачаево-Черкесская Республика 9061 17
6 52 Нижегородская область 99013 151
7 35 Ростовская область 133563 195
8 14 Тамбовская область 16099 63
9 22 Вологодская область 40646 429
10 15 Тверская область 94874 74
11 51 Кировская область 39382 98
12 44 Республика Башкортостан 122987 418
13 76 Приморский край 62629 186
14 49 Чувашская Республика 24578 43
15 38 Республика Ингушетия 1345 1
16 61 Челябинская область 136982 533
17 37 Республика Дагестан 19315 14
18 80 Сахалинская область 16465 105
19 70 Кемеровская область 96518 1488
20 53 Оренбургская область 57928 475
21 45 Республика Марий Эл 11546 35
22 48 Удмуртская Республика 37608 139
23 65 Республика Хакасия 47622 115
24 56 Саратовская область 96236 123
25 57 Ульяновская область 27120 34
26 8 Курская область 60309 40
27 4 Воронежская область 88207 76
28 43 Ставропольский край 82964 95
29 33 Астраханская область 27700 103
2. Корреляционное поле между обеспечением электрической энергией и выбросами загрязняющих веществ в атмосферный воздух, отходящих от стационарных источников представлено на рис. 1.
Рис. 1. Корреляционное поле между обеспечением электрической энергией (Х) и выбросами загрязняющих веществ в атмосферу (У)
Из рис. 1 видно, что в целом между обеспечением электрической энергией и выбросами в атмосферу наблюдается прямая взаимосвязь, когда по мере роста потребления электрической энергии увеличивается объем выбросов загрязняющих веществ в атмосферу.
Выдвинем гипотезу о линейной зависимости между и , которая «возмущена» аддитивной случайной составляющей со средним значением :
Y = aX + b + . (1)
3. Для оценки тесноты линейной зависимости между переменными X и Y используют выборочный коэффициент парной корреляции , который рассчитывается по формуле
(2)
где , , - выборочные средние значения,
, - выборочные среднеквадратические отклонения показателей X и Y,
, - выборочные дисперсии показателей X и Y.
Для оценки статистической значимости выборочного коэффициента парной корреляции выдвигается нулевая гипотеза H0: {}, т.е. гипотеза об отсутствии корреляции между исследуемыми переменными. Альтернативная гипотеза имеет вид H1: {}. Для проверки нулевой гипотезы Н0 рассчитывается величина t – статистики по формуле
. (3)
Полученное значение t – статистики сравнивается с табличным значением квантиля порядка () распределения Стьюдента с степенями свободы. Здесь = 1 – и – заданная надежность выводов.
Если , то делается вывод о том, что с надежностью выборочный коэффициент парной корреляции существенно отличается от нуля, и, следовательно, между переменными и существует значимая (тесная) зависимость, являющаяся либо линейной, либо близкой к линейной.
В противном случае делается заключение о незначимости корреляции между переменными X и Y .
Рассчитаем величину выборочного коэффициента парной корреляции между обеспечением электрической энергией и выбросами загрязняющих веществ в атмосферу Y по данным таблицы 1. Для этого проведем некоторые предварительные расчеты, результаты которых представлены в таблице 2.
Таблица 2. Расчет выборочного коэффициента парной корреляции и коэффициентов линейного уравнения
i xi yi xiyi
1 2 3 4 5
1 36087 133 4799571 413404246,2 3982,04518
2 99029 226 22380554 1815582714 893,803805
3 35969 263 9459847 418216603,6 4475,14863
4 14379 15 215685 1767390593 32798,459
5 9061 17 154037 2242812825 32078,0452
6 99013 151 14950963 1814219461 2034,32105
7 133563 195 26044785 5951143533 1,2175981
8 16099 63 1014237 1625730207 17716,5279
9 40646 429 17437134 248798407 54240,8038
10 94874 74 7020676 1478760504 14909,2521
11 39382 98 3859436 290271118,8 9624,28656
12 122987 418 51408566 4431252715 49238,0797
13 62629 186 11648994 38559817,36 102,079667
14 24578 43 1056854 1013871240 23440,6659
15 1345 1 1345 3033183458 38065,3555
Продолжение табл
. 2
1 2 3 4 5
16 136982 533 73011406 6490341408 113499,287
17 19315 14 270410 1376732405 33161,6659
18 16465 105 1728825 1596349671 8299,83829
19 96518 1488 143618784 1607902147 1668996,7
20 57928 475 27515800 2276040,429 77783,2866
21 11546 35 404110 2013617076 25954,321
22 37608 139 5227512 353866694,2 3260,8038
23 47622 115 5476530 77393276,02 6577,76932
24 96236 123 11837028 1585366029 5344,11415
25 27120 34 922080 858451607,3 26277,5279
26 60309 40 2412360 15129417,36 24368,2866
27 88207 76 6703732 1010455021 14424,8383
28 82964 95 7881580 704618718,2 10221,9073
29 27700 103 2853100 824800767,3 8668,25208
Σ 1636161 5687 461315941 45100497723 2310438,7
Тогда
,
,
,
,
,
,
.
По приближенному критерию значение попадает в интервал (0,3;0,7). Поэтому можно сделать предварительный вывод, что между обеспечением электрической энергии и выбросами загрязняющих веществ в атмосферу существует слабая линейная прямая корреляционная зависимость.
Проверим теперь значимость вычисленного коэффициента корреляции с надежностью = 0,95. Рассчитаем величину t – статистики по формуле (3):
.
По таблице значений квантилей порядка (1 – /2) = 1 – 0,05/2 = 0,975 распределения Стьюдента с (n – 2) = 29 – 2 = 27 степенями свободы находим табличное значение . Поскольку ( 2,0518), то с надежностью 0,95 можно сделать вывод о существенном отличии коэффициента корреляции от нуля.
Таким образом, между обеспечением электрической энергии и выбросами загрязняющих веществ в атмосферу с надежностью = 0,95 существует значимая зависимость, являющаяся либо линейной, либо близкой к линейной. Поэтому имеет смысл рассмотреть линейную регрессионную модель.
4. Рассмотрим линейную регрессионную модель Y = aX + b + .
Тогда функция регрессии y = f(x) также линейна, т.е. y = ax + b. Оценки параметров и обозначим через и соответственно. Оценкой теоретического уравнения регрессии y = ax + b является выборочное уравнение регрессии .
Метод наименьших квадратов (МНК) нахождения оценок и заключается в подборе такого уравнения регрессии , график которой наименее удален от всех наблюденных значений yi, i = 1, 2, …, n, переменной Y:
.
Здесь величины получаются подстановкой значений переменной в выборочное уравнение регрессии: , .
Величины
, (4)
называют остатками уравнения регрессии.
Применение МНК приводит к необходимости разрешить относительно неизвестных и систему уравнений:
Данная система называется системой нормальных уравнений. Решая её, например, по правилу Крамера, можно получить следующие формулы для расчета коэффициентов и :
(5)
(6)
Найдем оценки коэффициентов линейной модели регрессии между располагаемым доходом и объемом потребления.
Итак, линейное уравнение регрессии имеет вид
, (7)
а линейная модель регрессии –
.
Рис. 2. Поле рассеяния и линия регрессии между обеспечением электрической энергией (Х) и выбросами загрязняющих веществ в атмосферу (У)
Дадим содержательную интерпретацию коэффициентов уравнения (7).
означает, что при увеличении обеспечения электрической энергией на 1 млн. руб. объем выбросов загрязняющих веществ в атмосферу в среднем увеличится на 3 т.
означает, что при отсутствии электроэнергии в регионе средний объем выбросов загрязняющих веществ составит 20,393 тыс. т. Это означает, что отказ от выработки и потребления электроэнергии полностью не решит экологические проблемы регионов.
5. Найдем интервальные оценки для параметров линейной модели
Y = aX + b + с надежностью .
Границы интервалов для параметров и определяются следующим образом:
,
(8)
,
где величины и называют точностью оценок