По данным, взятым из соответствующей таблицы, выполнить следующие действия:
Построить поле корреляции и сформулировать гипотезу о форме связи.
Рассчитать параметры уравнений линейной, квадратичной, экспоненциальной, полулогарифмической и гиперболической парных регрессий.
Оценить тесноту связи с помощью показателей корреляции и детерминации.
Дать с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.
Оценить с помощью средней ошибки аппроксимации качество уравнений.
Оценить с помощью F-критерия Фишера статистическую надежность результатов регрессионного моделирования. По значениям характеристик, рассчитанных в пп. 4, 5 и данном пункте, выбрать лучшее уравнение регрессии и дать его обоснование.
Рассчитать прогнозное значение результата для уравнений линейной, экспоненциальной, полулогарифмической и гиперболической парных регрессий , если прогнозное значение фактора увеличится на 15% от его среднего уровня. Определить доверительный интервал прогноза для уровня значимости α=0,05.
Оценить полученные результаты, выводы оформить в аналитической записке контрольной работы.
10. Исходные данные заработной платы от производительности труда.
Решение
1) Строим поле корреляции
Предполагаем, что присутствует линейная зависимость между Y и X.
2)
Линейное уравнение регрессии
Система нормальных уравнений в общем виде:
Система нормальных уравнений с вычисленными коэффициентами (значения вычисленных сумм в таблице 1)
Решение системы:
Построенное уравнение регрессии:
Рис. 1. График линейного уравнения регрессии
Квадратичное уравнение регрессии
y=a+bx+cx2
Коэффициенты a, b, c находим из системы:
a∙n+bx+cx2=yax+bx2+cx3=xyax2+bx3+cx4=x2y
Для решения системы нужно вычислить суммы (i =0,1,2,3,4):
ixi, ixi2, ixi3, ixi4, ixi2yi, ixiyi, iyi
Сведём вычисления в таблицу:
Таблица 1
i
xi
yi
xi2
xi3
xi4
xiyi
xi2yi
1 1 670 1 1 1 670 670
2 1,5 400 2,25 3,375 5,0625 600 900
3 2 300 4 8 16 600 1200
4 3 250 9 27 81 750 2250
5 4 280 16 64 256 1120 4480
6 5 500 25 125 625 2500 12500
7 6 900 36 216 1296 5400 32400
8 7 1000 49 343 2401 7000 49000
9 8 1200 64 512 4096 9600 76800
Сумма 37,5 5500 206,25 1299,375 8777,0625 28240 180200
Система нормальных уравнений с вычисленными коэффициентами
Решение системы:
Построенное уравнение регрессии:
y=730.826-254.062x+40.969x2
Рис. 2. График квадратичного уравнения регрессии
Экспоненциальное уравнение регрессии
Система нормальных уравнений в общем виде:
x y Y=lg(y) x2 x*Y
1 670 6,507278 1 6,507278
1,5 400 5,991465 2,25 8,987197
2 300 5,703782 4 11,40756
3 250 5,521461 9 16,56438
4 280 5,63479 16 22,53916
5 500 6,214608 25 31,07304
6 900 6,802395 36 40,81437
7 1000 6,907755 49 48,35429
8 1200 7,090077 64 56,72061
37,5 5500 56,37361 206,25 242,9679
Система нормальных уравнений с вычисленными коэффициентами
Решение системы:
;
Построенное уравнение регрессии:
Рис. 3. График экспоненциального уравнения регрессии
Полулогарифмическое уравнение регрессии
Система нормальных уравнений в общем виде:
x y X=lg(x) X2 X*y
1 670 0 0 0
1,5 400 0,176091 0,031008 70,4365
2 300 0,30103 0,090619 90,309
3 250 0,477121 0,227645 119,2803
4 280 0,60206 0,362476 168,5768
5 500 0,69897 0,488559 349,485
6 900 0,778151 0,605519 700,3361
7 1000 0,845098 0,714191 845,098
8 1200 0,90309 0,815572 1083,708
37,5 5500 4,781612 3,335589 3427,23
Система нормальных уравнений с вычисленными коэффициентами
Решение системы:
Построенное уравнение регрессии:
Рис. 4. График полулогарифмического уравнения регрессии
Гиперболическое уравнение регрессии
Система нормальных уравнений в общем виде:
1/x x y 1/x2 y/x
1 1 670 1 670
0,666667 1,5 400 0,444444 266,6667
0,5 2 300 0,25 150
0,333333 3 250 0,111111 83,33333
0,25 4 280 0,0625 70
0,2 5 500 0,04 100
0,166667 6 900 0,027778 150
0,142857 7 1000 0,020408 142,8571
0,125 8 1200 0,015625 150
3,384524 37,5 5500 1,971866 1782,857
Система нормальных уравнений с вычисленными коэффициентами
Решение системы:
Построенное уравнение регрессии:
Рис
. 5. График гиперболического уравнения регрессии
3. Оцените тесноту связи с помощью показателей корреляции и детерминации.
Индекс корреляции μ.
Квадрат μ называется коэффициентом детерминации. Коэффициент детерминации показывает долю вариации результативного признака, находящегося под воздействием изучаемых факторов, т.е. определяет, какая доля вариации признака Y учтена в модели и обусловлена влиянием на него фактора X.
Название Уравнение μ
R2
Линейная 0,761 0,5791
Квадратическая
y=730.826-254.062x+40.969x2
0,941 0,8852
Экспоненциальная 0,802 0,6433
Полулогарифмическая 0,573 0,3279
Гипербола 0,345 0,119
Таким образом, наиболее тесная связь квадратической модели.
4. Дайте с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.
Средний коэффициент эластичности Э показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения.
Э=∂y∂x∙xy
Коэффициент эластичности находится по формуле:
Название Коэффициент эластичности, формула Э
Линейная bxy
0.726
Квадратическая
b+2cx∙xy
0.596
Экспоненциальная bx
0.379
Полулогарифмическая bxln10xy=byln10
0,451
Гипербола -bax+b
0.295
Таким образом, наиболее сильная связь для линейной и параболической модели.
5. Оцените качество уравнений с помощью средней ошибки аппроксимации.
Средняя ошибка аппроксимации:
Название Уравнение A, %
Линейная 42,77
Квадратическая
y=730.826-254.062x+40.969x2
18,95
Экспоненциальная 36,11
Полулогарифмическая 54,36
Гипербола 63,77
Ошибка аппроксимации в пределах 5-7 % свидетельствует о хорошем подборе модели к исходным данным.
Наилучшее качество с точки зрения наименьшей ошибки аппроксимации имеет квадратическая модель.
6. Оцените статистическую надежность результатов регрессионного моделирования с помощью F-критерия Фишера. По значениям характеристик, рассчитанных в пп. 4, 5 и данном пункте, выберите лучшее уравнение регрессии и дайте его обоснование.
Считаем статистику
Fнабл=R21-R2n-m-1m=m=1=R2(n-2)1-R2
Для квадратической модели m=2.
Из таблиц найдём квнтиль распределения Фишера с числом степеней свободы m и n-m-1 уровня значимости 0,05: .
Если Fнабл>F0.05;1;n-2, то уравнение статистически значимо и его можно использовать для моделирования.
Название R2 Fнабл
Вывод
Линейная 0,5791 9,63 значимо
Квадратичная 0,8852 23,14 значимо
Экспоненциальная 0,6433 12,62 значимо
Полулогарифмическая 0,3279 3,41 Не значимо
Гипербола 0,119 0,95 Не значимо
Значимыми являются линейная, квадратическая и экспоненциальные модели.
Таким образом, лучшей моделью является квадратическая зависимость, как имеющая наименьшую среднюю ошибку аппроксимации и самый высокий коэффициент детерминации