Постройте поле корреляции и сформулируйте гипотезу о форме связи.
2. Рассчитайте параметры уравнений линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической парной регрессии.
3. Оцените тесноту связи с помощью показателей корреляции и детерминации
4. Дайте с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.
5. Оцените качество уравнений с помощью средней ошибки аппроксимации.
6. Оцените статистическую надежность результатов регрессионного моделирования с помощью F-критерия Фишера. По значениям характеристик, рассчитанных в пп. 4, 5 и данном пункте, выберите лучшее уравнение регрессии и дайте его обоснование.
7. Рассчитайте ожидаемое значение результата, если значение фактора увеличится на 5% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости α=0,05.
8. Оцените полученные результаты, выводы оформите в аналитической записке.
Решение
1. Поле корреляции строим по исходным данным с помощью Excel.
Точки наблюдений расположены достаточно близко к прямой линии, поэтому можно предположить, что между переменными x (Денежные доходы на душу населения) и y (Потребительские расходы на душу населения) существует линейная взаимосвязь.
Также по корреляционному полю видно, что при увеличении денежных доходов населения (x) происходит увеличение потребительских расходов (y).
2. Уравнение линейной парной регрессии, описывающее взаимосвязь переменных x и y, ищем в виде
y=a+bx
Параметры a и b этого уравнения оцениваются методом наименьших квадратов и являются решением системы нормальных уравнений
n∙a+b∙x=ya∙x+b∙x2=y∙x
Также можно воспользоваться готовыми формулами, вытекающими из системы
b=yx-y∙xσx2
a=y-b∙x
Проведем вспомогательные расчеты в Excel.
Средние значения переменных по формулам
y=yn
– среднее значение y
x=xn
– среднее значение x
Выборочные дисперсии и среднеквадратичные отклонения по формулам
σy2=y2-y2
– дисперсия y; σy=σy2
– СКО y
σx2=x2-x2
– дисперсия x; σx=σx2
– СКО x
n = 16 – число наблюдений в выборке (число регионов)
Расчетная таблица
σy2=300191,25-505,6252=44534,61
σy=44534,61=211,03
σx2=1171256,88-947,52=273500,63
σx=273500,63=522,97
Получаем параметры уравнения линейной регрессии
b=575614,75-505,625∙947,5273500,63=0,353
a=505,625-0,353∙947,5=171,2
Записываем уравнение линейной регрессии
y=171,2+0,353x
Параметр b=0,353 показывает, что при увеличении денежных доходов населения на 1 тыс. рублей происходит увеличение потребительских расходов населения на 0,353 тыс. рублей в среднем.
Рассчитываем линейный коэффициент парной корреляции по формуле
rxy=b∙σxσy
rxy=0,353∙522,97211,03=0,875
Коэффициент корреляции положительный, следовательно, связь между x (Денежные доходы на душу населения) и y (Потребительские расходы на душу населения) прямая: с увеличением доходов населения увеличиваются и расходы.
По величине коэффициента делаем вывод, что теснота связи переменных высокая.
Определяем коэффициент детерминации как квадрат коэффициента корреляции
rxy2=rxy2
rxy2=0,8752=0,765
Коэффициент детерминации показывает, что 76,5% вариации результативной переменной y (Потребительские расходы на душу населения) объясняется вариацией фактора x (Денежные доходы на душу населения).
Определяем средний коэффициент эластичности. Для линейного уравнения используется формула
Э=b∙xy
Э=0,353∙947,5505,625=0,66
Коэффициент эластичности показывает, что при увеличении доходов населения на 1% происходит увеличение потребительских расходов в среднем на 0,66%.
Далее нужно вычислить величину средней ошибки аппроксимации
A=1ny-yy∙100%
y – расчетные значения потребительских расходов y, которые получаются подстановкой в уравнение регрессии y=171,2+0,353x фактических значений доходов населения x.
Расчеты в Excel
A=116∙3,340∙100%=20,9
Расчетные значения отклоняются от фактических в среднем на 20,9%.
Точность модели нельзя назвать удовлетворительной, так как значение A намного превышает допустимые 10-12%.
Для оценки статистической надежности уравнения рассчитываем F-критерий. Для парной линейной модели пользуемся формулой
F=rxy21-rxy2*(n-2)
F=0,7651-0,765*16-2=45,60
Выберем уровень значимости α=0,05.
Число переменных в парной линейной регрессии m = 1.
Табличное значение распределения Фишера при уровне α=0,05 и числе степеней свободы k1=m=1 и k2=n-m-1=16-1-1=14 находим по таблице критических значений
Fтабл=Fα;k1;k2=F0,05;1;14=4,60
Так как F>Fтабл, делаем вывод, что уравнение линейной регрессии в целом значимо и надежно.
Уравнение степенной регрессии имеет вид
y=axb
Проводим линеаризацию переменных, логарифмируя обе части уравнения
lny=lna+b∙lnx
Делаем замену Y=lny, X=lnx и обозначаем константу lna=A.
Получаем линеаризованное уравнение
Y=A+b∙X
Параметры A и b этого уравнения рассчитываем по формулам
b=YX-Y∙XσX2
A=Y-b∙X
Расчеты проводим в Excel.
σX2=X2-X2=45,08-6,6872=0,362
Коэффициенты линеаризованного уравнения
b=41,20-6,121∙6,6870,362=0,747
A=6,121-0,747∙6,687=1,124
Коэффициенты искомого степенного уравнения
b=0,747
a=eA=e1,124=3,078
Записываем уравнение степенной регрессии
y=3,078x0,747
Рассчитываем показатели тесноты связи в уравнении.
Индекс корреляции
Rxy=1-y-y2y-y2
Индекс детерминации
Rxy2=1-y-y2y-y2
Для расчета требуются теоретические значения потребительских расходов y, получаем их, подставляя фактические значения доходов населения x в уравнение регрессии y=3,078x0,747.
Вычисления делаем в Excel.
Сразу найдем и среднюю ошибку аппроксимации
A=1ny-yy∙100%
Rxy=1-160276,16771253,750=0,880
По величине индекса корреляции делаем вывод, что теснота связи в степенном уравнении высокая.
Rxy2=0,8802=0,775
Индекс детерминации показывает, что в степенном уравнении 77,5% вариации результативной переменной y (Потребительские расходы на душу населения) объясняется вариацией фактора x (Денежные доходы на душу населения).
A=116∙2,408∙100%=15,1%
Расчетные значения отклоняются от фактических в среднем на 15,1%.
Точность степенной модели не является удовлетворительной, так как значение A превышает допустимые 10-12%.
Средний коэффициент эластичности для степенной модели
Э=b=0,747
При увеличении доходов населения на 1% происходит увеличение потребительских расходов в среднем на 0,747%.
Для оценки статистической надежности уравнения рассчитываем F-критерий
.
F=R21-R2*(n-2)
F=0,7751-0,775*16-2=48,24
Берем уровень значимости α=0,05. Число переменных модели m = 1.
Табличное значение распределения Фишера при уровне α=0,05 и числе степеней свободы k1=1 и k2=14
Fтабл=F0,05;1;14=4,60
Так как F>Fтабл то уравнение степенной регрессии в целом значимо и надежно.
Уравнение экспоненциальной регрессии
y=aebx
Проводим линеаризацию переменных, логарифмируя обе части уравнения
lny=lna+bx
Делаем замену Y=lny и обозначаем константу lna=A.
Получаем линеаризованное уравнение
Y=A+b∙x
Параметры A и b этого уравнения рассчитываем по формулам
b=Yx-Y∙xσx2
A=Y-b∙x
Расчеты проводим в Excel.
σx2=1171256,88-947,52=273500,63
Коэффициенты линеаризованного уравнения
b=6009,63-6,121∙947,5273500,63=0,0008
A=6,121-0,0008∙947,5=5,394
Коэффициенты искомого экспоненциального уравнения
b=0,0008
a=eA=e5,394=220,07
Записываем уравнение экспоненциальной регрессии
y=220,07∙e0,0008∙x
Показатели тесноты связи в уравнении.
Индекс корреляции Rxy=1-y-y2y-y2
Индекс детерминации Rxy2=1-y-y2y-y2
Теоретические значения y получаем, подставляя фактические значения x в уравнение y=220,07∙e0,0008∙x.
Средняя ошибка аппроксимации
A=1ny-yy∙100%
Расчетная таблица Excel.
Rxy=1-249520,37571253,750=0,806
Теснота связи в экспоненциальном уравнении высокая.
Rxy2=0,8062=0,650
В экспоненциальном уравнении 65% вариации результативной переменной y объясняется вариацией фактора x.
A=116∙3,848∙100%=24,1%
Расчетные значения отклоняются от фактических в среднем на 24,1%.
Точность степенной модели не является удовлетворительной, так как A значительно превышает допустимые 10-12%.
Средний коэффициент эластичности для степенной модели
Э=b*x=0,0008*947,5=0,73
При увеличении доходов населения на 1% происходит увеличение потребительских расходов в среднем на 0,73%.
Статистическую надежность уравнения оцениваем F-критерием.
F=R21-R2*n-2=0,6501-0,650*14=25,98
Берем уровень значимости α=0,05. Число переменных модели m = 1.
Табличное значение распределения Фишера при уровне α=0,05 и числе степеней свободы k1=1 и k2=14
Fтабл=F0,05;1;14=4,60
Так как F>Fтабл то уравнение экспоненциальной регрессии в целом значимо и надежно.
Уравнение полулогарифмической регрессии
y=a+blnx
Делаем замену X=lnx.
Линеаризованное уравнение
y=a+b∙X
Формулы расчета параметров a и b этого уравнения
b=yX-y∙XσX2
a=y-b∙X
Расчеты в Excel.
…
σX2=X2-X2=45,08-6,6872=0,362
Коэффициенты линеаризованного уравнения
b=3495,82-505,625∙6,6870,362=316,78
a=505,625-0,0008∙947,5=-1612,76
Коэффициенты искомого полулогарифмического уравнения те же.
Записываем уравнение полулогарифмической регрессии
y=-1612,76+316,78*lnx
Показатели тесноты связи в уравнении.
Индекс корреляции Rxy=1-y-y2y-y2
Индекс детерминации Rxy2=1-y-y2y-y2
Средняя ошибка аппроксимации
A=1ny-yy∙100%
Расчеты в Excel.
…
Rxy=1-131668,47871253,750=0,903
Теснота связи в полулогарифмическом уравнении очень высокая.
Rxy2=0,9032=0,815
81,5% вариации результативной переменной y (Потребительские расходы на населения) объясняется вариацией фактора x (Денежные доходы населения).
A=116∙2,443∙100%=15,3%
Расчетные значения отклоняются от фактических в среднем на 15,3%.
Точность полулогарифмической модели не удовлетворительна, так как A превышает допустимые 10-12%.
Средний коэффициент эластичности для полулогарифмической модели
Э=ba+b*lnx=316,78-1612,76+316,78*ln947,5=0,57
При увеличении доходов населения на 1% происходит увеличение потребительских расходов в среднем на 0,57%.
F-критерий оценки статистической надежности уравнения
F=R21-R2*n-2=0,8151-0,815*14=61,76
Табличное значение распределения Фишера при уровне α=0,05 и числе степеней свободы k1=1 и k2=14
Fтабл=F0,05;1;14=4,60
Так как F>Fтабл то уравнение полулогарифмической регрессии в целом значимо и надежно.
Уравнение обратной регрессии
y=1a+bx
Проводим линеаризацию
1y=a+b*x
Делаем замену Y=1/y.
Линеаризованное уравнение
Y=a+b∙x
Формулы расчета параметров a и b этого уравнения
b=Yx-Y∙xσx2
a=Y-b∙x
Расчеты в Excel.
…
σx2=1171256,88-947,52=273500,63
Коэффициенты линеаризованного уравнения
b=1,82-0,003∙947,5273500,63=-0,000002
a=0,003-(-0,000002)∙947,5=0,0044
Коэффициенты искомого обратного уравнения те же.
Записываем уравнение обратной регрессии
y=10,0044-0,000002x
Показатели тесноты связи вычислим для x и 1/y
Коэффициент корреляции rx,1/y=1-1/y-1/y21/y-1/y2
Коэффициент детерминации rx,1/y2=rx,1y2
Средняя ошибка аппроксимации
A=1ny-yy∙100%
Расчеты в Excel.
…
rx,1/y=1-0,000020,00004=0,712
Теснота связи в обратном уравнении высокая.
rx,1/y2=0,7122=0,507
В обратном уравнении 50,7% вариации результативной переменной y объясняется вариацией фактора x.
A=116∙6,764∙100%=42,3%
Расчетные значения отклоняются от фактических в среднем на 42,3%.
Точность обратной модели не удовлетворительна, так как A значительно превышает допустимые 10-12%.
Средний коэффициент эластичности для обратной модели
Э=-bxa+b*x=0,000002*947,50,0044-0,000002*947,5=0,77
При увеличении доходов населения на 1% происходит увеличение потребительских расходов в среднем на 0,77%.
F-критерий оценки статистической надежности уравнения
F=R21-R2*n-2=0,5071-0,507*14=14,41
Табличное значение распределения Фишера при уровне α=0,05 и числе степеней свободы k1=1 и k2=14
Fтабл=F0,05;1;14=4,60
Так как F>Fтабл то уравнение обратной регрессии в целом значимо и надежно.
Уравнение гиперболической регрессии
y=a+bx
Делаем замену X=1/x.
Линеаризованное уравнение
y=a+b∙X
Формулы расчета параметров a и b этого уравнения
b=yX-y∙XσX2
a=y-b∙X
Расчеты в Excel.
…
σX2=X2-X2=0,0000033-0,00152=0,0000010
Коэффициенты линеаризованного уравнения
b=0,58-505,625∙0,00150,0000010=-172194,8
a=505,625-(-172194,8)∙0,015=764,95
Коэффициенты искомого гиперболического уравнения те же.
Записываем уравнение гиперболической регрессии
y=764,95-172194,8x
Показатели тесноты связи в уравнении.
Индекс корреляции Rxy=1-y-y2y-y2
Индекс детерминации Rxy2=1-y-y2y-y2
Средняя ошибка аппроксимации
A=1ny-yy∙100%
Расчеты в Excel.
…
Rxy=1-220694,33371253,750=0,831
Теснота связи в гиперболическом уравнении высокая.
Rxy2=0,8312=0,690
69% вариации результативной переменной y (Потребительские расходы на населения) объясняется вариацией фактора x (Денежные доходы населения).
A=116∙4,085∙100%=25,5%
Расчетные значения отклоняются от фактических в среднем на 25,5%.
Точность гиперболической модели не удовлетворительна, так как A значительно превышает допустимые 10-12%.
Средний коэффициент эластичности для гиперболической модели
Э=-bax+b=172194,8764,95*947,5+172194,8=0,31
При увеличении доходов населения на 1% происходит увеличение потребительских расходов в среднем на 0,31%.
F-критерий оценки статистической надежности уравнения
F=R21-R2*n-2=0,6901-0,690*14=31,20
Табличное значение распределения Фишера при уровне α=0,05 и числе степеней свободы k1=1 и k2=14
Fтабл=F0,05;1;14=4,60
Так как F>Fтабл то уравнение гиперболической регрессии в целом значимо и надежно.
3