Множественная регрессия и корреляция
Изучается зависимость между стоимостью номера, уровнем сервиса и удаленностью от моря в отелях на курортах Турции. (таблица 3).
Таблица 3
Исходные данные
Название отеля стоимость одноместного номера, у.е. (У) классность отеля (кол-во звезд). (Х1) удаленность от моря, м (Х2)
1 2 3 4
Туана
35,00 2,00 800,00
Фортуна 40,00 3,00 700,00
Коринтия
60,00 4,00 800,00
Мираж 80,00 4,00 400,00
Амос
90,00 5,00 200,00
Посейдон 45,00 2,00 500,00
Мунамар
95,00 4,00 150,00
Атлантика 70,00 3,00 300,00
Викинги 55,00 3,00 500,00
Венеция 45,00 2,00 400,00
Олимпус
85,00 5,00 300,00
Лимра
75,00 4,00 600,00
Коллекция 30,00 2,00 900,00
Браво 40,00 2,00 300,00
Гавайи 70,00 3,00 200,00
Требуется:
Определите парные и частные коэффициенты корреляции. Сделайте выводы.
Постройте линейное уравнение множественной регрессии и поясните смысл его параметров. Рассчитайте скорректированный коэффициент детерминации.
Проверьте значимость уравнения регрессии на 95% уровне.
Рассчитайте коэффициенты эластичности. Дайте их интерпретацию.
Постройте 95% доверительные интервалы для коэффициентов регрессии. Проверьте значимость каждого из коэффициентов.
Решение
Рассчитаем средние значения переменных и проведем вспомогательные вычисления, которые представим в таблице 4.
На основании данных таблицы 4 определим парные коэффициенты корреляции.
rx1y=x1-x1(y-y)x1-x1²×(y-y)²=282,0016,40×6 360=0,873;
rx2y=x2-x2(y-y)x2-x2²×(y-y)²=- 49 300,00819 000×6 360=-0,683;
rx1x2=x1-x1x2-x2x1-x1²×x2-x2²=- 1 360,0016,40×819 000=-0,371.
Значение парного коэффициента корреляции свидетельствует о сильной линейной связи между (у) и переменными x1 и x2. Кроме того, факторы x1 и x1 неколлинеарны. Таким образом, можно сделать предварительное заключение, что классность отеля (x1) и удаленность от моря (x2) существенно влияют на стоимость отеля (у).
Рассчитаем частные коэффициенты корреляции:
rx1y/x2=rx1y-rx2y×rx1x21-rx2y2(1-rx1x22)=0,873-(-0,683)×(-0,371)(1-(-0,683))(1-(-0,371)2)=0,914;
rx2y/x1=rx2y-rx1y×rx1x21-rx1y2(1-rx1x22)=-0,683-0,873×(-0,371)(1-0,8732)(1-(-0,371)2)=-0,793;
rx2x1/y=rx1x2-rx1y×rx2y1-rx1y2(1-rx2y2)=(-0,371)-0,873×(-0,683)(1-(0,873)2)(1-(-0,683)2)=0,633.
Таблица 4
Результаты вычислений
отель у x1
x2
(y-y)
(x1-x1)
(x2-x2)
(y-y)²
(x1-x1)² (x2-x2)² (y-y)×(x1-x1)
y-y
×
(x2-x2)
x1-x1
×
(x2-x2)
1 2 3 4 5 6 7 8 9 10 11 12 13
1 35,00 2,00 800,00 -26,00 -1,20 330,00 676,00 1,44 108 900,00 31,20 -8 580,00 -396,00
2 40,00 3,00 700,00 -21,00 -0,20 230,00 441,00 0,04 52 900,00 4,20 -4 830,00 -46,00
3 60,00 4,00 800,00 -1,00 0,80 330,00 1,00 0,64 108 900,00 -0,80 -330,00 264,00
4 80,00 4,00 400,00 19,00 0,80 -70,00 361,00 0,64 4 900,00 15,20 -1 330,00 -56,00
5 90,00 5,00 200,00 29,00 1,80 -270,00 841,00 3,24 72 900,00 52,20 -7 830,00 -486,00
6 45,00 2,00 500,00 -16,00 -1,20 30,00 256,00 1,44 900,00 19,20 -480,00 -36,00
7 95,00 4,00 150,00 34,00 0,80 -320,00 1 156,00 0,64 102 400,00 27,20 -10 880,00 -256,00
8 70,00 3,00 300,00 9,00 -0,20 -170,00 81,00 0,04 28 900,00 -1,80 -1 530,00 34,00
9 55,00 3,00 500,00 -6,00 -0,20 30,00 36,00 0,04 900,00 1,20 -180,00 -6,00
10 45,00 2,00 400,00 -16,00 -1,20 -70,00 256,00 1,44 4 900,00 19,20 1 120,00 84,00
11 85,00 5,00 300,00 24,00 1,80 -170,00 576,00 3,24 28 900,00 43,20 -4 080,00 -306,00
12 75,00 4,00 600,00 14,00 0,80 130,00 196,00 0,64 16 900,00 11,20 1 820,00 104,00
13 30,00 2,00 900,00 -31,00 -1,20 430,00 961,00 1,44 184 900,00 37,20 -13 330,00 -516,00
14 40,00 2,00 300,00 -21,00 -1,20 -170,00 441,00 1,44 28 900,00 25,20 3 570,00 204,00
15 70,00 3,00 200,00 9,00 -0,20 -270,00 81,00 0,04 72 900,00 -1,80 -2 430,00 54,00
сумма 915,00 48,00 7 050,00 - -0,00 - 6 360,00 16,40 819 000,00 282,00 -49 300,00 -1 360,00
среднее 61,00 3,20 470,00 - -0,00 - 424,00 1,09 54 600,00 18,80 -3 286,67 -90,67
Коэффициенты частной корреляции дают более точную характеристику тесноты зависимости двух признаков, чем коэффициенты парной корреляции, так как «очищают» парную зависимость от взаимодействия данной пары переменных с другими переменными, представленными в модели
. Наиболее тесно связаны у и x1. Частный коэффициент корреляции показал, что связь между факторами присутствует.
2) Построим линейное уравнение множественной регрессии
Для начала вычислим среднеквадратическое отклонение признаков:
σy=(y-y)²n=6 360,0015= 20,591;
σx1=(x1-x1)²n=16,4015= 1,046;
σx2=(x2-x2)²n=819 00015= 233,666.
Далее определяем параметры линейной множественной регрессии:
b1=σyσx1×rx1y-rx2y×rx1x2rx1x22=20,5911,016×0,873-(-0,683)×(-0,371)(-0,371)2=14,152;
b2=σyσx2×rx2y-rx1y×rx1x2rx1x22=20,591233,666×-0,683-0,873×(-0,371)(-0,371)2=-0,037;
a=y-b1×x1-b2×x2=61-14,152×3,20-(-0,037)×470=32,960.
Таким образом, получим уравнение множественной регрессии:
ŷ = 32,960 + 14,152×x1-0,037×x2.
Уравнение регрессии показывает, что при увеличении классности отеля на 1 звезду (при неизменном уровне удаленности отеля от моря) стоимость номера увеличивается в среднем на 14,152 у.е., а при увеличении удаленности отеля от моря на 1 м (при неизменном уровне классности отеля) стоимость номера уменьшается в среднем на 0,037 у.е.
Рассчитаем скорректированный коэффициент детерминации:
R2=1-n-1n-m-1×1-rx1y2+rx2y2-2×rx1y×rx2y×rx1x21-rx1x22=
=1-15-115-2-1×
×1-0,8732+(-0,683)2-2×0,873×(-0,683)×(-0,371)1-(-0,371)2=0,897.
Таким образом, 89,7% вариации зависимой переменной объясняется вариацией независимых переменных
Проверим значимость уравнения регрессии на 95% уровне