Из генеральной совокупности произведена выборка значений для двух случайных переменных. Найти:
1. Результативный (зависимый, Y) и факторный (независимый, Х) признаки.
2. Построить корреляционное поле Х–Y.
3. Определить визуально пригодность линейной функции регрессии.
4. Оценить тесноту линейной связи между Х и Y по величине коэффициента корреляции.
5. По выборочным данным оценить коэффициенты уравнения регрессии и записать его в явном виде.
6. При заданном уровне значимости α=0,05 оценить существенность коэффициентов уравнения регрессии. Построить для них доверительные интервалы.
7. Охарактеризовать качество уравнения регрессии с помощью коэффициента детерминации.
8. Рассчитать точечный и интервальный прогнозы
Вариант 1
В таблице приведены данные величины прибыли (млн. руб.) магазинов в зависимости от их площади (м2). Изучить парную зависимость этих признаков по приведенным выборочным значениям
Решение
1. Из постановки задачи ясно, что прибыль магазинов – результативный признак (Y), а площадь магазинов – факторный признак (X).
Исследуется связь между величиной прибыли магазинов (Y) и размером площади (X). Число магазинов (объем выборки) n = 5.
2. Построим корреляционное поле X-Y.
3. По виду корреляционного поля заключаем, что линейная форма связи между Y и Х вполне допустима, поскольку просматривается прямая линия, вокруг которой расположены точки наблюдений.
4. Оценим тесноту линейной связи между Х и Y по величине коэффициента корреляции
rxy=xy-x*yx2-x2*y2-y2
Расчеты проведем во вспомогательной таблице
№ x y xy
x2
y2
1 74 0,5 37 5476 0,3
2 86 0,7 60,2 7396 0,5
3 117 1,1 128,7 13689 1,2
4 125 1,5 187,5 15625 2,3
5 150 2,0 300 22500 4,0
Сумма 552 5,8 713,4 64686 8,2
Среднее 110,4 1,16 142,68 12937,2 1,64
Подставляем расчетные данные и получаем коэффициент корреляции
rxy=142,68-110,4*1,1612937,2-110,42*1,64-1,162=0,984
Проверим статистическую значимость коэффициента корреляции. Согласно критерия Стьюдента, наблюдаемое значение t-статистики равно
t=rxyn-21-rxy2=0,984*5-21-0,9842=9,645
С другой стороны, для уровня значимости α=0,05 и числа степеней свободы v = n – 2 = 3 по таблице распределения Стьюдента найдем критическое значение:
tα2;n-2=3,18
Так как t >tα2;n-2, то коэффициент корреляции статистически значим.
Таким образом, между наблюдаемыми переменными Y и X есть положительная линейная связь: с увеличением площади магазина величина прибыли магазина в среднем возрастает
. Теснота линейной связи оценивается по шкале Чеддока как весьма высокая, так как rxy>0,9.
5. Выборочное уравнение парной линейной регрессии имеет вид
y=b0+b1x
x – площадь магазина, кв. м
y – прибыль магазина, млн. руб.
Найдем оценки коэффициентов уравнения регрессии по формулам
Выборочные оценки неизвестных коэффициентов b0 и b1 уравнения находим по формулам
b1=xy-x*yx2-(x)2
b0=y-b1*x
Подставляем найденные во вспомогательной таблице пункта 4 числа и получаем:
b1=142,68-110,4∙1,1612937,2-110,42=0,02
b0=1,16-0,02*110,4=-0,994
Следовательно, выборочное уравнение регрессии имеет вид
y=-0,994+0,02*x
Коэффициент b1=0,02 показывает, что при увеличении площади магазина на 1 м2, прибыль магазина увеличится в среднем на 0,02 млн. руб.
Коэффициент b0 показывает значение y при x = 0. Так как площадь магазина x = 0 не имеет смысла, то коэффициент b0=-0,994 не интерпретируем.
6. Оценим значимость коэффициентов уравнения регрессии с помощью критерия Стьюдента.
Для этого найдем сначала стандартную ошибку регрессии S по формуле
S2=yi-yi2n-2
а затем стандартные ошибки коэффициентов b1 и b0 по формулам
Sb1=S2xi-x2
Sb0=S2xi2nxi-x2
Расчеты проведем во вспомогательной таблице
№ x y y=-0,994+0,02*x
yi-yi2
xi-x2
xi2
1 74 0,5 0,450 0,00253 1324,96 5476
2 86 0,7 0,684 0,00026 595,36 7396
3 117 1,1 1,289 0,03564 43,56 13689
4 125 1,5 1,445 0,00304 213,16 15625
5 150 2,0 1,933 0,00453 1568,16 22500
Сумма 552 5,8
0,04599 3745,20 64686
Среднее 110,4
S2=0,045993=0,01533
Sb1=0,015333745,20=0,00202
Sb0=0,01533*646865*3745,20=0,23012
Далее находим наблюдаемые значения t-статистик по формулам
для коэффициента b1
tb1=b1Sb1=0,020,00202=9,645
для коэффициента b0
tb0=b0Sb0=-0,9940,23012=-4,320
Критическое значение распределения Стьюдента при уровне значимости α=0,05 и числе степеней свободы v = n – 2 = 3
tα2;n-2=3,18
(найдено в пункте 4)
Поскольку tb1>tα2;n-2, то коэффициент b1 значим
Поскольку tb0>tα2;n-2, то коэффициент b0 значим
Выполняем интервальное оценивание истинных коэффициентов регрессии β0 и β1.
Доверительные интервалы, с надежностью 95% накрывающие истинные коэффициенты β0 и β1 имеют вид
b1-tα2;n-2∙Sb1<β1<b1+tα2;n-2∙Sb1
b0-tα2;n-2∙Sb0<β0<b0+tα2;n-2∙Sb0
Подставляем найденные ранее характеристики
0,02-3,18*0,00202<β1<0,02+3,18*0,00202
-0,994-3,18*0,23012<β0<-0,994+3,18*0,23012
и получаем интервалы
0,013<β1<0,026
-1,727<β0<-0,262
7