Парная регрессия и корреляция
Имеются данные о количестве копий (тыс. шт.), сделанных копировальными машинами различных марок в издательских центрах города и стоимости технического обслуживания копировальных машин (тыс. у. е.). Исходные данные представлены в таблице 1.
Таблица 1
Исходные данные
количество копий (х) стоимость обслуживания (у)
16,00 1,40
19,00 1,60
24,00 1,70
26,00 1,75
28,00 1,85
29,00 2,40
33,00 2,70
39,00 2,80
40,00 2,80
41,00 2,70
44,00 2,90
45,00 3,00
Требуется:
Постройте поле корреляции результативного и факторного признаков.
Определите параметры уравнения парной линейной регрессии и дайте интерпретацию коэффициента регрессии .
Рассчитайте линейный коэффициент корреляции и поясните его смысл. Определите коэффициент детерминации и дайте его интерпретацию.
С вероятностью 0,95 оцените статистическую значимость коэффициента регрессии и уравнения регрессии в целом. Сделайте выводы.
Рассчитайте прогнозное значение Y*для заданного X*=21 и постройте 95% доверительный интервал для прогноза.
Решение
1. Для условия задачи поле корреляции выглядит следующим образом (рисунок 1):
Рисунок 1 – поле корреляции результативного и факторного признаков
На основе построенного корреляционного поля фактора и признака, можно предположить о наличии между ними прямой корреляционной связи вида: ŷ = a + bx.
2) Определим параметры уравнения парной линейной регрессии. Вычисления представим в таблице 2.
Таблица 2
Результаты вычислений
№ Х у x-x
(y-y)
x-x² (y-y)²
x-x
×
(y-y)
ŷ е
1 2 3 4 5 6 7 8 9 10
1 16,00 1,40 -16,00 -0,90 256,00 0,81 14,40 1,38 0,02
2 19,00 1,60 -13,00 - 0,70 169,00 0,49 9,10 1,55 0,05
3 24,00 1,70 - 8,00 - 0,60 64,00 0,36 4,80 1,84 -0,14
4 26,00 1,75 - 6,00 - 0,55 36,00 0,30 3,30 1,95 - 0,20
5 28,00 1,85 -4,00 -0,45 16,00 0,20 1,80 2,07 -0,22
6 29,00 2,40 - 3,00 0,10 9,00 0,01 - 0,30 2,13 0,27
Продолжение таблицы 2
№ Х у x-x
(y-y)
x-x² (y-y)²
x-x
×
(y-y)
ŷ е
1 2 3 4 5 6 7 8 9 10
7 33,00 2,70 1,00 0,40 1,00 0,16 0,40 2,36 0,34
8 39,00 2,80 7,00 0,50 49,00 0,25 3,50 2,70 0,10
9 40,00 2,80 8,00 0,50 64,00 0,25 4,00 2,76 0,04
10 41,00 2,70 9,00 0,40 81,00 0,16 3,60 2,82 -0,12
11 44,00 2,90 12,00 0,60 144,00 0,36 7,20 2,99 -0,09
12 45,00 3,00 13,00 0,70 169,00 0,49 9,10 3,05 -0,05
Сумма 384,00 27,60 - - 1 058,00 3,85 60,90 27,60 -
Среднее 32,00 2,30 - - 88,17 0,32 5,08 2,30 -
Определим параметры модели:
b=x-x(y-y)x-x²=60,901 058=0,058;
a=y-b×x=2,30-0,058×32=0,458.
Таким образом, уравнение парной линейной регрессии имеет вид:
ŷ = 0,458 + 0,058 ×x.
Полученное уравнение парной линейной регрессии показывает, что при увеличении количества копий на 1 тыс
. шт. стоимость технического обслуживания копировальных машин увеличится в среднем на 0,0576 тыс. у.е.
3) Рассчитаем линейный коэффициент корреляции.
rxy=x-x(y-y)x-x²×(y-y)²=60,901 058×3,85=0,955
Т.е. связь между изучаемыми переменными прямая (коэффициент корреляции положителен) линейная весьма высока (по шкале Чеддока 0,9 <rxy < 0,99).
Определим коэффициент детерминации:
R2=rxy2=0,9552=0,912.
Т.е. 91,2% вариации стоимости технического обслуживания копировальных машин объясняется вариацией количества копий. Остальные 8,80% приходятся на факторы, не учтенные в моделе.
4) Оценим статистическую значимость коэффициента регрессии b.
Рассчитаем дисперсию ошибки регрессии:
σu2=ei2n-m-1=0,34012-1-1=0,034.
Далее рассчитаем стандартную ошибку коэффициента регрессии b:
μb=σu2x-x²=0,0341 058=0,006.
Тогда фактическое значение t - статистики составит:
tфакт b=bμb=0,0580,006=10,161.
По таблице находим для уровня значимости по условию 1−0,95 = 0,05 и числа степеней свободы 10: t0,05;10=2,228