Рассчитать линейный коэффициент парной корреляции, оценить его статистическую значимость и построить для него доверительный интервал с уровнем значимости =0,05. Сделать выводы
2. Построить линейное уравнение парной регрессии y на x и оценить статистическую значимость параметров регрессии. Сделать рисунок.
3. Оценить качество уравнения регрессии при помощи коэффициента детерминации. Сделать выводы. Проверить качество уравнения регрессии при помощи F критерия Фишера.
4. Выполнить прогноз прожиточного минимума населения y при прогнозном значении x, составляющем 116% от среднего уровня. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал для уровня значимости a=0,05. Сделать выводы.
Решение
Линейный коэффициент парной корреляции используется для определения тесноты связи между признаками. Формула расчета
rxy=cov(x,y)σx∙σy,
где
σx и σy – выборочные дисперсии переменных x и y,
covx,y – ковариация признаков.
В Excel линейный коэффициент парной корреляции рассчитаем с помощью статистической функцией КОРРЕЛ
получилось
Коэффициент rxy>0 и |rxy|≈0,9 , поэтому можно сделать вывод, что между средней заработной платой (x) и среднедушевым прожиточным минимумом (y) корреляционная зависимость прямая и сильная.
Для оценки статистической значимости коэффициента корреляции применим двусторонний t-критерий Стьюдента
Расчетная статистика
Tнабл=rxyn-21-rxy2 ,
Tнабл=5,561
Критическое значение распределения Стьюдента вычисляем функцией Excel
= СТЬЮДРАСПОБР ( ; n – 2 )
Tкрит= СТЬЮДРАСПОБР (0,05 ; 10 – 2 ) = 2,306.
Поскольку Tнабл>Tкрит , то коэффициент корреляции существенно отличается от нуля.
Коэффициент корреляции значим; построим для него доверительный интервал, который с заданной вероятностью 1 – = 1 – 0,05 = 0,95 содержит неизвестный генеральный коэффициент корреляции .
Для построения интервальной оценки (для малых выборок n < 30), используют z-преобразование Фишера:
z=arth r ≡12∙ln1+r1-r
z=arth 0,891=1,42838
Сначала находим доверительный интервал для математического ожидания z – M(z) в виде
z-tγ∙1n-3≤Mz≤ z+tγ∙1n-3
где tγ ищем через функцию Лапласа Фtγ=γ2 (по таблице значений функции Лапласа)
Для = 0,95 γ2=0,475 , тогда по таблице значений функции Лапласа
…
tγ=1,96
Тогда
1,42838-1,96∙110-3≤Mz≤ 1,42838+1,96∙110-3
0,688≤Mz≤2,169
Обратное z-преобразование по формуле
r=ez-e-zez+e-z
применяем к границам интервала для Mz и получаем границы для генерального коэффициента корреляции:
e0,688-e-0,688e0,688+e-0,688≤ρxy≤e2,169-e-2,169e2,169+e-2,169
Таким образом, на уровне значимости 0,05 (то есть с надежностью 0,95) генеральный коэффициент корреляции ρxy заключен в интервале
0,596≤ρxy≤0,974
2
. В пункте 1 показано, что между переменными x (средняя зарплата, тыс. руб) и y (прожиточный минимум на душу населения, тыс. руб. в месяц) имеет место существенная корреляционная зависимость. Считая эту зависимость линейной, по заданной выборке ограниченного объема n = 10 построим эмпирическое уравнение регрессии
y=b0+b1x
с эмпирическими коэффициентами b0 и b1
Построение выполним с использованием инструмента “Регрессия” пакета “Анализ данных”.
Результат работы инструмента “Регрессия”
Коэффициенты b0 и b1 эмпирического уравнения выведены в столбце Коэффициенты
Записываем уравнение регрессии
y=0,195+0,208∙x
В этом уравнении параметр b1=0,208 показывает, что с увеличением средней зарплаты (x) на 1 тыс. руб., прожиточный минимум на душу населения (y) увеличивается в среднем на 0,208 тыс. руб., то есть на 208 рублей.
Графически изобразим на диаграмме эмпирические данные и рассчитанную линию регрессии:
Проверка значимости коэффициентов регрессии осуществляется с помощью t-критерия Стьюдента.
Нулевая гипотеза заключается в том, что генеральные коэффициенты β0 и β1 незначимо отличаются от нуля.
В Excel сразу рассчитывается вероятность выполнения нулевой гипотезы, то есть вероятность того, что расчетная статистика Стьюдента попадет в критическую область.
Эта вероятность находится в столбце Р-значения
…
Так как Р-значение обоих коэффициентов ниже 0,05 (заданного уровня значимости ), то оба эмпирических коэффициента регрессии значимо отличаются от нуля.
95%-ные доверительные интервалы для коэффициентов регрессии выводятся в столбцах “Нижние 95%” и “Верхние 95%”.
То есть генеральные коэффициенты регрессии β0 и β1 с надежностью 95% покрываются интервалами
0,106<β0<0,284
0,122< β1<0,294
3