Для характеристики зависимости Y от X (из задания 1) построить квадратную модель:
y=a+bx+cx2
2. Оценить квадратичную модель, определив:
- индекс корреляции;
- среднюю относительную ошибку;
- коэффициент детерминации;
- F-критерий Фишера.
3. Составить сводную таблицу вычислений, дать интерпретацию рассчитанных характеристик.
4. Рассчитать прогнозные значения результативного признака, если прогнозное значение фактора увеличивается на 110% относительно среднего уровня.
5. Результат расчётов отобразить на графике.
Решение
1.Уравнение имеет вид: y=a+bx+cx2.
Находим параметры уравнения методом наименьших квадратов.
Система уравнений МНК:
an + b∑x + c∑x2 = ∑y
a∑x + b∑x2 + c∑x3 = ∑yx
a∑x2 + b∑x3 + c∑x4 = ∑yx2
Для наших данных система уравнений имеет вид
6a + 9b + 31c = 41.5.
9a + 31b + 99c = 72.
31a + 99b + 355c = 242.
Получаем c = -0.0446, b = 0.691, a = 6.111.
Уравнение регрессии:
y = -0.0446x2+0.691x+6.111.
2. Рассчитываем показатель тесноты связи. Таким показателем является индекс корреляции, который рассчитывается по формуле:
, где
В нашем примере связь между признаком Y и фактором X весьма высокая и прямая.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным. В среднем, расчетные значения отклоняются от фактических на 2.55%
. Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака. Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R2= 0.9822 = 0.965,
т.е. в 96.5% случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 4.5% изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму: выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α; далее определяют фактическое значение F-критерия:
.
Табличное значение критерия со степенями свободы k1=1 и k2=3, Fтабл = 9.55.
Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).
3