Используя данные таблицы, требуется
1. Графически определить характер зависимости между X и Y, проанализировать применимость метода наименьших квадратов.
2. Построить уравнение линейной регрессии: определить коэффициенты регрессии методом наименьших квадратов.
3. Оценить значимость вычисленных коэффициентов регрессии с помощью t-критерия Стьюдента.
4. Определить коэффициенты корреляции и детерминации, оценить силу найденной регрессионной зависимости.
5. Оценить адекватность построенной модели с помощью F-критерия Фишера.
6. На график опытных точек нанести рассчитанную линию регрессии, визуально оценить близость уравнения регрессии к функциональной связи.
7. Провести однофакторный корреляционный и регрессионный анализ с помощью инструмента Регрессия MS Excel и сравнить с результатами, полученными ранее.
8. Рассчитать и построить графически меру ошибки регрессионной модели.
8. Сделать выводы.
Вариант 9
№ xi
yi
№ xi
yi
27,2 7,6
24,9 12,1
20,3 7,2
23,8 20,0
13,4 6,8
24,3 11,9
16,1 13,4
19,0 19,9
19,7 20,1
24,9 12,0
20,8 12,3
23,9 13,0
21,9 4,1
26,9 14,1
20,2 14,6
23,4 20,2
18,7 4,7
22,1 1,9
20,9 12,1
19,0 6,9
23,0 20,2
22,9 11,0
21,1 14,9
21,9 12,4
19,0 9,9
Нужно полное решение этой работы?
Решение
Нанесем на координатную плоскость точки опытных данных xi, yi.
Построенные точки не лежат точно на одной линии. Это обусловлено влиянием на результативную переменную Y кроме учтенного факторного признака X также и других факторов.
Можно предположить возрастающую линейную связь между переменными X и Y, но скорее всего эта связь будет слабой, так как точки расположены далеко от предполагаемой прямой линии. Применим метод наименьших квадратов.
2. Уравнение парной линейной регрессии, описывающей зависимость результативной переменной Y от факторной переменной X, имеет вид
Y=a0+a1X
Неизвестные коэффициенты регрессии a0 и a1 находятся методом наименьших квадратов как решение системы уравнений
n∙a0+a1xi=yia0xi+a1xi2=xi∙yi
Эта система двух уравнений с двумя неизвестными, решая ее получим выражения для a0 и a1
a1=nxi∙yi-xiyinxi2-xi2
a0=yin-a1xin
Проводим вычисления во вспомогательной таблице
…
Подставляем расчетные значения в формулы для коэффициентов a0 и a1 и получаем
a1=25*6606,71-539,3*303,325*11874,55-539,32=0,2655
a0=303,325-0,2655*539,325=6,405
Таким образом, искомое линейное уравнение регрессионной зависимости имеет вид
yт=6,405+0,2655*x
Наклон линии регрессии a1=0,2655 показывает, что если факторная переменная x будет увеличиваться на 1 единицу, то результативная переменная будет увеличиваться на 0,2655 единиц. Знак “+” означает, что связь возрастающая.
Коэффициент a0=6,405 показывает значение результативной переменной y при x = 0 (точка пересечения регрессионной прямой с осью Oy).
3. Оцениваем значимость коэффициентов регрессии с помощью t-критерия Стьюдента.
Расчетные значения критерия
для коэффициента b0
ta0=a0∙n-2σост∙σx∙1x
для коэффициента b1
ta1=a1∙n-2σост∙σx
В этих формулах
n = 25 – объем выборки
σост=yi-yiт2n
– среднее квадратическое отклонение значений результативного признака yi от выровненных значений yiт
σx=xi-x2n
– среднее квадратическое отклонение значений факторного признака xi от среднего x
Проводим вычисления
…
σост=650,4825=5,101
σx=240,7725=3,103
ta0=6,405∙235,101∙3,103∙1474,78=0,8575
ta1=0,2655∙235,101∙3,103=0,7746
Критическое значение Стьюдента при уровне значимости α=0,05 и числе степеней свободы =n-2=23 определяем по таблицам
tкрит=t23;0,05=2,07
Так как ta0=0,8575<tкрит, то параметр a0 незначим;
так как ta1=0,7746<tкрит, то параметр a1 также незначим.
4
. Определяем коэффициенты корреляции и детерминации.
Коэффициент корреляции
rxy=nxiyi-xiyinxi2-xi2∙nyi2-yi2
…
rxy=25*6606,71-539,30*303,3025*11874,55-539,302∙25*4347,09-303,302=0,159
Так как rxy>0, то связь прямая (то есть если увеличивается x, то y тоже увеличивается).
Так как rxy<0,3 то связь практически отсутствует (то есть подтвердилось предположение пункта 1 о слабой связи переменных).
Коэффициент детерминации
R2=yт-y2y-y2
yт-y2 – объясненная вариация переменной y
y-y2 – общая вариация переменной y
…
R2=16,97667,45=0,0254
Таким образом, всего 2,54% взаимосвязи переменных x и y описывается функцией регрессии, остальные 97,46% вариации переменной y обусловлены факторами, не включенными в регрессионную модель.
Качество уравнения плохое.
5. Адекватность построенной модели (значимость уравнения) оцениваем с помощью F-критерия Фишера.
Расчетное значение критерия для парной регрессии вычисляем по формуле
Fрасч=R21-R2∙(n-2)
Fрасч=0,02541-0,0254∙25-2=0,6
Критическое значение Фишера при уровне значимости α=0,05 и числе степеней свободы 1=1 и 2=n-2=23 определяем по таблицам
Fкрит=F1;23;0,05=4,28
Так как Fрасч=0,6<Fкрит, то уравнение регрессии незначимо.
6