Построение модели линейной регрессии по
несгруппированным данным
Цель работы: овладение навыками построения моделей линейной регрессии для несгруппированных данных, выработка умения и навыков оценки надежности коэффициента корреляции, уравнения регрессии и его коэффициентов.
Содержание работы: по имеющимся исходным данным:
Построить корреляционное поле. По характеру расположения точек в корреляционном поле выбрать вид регрессии.
Вычислить числовые характеристики
Определить значимость коэффициента корреляции r и найти для него доверительный интервал с надежностью γ=0,95.
Найти эмпирическое уравнение регрессий Y на Х и X на Y (методом наименьших квадратов). Проверить гипотезы о значимости коэффициентов регрессии и построить доверительные интервалы для них.
Вычислить коэффициент детерминации R2 и объяснить его смысловое значение.
Проверить адекватность уравнения регрессии Y на X.
Исходные данные:
В таблице приведены данные, характеризующие зависимость израсходованных долот Y(шт.) при бурении 8 скважин в зависимости от механической скорости X(м/с) проходки:
X 10 15 8 12 16 18 22 25
Y 55 40 60 50 40 30 25 20
Решение
На основании поля корреляции можно выдвинуть гипотезу о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Для расчета параметров регрессии построим расчетную таблицу (табл. 1)
x y x2 y2 x*y
10 55 100 3025 550
15 40 225 1600 600
8 60 64 3600 480
12 50 144 2500 600
16 40 256 1600 640
18 30 324 900 540
22 25 484 625 550
25 20 625 400 500
∑=126 320 2222 14250 4460
Выборочные средние.
Выборочные дисперсии:
Среднеквадратическое отклонение
Ковариация.
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < rxy < 0.3: слабая;
0.3 < rxy < 0.5: умеренная;
0.5 < rxy < 0.7: заметная;
0.7 < rxy < 0.9: высокая;
0.9 < rxy < 1: весьма высокая;
В нашем примере связь между признаком Y и фактором X весьма высокая и обратная.
Значимость коэффициента корреляции.
Выдвигаем гипотезы:
H0: rxy = 0, нет линейной взаимосвязи между переменными;
H1: rxy ≠ 0, есть линейная взаимосвязь между переменными;
Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H1 ≠ 0, надо вычислить наблюдаемое значение критерия (величина случайной ошибки)
и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α и числу степеней свободы k = n - 2 найти критическую точку tкрит двусторонней критической области
. Если tнабл < tкрит оснований отвергнуть нулевую гипотезу. Если |tнабл| > tкрит — нулевую гипотезу отвергают.
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=6 находим tкрит:
tкрит(n-m-1;α/2) = tкрит(6;0.025) = 2.969
где m = 1 - количество объясняющих переменных.
Если |tнабл| > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку |tнабл| > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически – значим
Интервальная оценка для коэффициента корреляции (доверительный интервал).
Доверительный интервал для коэффициента корреляции.
r∈(-1;-0.804)
Для нахождения параметров а и b линейного уравнения регрессии y = bx + a используют МНК (метод наименьших квадратов).
Система нормальных уравнений.
a·n + b·∑x = ∑y
a·∑x + b·∑x2 = ∑y·x
Для наших данных система уравнений имеет вид
8a + 126·b = 320
126·a + 2222·b = 4460
Домножим уравнение (1) системы на (-15.75), получим систему, которую решим методом алгебраического сложения.
-126a -1984.5 b = -5040
126*a + 2222*b = 4460
Получаем:
237.5*b = -580
Откуда b = -2.4421
Теперь найдем коэффициент «a» из уравнения (1):
8a + 126*b = 320
8a + 126*(-2.4421) = 320
8a = 627.705
a = 78.4632
Получаем эмпирические коэффициенты регрессии: b = -2.4421, a = 78.4632
Уравнение регрессии (эмпирическое уравнение регрессии):
y = -2.4421 x + 78.4632
Для нахождения параметров а и b линейного уравнения регрессии х = bу + a используют МНК (метод наименьших квадратов)