Определение корреляционной зависимости между рядами наблюдений (Регрессионный анализ данных)
Задача. В таблице №1 приведены длины сторон измеренные светодальномером, и их истинные ошибки = .
Вычислить оценку коэффициента корреляции между приведенными величинами и определить его значимость и надежность;
Получить уравнение регрессии (формулу прогнозов) и оценить точность регрессии;
Сделать вывод.
№№п/п i ,(км) yi , (см) №№п/п
i
xi ,(км) yi , (см)i
1 8 5,5 11 6,2 5,0
2 10,2 6,5 12 8,5 5,0
3 9,5 7,0 13 6,5 6,5
4 8,4 4,5 14 2,0 2,0
5 6,6 2,5 15 5,3 5,0
6 3,0 3,5 16 8,5 5,0
7 3,5 2,5 17 4,5 2,5
8 8,1 6,0 18 6,7 4,0
9 7,2 7,0 19 4,7 3,0
10 5,7 5,5 20 7,5 5,5
План выполнения задания.
Построить поле корреляции (точечную диаграмму), изобразив в прямоугольной системе координат точки с координатами, соответствующими каждой паре наблюдений
На основании поля корреляции сделать предположение о наличии между случайными величинами X и Y корреляционной зависимости и о форме этой зависимости (линейная или нелинейная).
Вычислить оценки математических ожиданий случайных величин X и Y - средние арифметические и .
Вычислить оценки средних квадратических отклонений и .
Вычислить оценку коэффициента корреляции - выборочный коэффициент корреляции.
Проверить гипотезу о не значимости коэффициента корреляции.
Оценить надежность коэффициента корреляции (критерий Фишера).
Получить уравнение регрессии случайной величины Y на X. Нанести прямую линию регрессии на график.
Оценить точность регрессии.
Выполнить точечную и интервальную оценку точности параметров уравнения регрессии
Сделать общий вывод по результатам анализа.
Решение
1) Построим поле корреляции:
2) Эмпирическая ломаная линия на графике позволяет предположить, что связь выражается прямой линией, т.к. общей тенденцией на графике является направленность эмпирической линии из нижнего левого угла в верхний правый угол. Форма зависимости – линейная.
Итак, уравнение регрессии имеет вид: yx=a1x+a0.
3) Занесем расчеты в таблицу:
№ xi
yi
xiyi
xi2
yi2
xi-x2
yi-y2
yi
yi-yi2
1 8 5,5 44 64 30,25 2,1609 0,64 5,488 0,000148
2 10,2 6,5 66,3 104,04 42,25 13,4689 3,24 6,667 0,027862
3 9,5 7 66,5 90,25 49 8,8209 5,29 6,292 0,501611
4 8,4 4,5 37,8 70,56 20,25 3,4969 0,04 5,702 1,445309
5 6,6 2,5 16,5 43,56 6,25 0,0049 4,84 4,738 5,006406
6 3 3,5 10,5 9 12,25 12,4609 1,44 2,808 0,478753
7 3,5 2,5 8,75 12,25 6,25 9,1809 4,84 3,076 0,331839
8 8,1 6 48,6 65,61 36 2,4649 1,69 5,541 0,210291
9 7,2 7 50,4 51,84 49 0,4489 5,29 5,059 3,767209
10 5,7 5,5 31,35 32,49 30,25 0,6889 0,64 4,255 1,549664
11 6,2 5 31 38,44 25 0,1089 0,09 4,523 0,227415
12 8,5 5 42,5 72,25 25 3,8809 0,09 5,756 0,571241
13 6,5 6,5 42,25 42,25 42,25 0,0009 3,24 4,68 3,298201
14 2 2 4 4 4 20,5209 7,29 2,272 0,074055
15 5,3 5 26,5 28,09 25 1,5129 0,09 4,041 0,920132
16 8,5 5 42,5 72,25 25 3,8809 0,09 5,756 0,571241
17 4,5 2,5 11,25 20,25 6,25 4,1209 4,84 3,612 1,236555
18 6,7 4 26,8 44,89 16 0,0289 0,49 4,791 0,625831
19 4,7 3 14,1 22,09 9 3,3489 2,89 3,719 0,517241
20 7,5 5,5 41,25 56,25 30,25 0,9409 0,64 5,22 0,078481
130,6 94 662,85 944,36 489,5 91,542 47,7 94 21,43949
Оценки математических ожиданий случайных величин X и Y:
x=xin=130,620=6,53;
y=yin=9420=4,7;
4) Оценки средних квадратических отклонений и :
σX=xi-x2n=91,54220=2,139416;
σY=yi-y2n=47,720=1,5443445;
5) Вычислим оценку коэффициента корреляции r:
r=xiyi-n∙x∙yn∙σX∙σY=662,85-20∙6,53∙4,720∙2,139416∙1,5443445=
=49,0366,0799=0,74198.
Т
. к. r=0,74198>0, то связь между признаками прямая, величина коэффициента корреляции (близок к единице) говорит о высокой связи между признаками.
6) Проверим нулевую гипотезу о не значимости коэффициента корреляции:
H0=r=0.
Эмпирическое значение критерия проверки гипотезы:
tЭ=rn-21-r2=0,74198∙20-21-0,741982=4,6955;
Критическое значение критерия tT=2,1 находим из таблиц распределения Стьюдента по доверительной вероятности β=0,95 и числу степеней свободы ν=n-2=18.
Так как tЭ>tT, то гипотеза о не значимости коэффициента корреляции отклоняется.
7) Доверительный интервал для коэффициента корреляции r:
PthZ1≤r≤thZ2=β.
Из таблицы значений функции Лапласса при значении β=0,95 получаем tβ=1,96