По заданному варианту экспериментальных данных xi,yi, i=1,2,…,n построить корреляционное поле и по визуальной оценке расположенных точек на нем сделать предположение о виде зависимости Y от X. Отдельно рассмотреть резко выделяющиеся наблюдения.
2. Вычислить оценки числовых характеристик величин X и Y: эмпирические средние x, y, эмпирические дисперсии σx, σy, выборочную ковариацию covX,Y и выборочный коэффициент корреляции r.
3. Методом наименьших квадратов найти оценки коэффициентов a и b уравнения эмпирической регрессии. Записать уравнение эмпирической регрессии y=a+bx.
4. Предсказать значение y* для заданного x*: y*=a+bx*. Вычислить y1=a+bx1, погрешность δ1=y1-y1 и относительную погрешность δ1/y1.
5. Построить прямую эмпирической регрессии y=a+bx по точкам x1,y1 и x*,y* на корреляционном поле.
6. Оценить качество модели: вычислить коэффициент детерминации R2; определить значимость уравнения регрессии по критерию Фишера на уровне значимости α=0,05.
7. а) вычислить среднеквадратические ошибки определения коэффициентов a и b, определить значимость коэффициентов по критерию Стьюдента на уровне значимости α=0,05. б) построить доверительный интервал для прогноза y* и доверительную полосу для среднего значения СВ Y, соответствующие доверительной вероятности 0,95.
14.
№ Переменные величины Номера наблюдений X
1 2 3 4 5 6 7 8 9 10 11 12
3 Месяц (2010г), x
1 2 3 4 5 6 7 8 9 10 11 12 15
Оборот розничной торговли, y, % от января 2010г. 103,6 101,1 111,2 112,4 115,8 117,4 121,5 124 122,9 127,7 128,1 155,4
Решение
I
xi
yi
1 1 103,6
2 2 101,1
3 3 111,2
4 4 112,4
5 5 115,8
6 6 117,4
7 7 121,5
8 8 124
9 9 122,9
10 10 127,7
11 11 128,1
12 12 155,4
Σ
78 1441,1
Построим диаграмму рассеяния в excel (поле корреляции):
На основании визуального исследования выдвинем гипотезу о линейной зависимости Y от X:
Y=α+βX+ε.
2.
Измерить тесноту корреляционной зависимости – значит, определить, в какой мере вариация результативного показателя вызвана вариацией факторного признака. Эта задача может быть решена путем исчисления теоретического корреляционного отношения η:
η=δσy=δ2σy2,
где δ2=yx-y2n – дисперсия в ряду выравненных значений результативного показателя yx; σy2=y-y2n – дисперсия в ряду фактических значений y.
Так как дисперсия δ2 отражает вариацию в ряду yx только за счет вариации фактора x, а дисперсия σy2 отражает вариацию y за счет всех факторов, то их отношение, именуемое теоретическим коэффициентом детерминации, показывает, какой удельный вес в общей дисперсии ряда y занимает дисперсия, вызываемая вариацией фактора x. Квадратный корень из отношения этих дисперсий дает нам теоретическое корреляционное отношение η=δ2σy2.
Дисперсию теоретических значений результативного показателя (т.е. δ2) часто называют факторной, поскольку она отражает влияние вариации фактора x на вариацию y, и обозначают как δф2 и так называемой остаточной дисперсии σост2, отражающей вариацию результативного показателя за счет всех остальных факторов (кроме x), не учтенных в уравнении регрессии, т.е.
σy2=δф2+σост2.
Получим еще одну формулу для вычисления корреляционного отношения:
η=σy2-σост2σy2=1-σост2σy2.
В данном виде корреляционное отношение при криволинейной зависимости обычно называют индексом корреляции.
Остаточная дисперсия рассчитывается по формуле:
σост2=yi-yx2n.
Отсюда следует формула для линейного коэффициента корреляции:
r=a1σxσy,
или:
r=(x-x)(y-y)x-x2y-y2,
а также:
r=xy-xynx2-x2ny2-y2n.
Для измерения тесноты зависимости между y и x воспользуемся прежде всего линейным коэффициентом корреляции (поскольку рассматриваемая зависимость – линейная):
r=(x-x)(y-y)n∙σxσy.
Находим
x=7812≈6,5; y=1441,112≈120,09.
Составим расчетную таблицу.
i
x-x
y-y
(x-x)(y-y)
(x-x)2
(y-y)2
1 -5,500 -16,492 90,704 30,250 271,975
2 -4,500 -18,992 85,463 20,250 360,683
3 -3,500 -8,892 31,121 12,250 79,062
4 -2,500 -7,692 19,229 6,250 59,162
5 -1,500 -4,292 6,437 2,250 18,418
6 -0,500 -2,692 1,346 0,250 7,245
7 0,500 1,408 0,704 0,250 1,9834
8 1,500 3,908 5,863 2,250 15,275
9 2,500 2,808 7,021 6,250 7,887
10 3,500 7,608 26,629 12,250 57,887
11 4,500 8,008 36,038 20,250 64,133
12 5,500 35,308 194,196 30,250 1246,678
Σ
0,000 0,000 504,750 143,000 2190,389
Находим σx и σy:
σx=(x-x)2n, σx=14312≈3,452;
σy=(y-y)2n, σy=2190,38912≈13,510.
Ковариация (x,y) равна:
Kxy=1nxy-xy,Kxy=112∙9871,900-6,50∙120,09,Kxy≈42,063.
Отсюда следует, что
r=504,75012∙3,452∙13,510≈0,902.
Значение линейного коэффициента корреляции r=0,902 характеризует не только меру тесноты зависимости вариации y от вариации x (достаточно высокая зависимость), но и степень близости этой зависимости к линейной.
В нашем примере связь между Y и X высокая и прямая (по шкале Чеддока).
3.
Параметры для уравнения связи определяют из системы нормальных уравнений, отвечающих требованию метода наименьших квадратов (МНК)
. Это требование можно записать как y-yx2→min или y-α-βx2→min. Необходимо определить, при каких значениях параметров α и β сумма квадратов отклонений y от yx будет минимальной. Найдя частные производные указанной суммы по α и β и приравняв их нулю, легко записать систему уравнений, решение которой и дает параметры искомой функции, т.е. уравнения регрессии.
Так, система нормальных уравнений при линейной зависимости имеет вид
nα+βx=y,αx+βx2=xy.
Необходимые для решения данной системы показатели n, x, y, x2, xy
Определяются по наблюдаемым эмпирическим данным. Решить данную систему можно методом Крамера.
Найдем определитель матрицы коэффициентов системы уравнений:
Δ = nxxx2=nx2-x2,
Найдем первый определитель матрицы коэффициентов. Для этого вместо 1-
го столбца подставим столбец свободных членов:
Δ1 =yxxyx2=yx2-xxy,
Найдем второй определитель матрицы коэффициентов