Парная регрессия и корреляция
Некоторая фирма, производящая товар, хочет проверить, эффективность рекламы этого товара. Для этого в 10 регионах, до этого имеющих одинаковые средние количества продаж, стала проводиться разная рекламная политика и на рекламу начало выделяться xi денежных средств. При этом фиксировалось число продаж yi. Предполагая, что для данного случая количество продаж пропорционально расходам на рекламу, необходимо:
Таблица 1.
Вариант Расходы на рекламу xi, млн. р.
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5
Количества продаж yi, тыс. ед.
10 34,4 34,8 36,1 37,7 37,3 37,5 37,5 39,6 40,9 43,6
Требуется:
1. Методом наименьших квадратов найти уравнение линейной регрессии ;
2. Найти коэффициент линейной корреляции и с доверительной вероятности проверить его значимость;
3. Проверить на уровне значимости регрессионную модель на адекватность;
4. Найти стандартные ошибки параметров уравнения a и b;
5. Сделать точечный и интервальный прогноз для случая расходов на рекламу, равных 5 млн. руб.
Решение
Методом наименьших квадратов найдем уравнение линейной регрессии ;
Суть метода наименьших квадратов (МНК) заключается в том, чтобы сумма квадратов отклонений фактических уровней ряда от соответствующих выровненных по кривой роста значений была наименьшей. Этот метод приводит к системе так называемых нормальных уравнений для определения неизвестных параметров отобранных кривых.
Формально критерий МНК можно записать так:
Система нормальных уравнений имеет вид:
Для дальнейших расчетов составим вспомогательную таблицу:
Таблица 1
Вспомогательная таблица
i
1 0 34,4 0 1183,36 0
2 0,5 34,8 0,25 1211,04 17,4
3 1 36,1 1 1303,21 36,1
4 1,5 37,7 2,25 1421,29 56,55
5 2 37,3 4 1391,29 74,6
6 2,5 37,5 6,25 1406,25 93,75
7 3 37,5 9 1406,25 112,5
8 3,5 39,6 12,25 1568,16 138,6
9 4 40,9 16 1672,81 163,6
10 4,5 43,6 20,25 1900,96 196,2
22,5 379,4 71,25 14464,62 889,3
2,25 37,94 7,125 1446,462 88,93
Для исходных данных система уравнений имеет вид:
Решим систему уравнений:
Получаем эмпирические коэффициенты регрессии:
;
Уравнение линейной регрессии имеет вид:
2) Найдем коэффициент линейной корреляции и с доверительной вероятности проверить его значимость.
Для дальнейших расчетов построим вспомогательную таблицу:
i
1 0 34,4 34,05091 10,89 0,121864 2,25
2 0,5 34,8 34,91515 8,41 0,01326 1
3 1 36,1 35,77939 2,56 0,102788 0,25
4 1,5 37,7 36,64364 0 1,115904 0
5 2 37,3 37,50788 0,16 0,043214 0,25
6 2,5 37,5 38,37212 0,04 0,760595 1
7 3 37,5 39,23636 0,04 3,014959 2,25
8 3,5 39,6 40,10061 3,61 0,250606 4
9 4 40,9 40,96485 10,24 0,004205 6,25
10 4,5 43,6 41,82909 34,81 3,136119 9
Сумма 22,5 379,4 379,4 70,76 8,563515 26,25
Определим параметры уравнения регрессии.
Выборочные средние:
;
;
.
Выборочные дисперсии:
;
.
Среднеквадратическое отклонение:
;
.
Рассчитываем показатель тесноты связи
. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
.
Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока.
Таким образом, по результатам расчетов можем сделать вывод, что связь между признаком Y (количество продаж) и фактором X (расходы на рекламу) весьма высокая и прямая.
Выполним проверку значимости коэффициента корреляции. Это выполняется как решение следующей задачи проверки статистической гипотезы.
Выдвигаем гипотезы:
H0: rxy = 0, нет линейной взаимосвязи между переменными;
H1: rxy ≠ 0, есть линейная взаимосвязь между переменными.
Для того чтобы при уровне значимости проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H1 ≠ 0, необходимо вычислить наблюдаемое значение критерия (величина случайной ошибки):
и по таблице критических точек распределения Стьюдента, по заданному уровню значимости и числу степеней свободы k = n - 2 найти критическую точку tкр двусторонней критической области