Имеются сведения о количестве проданного товара и его цене:
Количество
(тыс./день) Цена
(руб./за ед.)
4 55
5 40
12 25
8 30
14 15
10 32
Изобразить данные на графике (корреляционное поле), построить модель линейной регрессии, определить тесноту связи.
Объяснить экономический смысл и значение коэффициентов уравнения.
Вычислить несмещенную оценку дисперсии остатков.
Найти доверительную оценку коэффициентов регрессии.
Применить различные модели регрессии, дать обоснование их использования.
Решение
1) Обозначим признаки:
х – цена товара (руб./за ед.),
у – количество проданного товара (тыс./день).
Строим поле корреляции (диаграмму рассеивания), для чего на координатную плоскость Оху наносим точки с координатами (хi,уi) (рис.1).
Рис.1 – Поле корреляции
По виду точек на диаграмме делаем предположение об обратной линейной зависимости между переменными х и у (ценой и количеством проданного товара).
Уравнение линейной регрессии ищем в виде .
Для нахождения коэффициентов регрессии a и b воспользуемся методом наименьших квадратов, для чего составим расчетную таблицу.
i xi
yi
x2i y2i xiyi
1 55 4 3025 16 220
2 40 5 1600 25 200
3 25 12 625 144 300
4 30 8 900 64 240
5 15 14 225 196 210
6 32 10 1024 100 320
Σ 197 53 7399 545 1490
Средние 32,833 8,833 1233,167 90,833 248,333
По данным таблицы определяем следующие величины:
– выборочные средние:
– вспомогательные величины
– выборочные дисперсии и среднеквадратические отклонения:
Определим коэффициенты линейной зависимости у от х. Согласно методу наименьших квадратов они находятся по формулам
Поэтому коэффициенты регрессии будут равны
Тогда уравнение линейной связи будет иметь вид:
.
На одном графике построим исходные данные и теоретическую прямую (рис.2).
Рис.2 – Поле корреляции и линейный тренд
Оценим тесноту связи с помощью коэффициента парной корреляции:
.
Данное значение коэффициента корреляции позволяет судить об обратной весьма высокой линейной зависимости между переменными х и у.
Проверим значимость коэффициента корреляции. Для этого рассмотрим нулевую гипотезу о равенстве нулю генерального коэффициента корреляции между переменными х и у. Вычисляем наблюдаемое значение t-статистики:
Для уровня значимости α=0,05 при степенях свободы ν=n–2=6–2=4 по таблице распределения Стьюдента находим критическое значение статистики
.
Так как , то нулевая гипотеза о равенстве нулю генерального коэффициента корреляции отвергается
.
Таким образом, коэффициент корреляции статистически значим.
Вычислим теперь коэффициент детерминации:
.
Коэффициент детерминации R2 показывает, что доля разброса зависимой переменной, объясняемая регрессией у на х, равна 87,5%, что говорит о том, что практически переменная у (количество проданного товара) на 87,5% зависит от переменной х (цены товара), остальные 12,5% вариации результативного признака обусловлены неучтенными факторами.
Для проверки значимости уравнения регрессии в целом проверяем нулевую гипотезу о значимости коэффициента детерминации R2:
H0: R2=0
при конкурирующей гипотезе
H1: R2>0.
Для проверки данной гипотезы используем следующую F-статистику:
,
где
n=6 – количество наблюдений,
m=1 – количество оцениваемых коэффициентов регрессии.
Получим
.
Для проверки нулевой гипотезы при уровне значимости α=0,05 и числе степеней свободы ν1=m=1 и ν2=n–m–1=6–1–1=4 по таблице критических точек распределения Фишера находим критическое значение
Fкр.=Fα;m;n-m-1= F0,05;1;4=7,71.
Поскольку F>Fкр, то нулевая гипотеза отвергается. Значит, коэффициент детерминации значимо отличается от нуля.
Таким образом, уравнение регрессии статистически надежно.
2) Коэффициент линейной регрессии формально показывает количество проданного товара (тыс./день) при нулевой цене товара (руб./за ед.), но фактически не имеет экономического смысла. Коэффициент показывает, что при увеличении цены товара на 1 руб./за ед. количество проданного товара уменьшается в среднем на 0,2688 руб./за ед.
3) Для вычисления всех дальнейших величин составим расчетную таблицу.
i xi
yi
ei
e2i
1 55 4 2,876 1,124 1,264
2 40 5 6,907 -1,907 3,638
3 25 12 10,939 1,061 1,127
4 30 8 9,595 -1,595 2,543
5 15 14 13,626 0,374 0,140
6 32 10 9,057 0,943 0,889
Σ 197 53 53 9,600
Средние 32,833 8,833 8,833
Найдем остаточную дисперсию и стандартную ошибку регрессии соответственно по формулам
и ,
где – отклонения между выборочными значениями результативного признака и соответствующими значениями, полученными по уравнению регрессии; n=6 – количество наблюдений; m=1 – количество факторов.
Находим остаточную дисперсию:
и стандартную ошибку регрессии
.
4) Определяем стандартные ошибки коэффициентов регрессии по формулам
где S – стандартная ошибка регрессии.
Получим
Вычислим наблюдаемые значения t-статистики для коэффициентов регрессии:
Для уровня значимости α=0,05 при степенях свободы ν=n–2=6–2=4 по таблице распределения Стьюдента находим критическое значение статистики
.
Так как , то коэффициент регрессии а – значим (отвергаем гипотезу о равенстве нулю этого коэффициента); поскольку , то коэффициент регрессии b – также значим (отвергаем гипотезу о равенстве нулю этого коэффициента).
Найдем 95% доверительный интервалы для коэффициента регрессии а:
Найдем 95% доверительный интервалы для коэффициента регрессии b:
Таким образом, с вероятностью 95% при увеличении цены товара на 1 руб./за ед