Бюджетное обследование 10 случайным образом отобранных семей дало следующие результаты:
Номер семьи 1 2 3 4 5 6 7 8 9 10
Реальный доход семьи (т.руб.) 5,0 4,5 4,2 7,5 3,5 6,2 7,7 6,0 5,9 3,8
Реальный расход семьи на продовольственные товары (т.руб.) 3,0 2,6 1,5 3,4 1,8 5,0 5,2 4,3 3,6 2,1
1. Постройте поле корреляции результата и фактора и сформулируйте гипотезу о форме связи.
2. Оцените параметры уравнений парной регрессии и дайте интерпретацию коэффициента регрессии b.
3. Рассчитайте линейный коэффициент корреляции, коэффициентдетерминации и поясните их смысл.
4. На уровне значимости 0,05 оцените статистическую значимостькоэффициента b и коэффициента корреляции. Сделайте выводы.
5.На уровне значимости 0,05 оцените статистическую значимость уравнения регрессии в целом.
6.На уровне значимости 0,05 проверьте гипотезу о гетероскедастичности остатков модели с помощью критерия Спирмена.
7.На уровне значимости 0,1 проверьте предположение об автокорреляции остатков.
8.С вероятностью 0,9 постройте доверительный интервал ожидаемого значения результативного признака, если факторный признак увеличится на 10 % от своего среднего значения.
Решение
1. Построим поле корреляции результата и фактора и сформулируем гипотезу о форме связи.
Рис.1. Поле корреляции
На рис.1 представлен пример поля корреляции. По расположению точек на корреляционном поле полагаем, что зависимость между доходами X и расходами Y линейная и прямая. Следовательно, с увеличением доходов пропорционально увеличиваются расходы на продовольственные товары и можно предположить, что форма связи имеет вид
.
2. Оценим параметры уравнений парной регрессии и выполним интерпретацию коэффициента регрессии b.
Для определения оценок параметров а, b таблица с промежуточными результатами будет выглядеть так (табл. 1).
Таблица 1
Промежуточные результаты для расчета оценок параметров а, b
Реальный доход семьи (т.руб.)
Реальный расход семьи на продовольственные товары (т.руб.)
5 3 15 25
4,5 2,6 11,7 20,25
4,2 1,5 6,3 17,64
7,5 3,4 25,5 56,25
3,5 1,8 6,3 12,25
6,2 5 31 38,44
7,7 5,2 40,04 59,29
6 4,3 25,8 36
5,9 3,6 21,24 34,81
3,8 2,1 7,98 14,44
Итого
Средние значения
Используя данные таблицы, получим систему уравнений:
Решением данной системы являются статистики а, b , которые называются оценками наименьших квадратов неизвестных параметров а иb. В нашем примере оценки равны: а = – 0,75 и b = 0,74. Таким образом, модель имеет вид ŶХ = – 0,75 + 0,74Х.
Замечание. Оценки параметров модели можно также рассчитать, используя строку «Среднее» табл. 1 по формулам:
;
.
Подставим найденные параметры в уравнение получим:
ŶХ = – 0,75 + 0,74Х.
Оценка параметра b = 0,74 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора на единицу его измерения. В данном примере сувеличением дохода на 1 единицу расходы на продовольственные товары повышаются в среднем на 0,75 т. руб. Другими словами, из каждого дополнительного рубля дохода в среднем 0,74 копеек будут израсходованы на продовольственные товары.
Оценка параметра а = – 0,75 формально показывает прогнозируемый уровень у, но только в том случае, если х =0 находится близко с выборочными значениями. Но если х =0 находится далеко от выборочных значений X, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо. В примере доходы групп семей существенно отличаются от нуля. В геометрическом смысле значение коэффициента а = – 0,75 определяет точку пересечения прямой регрессии с осью ординат и характеризует сдвиг линии регрессии вдоль оси Y.
Подставив в уравнение регрессии соответствующие значения х изисходных наблюдений (выборки), можно определить расчетные значениярезультативного показателя для каждого наблюдения
. Полученные величины показывают, каким бы был расход на продовольственные товары при соответствующих доходах, если бы данная группа использовала свои доходы в такой же степени, как в среднем все анализируемые группы.
Связь между X и Y определяет знак коэффициента регрессии b (еслибольше 0 - прямая связь, иначе - обратная). В нашем примере связь прямая, т.е. с увеличением реального дохода расходы на продовольственные товары также увеличиваются.
Результаты необходимо оформить в виде табл. 2.
Таблица 2
Расчетные значения результативного показателя
Предсказанный Остатки
№ п/п расход на продовольственные товары
ŶХ = – 0,75 + 0,74Х еі= Yі – Ŷі
1 2,933 0,067
2 2,565 0,035
3 2,344 -0,844
4 4,775 -1,375
5 1,828 -0,028
6 3,817 1,183
7 4,923 0,277
8 3,670 0,630
9 3,596 0,004
10 2,049 0,051
Всего 32,5 0,000
Рис. 2. График уравнения регрессии ŶХ = – 0,75 + 0,74Х
3. Рассчитайте линейный коэффициент корреляции, коэффициентдетерминации и поясните их смысл.
Далее нужно найти показатель тесноты связи. Таким показателем является линейный коэффициент корреляции r*ху, который рассчитываетсяпо формуле:
где выборочные средние.
выборочные дисперсии.
Линейный коэффициент корреляции принимает значения от -1 до +1.
Если │ r*ху │ > 0,7 , то связь считается сильной. Если │ r*ху │ < 0,3, то связь на практике считают слабой. Этот коэффициент дает объективную оценкулишь при линейной зависимости.
В нашем примере
.
Тогда коэффициент корреляции
Таким образом, связь между расходами на продовольственные товары и реальным доходом очень тесная.
Для нашей задачи r*ху= 0,838, что подтверждает вывод, сделанный ранее, что связь между признаками прямая, а также указывает на весьма высокую взаимосвязь между реальным доходом и расходами семьи на продовольственные товары. Положительная величина свидетельствует о прямой связи между изучаемыми признаками.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации R2, он показывает долю вариации результативного признака, объясненную вариацией факторного признака, и рассчитывается по следующей формуле:
Вычислим:
Множественный коэффициент детерминации , показывает, что фактором душевого дохода можно объяснить почти 70,3% изменения расходов семьи на продовольственные товары. Остальные 29,7% изменения расходов семьи на продовольственные товары объясняются факторами, не учтенными в модели.
4. На уровне значимости 0,05 оцените статистическую значимостькоэффициента b и коэффициента корреляции. Сделайте выводы.
Рекомендуется использовать следующую общую процедуру проверки гипотез:
1. Выдвинуть нулевую гипотезу Н0 на уровне значимости α.
2. Определить фактическое значение соответствующего критерия.
3