Имеются данные по уровню ВВП и средней заработной плате (таблица 1). По соответствующему варианту требуется:
Построить график связи между двумя признаками, определив какой из них является факторным (Х), а какой результативным (У). По графику подобрать соответствующую модель уравнения регрессии.
Методом наименьших квадратов определить параметры уравнения регрессии.
Оценить тесноту связи с помощью показателей корреляции и детерминации.
Найти средний коэффициент эластичности.
Оценить качество уравнения регрессии с помощью средней ошибки аппроксимации.
Оценить значимость коэффициентов корреляции и регрессии по критерию t – Стьюдента при уровне значимости 0,05.
Охарактеризовать статистическую надежность уравнения регрессии по критерию F – Фишера при уровне значимости 0,05.
Рассчитать прогнозное значение результативного признака, если возможное значение факторного признака на 15 % больше его среднего значения по совокупности.
Таблица 1. Данные по уровню ВВП и средней заработной плате
Год
ВВП, млрд. руб. Средняя зарплата на 1 рабочего, руб.
1995г. 1428,5 1275,7
1996г. 2007,8 1919,6
1998г. 2629,6 2094,4
2000г. 7305,6 4358,6
2002г. 10830,5 7644,0
2005г. 21609,8 13336,7
2007г. 33247,5 20683,1
2009г. 38807,2 28590,4
2013г. 66755,3 45870,2
Решение
1. Определим наличие связи, ее характер и направление.
Метод приведения параллельных данных основан на сопоставлении двух ил нескольких рядов статистических величин. Исходные данные по признаку X располагаются в порядке возрастания или убывания, а по признаку Y записываются соответствующие им значения (Таблица 2). Путем сопоставления значений X и Y, делается вывод о наличии и направлении зависимости.
Таблица 2. Ранжирование данных по признаку Х
Средняя зарплата на 1 рабочего, руб.,
Х ВВП, млрд. руб,
Y
1275,7 1428,5
1919,6 2007,8
2094,4 2629,6
4358,6 7305,6
7644,0 10830,5
13336,7 21609,8
20683,1 33247,5
28590,4 38807,2
45870,2 66755,3
Как видно из таблицы, с увеличением величины Х величина У также возрастает. Можно сделать предположение, что связь между ними прямая, и описать ее можно уравнением прямой, либо уравнением параболы второго порядка.
Построим график зависимости переменных Х и Y в прямоугольной системе координат. На оси абсцисс откладываются значения факторного признака Х, а по оси ординат ‒ результативного признака У. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи (рис.1). При отсутствии тесных связей имеет место беспорядочное расположение точек на графике.
Рисунок 1. График зависимости переменных Х и Y
Характер расположения точек на графике показывает, что связь между переменными может выражаться линейным уравнением регрессии:
y = a + bx
2. Найдем параметры уравнения регрессии методом наименьших квадратов, путем составления и решения следующей системы нормальных уравнений:
∑y=na+b∑x∑yx=a∑x+b∑x2
Для проведения всех расчетов построим вспомогательную таблицу 3, в которой результаты вычислений округлены, а все средние значения находятся по формуле средней арифметической простой:
x=∑xn
Таблица 3. Вспомогательная таблица
Подставим полученные значения в систему уравнений, получим:
184622=9a+125772,7b5273271595=125772,7a+3614271329b
Решив систему методом подстановок, получим:
а = 241,76; b = 1,45. Небольшие расхождения в результатах расчетов могут происходить за счет округления средних значений.
Таким образом, уравнение регрессии имеет вид:
y = 241,76+1,45b
3. Качество уравнения регрессии оценивается при помощи средней ошибки аппроксимации:
А=1ni=1nyi - yiyi*100=162,439=18,05
Фактическое значение ВВВ отличаются в среднем от расчетных значений, найденных по уравнению регрессии на 18,05%.
Качество уравнения регрессии считается хорошим, если ошибка аппроксимации не превышает 8-10 %
. Полученное уравнение регрессии можно оценить как недостаточно хорошее, это обусловлено, в том числе, небольшим объёмом выборки.
4. Найдем средний коэффициент эластичности, который отражает, насколько процентов изменится зависимая переменная, при изменении независимой переменной на 1%. При линейной форме связи находится по формуле:
Э=b*xy ,
где х, y – средние значения признаков.
Э=1,45*13974,720513,5=0,99%
Коэффициент эластичности показывает, что при увеличении средней заработной платы на 1 рабочего на 1%, объем ВВП увеличивается в среднем на 0,99%.
5. При линейной зависимости теснота связи между переменными Х и У определяется с помощью коэффициента корреляции:
361759538100
где σх и σу – средние квадратические отклонения по Х и У.
σx=x2- (x)2=401585703,2-13974,72=14362,88
σy=y2- (y)2=857589639,2-20513,52=20899,39
r=585919066,1-13974,7*20513,514362,88*20899,39=0,997
В таблице ниже представлены показания тесноты связи.
Таблица 4. Показания тесноты связи
Показания тесноты связи До |±0,3| |±0,3|-|±0,5| |±0,5|-|±0,7| |±0,7|-|±1,0|
Характеристика силы связи Практически отсутствует Слабая Умеренная Сильная
Так как значение полученного коэффициента корреляции очень близко к единице, то между признаками связь тесная и прямая.
Коэффициент детерминации — это квадрат коэффициента корреляции. Показывает, какая доля дисперсии результативного признака объясняется влиянием независимых переменных.
R2 = 0,994
Коэффициент детерминации показывает, что 99,4% различий в уровне ВВП объясняется вариацией средней заработной платы на 1 рабочего, а 0,6% другими, неучтенными факторами.
6. Чем больше объем выборки, тем меньшей величины коэффициента корреляции оказывается достаточно для того, чтобы корреляция была признана достоверной. В результате, при малом объеме выборки и сильная корреляция может оказаться недостоверной. Это объясняется большой возможностью обнаружения случайных связей, поскольку число всех сочетаний в малых выборках также мало. В то же время, при больших объемах выборки даже слабая корреляция между какими-либо признаками может оказаться достоверной.
Так как исходные данные являются выборочными, то необходимо оценить существенность или значимость величины коэффициента корреляции. Выдвигаем нулевую гипотезу: коэффициент корреляции в генеральной совокупности равен нулю и изучаемый фактор не оказывает существенного влияния на результативный признак:
при Н0: r=0; при Н1: r≠0.
Оценим значимость коэффициентов корреляции и регрессии по критерию t – Стьюдента при уровне значимости = 0,05.
Для этого необходимо сравнить наблюдаемое значение t-критерия (tн) с критическим значением (tкр), найденным по таблице.
1) Найдем наблюдаемое значение t – критерия:
tн=rn-21-r2=0,9979-21-0,994=33,57
Критическое значение t находится по таблицам распределения t – Стьюдента при уровне значимости α=0,05 и числе степеней свободы к = n‒2= 9‒2 =7 для двухсторонней критической области.
tкр = 2,365
Уровень значимости – это вероятность отвергнуть нулевую гипотезу, при условии, что она верна