По 18 предприятиям одной отрасли имеются данные за 20IX год (таблицы 3.1, 3.2). Исследуйте и опишите зависимость прибыли от производительности труда по предприятиям данной отрасли.
Необходимо провести предварительную статистическую обработку исходных данных, построить 3 вида моделей регрессии, описывающих взаимосвязи между результативным и факторным признаками в среднем, провести оценку каждой модели и сделать вывод об их адекватности, точности и достоверности. Для этого:
4. Построить поле корреляции и сформулировать гипотезу о форме связи.
5. Рассчитать параметры уравнений:
1) парной линейной регрессии;
2) парной степенной регрессии;
3) парной показательной регрессии.
9. Оценить тесноту связи и степень определенности изменений результативного признака относительно факторного с помощью показателей корреляции и детерминации.
10. Дать сравнительную оценку силы связи фактора с результатом с помощью среднего (общего) коэффициента эластичности.
11. Оценить точность уравнений с помощью средней ошибки аппроксимации.
12. Оценить статистическую надежность результатов регрессионного моделирования с помощью F-критерия Фишера. По значениям характеристик, полученным в п.п. 4, 5 и данном пункте, выбрать лучшее уравнение регрессии и дать его обоснование. Все эти характеристики вынести в отдельную сводную аналитическую таблицу.
13. Рассчитать прогнозное значение результата, если прогнозное значение фактора увеличится на 20% от его среднего уровня. Определить доверительный интервал прогноза для уровня значимости =0,05.
14. Оценить полученные результаты, выводы оформить в аналитической записке.
По 18 предприятиям одной отрасли имеются данные за 20IX год, которые приведены в таблице 1:
Таблица 1 – Исходные данные
№ Прибыль от реализации продукции (млн.руб.) Производительность труда (млн.руб./чел.)
y x
12,92 6,88
13,26 8,51
2,24 0,94
10,14 7,51
1,45 0,81
13,17 5,16
14,60 6,21
20,86 9,38
10,93 4,28
11,00 3,42
13,19 3,90
14,69 4,38
17,29 5,30
3,74 1,63
11,85 5,71
15,12 7,65
2,63 0,82
12,18 4,50
Решение
Построение линейной модели.
1. По данным таблицы построим поле корреляции.
Введите на листе книги MS Excel исходные данные, отсортируйте их по столбцу Х в порядке возрастания, вставьте точечную диаграмму, выбрав подготовленные данные для ее построения.
2. Рассчитаем уравнение парной линейной регрессии y=a+bx. Линейная регрессия сводится к нахождению уравнения вида, которое позволяет по заданным значениям фактора х иметь теоретические значения результативного признака (путем подстановки значений х в уравнение). Построение линейной регрессии сводится к оценке ее параметров а и b.
Для нахождения параметров линейной регрессии составим вспомогательную таблицу.
Найдем значение параметров а и b. Можно использовать готовые формулы: b=yx-y∙xσx2=1,708 a=y-b∙x=2,925
Все данные для подстановки в формулы можно взять из вспомогательной таблицы.
Таким образом, уравнение линейной регрессии имеет вид:
Вывод: с увеличением производительность труда на 1 млн.руб./чел. прибыль от реализации увеличивается в среднем на 1,708 пункта.
3. Определим тесноту связи с помощью линейного коэффициента корреляции . Затем вычислим коэффициенты детерминации, эластичности:
rxy=bσxσy , Э=yx'∙xy=b∙xy .
Кроме того необходимо найти величину средней ошибки аппроксимации. Для этого в расчетную таблицу следует добавить дополнительные столбцы с вычислениями по формуле:
А=1ny-yxy∙100%.
Полученное значение коэффициента корреляции (0,836) позволяет оценивать связь между показателями х и у как тесную. При этом значение коэффициента детерминации 70% говорит о том, что полученная линейная модель определяет вариацию результативного показателя у на 70% за счет вариации включенного в модель фактора х, а 30% приходятся на действие других, не учтенных в модели факторов.
Фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии. Чем меньше это отличие, тем ближе теоретические значения подходят к эмпирическим данным, тем лучше качество модели.
В рассматриваемом примере получается А=38%, что превышает рекомендуемый диапазон значений для этой ошибки (5-7%), и является не приемлемым. Расчетные значения отклоняются от фактических на 38%.
Оценим адекватность выбранного уравнения, т.е. насколько правильно оно описывает (аппроксимирует) положение исходных точек на координатном поле. Такая оценка выполняется с помощью F-критерия (критерия Фишера). Для вычисления значения используется формула:
Fн=rxy21-rxy2∙n-2.
Табличные значения критерия Фишера можно найти по таблице или с помощью встроенной в Excel функции FРАСПОБР(0,05;1;16), где 0,05 – выбранный уровень значимости, 1 – количество включенных в модель факторов, 16= n-2 – количество степеней свободы, n=18 – количество наблюдений.
В результате вычислений получается Fрасч > Fтабл, следовательно, уравнение линейной регрессии с достаточной точностью описывает расположение исходных данных и является статистически значимым с вероятностью 0,95.
4. Рассчитаем прогнозное значение результата при увеличении прогнозного значения фактора на 20% от его среднего уровня:
xр=x∙1,20=151,983 .
Для расчета точечного прогноза yp необходимо подставить в уравнение линии регрессии полученные значения факторного признака (в таблице это урасч).
Кроме того, вычисляется средняя стандартная ошибка прогноза по формуле:
myp=σост∙1+1n+(xp-х)2(x-х)2, где σост=y-yx2n-2.
Для прогнозируемого значения функции yp доверительные интервалы, при заданном хр , определяются выражением:
yp∓∆yp=yp∓tα∙myp,
где tα – табличное значение t - критерия Стьюдента для уровня значимости α = 0,05 и числа степеней свободы (п-2), tα=2,1199.
Тогда предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит (6,179; 19,485) – доверительный интервал для прогнозного значения переменной у.
Таким образом, если производительность труда увеличить на 20% по сравнению со средней их производительностью по предприятиям отрасли, то прибыль от реализации будет составлять от 6,179 млн.руб. до 19,485 млн.руб.
Построение степенной модели.
Аналитическая форма задания y=a∙xb.
Для построения модели проведем линеаризацию переменных. Для этого прологарифмируем обе части уравнения по основанию десять:
.
Введем обозначения: Y=lgy, X=lgx, C=lga. Тогда у=10Y, x=10X, a=10C.
Получим новую модель линейного вида . Определим параметры этой модели С и b согласно приведенной выше методике.
В случае степенной функции расчетная таблица будет иметь вид:
Следует обратить внимание, что столбцы D, E, F и G содержат пересчитанные данные для X, Y.
Вычислим b и С:
b=YX-Y∙XσX2= 0,915; C=Y-b∙X= 0,425.
Выполнив обратный переход к исходным переменным и обозначениям, получим
a= 100,425 = 2,659; b=0,915;
yx=2,659∙x0,915.
Подставим в данное уравнение фактические значения х, получим теоретические значения результата (урасч).
По ним рассчитаем остаточную дисперсию и показатель тесноты связи – индекс корреляции:
σост2=10,197; Rxy=1-σост2σy2=0,817.
Связь весьма тесная.
Коэффициент детерминации Rxy2=66,8% , что говорит о том, что на 66,8% вариация результативного признака определяется включенным в модель фактором производительность труда, а 33,2% приходится на действие других, не учтенных в модели факторов.
Найдем величину средней ошибки аппроксимации:
А=1ny-yxy∙100%=21,8% .
Найдем коэффициент эластичности для уравнения линейной регрессии:
Э=f'(x)∙xy
f'x=a∙b∙xb-1
Соответственно коэффициент эластичности равен:
Э= a∙b∙xby=0,915.
Оценим правильность выбора уравнения, для этого рассчитаем F-критерий:
Fрасч=rxy21-rxy2∙n-2=32,21 .
Табличное значение критерия Фишера найдено при построении и исследовании линейной модели – это Fтаб = 4,49.
Fрасч > Fтаб, следовательно, гипотеза о случайной природе выявленной зависимости отклоняется, а полученное уравнение признается статистически значимым
.
Результаты вычислений и уравнение модели в табличном процессоре выглядят следующим образом:
Построение уравнения экспоненциальной
(показательной) парной регрессии
Аналитическое выражение модели в общем виде: y = e a+bx .
Проведем линеаризацию обеих частей уравнения:
Введем обозначение: , тогда .
Построим вспомогательную расчетную таблицу:
Рассчитаем параметры модели:
В=Yx-Y∙xσx2=0,243 ; С=Y-В∙x=1,04.
Получим показательное уравнение вида:
yx=е1,04+0,243∙х .
Тесноту связи оценим через индекс корреляции:
Rxy=1-σост2σy2= 0,467.
Связь тесная.
Коэффициент детерминации Rxy2= 22%.
Подставим в уравнение регрессии фактические значения х, определим теоретические (расчетные по модели) значения функции. Найдем величину средней ошибки аппроксимации .
А=1ny-yxy∙100%=39,92% .
График показательной функции, описывающей у, имеет вид:
Найдем коэффициент эластичности:
Э=f'x∙xy
f'x=b∙ea+bx
Соответственно коэффициент эластичности равен:
Э= x∙b∙ea+bxy = 0,24.
Рассчитаем F- критерий:
Fрасч=rxy21-rxy2∙n-2=4,47 .
Fрасч < Fтаб, что указывает на необходимость принять гипотезу о случайной природе выявленной зависимости и статистической незначимости параметров уравнения и показателя тесноты связи. Модель признается статистически не значимой с уровнем значимости 0,05.
В конце работы следует провести сравнительную характеристику полученных моделей по основным критериям: коэффициент/индекс корреляции, коэффициент/индекс детерминации, средняя ошибка аппроксимации, коэффициент эластичности, критерий Фишера.
По результатам сводной таблицы можно сделать вывод, что уравнение линейной регрессии более точно описывает соотношение между прибылью от реализации продукции предприятия и производительностью труда. Эта модель имеет наиболее высокие показатели тесноты связи и детерминации, фактического значения критерия Фишера, и наименьшую среднюю ошибку аппроксимации.
Задание
На основе исходных данных (таблицы 4.1, 4.2) постройте линейную регрессионную модель, не содержащую коллинеарных факторов на уровне значимости α = 0,05. Оцените параметры модели, ее качество, долю вариации результативного показателя, объясняемой вариацией факторов, включенных в модель. Спрогнозируйте значение зависимого показателя для заданного набора значений факторных переменных. Для построения моделей использовать «Пакет анализа» табличного процессора MS Excel (см. методические указания, часть 2). Таким образом, по исходным данным, приведенным в таблице, требуется:
1) провести предварительную статистическую оценку и анализ исходных данных (расчет граничных, средних значений показателей, их средних квадратических отклонений). Построить поля корреляции (графическое рассеивание у относительно каждой переменной);
2) рассчитать парные коэффициенты корреляции, составить матрицу парных коэффициентов корреляции результативного показателя и факторов;
3) оценить факторы на наличие коллинеарности;
4) построить линейную модель множественной регрессии;
5) определить множественные коэффициенты корреляции R и детерминации R2;
6) вычислить дисперсионное отношение Фишера, проверить значимость уравнения регрессии;
7) оценить стандартные ошибки коэффициентов регрессии (статистическую значимость коэффициентов на уровне значимости 0,05)
8) построить уравнение линейной множественной регрессии с учетом только значимых факторов. Оценить полученное уравнение;
9) построить частные уравнения регрессии. Добавить их графики в поля корреляции исходных данных;
10) вычислить средние частные коэффициенты эластичности (Эyxi), интерпретировать полученные значения;
11) построить точечный и интервальный прогноз результативного признака для заданных значений факторных переменных, используя матричный метод;
12) Все полученные результаты расчетов необходимо сопроводить выводами.
Таблица 4.1 – Исходные данные
Текущий период
t Год ВВП
Y (млрд руб.) Индекс
стоимости жизни
Р (%) Государственные расходы
G (млрд. руб.) Зарплата
S (тыс. руб.)
1 1995 1428,5 195 486,1 472,4
2 1996 2007,8 208 652,7 790,2
3 1997 2342,5 229 839,0 950,2
4 1998 2629,6 204 842,1 1051,5
5 1999 4823,2 180 1258,0 1522,6
6 2000 7305,6 181 1960,1 2223,4
7 2001 8943,6 205 2419,4 3240,4
8 2002 10834,2 220 3422,3 4360,3
9 2003 13285,2 244 3964,9 5498,3
10 2004 17048,1 270 4669,7 6739.5
11 2005 21620,1 269 6820,6 8555
12 2006 26781,1 298 8375,2 10634
13 2007 32987,4 328 11377 13593
14 2008 41428,6 325 13992 17290
15 2009 39100,7 327 16048 18637
1) Предварительная статистическая оценка и анализ исходных данных