Известны статистические данные по 36 строительным бригадам.
Необходимо выяснить влияние различных факторов на величину накладных расходов в строительстве. Известно, что к накладным расходам относятся административно-хозяйственные, коммунальные расходы, дополнительная заработная плата и другие расходы. На качественном уровне выявлено, что фактический уровень накладных расходов оказался наиболее тесно связан со следующими факторами: объемом выполненных работ, численностью рабочих, занятых на строительно-монтажных работах, фондом заработной платы. Остальные факторы были признаны незначимыми.
На основании имеющихся данных необходимо при помощи использования функций Excel:
1. Рассчитать параметры множественной линейной регрессии, проводя процедуру стандартного регрессионного исследования до получения удовлетворительной модели. Провести полный анализ полученного уравнения регрессионной связи.
К числу рассчитываемых и анализируемых параметров относятся:
а) коэффициенты регрессии (и их значимость);
б) коэффициент корреляции (и его значимость);
в) коэффициент детерминации;
г) стандартные ошибки коэффициентов регрессии;
д) доверительные интервалы для коэффициентов регрессии;
е) величины общей, объясненной и остаточной дисперсии.
2. На основании реальных и расчетных значений накладных расходов построить графики и сравнить их.
Статистические данные по исследуемым показателям приведены в таблице:
№ Накладные расходы Объем работ (куб. м.) Численность рабочих (чел.) Фонд заработной платы (руб.)
1 78585 224 6 26439
2 120504 343 12 54315
3 88483 242 7 29368
4 55408 137 4 17549
5 144335 456 10 55374
6 109743 289 9 43606
7 75264 225 6 26270
8 101265 260 7 41042
9 59207 153 6 19852
10 127447 314 11 51150
11 137329 385 13 54243
12 100502 298 8 41051
13 193427 552 12 64312
14 154353 428 14 61522
15 117701 343 9 55912
16 174196 535 15 59292
17 101478 266 7 44235
18 53454 136 4 17843
19 52169 142 4 19537
20 76076 196 7 27137
21 83559 247 6 31891
22 66627 190 6 23150
23 84983 222 8 30084
24 104568 311 9 44813
25 151834 396 13 51388
26 72131 211 7 27442
27 120189 352 9 45551
28 66624 189 4 21965
29 106412 292 8 33464
30 83610 237 7 34884
31 89881 232 7 38414
32 70614 209 7 33235
33 95692 269 7 33958
34 63042 192 5 29606
35 99045 316 8 43625
36 86790 243 7 32301
Решение
1. Рассчитать параметры множественной линейной регрессии, проводя процедуру стандартного регрессионного исследования до получения удовлетворительной модели. Провести полный анализ полученного уравнения регрессионной связи.
На первом этапе включим в модель все факторы. В качестве программного средства реализации анализа воспользуемся пакетом прикладных программ Microsoft Excel, функцией «Анализ данных», инструмент «Регрессия». Применение инструмента «Регрессия»
(Анализ данных EXCEL)
Для проведения регрессионного анализа необходимо выполнить следующие действия:
Выбрать команду «Сервис»→ «Анализ данных».
В диалоговом окне «Анализ данных» выбрать инструмент «Регрессия», а затем щёлкнуть по кнопке ОК.
В диалоговом окне «Регрессия» в поле «Входной интервал » ввести адрес одного диапазона ячеек, который представляет зависимую переменную. В поле «Входной интервал Х» ввести адреса одного или нескольких диапазонов, которые содержат значения независимых переменных.
Если введены и заголовки столбцов, то следует установить флажок «Метки в первой строке».
Выбрать параметры вывода. В данном случае «Новая рабочая книга».
ОК.
Результаты представлены в таблице 1.
Таблица 1
Без проверки значимости коэффициентов а и b уравнение регрессии было бы записано в следующем виде:
у = 4050,138 + 243,815х1 + 2078,229х2 + 0,274х3.
Однако необходимо проверить, все ли из включенных в уравнение параметров действительно оказывают влияние на у.
К числу рассчитываемых и анализируемых параметров относятся:
а) коэффициенты регрессии (и их значимость):
Значимость коэффициентов регрессии оценим с помощью критерия Стьюдента.
Расчетные значения критерия Стьюдента следующие: t1=8,67; и t3=1,23. Табличное значение критерия при уровне значимости и числе степеней свободы равно 2,037.
Таким образом, признается статистическая значимость параметров и ,т.к. tb1=8,67>tтабл=2,04 и tb3=2,42>tтабл=2,04.
Таким образом, признается статистическая не значимость параметра и ,т.к. и tb2=1,23<tтабл=2,04.
В результате выполнения регрессионного анализа в пакете Excel получены оценки а и b и их Р – значения:
Коэффициенты Р-значение
а 4050,138 0,19
b1 243,815 0,00
b2 2078,229 0,02
b3 0,274 0,23
Для коэффициента b1 вероятность его не влияния на у равна 0,00 (0%), что меньше порогового значения в 5%, поэтому коэффициент b1 признается значимым и оставляется в модели.
Для коэффициента а вероятность его не влияния на у равна 0,19 (19%), что больше порогового значения в 5%, поэтому коэффициент а признается незначимым и должен быть удален из модели
. Для коэффициента b2 вероятность его не влияния на у равна 0,02 (2%), что меньше порогового значения в 5%, поэтому коэффициент признается значимым и должен присутствовать в модели. Для коэффициента b3 вероятность его не влияния на у равна 0,23 (23%), что больше порогового значения в 5%, поэтому коэффициент признается незначимым и должен быть удален из модели.
В первую очередь из модели будет исключена переменная х3, поскольку вероятность ее не влияния на у, определяемая соответствующим ей коэффициентом b3 выше, чем для константы а. После этого процедура регрессионного анализа проводится заново, для чего в опции Сервис - Анализ данных - Регрессия в строке «Входной интервал Х» задается уже не 3 столбца данных, а два - соответствующий переменным х1 и х2.
б) коэффициент корреляции (и его значимость);
Множественный коэффициент корреляции R, равный 0,987, свидетельствует о тесной связи между признаками.
в) коэффициент детерминации:
Множественный коэффициент детерминации , показывает, что около 97,4% вариации зависимой переменной (накладные расходы) учтено в модели и обусловлено влиянием включенных факторов (объем работ, численность рабочих и фонд заработной платы) и на 2,6% — другими факторами, не включенными в модель.
г) стандартные ошибки коэффициентов регрессии:
mb1=28,11;mb2=858,92;mb3=0,22.
д) доверительные интервалы для коэффициентов регрессии:
Доверительные интервалы для параметров чистой регрессии:
,
,
,
Анализ верхней и нижней границ доверительных интерваловприводит к выводу о том, что с вероятностью параметра и находясь в указанных границах, не принимают нулевых значений, т.е. являются статистически значимыми и существенно отличными от нуля.
Анализ верхней и нижней границ доверительного интервалаприводит к выводу о том, что с вероятностью параметр находясь в указанных границах, принимает нулевого значения, т.е. является статистически не значимым и не существенно отличным от нуля.
е) величины общей, объясненной и остаточной дисперсии.
Таблица дисперсионного анализа для простой линейной регрессии
Источник дисперсии Сумма квадратов Число степеней свободы
Регрессия
Отклонение от регрессии
Полная дисперсия
На втором этапе включим в модель только значимые факторы. В качестве программного средства реализации анализа воспользуемся пакетом прикладных программ Microsoft Excel, функцией «Анализ данных», инструмент «Регрессия». Применение инструмента «Регрессия»
Результаты представлены в таблице 2.
Таблица 2
По полученным результатам вновь оценивается значимость коэффициентов регрессии