Известны статистические данные по 36 строительным бригадам.
Необходимо выяснить влияние различных факторов на величину накладных расходов в строительстве. Известно, что к накладным расходам относятся административно-хозяйственные, коммунальные расходы, дополнительная заработная плата и другие расходы. На качественном уровне выявлено, что фактический уровень накладных расходов оказался наиболее тесно связан со следующими факторами: объемом выполненных работ, численностью рабочих, занятых на строительно-монтажных работах, фондом заработной платы. Остальные факторы были признаны незначимыми.
На основании имеющихся данных необходимо при помощи использования функций Excel:
1. Рассчитать параметры множественной линейной регрессии, проводя процедуру стандартного регрессионного исследования до получения удовлетворительной модели. Провести полный анализ полученного уравнения регрессионной связи.
К числу рассчитываемых и анализируемых параметров относятся:
а) коэффициенты регрессии (и их значимость);
б) коэффициент корреляции (и его значимость);
в) коэффициент детерминации;
г) стандартные ошибки коэффициентов регрессии;
д) доверительные интервалы для коэффициентов регрессии;
е) величины общей, объясненной и остаточной дисперсии.
2. На основании реальных и расчетных значений накладных расходов построить графики и сравнить их.
Статистические данные по исследуемым показателям приведены в таблице:
№ Накладные расходы Объем работ (куб. м.) Численность рабочих (чел.) Фонд заработной платы (руб.)
1 77125 212 6 25219
2 126070 355 12 53558
3 88018 241 7 34658
4 55649 141 4 24605
5 149651 425 12 52856
6 107618 315 7 44306
7 78835 211 7 33314
8 102647 265 8 34761
9 57509 158 5 19345
10 119107 308 8 37715
11 139234 390 12 49306
12 108847 280 10 39982
13 193064 556 15 74472
14 154509 466 13 49705
15 121805 338 10 43226
16 180985 531 11 54646
17 100334 265 9 36070
18 54468 134 4 18190
19 50084 149 3 16685
20 75107 197 6 23877
21 86773 245 6 36810
22 63180 189 5 25902
23 90783 221 8 36618
24 100299 292 9 32677
25 145267 412 12 44399
26 72364 215 6 28427
27 120372 356 8 38356
28 64374 189 5 20141
29 99386 310 7 47203
30 82294 250 5 34491
31 89417 239 7 40482
32 73828 205 6 30706
33 93517 250 7 33055
34 67743 200 5 24457
35 96234 303 9 44007
36 81498 244 7 36035
Решение
1. Рассчитать параметры множественной линейной регрессии, проводя процедуру стандартного регрессионного исследования до получения удовлетворительной модели. Провести полный анализ полученного уравнения регрессионной связи.
На первом этапе включим в модель все факторы. В качестве программного средства реализации анализа воспользуемся пакетом прикладных программ Microsoft Excel, функцией «Анализ данных», инструмент «Регрессия». Применение инструмента «Регрессия»
(Анализ данных EXCEL)
Для проведения регрессионного анализа необходимо выполнить следующие действия:
Выбрать команду «Сервис»→ «Анализ данных».
В диалоговом окне «Анализ данных» выбрать инструмент «Регрессия», а затем щёлкнуть по кнопке ОК.
В диалоговом окне «Регрессия» в поле «Входной интервал » ввести адрес одного диапазона ячеек, который представляет зависимую переменную. В поле «Входной интервал Х» ввести адреса одного или нескольких диапазонов, которые содержат значения независимых переменных.
Если введены и заголовки столбцов, то следует установить флажок «Метки в первой строке».
Выбрать параметры вывода. В данном случае «Новая рабочая книга».
ОК.
Результаты представлены в таблице 1.
Таблица 1
Без проверки значимости коэффициентов а и b уравнение регрессии было бы записано в следующем виде:
у = 4324,5346 + 270,3991х1 + 2461,2967х2 + 0,00097х3.
Однако необходимо проверить, все ли из включенных в уравнение параметров действительно оказывают влияние на у.
К числу рассчитываемых и анализируемых параметров относятся:
а) коэффициенты регрессии (и их значимость):
Значимость коэффициентов регрессии оценим с помощью критерия Стьюдента.
Расчетные значения критерия Стьюдента следующие: ; и . Табличное значение критерия при уровне значимости и числе степеней свободы равно 2,037.
Таким образом, признается статистическая значимость параметров и ,т.к. .и .
Таким образом, признается статистическая не значимость параметра и ,т.к. и .
В результате выполнения регрессионного анализа в пакете Excel получены оценки а и b и их Р-значения:
Коэффициенты Р-значение
а 4324,5346 0,11
b1 270,3991 0,00
b2 2461,2967 0,00
b3 0,00097 0,996
Для коэффициента b1 вероятность его не влияния на у равна 0,00 (0%), что меньше порогового значения в 5%, поэтому коэффициент b1 признается значимым и оставляется в модели.
Для коэффициента а вероятность его влияния на у равна 0,11 (11%), что больше порогового значения в 5%, поэтому коэффициент а признается не значимым и должен быть удален из модели. Для коэффициента b2 вероятность его не влияния на у равна 0,00 (00%), что меньше порогового значения в 5%, поэтому коэффициент b1 признается значимым и оставляется в модели. Для коэффициента b3 вероятность его не влияния на у равна 0,996 (99,6%), что больше порогового значения в 5%, поэтому коэффициент признается незначимым и должен быть удален из модели.
В первую очередь из модели будет исключена переменная х3, поскольку вероятность ее не влияния на у, определяемая соответствующим ей коэффициентом b3 выше, чем для константы а. После этого процедура регрессионного анализа проводится заново, для чего в опции Сервис - Анализ данных - Регрессия в строке «Входной интервал Х» задается уже не 3 столбца данных, а два – соответствующих только переменным х1 и х2
. По полученным результатам вновь оценивается значимость коэффициентов регрессии.
Определение значимости коэффициента корреляции
б) коэффициент корреляции (и его значимость);
Множественный коэффициент корреляции R, равный 0,991, свидетельствует о тесной связи между признаками.
При выполнении регрессионного анализа в пакете Excel вероятность выполнения нулевой гипотезы для коэффициента корреляции выводится как “Значимость F”.
Если Значимость F меньше 0,05, то количество наблюдений считается достаточным для признания полученных результатов регрессионного анализа достоверными. Если Значимость F меньше 0,05, то коэффициент корреляции незначим, и количество наблюдений необходимо увеличить.
В результате выполнения регрессионного анализа в пакете Excel получено значение R и Значимости F:
Множественный R0,991
Значимость F0,00
Вероятность незначимости (недостоверности) коэффициента корреляции достаточно мала: 0% (по сравнению с пороговым значением 5%), значит, количество наблюдений достаточно.
Определение коэффициента детерминации
в) коэффициент детерминации:
Множественный коэффициент детерминации , показывает, что около 98,2% вариации зависимой переменной (накладные расходы) учтено в модели и обусловлено влиянием включенных факторов (объем работ, численность рабочих и фонд заработной платы) и на 1,8% — другими факторами, не включенными в модель.
Коэффициент детерминации рассчитывается следующим образом:
Значения TSS, RSS и ESS выдаются в качестве результатов выполнения регрессионного анализа в Excel в таблице «Дисперсионный анализ»
Дисперсионный анализ
SS
Регрессия 41795920190 RSS (объясн)
Остаток 768876758,6 ESS (остат)
Итого 42564796949 TSS (общая)
Коэффициент детерминации можно рассчитать также как квадрат коэффициента корреляции. При выполнении регрессионного анализа в Excel коэффициент детерминации выводится в таблице «Вывод итогов» как величина R-квадрат.
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R 0,990927002
R-квадрат 0,981936323
Нормированный R-квадрат 0,980242853
Стандартная ошибка 4901,775057
R2 = RSS / TSS = 42564796949/ 42564796949= 0,982
г) стандартные ошибки коэффициентов регрессии:
д) доверительные интервалы для коэффициентов регрессии:
Определение доверительных интервалов для и
В результате выполнения регрессионного анализа в пакете Excel получены оценки а и b и их доверительные интервалы:
Коэффициенты Нижние 95% Верхние 95%
а 4324,54 –1058,51 9707,58
b1 270,40222,75318,04
b2 2461,30939,103983,49
b3 0,00097 – 0,3720,374
Значит, –1058,51 < < 9707,58; 222,75< 1 < 318,04; 939,10< 2 < 3983,49 и – 0,372< 3 < 0,374.
Анализ верхней и нижней границ доверительных интерваловприводит к выводу о том, что с вероятностью параметра и находясь в указанных границах, не принимают нулевых значений, т.е. являются статистически значимыми и существенно отличными от нуля.
Анализ верхней и нижней границ доверительного интервалаприводит к выводу о том, что с вероятностью параметр находясь в указанных границах, принимает нулевого значения, т.е