В таблице представлены данные о цене техническогло средства (ТС), доходе, возрасте, стаже работы и т.д. 24 сотрудников некоторого предприятия.
№ п.п. Y
Цена ТС X1
Доход X2
Возраст X3
Уровень образ. X4
Стаж X5
Пол
1 36,20 72,00 55,00 0,00 23,00 0,00
2 76,90 153,00 56,00 0,00 35,00 1,00
3 13,70 28,00 28,00 1,00 4,00 0,00
4 12,50 26,00 24,00 1,00 0,00 1,00
5 11,30 23,00 25,00 0,00 5,00 1,00
6 37,20 76,00 45,00 0,00 13,00 1,00
7 19,80 40,00 42,00 1,00 10,00 1,00
8 28,20 57,00 35,00 0,00 1,00 0,00
9 12,20 24,00 46,00 0,00 11,00 0,00
10 46,10 89,00 34,00 1,00 12,00 1,00
11 35,50 72,00 55,00 1,00 2,00 0,00
12 11,80 24,00 28,00 1,00 4,00 1,00
13 21,30 40,00 31,00 1,00 0,00 0,00
14 68,90 137,00 42,00 1,00 3,00 0,00
15 34,10 70,00 35,00 1,00 9,00 1,00
16 78,90 159,00 52,00 1,00 16,00 1,00
17 18,60 37,00 21,00 1,00 0,00 1,00
18 13,70 28,00 32,00 0,00 2,00 0,00
19 54,70 109,00 42,00 1,00 20,00 0,00
20 58,30 117,00 40,00 0,00 19,00 0,00
21 11,80 23,00 30,00 0,00 3,00 1,00
22 9,50 21,00 48,00 1,00 2,00 1,00
23 8,50 17,00 39,00 1,00 2,00 1,00
24 16,60 34,00 42,00 0,00 13,00 0,00
Обозначения:
в графе Уровень образования: 1 – высшее и неоконченное высшее, 0 – среднее, среднее специальное,
ТС – транспортное средство,
в графе Пол: 1 – мужской, 0 – женский.
Требуется:
Проанализировать тесноту и направление связи между переменными, отобрать факторы для регрессионного анализа.
Построить модель множественной регрессии с выбранными факторами. Проверить значимость параметров уравнения.
Построить уравнение только со статистически значимыми факторами. Оценить его качество.
Оценить степень влияния, включенных в модель факторов на зависимую переменную при помощи коэффициентов эластичности, бета - и дельта - коэффициентов.
Определить точность модели.
Нужно полное решение этой работы?
Решение
Проанализируем тесноту и направление связи между переменными, выполним отбор факторов для регрессионного анализа.
Для этого вычислим матрицу коэффициентов парной корреляции:
Для построения корреляционного анализа воспользуемся пакетом прикладных программ Microsoft Excel, функцией «Анализ данных».
Выполняем следующие действия:
Данные для корреляционного анализа должны располагаться в смежных диапазонах ячеек.
Выбрать команду «Сервис» → «Анализ данных».
В диалоговом окне «Анализ данных» выбрать инструмент «Корреляция», а затем щелкнуть кнопку «ОК».
В диалоговом окне «Корреляция» в поле «Входной интервал» необходимо ввести диапазон ячеек, содержащих исходные данные. Если введены и заголовки столбцов, то установить флажок «Метки в первой строке».
Выбрать параметры вывода. В данном случае «Новый рабочий лист».
«ОК»
Таблица 1 – Результаты корреляционного анализа
Матрица парных коэффициентов корреляции
Y X1 X2 X3 X4 X5
Y 1
X1 0,999633094 1
X2 0,547857481 0,553890557 1
X3 0,016998779 0,015549231 -0,166653439 1
X4 0,662964789 0,6625373 0,625747618 -0,367288586 1
X5 -0,083602934 -0,07981105 -0,193074501 0,240296188 -0,021165957 1
Анализ матрицы коэффициентов парной корреляции начнем с анализа первого столбца матрицы, в котором расположены коэффициенты корреляции, отражающие тесноту связи, зависимой переменной Цена ТС с включенными в анализ факторами. Анализ показывает, что зависимая переменная, то есть Цена ТС, имеет весьма тесную, прямую связь с Доходом (ryx1 = 0,9996), тесную, прямую связь со Стажем (ryx4 = 0,663), умеренную, прямую связь с Возрастом (ryx2 = 0,548) и слабую, прямую связь с Уровнем образования (ryx3 = 0,017) и фактор Х5 Пол, имеет слабую, обратную связь (ryx5 = – 0,084)с зависимой переменной. Факторы Уровень образования и Пол не рекомендуется включать в модель регрессии.
Оценим значимость коэффициентов корреляции первого столбца матрицы. Для этого рассчитаем значение t – статистики для всех элементов первого столбца:
Табличное значение критерия Стьюдента равно: tтабл (α = 0,05; k = n – 2 = 22) =2,07. Сравним числовые значения критериев с табличным, делаем вывод, что tрасч > tтабл т.е. полученные значения коэффициентов корреляции значимы для Дохода (ryx1 = 0,9996), Стажа (ryx4 = 0,663) и для Возрастом (ryx2 = 0,548).
Затем перейдем к анализу остальных столбцов матрицы с целью выявления коллинеарности. Одним из условий регрессионной модели является предположение о линейной независимости объясняющих переменных, т. е., решение задачи возможно лишь тогда, когда столбцы и строки матрицы исходных данных линейно независимы. Для экономических показателей это условие выполняется не всегда. Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных, которая приводит к линейной зависимости нормальных уравнений. Один из подходов определения наличия или отсутствия мультиколлинеарности заключается в анализе матрицы коэффициентов парной корреляции
. Считают явление мультиколлинеарности в исходных данных установленным, если коэффициент парной корреляции между двумя переменными больше 0,8.
В нашей задаче все парные коэффициенты между факторами меньше 0,7, следовательно, мультиколлинеарность отсутствует.
Таким образом, на основе анализа корреляционной матрицы для включения в модель регрессии остаются два фактора – относительный образовательный уровень населения, относительный возрастной показатель и относительная заработная плата (n = 24, k =3).
Построим модель множественной регрессии с выбранными факторами. Проверим значимость параметров уравнения
В качестве программного средства реализации анализа воспользуемся пакетом прикладных программ Microsoft Excel, функцией «Анализ данных», инструмент «Регрессия». Применение инструмента «Регрессия»
(Анализ данных EXCEL)
Для проведения регрессионного анализа необходимо выполнить следующие действия:
Выбрать команду «Сервис»→ «Анализ данных».
В диалоговом окне «Анализ данных» выбрать инструмент «Регрессия», а затем щёлкнуть по кнопке ОК.
В диалоговом окне «Регрессия» в поле «Входной интервал » ввести адрес одного диапазона ячеек, который представляет зависимую переменную. В поле «Входной интервал Х» ввести адреса одного или нескольких диапазонов, которые содержат значения независимых переменных.
Если введены и заголовки столбцов, то следует установить флажок «Метки в первой строке».
Выбрать параметры вывода. В данном случае «Новая рабочая книга».
ОК.
Результаты представлены в таблице 2.
Таблица 2
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R 0,999666345
R-квадрат 0,999332801
Нормированный R-квадрат 0,999232721
Стандартная ошибка 0,617825536
Наблюдения 24
Дисперсионный анализ
df
SS MS F Значимость F
Регрессия 3 11434,48542 3811,495138 9985,358472 6,46604E-32
Остаток 20 7,634167865 0,381708393
Итого 23 11442,11958
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y-пересечение 0,518132739 0,552064407 0,938536757 0,35916573 -0,633453433 1,66971891
X1 0,502898665 0,003987078 126,1321517 1,71623E-30 0,494581767 0,511215563
X2 -0,02332218 0,016621594 -1,403125376 0,175914228 -0,057994218 0,011349857
X4 0,015339931 0,021209728 0,723249788 0,477900507 -0,028902786 0,059582649
Значимость коэффициентов регрессии оценим с помощью критерия Стьюдента.
Расчетные значения критерия Стьюдента следующие: ; ; . Табличное значение критерия при уровне значимости и числе степеней свободы равно 2,09. Таким образом, на этом шаге исключается тот фактор, коэффициент при котором незначим и имеет наименьшую t-статистику, а именно фактор Стаж.
ШАГ 2: На втором шаге построим модель зависимости Цена ТС от Дохода и Возраста. Расчеты представлены в таблице 3.
Таблица 3
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R 0,999657617
R-квадрат 0,999315351
Нормированный R-квадрат 0,999250146
Стандартная ошибка 0,610769842
Наблюдения 24
Дисперсионный анализ
df
SS MS F Значимость F
Регрессия 2 11434,28575 5717,142874 15325,82547 5,92126E-34
Остаток 21 7,833835806 0,3730398
Итого 23 11442,11958
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y-пересечение 0,372769705 0,508306702 0,733355872 0,471449613 -0,684311946 1,429851355
X1 0,504301511 0,00344369 146,4422126 4,32219E-33 0,497139967 0,511463056
X2 -0,018333877 0,01495038 -1,226315059 0,233653696 -0,049424894 0,012757141
Сравним вычисленные значения критериев с табличными