Найти параметры множественной линейной регрессии.
Расчет провести, используя пакет Анализ данных Excel.
1. Проверить наличие эффекта мультиколлинеарности. Описать полученные корреляционные зависимости между всеми факторами.
2. Проверить значимость полученной модели и значимость каждого фактора с помощью критерия Стъюдента и критерия Фишера. Сделать вывод.
3. Записать уравнение множественной регрессии.
4. Проверить нормальность распределения остатков. Сделать вывод.
5. В случае необходимости перестроить модель и сравнить ее статические показатели с исходной.
Результаты оформить в Excel.
Варианты заданий приведены в таблицах.
Выбор варианта значений зависимой переменной определяется по списку студента в группе.
К исходным данным с * прибавить величину 5N, где N – номер группы.
Решение
Исходные данные перенесем в MS Excel (рис. 1).
Рисунок 1. Исходные данные
1. Исследуем степень корреляционной зависимости между переменными. Для этого построим корреляционную матрицу, используя средства «Анализа данных». Корреляционная матрица приведена в таблице 1, расположенной ниже.
Таблица 1 - Корреляционная матрица
Таким образом, из корреляционной матрицы следует сделать вывод, что между всеми факторами существует корреляционная связь различной силы (от 0,57 до 0,9).
Проверим наличие мультиколлинеарности с помощью определителя R. Если в матрице присутствует межфакторный коэффициент корреляции rxjxi > 0.7, то в данной модели множественной регрессии существует мультиколлинеарность. В нашем случае все парные коэффициенты корреляции |r|<0.7, что говорит об отсутствии мультиколлинеарности факторов.
2. Построим многофакторную регрессионную модель, в которой зависимая переменная – Y.
Результаты множественной регрессии в численном виде представлены в таблице 2, расположенной ниже.
Таблица 2 – Множественная регрессия
Коэффициенты Стандартная ошибка t-статистика P-Значение
Y-пересечение -5,122019772 3,95799788 -1,294093612 0,222142668
Переменная X 1 -1,048382909 0,168576466 -6,219034809 6,53848E-05
Переменная X 2 1,723585426 2,343230246 0,735559567 0,477390019
Переменная X 3 0,036845783 0,187317612 0,196702184 0,847647721
Регрессионная статистика
Множественный R 0,905633462
R-квадрат 0,820171967
Нормированный R-квадрат 0,771127958
Стандартная ошибка 4,533028779
Наблюдения 15
Дисперсионный анализ
df
SS MS F Значимость F
Регрессия 3 1030,901484 343,6338281 16,7231836 0,000207204
Остаток 11 226,031849 20,54834991
Итого 14 1256,933333
Коэффициент детерминации R2=0,8202 описывает данную линейную модель как приемлемую, линейная связь в данном случае хорошая.
Соотношение значений t-статистики полученной регрессии с табличными t–критериями (в зависимости от принятого уровня значимости и от числа степеней свободы (n-m-1)) позволяют сделать вывод об значимости коэффициентов регрессии
. Если вычисленные значения t–критерия превышают табличные, то говорят, что соответствующий коэффициент регрессии является статистически значимым и на него можно опираться в анализе и прогнозе.
В данном случае они составляют:
t(X1) = 6,219, t(X2) = 0,736, t(X3) =0,197, t(y) = 1,294
Табличное значение t–критерия Стьюдента при уровне значимости α = 0,05 и числе степеней свободы 11 tтаб =2,201 Коэффициент t- статистики при регрессоре Х1 больше t таб., и согласно t–критерию он является статистически значимым.
Значимость уравнения в целом оценивается с помощью F-критерия Фишера. Если найденное значение F больше табличного для уровня значимости α и степеней свободы (n-m-1) и m, то с вероятность 1 - α делаем заключение о статистической значимости уравнения в целом.
В нашем случае число регрессоров m = 3 число n-m-1 = 11, где n – число наблюдений. Для уровня значимости α = 0,05 и при степенях свободы 3, 11 табличное значение критерия Фишера Fтаб = 3,59.
Значение F = 16,72 существенно превышает табличное, что говорит о статистической значимости уравнения в целом. Согласно критерию Фишера, данная модель адекватна. Так как уровень значимости модели меньше 0,00001.
3