Изучается связь систолического артериального давления (Y) с признаками
Х1 – диастолическое артериальное давление;
Х2 – вес обследуемого;
Х3 – возраст обследуемого.
Исходные данные представлены в таблице.
№ п/п Y - АД сист
X1- АД диаст
X2- Вес X3- Возраст
1 145 72 75 40
2 127 65 70 48
3 130 70 65 30
4 120 65 75 25
5 140 80 85 41
6 135 90 60 43
7 145 85 70 50
8 150 80 78 60
9 140 75 85 55
10 130 77 60 34
11 155 80 72 65
12 125 68 80 30
Требуется:
Определить числовые характеристики переменных и корреляционную матрицу. Оценить нормальность закона распределения учтенных признаков. Дать оценку связи признака отклика Y с предикторами.
Определить коэффициенты модели. Дать дисперсионный анализ модели и оценить ее информативность и значимость.
Дать прогноз параметра Y для заданных значений факторов: Х1=65; X2=85; X3=25 лет. Оценить точность и надежность прогноза. Рассчитать 95% доверительный интервал среднего значения прогноза систолического артериального давления.
Решение
1.
Числовые характеристики показателей рассчитываем с помощью инструмента “Описательная статистика” пакета Анализ данных MS Excel
Распределения переменных Y, Х1, Х2, и Х3 можно признать близким к нормальному, т.к.:
средние значения и медианы по каждой переменной близки по своим значениям;
максимальное и минимальное значения по каждой переменной примерно симметричны относительно среднего значения;
коэффициенты асимметрии не более 0,5 по абсолютной величине, а коэффициенты эксцесса по абсолютной величине не превышают 1.
Следовательно, можно проводить дальнейший многофакторный корреляционный и регрессионный анализ.
Корреляционная матрица рассчитывается с помощью инструмента “Корреляция” пакета Анализ данных:
Оценка связи признака-отклика Y с предикторами Х1, Х2, Х3
Коэффициент корреляции между Y и Х1
rX1,Y=0,613
Связь Y (систолического АД) с Х1 (диастолическим АД) умеренная и прямая, то есть с увеличением диастолического АД систолическое АД будет повышаться;
Коэффициент корреляции между Y и Х2
rX2,Y=0,195
Связь Y (систолического АД) с Х2 (весом обследуемого) слабая и прямая, то есть можно сказать, что при увеличении веса систолическое АД будет повышаться.
Коэффициент корреляции между Y и Х3
rX3,Y=0,836
Связь Y (систолического АД) с Х3 (возрастом обследуемого) сильная и прямая, то есть с увеличением возраста систолическое АД будет повышаться.
2.
Рассчитаем модель зависимости признака-отклика Y (систолического АД) от факторов Х1 (диастолическое АД), Х2 (вес обследуемого) и Х3 (возраст обследуемого) в виде уравнение линейной регрессии
Y=a+b1*X1+b2*X2+b3*X3
Коэффициенты регрессии b1, b2, b3 и свободный член a, а также другие показатели модели, находим с помощью инструмента “Регрессия” пакета Анализ данных MS Excel.
Результаты регрессионного анализа выведены в четырех таблицах
Таблица регрессионной статистики:
Множественный R – это коэффициент множественной корреляции по модулю
. Показывает, что связь в уравнении сильная.
R-квадрат – это коэффициент детерминации. Показывает, что вариация систолического артериального давления (Y) на 77,26% объясняется факторами Х1 (диастолическое АД), Х2 (вес обследуемого); Х3 (возраст обследуемого). Так как R-квадрат больше 50%, то можно признать модель в достаточной степени информационно способной.
Стандартная ошибка (S0) показывает, на сколько в среднем будут отклоняться прогнозируемое значение систолического АД (Y). Показатель стандартной ошибки используется далее для расчета стандартной ошибки среднего значения прогнозируемого признака Y и его 95%-го доверительного интервала.
Таблица дисперсионного анализа:
В столбце SS рассчитаны суммы квадратов отклонений переменной Y.
ИтогоSS – это общая дисперсия зависимой переменной Y (100%), РегрессияSS – это дисперсия переменной Y, объясняемая факторными признаком Х1, Х2 и Х3 (77,26% общей дисперсии), ОстатокSS – это дисперсия переменной Y, вызванная другими, не учтенными в модели признаками (22,74% общей дисперсии).
Если разделить Объясненную дисперсию на Общую, то получится коэффициент детерминации.
В ячейке Значимость F рассчитан уровень значимости модели ( 0,0059 ); и так как 0,0059 < 0,01 то сделаем вывод, что модель значима (достоверность составит 99%).
Таблица коэффициентов модели
В столбце “Коэффициенты” выведены коэффициенты b1, b2, b3 и свободный член a уравнения регрессии