Построить поле корреляции и сформулировать гипотезу о форме связи. Объяснить полученный результат.
Найти значение линейного коэффициента корреляции и пояснить его смысл.
Рассчитать и объяснить значение .
Определить параметры уравнения регрессии и интерпретировать их. Объяснить смысл уравнения. (формулы).
Оценить статистическую значимость уравнения регрессии в целом при уровне значимости α = 0,001. (дисперс. анализ).
Оценить статистическую значимость коэффициентов уравнения регрессии при уровне значимости α = 0,05.
Определить адекватность построенной модели. Сделать выводы.
Рассчитать прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от его среднего уровня. Построить доверительный интервал прогноза при уровне значимости α=0,05.
На поле корреляции нанести теоретические значения результата. Сравнить линии регрессии.
Решение
Построить поле корреляции и сформулировать гипотезу о форме связи. Объяснить полученный результат.
На основании поля корреляции выдвинем гипотезу о том, что связь между всеми возможными значениями х и у, то есть для генеральной совокупности может быть линейна: y=+x. Наличие случайных отклонений, вызванных воздействием на переменную у множества других, неучтенных в уравнении факторов и ошибок измерения, приведет к тому, что связь наблюдаемых величин xi и yi приобретет вид yi=+xi+ i. Здесь i.- случайные ошибки (отклонения, возмущения).
Найти значение линейного коэффициента корреляции и пояснить его смысл.
Далее нужно рассчитать показатель тесноты связи. Таким показателем является линейный коэффициент корреляции ryx, который рассчитывается по формуле: . Линейный коэффициент корреляции принимает значения от –1 до +1. Этот коэффициент дает объективную оценку лишь при линейной зависимости.
В нашем примере:
Значения линейного коэффициента корреляции принадлежит промежутку [-1;1]. Связь между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
менее 0,1 отсутствует линейная связь0,1 < rxy < 0,3: слабая; 0,3 < rxy < 0,5: умеренная; 0,5 < rxy < 0,7: заметная; 0,7 < rxy < 0,9: высокая; 0,9 < rxy < 1: весьма высокая;
Для нашей задачи r = 0,542, что подтверждает вывод, сделанный ранее, что связь между признаками прямая, а также указывает на заметную взаимосвязь между стажем работы и месячной выработке
. Положительная величина свидетельствует о прямой связи между изучаемыми признаками.
Найти значение линейного коэффициента корреляции и пояснить его смысл.
Коэффициент детерминации определяется по формуле:
Вычислим:
Множественный коэффициент детерминации , показывает, что около 29,4% вариации зависимой переменной учтено в модели и обусловлено влиянием включенного фактора и на 70,6% — другими факторами, не включенными в модель.
Определить параметры уравнения регрессии и интерпретировать их. Объяснить смысл уравнения. (формулы).
Для оценки параметров линейного регрессионного уравнения рассчитаем сначала
;; ; ;
.
и .
С учетом этого
;
В целом эмпирическое уравнение парной линейной регрессии будет таким:
.
Параметр b= 0,911 - показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора на единицу его измерения. В данном примере с увеличением стажа работы на 1 год месячная выработка увеличивается в среднем на 0,91 тыс. руб.
Параметр а = 69,126 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями. Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Связь между у и х определяет знак коэффициента регрессии b (если >0 – прямая связь, иначе - обратная)