Классическая модель линейной регрессии

Классическая модель линейной регрессии .doc

Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.

Введение

Статистическая взаимосвязь — зависимость, при которой каждому значению переменной X соответствует несколько значений переменной Y, которые она может принимать с некоторыми вероятностями (распределение значений переменой Y), но среднее значение переменной Y или другие ее статистические характеристики изменяются по определенному закону (функционально) при изменении переменной X. Задачей корреляционного анализа является измерение тесноты корреляционной связи двух (и большего числа) случайных величин между собой, а задачей регрессионного анализа является выявление характера (аналитической формы) этой связи.
Целью данной работы является изучение статистического инструментария корреляционно-регрессионного анализа.
Для достижения поставленной цели в работе планируется решить такие задачи:
- исследовать методологию корреляционно-регрессионного анализа в рамках парной регрессии;
- изучить методику корреляционно-регрессионного анализа в рамках множественной регрессии.
Теоретической основой исследования выступили учебные пособия по статистике отечественных ученых.
Структурно работа состоит из введения, двух глав основного текста, заключения и списка использованных источников.
1. Линейный корреляционный и регрессионный анализ парной зависимости
В математике зависимость между величинами записывается в виде Y = f(X). В случае, когда X, Y являются случайными величинами (в общем случае — система случайных величин), различают два типа взаимосвязи между ними:
1) функциональная взаимосвязь — зависимость, при которой каждому значению переменной X соответствует точно определенное значение переменной Y;
2) статистическая взаимосвязь — зависимость, при которой каждому значению переменной X соответствует несколько значений переменной Y, которые она может принимать с некоторыми вероятностями (распределение значений переменой Y), но среднее значение переменной Y или другие ее статистические характеристики изменяются по определенному закону (функционально) при изменении переменной X.
Корреляционная связь — это статистическая связь между случайными величинами X и Y, при которой взаимосвязь средних значений зависимой переменной со значениями независимой переменной является функциональной, т.е. зависимость (уравнение регрессии Y на X) является функцией от переменной x.
Зависимость называется уравнением регрессии случайной величины Y на случайной величине X. Уравнение вида называется уравнением регрессии случайной величины X на случайной величине Y [1—4].
Корреляционная связь является частным случаем статистической связи, т.е. если связь между и x не является функциональной, то связь между X и Y не является корреляционной, но является статистической.
Таким образом, задачей корреляционного анализа является измерение тесноты корреляционной связи двух (и большего числа) случайных величин между собой, а задачей регрессионного анализа является выявление характера (аналитической формы) этой связи.
Корреляционная взаимосвязь между двумя случайными величинами X и Y называется парной. Аналогично, уравнение регрессии между двумя случайными величинами X и Y называется парной регрессией.
Пусть — множество (выборка) значений случайной величины X, — множество (выборка) значений случайной величины Y. Рассмотрим точечную диаграмму, построенную в прямоугольной системе координат, где на оси абсцисс откладываются значения xi , а на оси ординат — соответствующие значения yi . Скопление точек с координатами будем называть корреляционным полем. По форме расположения точек в корреляционном поле делаются первоначальные предположения о наличии, направлении и аналитической форме корреляционной связи и уравнения регрессии.
Простейшей формой корреляционной связи является линейная корреляционная связь между двумя случайными величинами (парная линейная корреляция), т.е. корреляционная связь, при которой уравнение регрессии Y на X принимает вид (— коэффициенты) и называется уравнением парной линейной регрессии. . В этом линейном уравнении — свободный член, — коэффициент регрессии, измеряющий вариацию Y, которая приходится на единицу вариации X. Аналогично можно рассмотреть — уравнение линейной регрессии X на Y. Коэффициенты и уравнения линейной регрессии Y на X являются параметрами генеральной совокупности (X, Y).
Условие линейности корреляционной связи выполняется в случае, если случайные величины подчинены двумерному (многомерному) нормальному закону распределения вероятностей. (На практике корреляционный анализ применяется как метод в случае, если двумерный (многомерный) закон распределения случайных величин близок к нормальному.)
Одной из основных характеристик линейной корреляционной связи двух случайных величин X и Y является (парный) коэффициент корреляции
,
где — ковариация (корреляционный момент) случайных величин X, Y; — средние квадратические отклонения случайных величин X, Y соответственно.
Коэффициент корреляции имеет следующие свойства:
1) ;
2) если , то между случайными величинами X и Y существует функциональная линейная зависимость;
3) если , то случайные величины X и Y некоррелированны, что означает отсутствие линейной функциональной зависимости между случайными величинами X и Y, но не означает независимости вообще;
4) если X и Y образуют систему нормально распределенных случайных величин, то из их некоррелированности следует их независимость;
5) .
Корреляционной матрицей двумерной случайной величины (X, Y) называют матрицу .
Из приведенного выше следует, что корреляционная матрица является симметричной и неотрицательно определенной

Зарегистрируйся, чтобы продолжить изучение работы

.
Величина называется коэффициентом детерминации.
Коэффициент детерминации является важной характеристикой уравнения линейной регрессии и определяет долю общей вариации зависимой переменной Y, объясняемую изменением независимой переменной X.
Пусть — выборка значений случайной величины X, — выборка значений случайной величины Y. В качестве статистической оценки (парного) коэффициента корреляции рассмотрим выборочный (парный) коэффициент корреляции
,
где — выборочный (эмпирический) корреляционный момент, — выборочные средние, — выборочные средние квадратические отклонения. Статистическим аналогом корреляционной матрицы является выборочная корреляционная матрица .
В качестве статистической оценки коэффициента детерминации рассматривается .
В табличном процессоре Excel указанные выборочные характеристики можно найти с помощью стандартных статистических функций: =КОРРЕЛ(выборка X, выборка Y), = КОВАР(выборка X, выборка Y), = СТАНДОТКЛОНП(выборка X), = СРЗНАЧ(выборка X).
Проверим факт статистически значимого отличия от нуля коэффициента корреляции, т.е. проверим нулевую гипотезу при альтернативной гипотезе . Для проверки нулевой гипотезы используется статистика (наблюдаемое значение критерия):
,
которая приблизительно имеет распределение Стьюдента с (n – 2) степенями свободы. Далее, при уровне значимости находим критическое значение для двусторонней критической области = СТЬЮДРАСПОБР(; n – 2). Таким образом, если , то нулевая гипотеза отвергается с вероятностью ошибки , т.е. коэффициент корреляции генеральных совокупностей X и Y существенно отличен от нуля.
При построении доверительного интервала для используют z-преобразование Фишера: (арктангенс гиперболический от ). Доверительный интервал с надежностью для коэффициента корреляции имеет следующий вид:
,
где (th( ) — тангенс гиперболический), удовлетворяет условию , (Ф( ) — функция Лапласа).
В Excel: th( )=TANH( )=ФИШЕРОБР( ), arcth( )=ATANH() =ФИШЕР( ), =НОРМСТОБР().
После установления наличия линейной корреляционной связи пары случайных величин X и Y перейдем к оценке коэффициентов уравнений парной линейной регрессии.
Рассмотрим выборкуобъема n из генеральной совокупности (X, Y). Элементы выборки будут удовлетворять уравнению , где , (т.е. имеет закон распределения близкий к нормальному с нулевым средним и средним квадратическим отклонением ). Классическим методом оценивания коэффициентов уравнения регрессии является метод наименьших квадратов (МНК). Согласно этому методу в качестве статистических оценок параметров и следует брать такие значения а и b, что функция . Таким образом, для коэффициентов и получаем следующие статистические оценки:
,
Полученное выше уравнение называется выборочным уравнением линейной регрессии Y на X.
Замечание. Выборочное уравнение линейной регрессии Y на X можно записать в виде . Аналогично выборочное уравнение линейной регрессии X на Y можно записать в виде .
Обозначим — вектор коэффициентов уравнения линейной регрессии Y на X. Проверка значимости уравнения линейной регрессии Y на X равносильна проверке нулевой гипотезы . Для проверки этой гипотезы проведем дисперсионный анализ остатков (i = 1,…, n) (используя F-критерий Фишера), так как . Пусть . Рассмотрим тождество:
.
Возведем обе части в квадрат и просуммируем по i :
.
Для сумм обычно вводят следующие названия:
— сумма квадратов отклонений относительно среднего наблюдений (в Excel: SS-итог);
— сумма квадратов, обусловленная регрессией (в Excel: SS-регрессия);
— сумма квадратов относительно регрессии (в Excel: SS-остаток).
Для построения таблицы дисперсионного анализа (табл. 1.1) необходимо получить средние квадраты (MS), для этого каждая сумма (SS) делится на соответствующее число степеней свободы df.
Таблица 1.1
Таблица дисперсионного анализа

Источник вариации Число степеней
cвободы df
Суммы квадратов SS
Средние квадраты MS
F наблюдаемое
F критическое
Обусловлен-ный регрессией 1

Относительно регрессии (остаток) n – 2

Общий, скорректиро-ванный на среднее Y n – 1

Если Fнабл > Fкрит, то гипотеза H0 не принимается при уровне значимости , т.е. уравнение линейной регрессии Y на X является статистически значимым.
Замечания:
1) в Excel критическое значение F-распределения при уровне значимости вычисляется с помощью функции FРАСПОБР(, 1, n – 2);
2) доля суммы квадратов, объясняемая регрессией, является коэффициентом детерминации (квадратом парного коэффициента корреляции) .
В случае значимости уравнения линейной регрессии Y на X представляет интерес проверка значимости отдельных коэффициентов регрессии и построение доверительных интервалов для значимых коэффициентов.
Проверка значимости коэффициентов уравнения линейной регрессии

Для проверки статистической значимости отличия от нуля коэффициентов a и b выборочного уравнения линейной регрессии используют статистики, которые приблизительно имеют распределение Стьюдента с (n – 2) степенями свободы:
1) : ;
2) : ,
где — стандартная ошибка параметра уравнения линейной регрессии Y на X ; — стандартная ошибка параметра уравнения линейной регрессии Y на X, — дисперсия остатков (статистическая оценка генеральной дисперсии ).
Для двусторонней критической области при уровне значимости критическое значение t вычисляется с помощью стандартной функции Excel СТЬЮДРАСПОБР(, n – 2)

50% реферата недоступно для прочтения

Закажи написание реферата по выбранной теме всего за пару кликов. Персональная работа в кратчайшее время!

Промокод действует 7 дней 🔥

Оставляя свои контактные данные и нажимая «Заказать работу», я соглашаюсь пройти процедуру регистрации на Платформе, принимаю условия Пользовательского соглашения и Политики конфиденциальности в целях заключения соглашения.

Классическая модель линейной регрессии

Зарегистрируйся, чтобы продолжить изучение работы

50% реферата недоступно для прочтения

Классическая модель линейной регрессии

Методы исследования инновационной экономики

Автомобильный рынок в РОССИИ