Для объяснения продажной цены двухкомнатных квартир (price) в одном из округов некоего мегаполиса из всех таких квартир, проданных в течение одного и того же года, случайным образом были отобраны 52 квартиры. По каждой сделке были получены значения следующих показателей:
price – цена квартиры в млн. рублей,
totsp – общая площадь квартиры в кв.м.,
livsp – жилая площадь квартиры в кв. м.,
walk_t – расстояние до ближайшей остановки наземного транспорта в минутах,
walk_m – время поездки наземным транспортом до станции метро в минутах,
walk – расстояние до станции метро в минутах (walk = walk_m + walk_t).
Были рассчитаны коэффициенты корреляции между всеми парами показателей, причем коэффициент корреляции между totsp и livsp оказался равен 0,92, остальные коэффициенты корреляции по модулю не превосходили 0,5. Отметим также, что между totsp и walk коэффициент корреляции в выборке был равен -0,46.
Далее по МНК были оценены 4 модели, в которых зависимой переменной выступал логарифм цены квартиры ln (price). (В скобках – стандартные ошибки).
(1) (2) (3) (4)
const
0,088
(0,062) 0,102
(0,070) 0,096
(0,056) 0,111
(0,097)
totsp
0,062
(0,059) 0,105
(0,086) 0,055
(0,015) 0,065
(0,020)
livsp
0,112
(0,105) - - -
walk_m -0,021
(0,008) -0,024
(0,007) - -
walk_t -0,011
(0,003) -0,019
(0,004) - -
walk - - -0,133
(0,022) -
R2 0,856 0,786 0,699 0,662
А. Какая проблема имеет место в 1-м уравнении? Как она проявляется?
Б. Для модели (2) проверьте гипотезу о том, что увеличение на 1 минуту расстояния что до метро, что до остановки наземного транспорта, изменяет цену квартиры одинаково.
В. В модели (3) проинтерпретируйте коэффициент при переменной walk. Проверьте гипотезу о том, что коэффициент при totsp больше 0,01.
Г. Можно ли было ожидать заранее, что выбрасывание из модели (3) существенного фактора walk приведет к увеличению оценки при факторе totsp? Ответ обоснуйте соответствующей формулой.
Нужно полное решение этой работы?
Решение
N = 52 – размер выборки
А.
Теоретическая модель, соответствующая выборочному уравнению (1):
ln Price = β0 + β1* totsp + β2* livsp + β4* walk_m + β4* walk_t + ε
Модель содержит m = 5 параметров
Переменные totsp и livsp в выборке сильно коррелированны (коэфф. корреляции равен 0,92). То есть в 1-м уравнении наблюдается проблема мультиколлинеарности.
Проверим гипотезы о том, что коэффициенты при переменных totsp и livsp значимо отличны от нуля.
1) Коэффициент при переменной totsp : β1 = 0,062 , с.о.( β1 ) = 0,059
H0: β1 = 0
HA: β1 ≠ 0
tстат = 0,062 / 0,059 = 1,051.
Зададим уровень значимости 0,05.
Число степеней свободы для уравнения (1) k = 52 – 5 = 47 .
По таблице распределения Стьюдента tкрит (0,05; 47) = 2,012.
tстат < tкрит, поэтому гипотеза H0: β1 = 0 не отвергается при уровне значимости 0,05, то есть этот коэффициент при переменной totsp незначимо отличен от нуля.
Переменная «общая площадь квартиры» незначимо влияет на цену квартиры.
2) Коэффициент при переменной livsp : β2 = 0,112 , с.о.( β2 ) = 0,105
H0: β2 = 0
HA: β2 ≠ 0
tстат = 0,112 / 0,105 = 1,067.
tкрит (0,05; 47) = 2,012.
tстат < tкрит, гипотеза H0: β2 = 0 не отвергается при уровне значимости 0,05, коэффициент при переменной livesp незначимо отличен от нуля.
Переменная «жилая площадь квартиры» незначимо влияет на цену квартиры.
Если в модели коэффициент при какой-то переменной равен нулю, то такая переменная не влияет на зависимую переменную.
В модели (1) из-за мультиколлинеарности коэффициенты при коррелированных переменных totsp и livsp оказались незначимо отличными от нуля. То есть оказалось, что переменные «общая площадь квартиры» и «жилая площадь квартиры», являющиеся важными факторами при определении цены квартиры, из-за мультколлинеарности не оказывают влияния на цену квартиры.
Б.
Теоретическая модель, соответствующая выборочному уравнению (2):
ln Price (Y) = β0 + β1* totsp + β3* walk_m + β4* walk_t + ε
Модель log-lin
Коэффициент β3 при переменной walk_m показывает, что при увеличении на 1 минуту времени поездки наземным транспортом до станции метро цена квартиры (Y) изменяется в среднем на β3 % (при неизменности значений остальных объясняющих переменных модели).
Коэффициент β4 при переменной walk_t показывает, что при увеличении на 1 минуту расстояния до ближайшей остановки наземного транспорта цена квартиры (Y) изменяется в среднем на β4 % (при неизменности значений остальных объясняющих переменных модели).
Таким образом, гипотеза о том, что увеличение на 1 минуту расстояния что до метро, что до остановки наземного транспорта, изменяет цену квартиры одинаково – это гипотеза о том, что коэффициенты при переменных walk_m и walk_t равны.
H0: β3 = β4
НА: β3 ≠ β4
Используем тест Фишера.
Пусть H0 истинна
. Преобразуем модель (2) с учетом проверяемой гипотезы:
ln Price (Y) = β0 + β1* totsp + β3* walk_m + β3* walk_t + ε (*)
то есть
ln Price (Y) = β0 + β1* totsp + β3*(walk_m + walk_t) + ε
В скобках стоит общее расстояние до станции метро в минутах
walk = walk_m + walk_t
Поэтому окончательно преобразованная модель записывается так:
ln Price (Y) = β0 + β1*totsp + β3*walk + ε.
Или, если соответственно поменять номер коэффициента при walk,
ln Price (Y) = β0 + β1*totsp + β5* walk + ε(**)
Это теоретическая модель для выборочного уравнения (3).
Таким образом, имеем длинную модель (*), для которой коэффициент детерминации выборочного уравнения равен 0,786, и короткую модель (**), для которой коэффициент детерминации выборочного уравнения равен 0,699.
Число ограничений на коэффициенты в нулевой гипотезе (H0: β3= β4) равно 1.
Число степеней свободы в длинной модели равно 52 – 4 = 48.
Рсчетное значение F-статистики:
F=(0,786-0,699)/1(1-0,786)/48=19,514
По таблице критических значений распределения Фишера при уровне значимости 0,05 и числе степеней свободы k1 = 1 и k2 = 48
Fкрит (0,05; 1; 48) = 4,043.
F > Fкрит, поэтому при уровне значимости 0,05 гипотеза H0: β3 = β4 отвергается в пользу альтернативной НА: β3 ≠ β4