Статистические данные содержат сведения о 5107 индивидах, выбранных случайным образом из граждан США, имевших в 1980 г. возраст от 16 до 63 лет.
Количественные переменные
earnings недельная заработная плата (средняя, в долларах)
age возраст (в год опроса)
s количество лет, затраченных на образование
exper
общий стаж работы (в годах)
Дамми-переменные
married =1 для проживающих с партнером, =0 для одиноких
union =1 для состоящих в профсоюзе, =0 для не состоящих в профсоюзе
ethblack
=1 для чернокожего населения, =0 для других
ethhisp
=1 для индивидов, происходящих из Латинской Америки, =0 для других
ethother
=1 для населения, не относящегося к чернокожему населению и к происходящим из Латинской Америки, =0 для ethblack и ethhisp. Назовем ту категорию “other”
Для исследования факторов, влияющих на размер заработной платы, оценивались модели линейной регрессии логарифма заработной платы на константу и переменные s, exper, expersq (=exper^2), union, married, ethblack, ethhisp. Были получены следующие результаты:
(1) (2)
const
5,328
(0,031) 4,887
(1,569)
s 0,089
(0,002) 0,074
(0,001)
exper
0,051
(0,004) 0,044
(0,003)
expersq
-0,0008
(0,0001) -0,0006
(0,0001)
union 0,131
(0,012) 0,140
(0,017)
married -0,012
(0,009) -0,008
(0,009)
ethblack
-0,115
(0,012) -
ethhisp
0,024
(0,016) -
R2 0,64 0,51
(а) Какая категория переменной «Этническое происхождение» является эталонной в этой задаче?
(б) Проинтерпретируйте коэффициенты при переменных ethblack и ethhisp (учитывая, что коэффициент при ethblack значимо отличен от нуля, а коэффициент при ethhisp незначим).
(в) Влияет ли этническое происхождение на размер заработной платы? (Для ответа надо проверить соответствующую гипотезу).
(г) Проинтерпретируйте коэффициент при факторе married в модели (2) (коэффициент незначим).
Нужно полное решение этой работы?
Решение
N = 5107 – размер выборки
(а)
Показатель “этническое происхождение” учитывается в модели (1) переменными ethblack и ethhisp. Так как в модели (1) отсутствует переменная ethother, то эта категория и является эталонной. То есть эталонными считаются люди, не относящиеся ни к чернокожим ни к происходящим из Латинской Америки.
(б)
Сначала проверим значимость отличия от нуля коэффициентов при переменных ethblack и ethhisp. В модели (1) 8 параметров.
Зададим уровень значимости 0,05.
Критическое значение распределения Стьюдента при уровне значимости 0,05 и числе степеней свободы k = 5107 – 8 = 5099.
tкрит (0,05; 5099) = 1,96
Коэффициент при переменной ethblack : β6 = 0,115 , с.о.( β6 ) = 0,012
H0: β6 = 0
HA: β6 ≠ 0
tрасч = 0,115 / 0,012 = 9,58.
| tрасч | > tкрит, поэтому гипотеза H0: β6 = 0 отвергается при уровне значимости 0,05. Коэффициент β6 при переменной ethblack значимо отличен от нуля (значим).
Коэффициент при переменной ethhisp : β7 = 0,024 , с.о.( β7 ) = 0,016
H0: β7 = 0
HA: β7 ≠ 0
tрасч = 0,024 / 0,016 = 1,5.
| tрасч | < tкрит, гипотеза H0: β7 = 0 не отвергается при уровне значимости 0,05
. Коэффициент β7 при переменной ethhisp незначимо отличен от нуля (незначим).
Теперь можно интерпретировать коэффициенты.
Зависимая переменная Y = ln earnings (модель log-lin).
Коэффициент при переменной ethblack значим при уровне 5%.
Зарплата чернокожих индивидов (ethblack =1) ниже чем зарплата индивидов эталонной “категории” (не чернокожих и не из Латинской Америки) в среднем на 11,5%.
Коэффициент при переменной ethhisp незначим при уровне 5%.
Зарплата индивидов, происходящих из Латинской Америки, в среднем не отличается от зарплаты индивидов эталонной “категории” (не чернокожих и не из Латинской Америки).
(в)
Теоретическая “длинная” модель, соответствующая оцененному уравнению (1)
Ln earnings = β0 + β1* s + β2* exper + β3* expersq + β4* union +
+ β5* married + β6* ethblack + β7* ethhisp + ε
Записываем гипотезу о незначимости влияния этнического происхождения на размер заработной платы:
H0: β6 = β7 = 0
HA: есть коэффициент не равный 0.
Гипотеза H0 является гипотезой о наличии линейных ограничений на коэффициенты модели регрессии, для проверки используется критерий Фишера.
Если нулевая гипотеза истинна, то “длинная” модель принимает “короткий” вид:
Ln earnings = β0 + β1* s + β2* exper + β3* expersq + β4* union + β5* married + ε
Оценка “короткой” модели задана в условии (модель (2)).
Таким образом:
размер выборки n = 5107
длинная модель (1): коэффициент детерминации равен 0,64, число параметров равно 8;
короткая модель (2): коэффициент детерминации равен 0,51;
число ограничений на коэффициенты (в нулевой гипотезе) равно 2.
F-статистика для проверки нулевой гипотезы
F=(0,64-0,51)2(1-0,64)(5107-8)=920,65
Критическое значение распределения Фишера при уровне значимости 0,05 и числе степеней свободы k1 = 2, k2 = 5107 – 8 = 5099
Fкрит0,05;2;5099=2,997
Так как F>Fкрит то гипотеза H0 отвергается при уровне значимости 0,05.
Делаем вывод, что этническое происхождение индивидов влияет на размер заработной платы.
(г)
Теоретическая модель, соответствующая оцененной модели (2)
Ln earnings = β0 + β1* s + β2* exper + β3* expersq + β4* union + β5* married + ε
Сначала проверим значимость коэффициента.
В модели (2) 6 параметров.
Коэффициент при переменной married : β5 = 0,008 , с.о.( β5 ) = 0,009
H0: β5 = 0
HA: β5 ≠ 0
tрасч = 0,008 / 0,009 = 0,889.
При уровне значимости 0,05 и числе степеней свободы k = 5107 – 6 = 5101
tкрит (0,05; 5101) = 1,96.
| tрасч | < tкрит, гипотеза H0: β5 = 0 не отвергается при уровне значимости 0,05.
Коэффициент β5 при переменной married незначимо отличен от нуля.
Интерпретация коэффициента: недельная зарплата индивидов, проживающих с партнером, в среднем не отличается от зарплаты одиноких индивидов.