Регрессионные модели с бинарными результативными показателями
Имеется набор данных
Y 1 0 0 1 1 0 1 1
X 5 6 4 5 7 2 5 5
Постройте диаграмму рассеивания.
Оцените линейную модель вероятности с помощью МНК. Найдите прогнозные значения.
Используйте оцененную модель для разделения наблюдений на две группы. Составьте долю правильной классификации.
Решение
Построим диаграмму рассеивания.
Оценим линейную модель вероятности с помощью МНК. Найдем прогнозные значения.
Для расчета параметров уравнения линейной регрессии строим расчетную таблицу.
Таблица 1
1 5 1 5 25 1 0,647059
2 6 0 0 36 0 0,823529
3 4 0 0 16 0 0,470588
4 5 1 5 25 1 0,647059
5 7 1 7 49 1 1
6 2 0 0 4 0 0,117647
7 5 1 5 25 1 0,647059
8 5 1 5 25 1 0,647059
Итого 39 5 27 205 5 5
Среднее значение 4,875 0,625 3,375 25,625 0,625 0,625
;
.
Получено уравнение регрессии:.
Если прогнозное значение составит: , тогда прогнозное значение результативного признака составит: .
Тема 10. Типологическая регрессия
Провести классификацию 6 объектов каждый из которых характеризуется двумя признаками:
№ объекта 1 2 3 4 5 6
X 8 9 8 13 14 13
Y 16 18 19 15 15 13
При классификации использовать обычное евклидово расстояние и принцип ближайшего соседа.
Рис. 1.
На основании предварительного качественного анализавыдвигаем предположение, что по одному признаку трипервые объекта принадлежат одной типологической группе, а три последние (4, 5 и 6) — другой, что согласуется с расположением шести наблюденийна плоскости, представленных на рис
. 1.
Обычное евклидово расстояние
(1)
где хil, xjl — величина l-й компоненты у i-го (j-го) объекта (l = 1,2,…, k, i,
j = 1,2,, n).
Использование этого расстояния оправдано в следующих случаях:
а)наблюдения берутся из генеральной совокупности, имеющей многомерное нормальное распределение с ковариационной матрицей видаσ2 Ек, т. е. компоненты X взаимно независимы и имеют одну и ту же дисперсию, где Ек— единичная матрица k-го порядка;
б)компоненты вектора наблюдений X однородны по физическомусмыслу и одинаково важны для классификации;
в)признаковое пространство совпадает с геометрическим пространством.
Естественное с геометрической точки зрения евклидово пространство
может оказаться бессмысленным (с точки зрения содержательной интерпретации), если признаки измерены в разных единицах. Чтобы исправить положение, прибегают к нормированию каждого признака путем деления центрированной величины на среднее квадратическое отклонение и переходят от матрицы X к нормированной матрице с элементами
1. Воспользуемся агломеративным иерархическим алгоритмом классификации. В качестве расстояния между объектами примем обычное евклидовое расстояние