Математическая статистика
Дана двумерная выборка дискретных случайных величин X=x1, x2, …, xn и Y=y1, y2, …, yn. Требуется:
1. Построить вариационные ряды для величин xi и yi.
2. Используя вариационные ряды, составить интегральные ряды распределения величин X и Y. Длины интервалов hxи hy найдите по формуле Стерджеса.
3. Построить гистограммы относительных интервальных частот величин X и Y. На основе гистограмм построить графики эмпирических функций плотностей вероятностей величин X и Y.
4. Найти моду и медиану для интервальных распределений X и Y.
5. Используя данные вариационных рядов, найдите статистические средние значения, дисперсии и средние квадратические отклонения X и Y. Используя середины интервалов и частоты интервалов, найти выборочные средние, выборочные дисперсии и выборочные средние квадратические отклонения X и Y. Сделать сравнение вычисленных величин.
6. Найти доверительные интервалы для оценок математического ожидания и дисперсии величин X и Y в предположении о нормальном распределении с доверительной вероятностью β=0.9.
7. Считая средние интервальные значения X и Y распределенными по нормальному закону распределения, вычислить для каждого интервала теоретические относительные частоты для X и Y. По найденным частотам построить на одном рисунке с гистограммой графики теоретических функций плотностей вероятностей случайных величин X и Y.
8. В случае качественного совпадения графиков эмпирических и теоретических функций плотностей вероятностей проверить гипотезу о нормальном распределении случайных величин X и Y с помощью критерии Пирсона при уровне значимости α=0.05.
9. Используя интервальные ряды распределения, составить корреляционную таблицу.
10. Найти выборочный коэффициент корреляции в предположении линейной зависимости между X и Y.
11. Найти выборочные уравнения прямой линии регрессии Y на X и прямой линии регрессии X на Y. Построить их на корреляционном поле.
X Y X Y X Y X Y X Y
73 89 68 89 78 96 78 92 79 94
62 82 87 100 75 90 61 82 72 89
67 86 67 87 55 78 65 87 71 90
60 81 59 82 76 93 76 92 62 83
76 91 83 96 58 81 68 87 72 89
82 95 64 85 61 82 71 88 52 76
70 88 82 97 75 92 82 95 79 97
77 94 79 95 74 95 63 87 70 88
59 81 67 87 75 90 64 85 86 97
65 84 66 85 70 87 67 85 70 87
79 95 67 86 80 95 67 86 93 105
75 90 90 105 74 93 67 90 78 95
75 91 75 92 68 88 59 80 64 83
71 90 56 78 65 85 66 88 83 97
58 84 67 86 65 86 69 87 78 94
64 83 74 90 80 94 76 93 65 85
69 88 71 88 66 87 74 91 83 96
65 84 67 86 62 84 78 94 60 83
76 91 75 90 68 89 71 89 77 94
67 86 82 97 68 88 65 86 66 86
Решение
1. Просматривая выборку из Х, находим минимальное значение x=x1=52, которое встречается один раз. Следующее большее значение x2=55 встречается также один раз. Продолжая просмотр, получим следующий вариационный ряд для Х:
xi
ni
52 1
55 1
56 1
58 2
59 3
60 2
61 2
62 3
63 1
64 4
65 7
66 4
67 10
68 5
69 2
70 4
71 5
72 2
73 1
74 4
75 7
76 5
77 2
78 5
79 4
80 2
82 4
83 3
86 1
87 1
90 1
93 1
∑ 100
2. Составляем интервальный ряд распределения для X. По формуле найдем длину интервала hx:
hx=xmax-xmin1+3.332lgn=93-521+3.332lg100≈5.35
Округляя до ближайшего целого честного числа, получим hx=6. Находим начало 1-го интервала xнач:
xнач=xmin-hx2=52-62=49
Заполняем таблицу:
Начало интервала, xi
Конец интервала, xi+1
Середина интервала, xi
Частота интервала, ni
Относительная частота интервала, pi=nin
49 55 52 2 0,02
55 61 58 10 0,1
61 67 64 29 0,29
67 73 70 19 0,19
73 79 76 27 0,27
79 85 82 9 0,09
85 91 88 3 0,03
91 97 94 1 0,01
∑ 100 1
3. Строим гистограмму интервального распределения X.
По гистограмме строим график эмпирической функции плотности вероятности
4. Из гистограммы видно, что модой является середина 3-го интервала, имеющего максимальную частоту. Середина 3-го интервала x3=64=Mo является модой интервального распределения Х.
Срединным интервалом является 4-й интервал, т.к. середина этого интервала
x4=70=Me является медианой интервального распределения X.
5. Составим вспомогательную таблицу для расчета числовых характеристик
Начало интервала, xi
Конец интервала, xi+1
Середина интервала, xi
Частота интервала, ni
xini
xi2ni
49 55 52 2 104 5408
55 61 58 10 580 33640
61 67 64 29 1856 118784
67 73 70 19 1330 93100
73 79 76 27 2052 155952
79 85 82 9 738 60516
85 91 88 3 264 23232
91 97 94 1 94 8836
Σ
100 7018 499468
Находим выборочное среднее:
x=1ni=1kxini=7018100=70.18
Находим выборочную дисперсию, используя универсальную формулу ее вычисления Dx=x2-x2. Имеем:
x2=1ni=1kxi2ni=499468100=4994.68
Dx=x2-x2=4994.68-70.182=69.4476
Находим выборочное с.к.о.:
σx=Dx=69.4476≈8.33
6. Интервальной оценкой (с надежностью у) математического ожидания М(Х) нормально распределенного количественного признака X по выборочной средней x при известном среднеквадратическом отклонении σ генеральной совокупности служит доверительный интервал:
x-tσn<a<x+tσn
Найдем t из соотношения Фt=0.902=0.45;t=1.645
70.18-1.645*8.33100<a<70.18+1.645*8.33100
68.8097<a<71.5503
Доверительный интервал для оценки дисперсии находим по формуле:
Используя формулу:
S2-xβ*S22n-1<DX<S2+xβ*S22n-1
S2=nn-1*Dx=10099*69.4476=70.15
70.15-1.645*70.15*2100-1<DX<70.15+1.645*70.15*2100-1
53.7482<DX<86.5518
7
. Ввиду малочисленности частот объединяем первые два интервала, и последние 3 интервала. Получается таблица
Начало интервала, xi
Конец интервала, xi+1
Частота интервала, ni
49 61 12
61 67 29
67 73 19
73 79 27
79 97 13
Σ
100
Найдем теоретические частоты ni'=n*Pi, где Pi=Pxi<X<xi+1- вероятность того, что случайная величина попадет в интервал xi;xi+1.
Так как предполагаемый закон распределения нормальный, то
Pi=Фk2-Фk1=Фxi+1-xBσB-Фxi-xBσB
где Ф(x) – функция Лапласа (приложение функции Лапласа). Вычисления приведем в таблице:
i
ni
k1
k2
Фk1
Фk2
Pi
ni'=n*Pi
1 - 61 12 - -1,10 -0,5 -0,3643 0,1357 13,57
2 61 67 29 -1,10 -0,38 -0,3643 -0,1480 0,2163 21,63
3 67 73 19 -0,38 0,34 -0,1480 0,1331 0,2811 28,11
4 73 79 27 0,34 1,06 0,1331 0,3554 0,2223 22,23
5 79 + 13 1,06 + 0,3554 0,5 0,1446 14,46
100
100
8. Сравним эмпирические и теоретические частоты, используя критерий Пирсона.
Вычислим наблюдаемое значение критерия Пирсона. Для этого составим расчетную таблицу
i
ni
ni'
ni-ni'
ni-ni'2
ni-ni'2ni'
1 12 13,57 -1,57 2,4649 0,182
2 29 21,63 7,37 54,3169 2,511
3 19 28,11 -9,11 82,9921 2,952
4 27 22,23 4,77 22,7529 1,024
5 13 14,46 -1,46 2,1316 0,147
χнабл2=6.816
По таблице критических точек распределения χ2, по уровню значимости = 0,05 и числу степеней свободы k=s-3=5-3=2 (s – число интервалов) находим критическую точку правосторонней критической области χкр20.05;2=6.
Сравним χнабл2 и χкр2. Так как χнабл2=6.816>χкр2=6, отклоняем гипотезу о нормальном распределении генеральной совокупности. Другими словами, эмпирические и теоретические частоты различаются значимо.
Аналогичным образом проводим расчеты для выборки Y.
1. Просматривая выборку из Y, находим минимальное значение Y=y1=76, которое встречается один раз. Следующее большее значение y2=78 встречается 2 раза. Продолжая просмотр, получим следующий вариационный ряд для Y:
yi
ni
76 1
78 2
80 1
81 3
82 4
83 4
84 4
85 6
86 9
87 9
88 8
89 6
90 8
91 4
92 4
93 3
94 6
95 7
96 3
97 5
100 1
105 2
∑ 100
2. Составляем интервальный ряд распределения для Y. По формуле найдем длину интервала hy:
hy=ymax-ymin1+3.332lgn=105-761+3.332lg100≈3.784
Округляя до ближайшего целого честного числа, получим hy=4. Находим начало 1-го интервала yнач:
yнач=ymin-hy2=76-42=74
Заполняем таблицу:
Начало интервала, yi
Конец интервала, yi+1
Середина интервала, yi
Частота интервала, ni
Относительная частота интервала, pi=nin
74 78 76 3 0,03
78 82 80 8 0,08
82 86 84 23 0,23
86 90 88 31 0,31
90 94 92 16 0,16
94 98 96 16 0,16
98 102 100 1 0,01
102 106 104 2 0,02
∑ 100 1
3