Составить интервальный вариационный ряд для фактора X, найти его основные числовые характеристики (мода, медианна, выборочное среднее, эмпирическую дисперсию, коэффициенты асимметрии и эксцесса), построить графики гистограммы, полигона частот и кумуляты.
2) Проверить гипотезу о нормальном распределении фактора X по критерию Пирсона при уровне значимости α=0.05
3) Построить доверительные интервалы для математического ожидания и дисперсии.
4) Найти выборочный коэффициент корреляции и построить доверительный интервал для него.
5) Составить уравнение линейной регрессии и построить поле регрессии и линию регрессии на одном графике.
x
y
44,3 11,6
62,3 38,9
37,0 13,5
41,0 12,7
53,8 34,1
29,7 2,6
52,3 27,3
43,4 17,2
40,1 20,5
64,9 32,9
51,7 27,4
70,2 53,5
42,5 19,9
54,8 27,2
50,9 29,6
50,4 29,3
45,3 16,1
67,3 37,6
61,8 35,5
48,6 29,1
48,6 26,7
42,8 19,2
62,9 26,8
46,7 21,6
51,0 18,8
56,2 28,5
52,9 32,0
34,2 19,8
51,4 30,4
40,1 14,9
46,8 17,8
47,6 13,6
52,6 25,1
33,0 4,5
58,5 36,5
42,6 16,9
59,1 35,2
55,2 34,1
36,5 11,9
43,4 17,5
46,1 25,2
51,5 31,6
40,8 8,5
41,1 12,5
38,9 15,8
25,5 0,5
62,5 33,1
45,0 17,6
61,1 27,9
45,4 19,5
Нужно полное решение этой работы?
Решение
Составим интервальный ряд для величины X. Для этого определим наибольшее и наименьшее значения величины X, встречающееся в выборке.
xmax=70.2;xmin=25.5
Вычислим размах:
R=xmax-xmin=70.2-25.5=44.7
Теперь определим длину каждого частичного интервала (иногда их называют классовыми интервалами), воспользовавшись формулой Стерджеса:
l=R1+3.322lgn
где n – объем выборки. В нашем случае
l=44.71+3.322lg50≈6.73≈7
Далее устанавливаем границы частичных интервалов: левую границу первого интервала принимаем равной x0=xmin =25.5, далее x1=x0+l=25.5+7=32.5;x2=39.5;x3=46.5; x4=53.5;x5=60.5;x6=67.5;x7=74.5
На этом указанная процедура заканчивается, т.к. последующие частичные интервалы не будут содержать выборочных значений признака.
Приступаем к распределению по частичным интервалам выборочных значений признака, ставя в соответствие интервалу с номером i частоту ni как число выборочных значений признака, попавших в интервал. При этом договоримся, что если некоторое из выборочных значений совпадет с границей двух соседних интервалов, то будем относить его к предыдущему из них. В итоге реализации данных рекомендаций получим таблицу 2, в первых двух столбцах которой разместим искомое интервальное распределение выборки, в третьем − относительные частоты wi=nin.
Результаты группировки выборочных значений для X сведём в таблицу 2:
Таблица 2
Номер интервала i Интервалы, xi-1;xi
Середины интервалов, xi
Частоты, ni
Относительные частоты nin
Накопленные относительные частоты
1 [25.5;32.5)
29 2 0,04 0,04
2 [32.5;39.5)
36 5 0,1 0,14
3 [39.5;46.5)
43 15 0,3 0,44
4 [46.5;53.5)
50 14 0,28 0,72
5 [53.5;60.5)
57 6 0,12 0,84
6 [60.5;67.5)
64 7 0,14 0,98
7 [67.5;74.5] 71 1 0,02 1
∑
50 1
Для вычисления основных числовых характеристик составим расчетную таблицу:
xi
ni
xini
x-x2*ni
x-x3*ni
x-x4*ni
29 2 58 790,43 -15713,72 312388,84
36 5 180 829,47 -10683,60 137604,76
43 15 645 518,62 -3049,46 17930,84
50 14 700 17,562 19,67 22,03
57 6 342 395,61 3212,32 26084,07
64 7 448 1600,3 24196,55 365851,81
71 1 71 489,29 10823,19 239409,01
∑ 50 2444 4641,3 8804,95 1099291,36
Находим выборочное среднее:
x=1ni=1kxini=244450=48.88
Находим эмпирическую дисперсию:
DB=1ni=1kx-x2*ni=4641.350=92.826
Находим выборочное с.к.о.:
σx=DB=92.826≈9.635
Найдем значение коэффициента асимметрии и эксцесса:
AX=μ3σx3
где μ3 - центральный момент третьего порядка, рассчитываемый по формуле:
μ3=x-x3*nin=8804.9550=176.10
AX=176.109.6353=0.197
Ek=μ4σx4-3
μ4=x-x4*nin=1099291.3650=21985.83
Ek=21985.839.6354-3=-0.45
Мода – наиболее часто встречающееся значение признака у единиц данной совокупности.
М0=x0+h*n2-n1n2-n1+(n2-n3)
где x0– начало модального интервала; h – величина интервала; n2- частота, соответствующая модальному интервалу; n1- предмодальная частота; n3- послемодальная частота.
Выбираем в качестве начала интервала (39,5), так как именно на этот интервал приходится наибольшее количество.
М0=39.5+7*15-515-5+15-14=45.86
Значит, наиболее часто встречающееся значение ряда – 45.86
Медиана соответствует варианту, стоящему в середине ранжированного ряда. Медианным является интервал (46.5;53.5) , т.к. в этом интервале накопленная частота S, больше медианного номера (медианным называется первый интервал, накопленная частота S которого превышает половину общей суммы частот).
Ме=x0+hnme*ni2-Sme-1=46.5+714*502-22=48
Таким образом, 50% единиц совокупности будут меньше по величине 48.
Построим графики гистограммы, полигона частот и кумуляты
Распределение непрерывной случайной величины принято графически представлять кривой распределения, которая является графиком ее плотности вероятностей (дифференциальной функции распределения)
. В статистике одной из оценок кривой распределения является гистограмма относительных частот.
Это ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы, а высотами являются относительные частоты wi на частичных интервалах.
При построении гистограммы относительных частот в нашей задаче используем второй и пятый столбцы таблицы 2:
По полученной таблице 2 может быть построен полигон относительных частот, который является, как и гистограмма относительных частот, статистической оценкой кривой распределения признака. Это ломаная линия, вершины которой находятся в точках xi;wi.
При построении полигона относительных частот в нашей задаче используем третий и пятый столбцы таблицы 2:
Построим график кумуляты:
2) Пусть непрерывная случайная величина (признак) X представлена выборкой значений в виде интервального распределения, причем известны выборочное среднее x и выборочное с.к.о. σ.
Пусть имеются основания предполагать, что случайная величина X подчинена нормальному закону распределения (например, из визуального соответствия гистограммы и нормальной кривой).
Проверка этой гипотезы при уровне значимости с помощью критерия Пирсона осуществляется по следующей схеме.
Нужно проанализировать интервальное распределение выборки, объем которой должен быть не менее 50, и в случае, если какому-нибудь частичному интервалу выборочных значений соответствует эмпирическая частота ni, которая меньше, чем 5, этот интервал следует объединить с соседним (соседними), поставив в соответствие новому интервалу сумму эмпирических частот объединенных интервалов. Так как нормальное распределение определено для всех действительных значений x, то принято левую границу первого частичного интервала расширить до -∞, а правую границу последнего до +∞. По окончании описанной процедуры будем обозначать число частичных интервалов через m.
В предположении, что исследуемая случайная величина X действительно распределена нормально с параметрами x и σ X~Nx, σ, нужно вычислить вероятности Pi попадания ее значений в каждый из m частичных интервалов по формуле:
Pi=Pxi-1<X<xi=Фxi-xσ-Фxi-1-xσ;i=1, …, m
где x0 и xm заменены соответственно на -∞ и+∞, а значения функции Лапласа можно найти в таблицах. При безошибочном счете должно выполняться условие:
P1+P2+…+P3=1
3) Нужно вычислить теоретические частоты по формуле:
niT=n*Pi
где n – объем выборки. Отметим, что при этом должно выполняться условие i=1mniT=n.
4)Теперь требуется вычислить опытное значение критерия χ2:
χоп2=i=1mni-niT2niT
Кроме того, нужно найти критическое значение критерия χ2 χкр2 в зависимости от выбранного уровня значимости α и числа степеней свободы v=m-3. Это осуществляется с помощью таблиц.
5)Наконец, необходимо сравнить полученные значения χоп2 и χкр2:
если χоп2> χкр2, то гипотеза о нормальном распределении случайной величины X при уровне значимости α отвергается;
если χоп2< χкр2, то считают, что при заданном уровне значимости α нет оснований отвергнуть гипотезу о нормальном распределении рассматриваемой случайной величины X .
Имеем интервальное распределение выборки значений признака Х, содержащееся в таблице:
xi-1;xi
ni
[25.5;32.5)
2
[32.5;39.5)
5
[39.5;46.5)
15
[46.5;53.5)
14
[53.5;60.5)
6
[60.5;67.5)
7
[67.5;74.5] 1
В п.3 получены значения x=48.88, σ=9.635
Согласно рекомендациям, данным выше, объединим первые два интервала и последние два интервала последней таблицы