По исходным данным, представленным в таблице 1, составить два ряда распределения – один дискретный, другой интервальный. По каждому ряду выполнить группировку данных, определить абсолютные, относительные и интегральные частоты, определить средние арифметические и структурные величины, показатели вариации. Сделать обоснованные выводы о качественных особенностях ряда и проиллюстрировать результаты графиками (гистограмма и кумулята для интервального ряда, полигон и кумулята для дискретного ряда). Ручные расчеты дополнить данными, полученными с помощью надстройки «Описательная статистика» пакета Microsoft Excel (Файл – параметры - надстройки – анализ данных – описательная статистика), выявить и пояснить причины расхождения полученных результатов.
Исходные данные для расчета:
Таблица 1
Данные обследования рабочих строительного треста
Стаж работы на данном предприятии Возраст рабочих (в годах)
2 26
2 28
4 29
1 20
2 20
3 22
2 21
2 22
2 22
3 23
1 19
1 25
4 28
1 22
2 20
2 21
1 20
3 23
5 26
3 25
5 24
3 21
2 22
1 19
3 24
1 20
3 22
3 21
1 21
4 24
2 23
5 36
3 32
2 31
3 36
4 28
3 36
1 20
5 33
5 35
5 34
2 22
3 24
3 23
4 26
Решение
Составим дискретный ряд распределения по стажу рабочих. Распределим рабочих по 5 группам. Для этого ранжируем ряд по возрастанию и выделим группы рабочих (табл. 2).
Таблица 2
Группировка рабочих по стажу работы
Стаж работы, (в годах) Порядковый номер рабочего
1 2
1 18
25
26
28
31
38
40
43
52
Итого рабочих в группе, чел 9
2 15
16
19
21
22
23
29
30
37
45
48
56
Итого рабочих в группе, чел 12
3 20
24
32
34
36
39
41
42
47
49
51
57
58
Итого рабочих в группе, чел 13
4 17
27
44
50
59
Итого рабочих в группе, чел 5
5 33
35
46
53
54
55
Итого рабочих в группе, чел 6
Всего рабочих в совокупности 45
Получили дискретный ряд распределения (табл. 3), где x – варианты стажа работы, fa – абсолютные частоты – число рабочих в группе.
Таблица 3
Дискретный ряд распределения рабочих по стажу работы
x fa f% fk/a fk/%
1 9 20,0 9 20,0
2 12 26,7 21 46,7
3 13 28,9 34 75,6
4 5 11,1 39 86,7
5 6 13,3 45 100,0
Итого 45 100 - -
В таблице 3 определим относительные частоты в процентах, разделив абсолютные частоты на сумму частот и умножив на 100:
1 год стажа:
f%=fafa∙100=945∙100=20%
2 года стажа:
f%=fafa∙100=1245∙100=26,7%
3 года стажа:
f%=fafa∙100=1345∙100=28,9%
4 года стажа:
f%=fafa∙100=545∙100=11,1%
5 лет стажа:
f%=fafa∙100=645∙100=13,3%
Определим накопленные частоты последовательным суммированием частот. Затем вычислим интегральные частоты, разделив накопленные на общую сумму и умножив на 100%.
1 год стажа:
fk/%=fk/afa∙100=945∙100=20%
1-2 года стажа:
fk/%=fkafa∙100=2145∙100=46,7%
1-3 года стажа:
fk/%=fkafa∙100=3445∙100=75,6%
1-4 года стажа:
fk/%=fkafa∙100=3945∙100=86,7%
1-5 лет стажа:
fk/%=fkafa∙100=4545∙100=100%
Полигон для дискретного ряда распределения по стажу работы строим по столбцам x и fa:
x fa
1 9
2 12
3 13
4 5
5 6
Рис. 1. Полигон для дискретного ряда распределения рабочих по стажу работы
Кумуляту для дискретного ряда распределения по стажу работы строим по столбцам х и fk/а:
x fk/a
1 9
2 21
3 34
4 39
5 45
Рис. 2. Кумулята для дискретного ряда распределения по стажу работы
Вычисляем среднюю арифметическую по дискретному ряду распределения по стажу работы:
x fa
1 9
2 12
3 13
4 5
5 6
Итого 45
Используем формулу взвешенной, так как данные сгруппированы.
x=x∙fafa=1∙9+2∙12+3∙13+4∙5+5∙645=2.71(года)
Вычисляем структурные величины (мода, медиана) для дискретного ряда распределения по стажу работы.
Мода для дискретного ряда распределения - это значение признака в группе с наибольшей частотой
.
Mo=3
Медиана:
x fa fk/a
1 9 9
2 12 21
3 13 34
4 5 39
5 6 45
Итого 45 -
Me=3
Половина рабочих имеет стаж до 3 лет работы, а вторая половина – от 3 и выше.
Определим показатели вариации для дискретного ряда распределения по стажу работы.
Найдем размах вариации:
R=xmax-xmin=5-1=4
Найдем среднее линейное отклонение для сгруппированных данных:
л=|xi-x|∙fifi==1-2.71∙9+2-2.71∙12+3-2.71∙13+4-2.71∙5+5-2.71∙645=1.06
Найдем дисперсию для сгруппированных данных:
σ2=(xi-x)2∙fifi==(1-2.71)2∙9+2-2.712∙12+3-2.712∙13+4-2.712∙6+(5-2.71)2∙545=1.6277
Для получения несмещенной оценки, дисперсию необходимо рассчитать по формуле для малых (n менее 30) выборок:
σ2∙nn-1=1.6277∙4544=1.6646
Найдем среднее квадратическое отклонение:
σ=σ2=1.6646=1.29
Найдем показатель средней ошибки выборки:
μ=σ2n=1.664645=0.192
Найдем относительный показатель вариации:
Ko=Rx∙100%=42.71∙100%=147.54%
Найдем относительное линейное отклонение:
Kл=лx∙100%=1.062.71∙100%=39.23%
Найдем коэффициент вариации:
ϑ=σx∙100%=1.292.71∙100%=47.59%
Так как коэффициент вариации превышает 30–35%, то данную совокупность можно считать неоднородной.
С помощью пакета анализа Excel «Описательная статистика» выполним проверку по исходным (несгруппированным) данным.
Аналитическая проверка
Среднее 2,711111111
Стандартная ошибка 0,192333418
Медиана 3
Мода 3
Стандартное отклонение 1,290211791
Дисперсия выборки 1,664646465
Эксцесс -0,783121124
Асимметричность 0,37168501
Интервал 4
Минимум 1
Максимум 5
Сумма 122
Счет 45
Составим интервальный ряд распределения по возрасту рабочих. Ранжируем ряд по возрастанию.
Определяем число групп:
n=1+3.322lg45=6.49
Округлим до целого значения и примем 6 групп
Определяем длину интервала:
l=xmax-xminn=2.8
Округлим до целого числа лет в большую сторону – до 3 лет.
Таблица 4
Группировка рабочих по возрасту
Группа по возрасту рабочих (в годах) Порядковый номер рабочего
1 2
19-21 18
19
21
25
29
30
31
36
38
40
42
43
52
Итого в группе, чел. 13
22-24 20
22
23
24
28
32
35
37
39
41
44
45
56
57
58
Итого в группе, чел. 15
25-27 15
26
33
34
59
Итого в группе, чел. 5
28-30 16
17
27
50
Итого в группе, чел. 4
31-33 47
48
53
Итого в группе, чел. 3
34-36 46
49
51
54
55
Итого в группе, чел. 5
Всего рабочих в совокупности, чел. 45
Распределим рабочих по группам (табл. 4). Получили интервальный ряд распределения по возрасту рабочих (табл