Имеются данные о стаже работы и средней выработке продукции работниками завода:
№ работника Стаж работы, в годах Месячная выработка продукции, руб.
1 1 220
2 6,5 310
3 9,2 327
4 4,5 275
5 6,0 280
6 2,5 253
7 2,7 245
8 16,0 340
9 13,2 312
10 14,0 352
11 11,0 325
12 12,0 308
13 10,5 306
14 1,0 252
15 9,0 290
16 5,0 265
17 6,0 282
18 10,2 288
19 5,0 240
20 5,4 270
21 7,5 278
22 8,0 288
23 8,5 295
24 10,5 300
25 9,0 298
26 5,5 256
27 7,5 298
Для изучения зависимости между стажем работы и месячной выработанной продукции произведите группировку рабочих-сдельщиков по стажу, образовав пять групп рабочих с равными интервалами. По каждой группе подсчитайте: 1) число рабочих; 2) средний стаж работы; 3) среднюю месячную выработку продукции на одного рабочего. Результаты представьте в виде групповой таблицы. Напишите краткие выводы.
1. Для нахождения числа групп и величины равных интервалов в аналитической и структурной группировке примените формулу Стреджесса.
2. Определите общее среднее значение показателя по формуле средней арифметической либо простой (если частоты соответствующих вариант равны между собой, или если варианты встречаются в ряду один раз), либо взвешенной (если частоты неравные).
3. Вычислите общую дисперсию.
2. По каждой группе рассчитайте групповые средние.
3. Определите внутригрупповые дисперсии.
4. Вычислите среднюю из внутригрупповых дисперсий.
5. Определите межгрупповую дисперсию.
8. Вычислите зависимость, под названием «правило сложения дисперсий».
9. Вычислите эмпирический коэффициент детерминации. Сделать вывод.
10. Для оценки степени связи исследуемого признака с группировочным рассчитайте эмпирическое корреляционное отношение. Оцените степень связи исследуемого признака с группировочным с помощью эмпирического корреляционного отношения по шкале Чеддока.
11. Проверьте значение эмпирическое корреляционное отношение на значимость распределения Фишера-Снедокера (F − распределение) при уровне значимости 𝛂 = 0,03.
12. Сделайте выводы.
Решение
Сгруппируем данные по стажу работы в 5 группы. Для этого определим ширину интервала по формуле:
h=(Xmax-Xmin)/n
h=(16-1)/5=5 лет
Для каждого значения ряда подсчитаем, какое количество раз оно попадает в тот или иной интервал. Для этого сортируем ряд по возрастанию.
Результаты группировки представим в таблице. Х – стаж работы, лет, Y – месячная выработка продукции, руб.
Группы № магазинов Кол-во, nj ∑X Xcp = ∑Xj / nj ∑Y Ycp = ∑Yj / nj
1 - 4 1,14,6,7 4 7.2 1.8 970 242.5
4 - 7 4,16,19,20,26,5,17,2 8 43.9 5.49 2178 272.25
7 - 10 21,27,22,23,15,25,3 7 58.7 8.39 2074 296.29
10 - 13 18,13,24,11,12 5 54.2 10.84 1527 305.4
13 - 16 9,10,8 3 43.2 14.4 1004 334.67
Итого
27 207.2
7753
По аналитической группировке измеряют связь при помощи эмпирического корреляционного отношения. Оно основано на правиле разложения дисперсии: общая дисперсия равна сумме внутригрупповой и межгрупповой дисперсий.
Найдем средние значения каждой группы по формуле:
y1=9704=242,5
y2=21788=272,25
y3=20747=296,29
y4=15275=305,4
y5=10043=334,67
Общее средние значение для всей совокупности определим по формуле:
y=775327=287,5
Дисперсия внутри группы при относительном постоянстве признака-фактора возникает за счет других факторов (не связанных с изучением). Эта дисперсия называется остаточной:
Произведем расчет для каждой группы.
Расчет для группы: 1 - 4 (1,14,6,7)
yj (yj - yср)2 Результат
220 (220 - 242.5)2 506.25
252 (252 - 242.5)2 90.25
253 (253 - 242.5)2 110.25
245 (245 - 242.5)2 6.25
Итого
713
Определим групповую (частную) дисперсию для 1-ой группы:
Расчет для группы: 4 - 7 (4,16,19,20,26,5,17,2)
yj (yj - yср)2 Результат
275 (275 - 272.25)2 7.56
265 (265 - 272.25)2 52.56
240 (240 - 272.25)2 1040.06
270 (270 - 272.25)2 5.06
256 (256 - 272.25)2 264.06
280 (280 - 272.25)2 60.06
282 (282 - 272.25)2 95.06
310 (310 - 272.25)2 1425.06
Итого
2949.5
Определим групповую (частную) дисперсию для 2-ой группы:
Расчет для группы: 7 - 10 (21,27,22,23,15,25,3)
yj (yj - yср)2 Результат
278 (278 - 296.29)2 334.37
298 (298 - 296.29)2 2.94
288 (288 - 296.29)2 68.65
295 (295 - 296.29)2 1.65
290 (290 - 296.29)2 39.51
298 (298 - 296.29)2 2.94
327 (327 - 296.29)2 943.37
Итого
1393.43
Определим групповую (частную) дисперсию для 3-ой группы:
Расчет для группы: 10 - 13 (18,13,24,11,12)
yj (yj - yср)2 Результат
288 (288 - 305.4)2 302.76
306 (306 - 305.4)2 0.36
300 (300 - 305.4)2 29.16
325 (325 - 305.4)2 384.16
308 (308 - 305.4)2 6.76
Итого
723.2
Определим групповую (частную) дисперсию для 4-ой группы:
Расчет для группы: 13 - 16 (9,10,8)
yj (yj - yср)2 Результат
312 (312 - 334.67)2 513.78
352 (352 - 334.67)2 300.44
340 (340 - 334.67)2 28.44
Итого
842.67
Определим групповую (частную) дисперсию для 5-ой группы:
Внутригрупповые дисперсии объединяются в средней величине внутригрупповых дисперсий:
Средняя из частных дисперсий составит:
σ2=178,25*4+368,69*8+199,06*7+144,64*5+280,89*327=245,25
Межгрупповая дисперсия относится на счет изучаемого фактора, она называется факторной:
σ2= 695,319
Определяем общую дисперсию по всей совокупности, используя правило сложения дисперсий:
σ2 = 245,25+695,319=940,57
Эмпирическое корреляционное отношение измеряет, какую часть общей колеблемости результативного признака вызывает изучаемый фактор.
Это отношение факторной дисперсии к общей дисперсии:
Определяем эмпирическое корреляционное отношение:
η=695,319940,571=0,86
Связи между признаками могут быть слабыми и сильными (тесными).
Их критерии оцениваются по шкале Чеддока:
0.1 < η < 0.3: слабая;
0.3 < η < 0.5: умеренная;
0.5 < η < 0.7: заметная;
0.7 < η < 0.9: высокая;
0.9 < η < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X высокая.
Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции (эмпирическое корреляционное отношение) нормальной двумерной случайной величины при конкурирующей гипотезе H1 ≠ 0, надо вычислить наблюдаемое значение критерия:
и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α и числу степеней свободы k = n - 2 найти критическую точку tкрит двусторонней критической области