В результате статистического исследования, получены следующие данные (выборка из случайной величины Х – числа глаголов во фрагменте из произведения Л.Н. Толстого «Война и мир» длиной 100 слов):
11 11 16 9 10 16 17 14 21 17
17 16 17 15 21 20 10 9 11 11
11 18 8 15 14 18 14 16 18 22
14 9 13 18 12 13 15 11 17 13
13 13 10 19 23 18 8 10 16 18
Выполнить статистическую обработку полученных данных.
Решение
Для полученной выборочной совокупности объёмом проведём первичную обработку информации.
Производим ранжирование выборочных данных, располагая их в порядке возрастания:
8 8 9 9 9 10 10 10 10 11
11 11 11 11 11 12 13 13 13 13
13 14 14 14 14 15 15 15 16 16
16 16 16 17 17 17 17 17 18 18
18 18 18 18 19 20 21 21 22 23
Минимальное и максимальное значения признака равны:
xmin=8, xmax=23
Находим размах варьирования признака:
R=xmax-xmin=23-8=15
Определяем длину интервала по формуле:
h=xmax-xmin1+3,22lgn=157=2.143
Определяем границы интервалов и группируем данные по соответствующим интервалам. Границы интервалов получаем следующим образом:
x0=xmin, xk=xk-1+h
В процессе группировки определяем количество вариант, удовлетворяющих неравенствам , и строим интервальный статистический ряд путём заполнения таблицы:
№ интервала Границы интервала
Частота
Относительная частота (частости)
0 1 2 3
1 8–10,143 9 0,18
2 10,143–12,286 7 0,14
3 12,286–14,429 9 0,18
4 14,429–16,571 8 0,16
5 16,571–18,714 11 0,22
6 18,714–20,857 2 0,04
7 20,857–23 4 0,08
Сумма - 50 1
На основе полученных данных построим статистический дискретный ряд распределения.
В пределах каждого интервала все значения признака приравниваем к его серединному значению и считаем, что частота относится именно к этому значению. Необходимые вычисления производим в таблице:
№ интервала Интервалы
Частости
Накопленные частости
Относительная плотность распределения
0 1 2 3 4 5
1 8–10,143 9,071 0,18 0,18 0,084
2 10,143–12,286 11,214 0,14 0,32 0,065
3 12,286–14,429 13,357 0,18 0,5 0,084
4 14,429–16,571 15,500 0,16 0,66 0,075
5 16,571–18,714 17,643 0,22 0,88 0,103
6 18,714–20,857 19,786 0,04 0,92 0,019
7 20,857–23 21,929 0,08 1 0,037
Сумма - - 1,00 - -
Статистический дискретный ряд распределения образуют данные 2-го и 3-го столбцов таблицы
. Для построения гистограммы распределения используются данные 1-го и 5-го столбцов, полигона - 2-го и 5-го столбцов.
Рис. 1. Гистограмма и полигон распределения.
7) Для получившегося дискретного ряда определим: среднее выборочное ; выборочную дисперсию; исправленную выборочную дисперсию ; исправленное среднее квадратическое отклонение ; коэффициенты эксцесса иасимметрии .
Сначала находим выборочное среднее, характеризующее центр распределения, около которого группируются выборочные данные, по формуле:
xв=1ni=1knixi=i=1kxipi*=14.514
Обозначая , где - середины интервалов, вычисляем отклонения варианты от среднего значения и заполняем таблицу:
№
0 1 2 3 4 5 6 7
1 9,071 0,18 1,633 -5,443 5,332 -29,024 157,972
2 11,214 0,14 1,570 -3,300 1,525 -5,031 16,603
3 13,357 0,18 2,404 -1,157 0,241 -0,279 0,323
4 15,500 0,16 2,480 0,986 0,155 0,153 0,151
5 17,643 0,22 3,881 3,129 2,153 6,737 21,077
6 19,786 0,04 0,791 5,271 1,112 5,859 30,887
7 21,929 0,08 1,754 7,414 4,398 32,606 241,750
Сумма - 1,00 14.514
14,916 11,022 468,763
Выборочная дисперсия определяется по формуле:
Dв=1ni=17(xi*-xв)2ni=i=17∆i2pi*≈14.916
Исправленная выборочная дисперсия (является лучшей оценкой дисперсии генеральной совокупности) вычисляется по формуле:
s2=nn-1∙Dв=5050-1∙14.916≈15.221
Исправленное выборочное среднее квадратическое отклонение вычисляется по формуле:
s=s2=15.221≈3.901
Среднее квадратическое отклонение показывает степень рассеяния выборочных данных около центра распределения .
Коэффициент асимметрии вычисляется по формуле:
Ac=i=17∆i3pi*S3=11.0223.9013≈0.186
Коэффициент асимметрии служит для характеристики асимметрии (скошенности) распределения