В результате статистического исследования получена выборка объёмом 50 единиц случайной величины Х «число глаголов во фрагменте из текста И.А. Бунина «Господин из Сан-Франциско» длиной 100 слов»:
11 11 14 7 15 11 15 16 9 15
16 10 7 14 13 7 5 8 10 19
10 11 11 12 7 8 5 12 9 11
11 13 11 13 12 8 10 5 9 10
11 9 7 9 18 8 9 8 18 8
Выполнить статистическую обработку полученных данных.
Решение
Для полученной выборочной совокупности объёмом n=50 проведем первичную обработку информации.
Производим ранжирование выборочных данных, располагая их в порядке возрастания:
5 5 5 7 7 7 7 7 8 8
8 8 8 8 9 9 9 9 9 9
10 10 10 10 10 11 11 11 11 11
11 11 11 11 12 12 12 13 13 13
14 14 15 15 15 16 16 18 18 19
2) Определяем минимальное и максимальное значение признака.
xmin=5 слов, xmax=19 слов
3) Находим размах варьирования признака.
R= xmax-xmin=19-5=14
4) Определяем длину интервала по формуле:
h= xmax-xmin1+3,322lgn=141+3,322lg50=146,44≈2
5) Определяем границы интервалов и группируем данные по соответствующим интервалам. Границы интервалов [xk-1, xk) получаем следующим образом:
x0=xmin , xk=xk-1+h
В процессе группировки определяем количество вариант, удовлетворяющих неравенствам xk-1<x<xk, и строим интервальный ряд путем заполнения таблицы:
№ интервала Границы интервала
[xk-1, xk)
Частота
ni
Относительная частота
(частости)
pi*=nin
0 1 2 3
1 5 - 7 3 0,06
2 7 - 9 11 0,22
3 9 - 11 11 0,22
4 11 - 13 12 0,24
5 13 - 15 5 0,1
6 15 - 17 5 0,1
k = 7 17 - 19 3 0,06
Сумма - 50 1,00
6) На основе полученных данных построим статистический дискретный ряд распределения.
В пределах каждого интервала все значения признака приравниваем к
его серединному значению xk-1+xk2 , и считаем, что частота относится именно к этому значению. Необходимые вычисления производим в таблице:
№
интер-
вала
Интервалы
[xk-1, xk)
xk-1+xk2
Частости
pi*=nin
Накопленные частости Относительная плотность распределения
hi=pi*h
0 1 2 3 4 5
1 5 - 7 6 0,06 0,06 0,03
2 7 - 9 8 0,22 0,28 0,11
3 9 - 11 10 0,22 0,5 0,11
4 11 - 13 12 0,24 0,74 0,12
5 13 - 15 14 0,1 0,84 0,05
6 15 - 17 16 0,1 0,94 0,05
k = 7 17 - 19 18 0,06 1 0,03
Сумма - - 1,00 - -
Статистический дискретный ряд распределения образуют данные 2-го и 3-го столбцов таблицы
. Для построения гистограммы распределения используются данные 1-го и 5-го столбцов, полигона – 2-го и 5-го столбцов (рис.1).
Рис.1. Гистограмма распределения и полигон
7) Для получившегося дискретного ряда определим: среднее выборочное хв; выборочную дисперсию Dв ; исправленную выборочную дисперсию S2 ; исправленное среднее квадратическое отклонение S; коэффициенты эксцесса Ek и асимметрии Ac.
Сначала находим выборочное среднее, характеризующее центр распределения, около которого группируются выборочные данные, по формуле:
xв=1ni=1knixi=i=1kpi*xi=11,28 (слов)
Обозначая ∆i=xi-xв , где xi=xk-1+xk2 – середины интервалов [xk-1, xk), вычисляем отклонение ∆i варианты xi от среднего значения x и заполняем таблицу:
№ интервала xi
pi*
xipi*
∆i=xi-xв
∆i2pi*
∆i3pi*
∆i4pi*
0 1 2 3 4 5 6 7
1 6 0,06 0,36 -5,28 1,67 -8,83 46,63
2 8 0,22 1,76 -3,28 2,37 -7,76 25,46
3 10 0,22 2,2 -1,28 0,36 -0,46 0,59
4 12 0,24 2,88 0,72 0,12 0,09 0,06
5 14 0,1 1,4 2,72 0,74 2,01 5,47
6 16 0,1 1,6 4,72 2,23 10,52 49,63
k=7 18 0,06 1,08 6,72 2,71 18,21 122,36
Сумма - 1 11,28
10,2 13,77 250,21
Выборочная дисперсия определяется по формуле:
Dв=1ni=17ni(xi-xв)2=i=17∆i2pi*=10,2
Исправленная выборочная дисперсия (является лучшей оценкой дисперсии генеральной совокупности) вычисляется по формуле:
S2=nn-1 Dв=5050-1 10,2≈10,4
Исправленное выборочное среднее квадратическое отклонение вычисляется по формуле:
S=S2≈3,19
Среднее квадратическое отклонение S показывает степень рассеяния выборочных данных около центра распределения xв.
Коэффициент асимметрии вычисляется по формуле:
Ac=i=17∆i3pi*S3=13,7732,46≈0,42
Коэффициент асимметрии служит для характеристики асимметрии (скошенности) распределения