Возьмем произведение И.А. Гончарова «Обломов». Выберем 50 фрагментов по 100 слов и подсчитаем количество глаголов. Выборки должны быть однородными, т.е. не должны включать диалогов персонажей и других стилевых отклонений. Полученную выборку объёмом 50 единиц случайной величины Х — «число глаголов во фрагменте из текста [И.А. Гончаров «Обломов»] длиной 100 слов» наберем в текстовом процессоре Excel и сохраним в файле.
8 8 11 6 8 11 6 7 9 9
7 7 9 11 9 6 7 12 8 11
12 6 5 12 15 16 12 9 13 6
12 6 9 9 8 12 9 8 9 7
9 11 10 11 11 10 9 9 14 11
Решение
I. Для полученной выборочной совокупности объёмом n = 50 проведём первичную обработку информации.
Производим ранжирование выборочных данных, располагая их в порядке возрастания:
5 6 6 6 6 6 6 7 7 7
7 7 8 8 8 8 8 8 9 9
9 9 9 9 9 9 9 9 9 9
10 10 11 11 11 11 11 11 11 11
12 12 12 12 12 12 13 14 15 16
Определяем минимальное и максимальное значение признака.
глаголов; глаголов.
Находим размах варьирования признака
глаголов.
Определяем длину интервала по формуле:
.
Определяем границы интервалов и группируем данные по соответствующим интервалам. Границы интервалов получаем следующим образом:
, .
В процессе группировки определяем количество вариант, удовлетворяющих неравенствам , и строим интервальный статистический ряд путём заполнения таблицы:
№ интервала Границы интервала
Частота
Относительная частота (частости)
0 1 2 3
1 5,000 – 6,571 7 0,14
2 6,571 – 8,143 11 0,22
3 8,143 – 9,714 12 0,24
4 9,714 – 11,286 10 0,2
5 11,286 – 12,857 6 0,12
6 12,857 – 14,428 2 0,04
k = 7 14,428 – 16,000 2 0,04
Сумма
50 1
На основе полученных данных построим статистический дискретный ряд распределения.
В пределах каждого интервала все значения признака приравниваем к его серединному значению и считаем, что частота относится именно к этому значению. Необходимые вычисления производим в таблице:
№ интервала Границы интервала
Частости
Накопленные частости
Относительная плотность распределения
0 1 2 3 4 5
1 5,000 – 6,571 5,786 0,14 0,14 0,089
2 6,571 – 8,143 7,357 0,22 0,36 0,140
3 8,143 – 9,714 8,928 0,24 0,6 0,153
4 9,714 – 11,286 10,500 0,20 0,8 0,127
5 11,286 – 12,857 12,071 0,12 0,92 0,076
6 12,857 – 14,428 13,643 0,04 0,96 0,025
k = 7 14,428 – 16,000 15,214 0,04 1 0,025
Сумма
1
Статистический дискретный ряд распределения образуют данные 2-го и 3-го столбцов таблицы
. Для построения гистограммы распределения используются данные 1-го и 5-го столбцов, полигона – 2-го и 5-го столбцов.
Для получившегося дискретного ряда определим: среднее выборочное ; выборочную дисперсию ; исправленную выборочную дисперсию ; исправленное среднее квадратическое отклонение S ; коэффициенты эксцесса Ek и асимметрии Ac.
Сначала находим выборочное среднее, характеризующее центр распределения, около которого группируются выборочные данные, по формуле:
.
Обозначая , где – середины интервалов вычисляем отклонения – варианты от среднего значения и заполняем таблицу:
№
0 1 2 3 4 5 6 7
1 5,786 0,14 0,810 -3,489 1,704 -5,944 20,735
2 7,357 0,22 1,619 -1,917 0,809 -1,550 2,972
3 8,928 0,24 2,143342900000 -0,346 0,029 -0,010 0,003
4 10,500 0,2 2,100 1,226 0,300 0,368 0,451
5 12,071 0,12 1,449 2,797 0,939 2,626 7,346
6 13,643 0,04 0,546 4,369 0,763 3,335 14,569
7 15,214 0,04 0,609 5,940 1,411 8,383 49,797
Сумма 1,00 9,274 5,955 7,209 95,873
Выборочная дисперсия определяется по формуле:
.
Исправленная выборочная дисперсия (является лучшей оценкой дисперсии генеральной совокупности) вычисляется по формуле:
.
Исправленное выборочное среднее квадратическое отклонение вычисляется по формуле:
.
Среднее квадратическое отклонение S показывает степень рассеяния выборочных данных около центра распределения .
Коэффициент асимметрии вычисляется по формуле:
.
Коэффициент асимметрии служит для характеристики асимметрии (скошенности) распределения