Статистическая обработка выборки
Лабораторная работа, 08 Декабря 2012, автор: пользователь скрыл имя
Описание работы
работа содержит 7 заданий с решениями по "Статистике"
Файлы: 1 файл
Лабораторная работа тервер.doc
— 1.39 Мб (Скачать файл)Расчетная работа
"Статистическая обработка
- Получение выборки объема n предположительно нормально распределенной случайной величины.
Выборка объемом n = 150 была получена посредством моделирования. В итоге получились следующие ниже значения предположительно нормально распределенной случайной величины. Итак, первичный вид выборки:
-2,2663; -3,1005; -9,6268; -7,1273; 1,34; -1,8131; -4,9204;
6,825; 4,3348; -2,1447; 4,8589; -5,7173; 10,238; 0,039025; 3,7338; 2,698;
-3,459; 5,4203; 3,1469; -3,7803; 1,1941; -6,0164; -1,5411;
-7,6896; -3,1013; -1,0742; 5,4099; -0,85503; -4,0515; -0,028564; -5,8147;
-3,2353; 7,8614; 0,65102; -4,0213; -0,51217; -3,3379; -3,5283;
-1,1005; -2,2532; 0,70424; 7,9068; -1,4853; -1,7563; 4,3627; 4,1061;
2,9864; 0,19821; -5,6325; 3,4121; -1,3595; 0,8202; -2,3666; 2,2589;
-1,3554;
-2,8558; -7,0831; -5,2847; 8,8333; 10,539; -5,1126; -0,56048; 0,3145;
-2,1966; 9,1751; 2,7997; -3,0997; -6,2346; 0,47576; 0,33204; -6,8611;
3,3752; 0,28329; 6,616; -1,1624; 2,5752; -3,26; 0,070236; 6,0647; 7,0545;
0,43264; 12,727;
-0,42882; 6,4341; 1,2383; -1,6601; 9,2209; 1,4354; -1,3462; -0,91109;
1,636; -0,031684; 0,32186; -0,84173; -4,8086; -0,13983;-7,7099; -0,79202;
0,4557; 1,6831; 4,5952; -5,8574; -6,0651; 10,081; 13,521; 4,5776; -2,8402;
2,9487; 0,96445;
-10,339; 0,34472; -0,6112; 2,2698; 0,45989; -17,513; -5,6579; -7,3389;
-3,9622; -9,2861; -1,3279; -4,6172; 2,9394;-3,4925; 2,9293; -6,9443;
-9,5576; -4,9706; 3,0601; 5,7437; -3,0592; 7,7909; -0,61004; 0,61176;
-1,4529; -2,779; 1,3088;
2,8673; -1,0364; -13,453; 10,779; -4,7871; 9,6133; 5,0815; -13,38; -0,026137;
1,2551; 3,9601; 2,9612; 2,8873; 1,4535.
- Представление выборки в виде вариационного ряда (Вариационным (статистическим) рядом называется таблица, первая строка которой содержит в порядке возрастания элементы xi, а вторая – их частоты ni) не приведено, так как каждое значение случайной величины встречается в данной выборке только один раз. Таким образом, представление таблицы, где в первой строке стоят выше приведенные значения случайной величины, а во второй единицы, избыточно. Представим здесь лишь упорядоченный вид выборки:
-17,513 |
-13,453 |
-13,38 |
-10,339 |
-9,6268 |
-9,5576 |
-9,2861 |
-7,7099 |
-7,6896 |
-7,3389 |
-7,1273 |
-7,0831 |
-6,9443 |
-6,8611 |
-6,2346 |
-6,0651 |
-6,0164 |
-5,8574 |
-5,8147 |
-5,7173 |
-5,6579 |
-5,6325 |
-5,2847 |
-5,1126 |
-4,9706 |
-4,9204 |
-4,8086 |
-4,7871 |
-4,6172 |
-4,0515 |
-4,0213 |
-3,9622 |
-3,7803 |
-3,5283 |
-3,4925 |
-3,459 |
-3,3379 |
-3,26 |
-3,2353 |
-3,1013 |
-3,1005 |
-3,0997 |
-3,0592 |
-2,8558 |
-2,8402 |
-2,779 |
-2,3666 |
-2,2663 |
-2,2532 |
-2,1966 |
-2,1447 |
-1,8131 |
-1,7563 |
-1,6601 |
-1,5411 |
-1,4853 |
-1,4529 |
-1,3595 |
-1,3554 |
-1,3462 |
-1,3279 |
-1,1624 |
-1,1005 |
-1,0742 |
-1,0364 |
-0,91109 |
-0,85503 |
-0,84173 |
-0,79202 |
-0,6112 |
-0,61004 |
-0,56048 |
-0,51217 |
-0,42882 |
-0,13983 |
-0,031684 |
-0,028564 |
-0,026137 |
0,039025 |
0,070236 |
0,19821 |
0,28329 |
0,3145 |
0,32186 |
0,33204 |
0,34472 |
0,43264 |
0,4557 |
0,45989 |
0,47576 |
0,61176 |
0,65102 |
0,70424 |
0,8202 |
0,96445 |
1,1941 |
1,2383 |
1,2551 |
1,3088 |
1,34 |
1,4354 |
1,4535 |
1,636 |
1,6831 |
2,2589 |
2,2698 |
2,5752 |
2,698 |
2,7997 |
2,8673 |
2,8873 |
2,9293 |
2,9394 |
2,9487 |
2,9612 |
2,9864 |
3,0601 |
3,1469 |
3,3752 |
3,4121 |
3,7338 |
3,9601 |
4,1061 |
4,3348 |
4,3627 |
4,5776 |
4,5952 |
4,8589 |
5,0815 |
5,4099 |
5,4203 |
5,7437 |
6,0647 |
6,4341 |
6,616 |
6,825 |
7,0545 |
7,7909 |
7,8614 |
7,9068 |
8,8333 |
9,1751 |
9,2209 |
9,6133 |
10,081 |
10,238 |
10,539 |
10,779 |
12,727 |
13,521 |
1.3. Представление выборки в группированном виде. Такая форма представления выборки из генеральной совокупности связана с разбиением области задания случайной величины на L интервалов группирования. При этом известно только количество элементов выборки, попавших в некоторый интервал и последовательность границ интервалов разбиения.
При этом первичная обработка обычно начинается с отыскания минимального xmin и максимального xmax значений исходных статистических данных, а также вычисления размаха варьирования R=xmax–xmin. Для исходных данных находим:
xmin= -17,513 |
xmax=13,521 |
R=31,034 |
Следующий этап первичной обработки статистических данных – группировка. Для этого промежуток [xmin, xmax] разбивают на m интервалов (чаще всего одинаковой длины) и подсчитывают число nj значений, которые попали в j-й интервал. Обычно выбирают m=7¸20 интервалов. На практике для определения длины интервала часто используют эмпирическую формулу Стэрджеса:
где n – объем исходного статистического ряда. Таким образом, L=1+3,322lg(143)=8.
За начало первого интервала
рекомендуется принимать
В соответствии с полученными выше результатами, определяем оптимальную длину интервала:
После этого строим систему интервалов и создаем интервальный вариационный ряд – Таблица 1.
Таблица 1: Интервальный вариационный ряд.
№ |
x-h/2 |
x+h/2 |
xi |
ni |
wi |
ni/h |
Накопленные частоты |
1 |
-17,51 |
-13,63 |
-15,57 |
1 |
0,01 |
0,26 |
0,01 |
2 |
-13,63 |
-9,75 |
-11,69 |
3 |
0,02 |
0,77 |
0,03 |
3 |
-9,75 |
-5,88 |
-7,81 |
13 |
0,09 |
3,35 |
0,12 |
4 |
-5,88 |
-2,00 |
-3,94 |
34 |
0,23 |
8,76 |
0,34 |
5 |
-2,00 |
1,88 |
-0,06 |
53 |
0,35 |
13,66 |
0,70 |
6 |
1,88 |
5,76 |
3,82 |
28 |
0,19 |
7,22 |
0,88 |
7 |
5,76 |
9,64 |
7,70 |
12 |
0,08 |
3,09 |
0,96 |
8 |
9,64 |
13,761 |
11,58 |
6 |
0,04 |
1,55 |
1,00 |
В данной таблице wi = ni/n – относительные частоты, ni/h – плотность частот.
- Нахождение числовых характеристик выборки.
Для нахождения числовых характеристик выборки рассмотрим середины полученных интервалов . Все промежуточные вычисления представлены в таблице 2.
Таблица 2: Промежуточные вычисления при нахождении числовых характеристик выборки.
|
|
|
|
|
|
|
| ||
|
-15,57 |
1 |
-15,57 |
-15,44 |
238,38 |
242,53 |
-3777,01 |
58820,81 |
-3680,38 |
56822,895 |
-11,69 |
3 |
-35,08 |
-11,56 |
400,91 |
410,26 |
-4797,6 |
56103,79 |
-4634,56 |
53576,13 |
-7,81 |
13 |
-101,59 |
-7,68 |
766,95 |
793,94 |
-6204,54 |
48487,69 |
-5890,82 |
45246,62 |
-3,94 |
34 |
-133,81 |
-3,80 |
491,38 |
526,63 |
-2072,62 |
8157,06 |
-1868,04 |
7101,596 |
-0,06 |
53 |
-2,988 |
0,08 |
0,32 |
0,17 |
-0,0095 |
0,000 |
0,02479 |
0,002 |
3,82 |
28 |
107,04 |
3,96 |
438,39 |
409,20 |
1564,33 |
5980,24 |
1734,663 |
6863,84 |
7,70 |
12 |
92,42 |
7,84 |
736,86 |
711,87 |
5482,933 |
42230,23 |
5774,113 |
45246,67 |
11,58 |
6 |
69,49 |
11,72 |
823,50 |
804,77 |
9320,33 |
107942,32 |
9647,612 |
113025,39 |
Сумма |
-20,094 |
3899,37 |
-484,19 |
327722,13 |
1082,612 |
327883,16 |
Итак, используя промежуточные вычисления таблицы 2, представим расчет основных числовых характеристик изучаемой случайной величины. Итак,
2.1. Выборочным средним называется величина
2.2. Выборочной дисперсией (смещенной, состоятельной оценкой дисперсии) называется величина
- Исправленной выборочной дисперсией (несмещенной, состоятельной оценкой дисперсии) называется величина
2.4. Среднеквадратичным отклонением называется корень квадратный из выборочной дисперсии
2.5. Исправленным среднеквадратичным отклонением называется величина
2.6. Выборочными начальными моментами порядков k=2,3,4 называются величины
Тогда , , .
2.7. Выборочными центральными моментами порядка k=3,4 называются величины
Тогда , .
2.8. Выборочным коэффициентом асимметрии называется величина
2.9. Выборочным коэффициентом эксцесса называется величина
2.10. Модой называется значение во множестве наблюдений, которое встречается наиболее часто. В нашем случае .
2.11. Медианой (50-й процентилью, квантилью 0,5) называется возможное значение признака, которое делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана. В нашем случае
2.12. Выборочные квантили порядка =0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9.
-кванти́ль (или квантиль порядка ) — числовая характеристика закона распределения случайной величины; такое число, что данная случайная величина попадает левее его с вероятностью, не превосходящей . Тогда
3.Графическое представление выборки:
- Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат интервалы длиной h, а высотами плотность частоты wi.
Гистограмма для данной выборки представлена на рисунке 1.
Рис.1: Гистограмма группированной выборки.
- Ломаная, соединяющая точки (хj, nj), i=1,…,L, называется полигоном частот.
Рис.2: Полигон частот группированной выборки.
- Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат — накопленные частоты или частости.
Рис.3: Кумулята группированной выборки.
- Эмпирической функцией распределения называется отношение F(x)=nX/n, где nX равно числу элементов выборки, значения которых меньше или равны заданному х.
Рис.4: Эмпирическая функция распределения.
- Статистическое оценивание параметров.
Оценивание проводят с помощью оценок – статистик, являющихся основой для оценивания неизвестного параметра распределения. Оценивание бывает двух видов – точечное оценивание и оценивание с помощью доверительной области. Точечное оценивание – способ оценивания, заключающийся в том, что значение оценки принимается как неизвестное значение параметра распределения.
Итак, требуется оценить параметры m и σ (или σ2) по результатам наблюдений. Оценки обозначим m* и (σ2)* соответственно. Обычно в качестве оценки m* математического ожидания m используют выборочное среднее арифметическое , а в качестве оценки (σ2)* дисперсии σ2 используют выборочную дисперсию s2, т.е. m* = , (σ2)* = s2.
4.1. Метод моментов.
С какой оценки начинать? Одним из наиболее известных и простых в употреблении методов является метод моментов. Название связано с тем, что этот метод опирается на использование выборочных моментов
где x1, x2,…, xn – выборка, т.е. набор независимых одинаково распределенных случайных величин с числовыми значениями.
В прикладной статистике метод анализа данных называется методом моментов, если он использует статистику
(1)
где g: Rq → Rk – некоторая функция (здесь k – число неизвестных числовых параметров). Чаще всего термин «метод моментов» используют, когда речь идет об оценивании параметров. В этом случае обычно предполагают, что плотность вероятности распределения элементов выборки f(x) входит в заранее известное статистику параметрическое семейство {f(x;θ), θєΘ}, т.е. f(x) = f(x;θ0) при некотором θ0. Здесь Θ – заранее заданное k-мерное пространство параметров, являющееся подмножеством евклидова пространства Rk, а конкретное значение параметра θ0 статистику неизвестно, его и следует оценить. Известно также, что неизвестный параметр определяется с помощью известной статистику функции через начальные моменты элементов выборки: