Статистическая обработка выборки

Лабораторная работа, 08 Декабря 2012, автор: пользователь скрыл имя

Описание работы

работа содержит 7 заданий с решениями по "Статистике"

Скачать архив (472.71 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

Лабораторная работа тервер.doc

— 1.39 Мб (Скачать файл)

Расчетная работа

"Статистическая обработка выборки"

Получение выборки объема n предположительно нормально распределенной случайной величины.

Выборка объемом n = 150 была получена посредством моделирования. В итоге получились следующие ниже значения предположительно нормально распределенной случайной величины. Итак, первичный вид выборки:

-2,2663; -3,1005; -9,6268; -7,1273; 1,34; -1,8131; -4,9204; 6,825; 4,3348; -2,1447; 4,8589; -5,7173; 10,238; 0,039025; 3,7338; 2,698; -3,459; 5,4203; 3,1469; -3,7803; 1,1941; -6,0164; -1,5411; -7,6896; -3,1013; -1,0742; 5,4099; -0,85503; -4,0515; -0,028564; -5,8147; -3,2353; 7,8614; 0,65102; -4,0213; -0,51217; -3,3379; -3,5283; -1,1005; -2,2532; 0,70424; 7,9068; -1,4853; -1,7563; 4,3627; 4,1061; 2,9864; 0,19821; -5,6325; 3,4121; -1,3595; 0,8202; -2,3666; 2,2589; -1,3554;
-2,8558; -7,0831; -5,2847; 8,8333; 10,539; -5,1126; -0,56048; 0,3145; -2,1966; 9,1751; 2,7997; -3,0997; -6,2346; 0,47576; 0,33204; -6,8611; 3,3752; 0,28329; 6,616; -1,1624; 2,5752; -3,26; 0,070236; 6,0647; 7,0545; 0,43264; 12,727;
-0,42882; 6,4341; 1,2383; -1,6601; 9,2209; 1,4354; -1,3462; -0,91109; 1,636; -0,031684; 0,32186; -0,84173; -4,8086; -0,13983;-7,7099; -0,79202; 0,4557; 1,6831; 4,5952; -5,8574; -6,0651; 10,081; 13,521; 4,5776; -2,8402; 2,9487; 0,96445;
-10,339; 0,34472; -0,6112; 2,2698; 0,45989; -17,513; -5,6579; -7,3389; -3,9622; -9,2861; -1,3279; -4,6172; 2,9394;-3,4925; 2,9293; -6,9443; -9,5576; -4,9706; 3,0601; 5,7437; -3,0592; 7,7909; -0,61004; 0,61176; -1,4529; -2,779; 1,3088;
2,8673; -1,0364; -13,453; 10,779; -4,7871; 9,6133; 5,0815; -13,38; -0,026137; 1,2551; 3,9601; 2,9612; 2,8873; 1,4535.

Представление выборки в виде вариационного ряда (Вариационным (статистическим) рядом называется таблица, первая строка которой содержит в порядке возрастания элементы x_i, а вторая – их частоты n_i) не приведено, так как каждое значение случайной величины встречается в данной выборке только один раз. Таким образом, представление таблицы, где в первой строке стоят выше приведенные значения случайной величины, а во второй единицы, избыточно. Представим здесь лишь упорядоченный вид выборки:

-17,513
-13,453
-13,38
-10,339
-9,6268
-9,5576
-9,2861
-7,7099
-7,6896
-7,3389
-7,1273
-7,0831
-6,9443
-6,8611
-6,2346
-6,0651
-6,0164
-5,8574
-5,8147
-5,7173
-5,6579
-5,6325
-5,2847
-5,1126
-4,9706
-4,9204
-4,8086
-4,7871
-4,6172
-4,0515
-4,0213
-3,9622
-3,7803
-3,5283
-3,4925
-3,459
-3,3379
-3,26
-3,2353
-3,1013
-3,1005
-3,0997
-3,0592
-2,8558
-2,8402
-2,779
-2,3666
-2,2663
-2,2532
-2,1966
-2,1447
-1,8131
-1,7563
-1,6601
-1,5411
-1,4853
-1,4529
-1,3595
-1,3554
-1,3462
-1,3279
-1,1624
-1,1005
-1,0742
-1,0364
-0,91109
-0,85503
-0,84173
-0,79202
-0,6112
-0,61004
-0,56048
-0,51217
-0,42882
-0,13983
-0,031684
-0,028564
-0,026137
0,039025
0,070236
0,19821
0,28329
0,3145
0,32186
0,33204
0,34472
0,43264
0,4557
0,45989
0,47576
0,61176
0,65102
0,70424
0,8202
0,96445
1,1941
1,2383
1,2551
1,3088
1,34
1,4354
1,4535
1,636
1,6831
2,2589
2,2698
2,5752
2,698
2,7997
2,8673
2,8873
2,9293
2,9394
2,9487
2,9612
2,9864
3,0601
3,1469
3,3752
3,4121
3,7338
3,9601
4,1061
4,3348
4,3627
4,5776
4,5952
4,8589
5,0815
5,4099
5,4203
5,7437
6,0647
6,4341
6,616
6,825
7,0545
7,7909
7,8614
7,9068
8,8333
9,1751
9,2209
9,6133
10,081
10,238
10,539
10,779
12,727
13,521

1.3. Представление выборки в группированном виде. Такая форма представления выборки из генеральной совокупности связана с разбиением области задания случайной величины на L интервалов группирования. При этом известно только количество элементов выборки, попавших в некоторый интервал и последовательность границ интервалов разбиения.

При этом первичная обработка обычно начинается с отыскания минимального x_min и максимального x_max значений исходных статистических данных, а также вычисления размаха варьирования R=x_max–x_min. Для исходных данных находим:

x_min= -17,513

x_max=13,521

R=31,034

Следующий этап первичной обработки статистических данных – группировка. Для этого промежуток [x_min, x_max] разбивают на m интервалов (чаще всего одинаковой длины) и подсчитывают число n_j значений, которые попали в j-й интервал. Обычно выбирают m=7¸20 интервалов. На практике для определения длины интервала часто используют эмпирическую формулу Стэрджеса:

где n – объем исходного статистического ряда. Таким образом, L=1+3,322lg(143)=8.

За начало первого интервала рекомендуется принимать величину, равную (x_min–h/2). Тогда, если x₁ – начало первого интервала, то x₂=x₁+h – начало второго и т.д. Построение интервалов продолжают до тех пор, пока начало следующего по порядку интервала не будет равным или большим x_max. После установления шкалы интервалов приступают к группировке исходных статистических данных.

В соответствии с полученными выше результатами, определяем оптимальную длину интервала:

После этого строим систему интервалов и создаем интервальный вариационный ряд – Таблица 1.

Таблица 1: Интервальный вариационный ряд.

№	x-h/2	x+h/2	x_i	n_i	w_i	n_i/h	Накопленные частоты
1	-17,51	-13,63	-15,57	1	0,01	0,26	0,01
2	-13,63	-9,75	-11,69	3	0,02	0,77	0,03
3	-9,75	-5,88	-7,81	13	0,09	3,35	0,12
4	-5,88	-2,00	-3,94	34	0,23	8,76	0,34
5	-2,00	1,88	-0,06	53	0,35	13,66	0,70
6	1,88	5,76	3,82	28	0,19	7,22	0,88
7	5,76	9,64	7,70	12	0,08	3,09	0,96
8	9,64	13,761	11,58	6	0,04	1,55	1,00

В данной таблице w_i = n_i/n – относительные частоты, n_i/h – плотность частот.

Нахождение числовых характеристик выборки.

Для нахождения числовых характеристик выборки рассмотрим середины полученных интервалов . Все промежуточные вычисления представлены в таблице 2.

Таблица 2: Промежуточные вычисления при нахождении числовых характеристик выборки.


-15,57	1	-15,57	-15,44	238,38	242,53	-3777,01	58820,81	-3680,38	56822,895
-11,69	3	-35,08	-11,56	400,91	410,26	-4797,6	56103,79	-4634,56	53576,13
-7,81	13	-101,59	-7,68	766,95	793,94	-6204,54	48487,69	-5890,82	45246,62
-3,94	34	-133,81	-3,80	491,38	526,63	-2072,62	8157,06	-1868,04	7101,596
-0,06	53	-2,988	0,08	0,32	0,17	-0,0095	0,000	0,02479	0,002
3,82	28	107,04	3,96	438,39	409,20	1564,33	5980,24	1734,663	6863,84
7,70	12	92,42	7,84	736,86	711,87	5482,933	42230,23	5774,113	45246,67
11,58	6	69,49	11,72	823,50	804,77	9320,33	107942,32	9647,612	113025,39
Сумма		-20,094			3899,37	-484,19	327722,13	1082,612	327883,16

Итак, используя промежуточные вычисления таблицы 2, представим расчет основных числовых характеристик изучаемой случайной величины. Итак,

2.1. Выборочным средним называется величина

2.2. Выборочной дисперсией (смещенной, состоятельной оценкой дисперсии) называется величина

Исправленной выборочной дисперсией (несмещенной, состоятельной оценкой дисперсии) называется величина

2.4. Среднеквадратичным отклонением называется корень квадратный из выборочной дисперсии

2.5. Исправленным среднеквадратичным отклонением называется величина

2.6. Выборочными начальными моментами порядков k=2,3,4 называются величины

, k=2,3,4.

Тогда, , .

2.7. Выборочными центральными моментами порядка k=3,4 называются величины

, k=3, 4.

Тогда , .

2.8. Выборочным коэффициентом асимметрии называется величина

2.9. Выборочным коэффициентом эксцесса называется величина

2.10. Модой называется значение во множестве наблюдений, которое встречается наиболее часто. В нашем случае .

2.11. Медианой (50-й процентилью, квантилью 0,5) называется возможное значение признака, которое делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана. В нашем случае

2.12. Выборочные квантили порядка =0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9.

-кванти́ль (или квантиль порядка ) — числовая характеристика закона распределения случайной величины; такое число, что данная случайная величина попадает левее его с вероятностью, не превосходящей . Тогда

3.Графическое представление выборки:

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат интервалы длиной h, а высотами плотность частоты w_i.

Гистограмма для данной выборки представлена на рисунке 1.

Рис.1: Гистограмма группированной выборки.

Ломаная, соединяющая точки (х_j, n_j), i=1,…,L, называется полигоном частот.

Рис.2: Полигон частот группированной выборки.

Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат — накопленные частоты или частости.

Рис.3: Кумулята группированной выборки.

Эмпирической функцией распределения называется отношение F(x)=n_X/n, где n_X равно числу элементов выборки, значения которых меньше или равны заданному х.

Рис.4: Эмпирическая функция распределения.

Статистическое оценивание параметров.

Оценивание проводят с помощью оценок – статистик, являющихся основой для оценивания неизвестного параметра распределения. Оценивание бывает двух видов – точечное оценивание и оценивание с помощью доверительной области. Точечное оценивание – способ оценивания, заключающийся в том, что значение оценки принимается как неизвестное значение параметра распределения.

Итак, требуется оценить параметры m и σ (или σ²) по результатам наблюдений. Оценки обозначим m* и (σ²)* соответственно. Обычно в качестве оценки m* математического ожидания m используют выборочное среднее арифметическое , а в качестве оценки (σ²)* дисперсии σ² используют выборочную дисперсию s², т.е. m* = , (σ²)* = s².

4.1. Метод моментов.

С какой оценки начинать? Одним из наиболее известных и простых в употреблении методов является метод моментов. Название связано с тем, что этот метод опирается на использование выборочных моментов

где x₁, x₂,…, x_n – выборка, т.е. набор независимых одинаково распределенных случайных величин с числовыми значениями.

В прикладной статистике метод анализа данных называется методом моментов, если он использует статистику

(1)

где g: R^q → R^k – некоторая функция (здесь k – число неизвестных числовых параметров). Чаще всего термин «метод моментов» используют, когда речь идет об оценивании параметров. В этом случае обычно предполагают, что плотность вероятности распределения элементов выборки f(x) входит в заранее известное статистику параметрическое семейство {f(x;θ), θєΘ}, т.е. f(x) = f(x;θ₀) при некотором θ₀. Здесь Θ – заранее заданное k-мерное пространство параметров, являющееся подмножеством евклидова пространства R^k, а конкретное значение параметра θ₀ статистику неизвестно, его и следует оценить. Известно также, что неизвестный параметр определяется с помощью известной статистику функции через начальные моменты элементов выборки:

Статистическая обработка выборки

Описание работы

Файлы: 1 файл

Лабораторная работа тервер.doc

Информация о работе Статистическая обработка выборки

Связанные документы

Моделирование и статистическая обработка выборки

Обработка статистических данных

Статистическая обработка данных

Статистическая обработка данных

Статистическая обработка данных

Методы статистической обработки данных

Методы обработки статистических данных

Основы статистической обработки информации

Обработка статистических данных предприятия

Статистическая обработка результатов исследования

Обработка статистических данных (статистика затрат)

Основные статистические величины в малые выборке

Способы и приемы обработки статистической информации

Обработка информации

Похожие темы

Обработка статистических данных

Статистическая обработка информации

Методы статистической обработки данных