Дисперсия, стандартное отклонение, коэффициент вариации
Реферат, 22 Марта 2015, автор: пользователь скрыл имя
Описание работы
Из предыдущей статьи мы узнали, что такое вариация данных и рассмотрели такие показатели, как размах вариации и среднее линейное отклонение. Оба показателя отличаются и методом расчета (это очевидно), и интерпретацией. Однако статистические показатели изменчивости на этом не заканчиваются. Сегодня я расскажу о том, что такое дисперсия, стандартное отклонение (оно же среднеквадратическое отклонение, оно же сигма) и коэффициент вариации
Файлы: 1 файл
1.docx
— 66.12 Кб (Скачать файл)Дисперсия, стандартное отклонение, коэффициент вариации
Из предыдущей статьи мы узнали, что такое вариация данных и рассмотрели такие показатели, как размах вариации и среднее линейное отклонение. Оба показателя отличаются и методом расчета (это очевидно), и интерпретацией. Однако статистические показатели изменчивости на этом не заканчиваются. Сегодня я расскажу о том, что такое дисперсия, стандартное отклонение (оно же среднеквадратическое отклонение, оно же сигма) и коэффициент вариации. Эти показатели достаточно часто встречаются в литературе и различных публикациях, поэтому с ними следует хорошенько разобраться. Фактически любой статистический показатель – это фундамент анализа данных и без хорошего понимания - никак.
Напомню, что среднее линейное отклонение отражает среднее абсолютное отклонение значений от их средней величины. При расчете этого показателя, чтобы избежать взаимопогашения положительных и отрицательных отклонений, используется модуль, то есть каждое отклонение от средней берется с положительным знаком. Та же идея лежит в расчете другого известного в статистике показателя, только отклонения берутся не по модулю, а возводятся в квадрат. Квадрат любого числа, как известно, всегда будет положительным.
Дисперсия
Уверен, многие уже догадались, что речь идет о дисперсии. Дисперсия звучит красиво и очень научно. Стоит упомянуть в разговоре, и правда на твоей стороне. Дисперсия в статистике очень важный показатель, который активно используется в других видах статистического анализа (проверка гипотез, анализ причинно-следственных связей и др.). В общем, невозможно быть хорошим аналитиком и не знать что такое дисперсия. Засмеют.
Как и среднее линейное отклонение, дисперсия также отражает меру разброса данных вокруг средней величины.
Формула для расчета дисперсии выглядит так:
где
D – дисперсия,
x – анализируемый показатель, с черточкой сверху – среднее значение показателя,
n – количество значений в анализируемой совокупности данных.
Примечание. Для расчета дисперсии в Excel предусмотрена специальная функция.
Язык знаков полезно перевести на язык слов. Получится, что дисперсия - это средний квадрат отклонений. То есть вначале рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат, складывается и затем делится на количество значений в данной совокупности. Разница между отдельным значением и средней отражает меру отклонения. В квадрат возводится для того, чтобы все отклонения стали исключительно положительными числами и чтобы избежать взаимоуничтожения положительных и отрицательных отклонений при их суммировании. Затем, имея квадраты отклонений, мы просто рассчитываем среднюю арифметическую. Средний – квадрат – отклонений. Отклонения возводятся в квадрат, и считается средняя. Разгадка магического слова «дисперсия» заключается всего в трех словах.
Однако в чистом виде, как, например, средняя арифметическая, или индекс, дисперсия не используется. Это скорее вспомогательный и промежуточный показатель, который используется для других видов статистического анализа. У нее даже единицы измерения нормальной нет. Судя по формуле, это квадрат единицы измерения исходных данных. Без бутылки, как говорится, не разберешься.
Стандартное отклонение
Дабы вернуть дисперсию в реальность, то есть использовать результат расчета для более приземленных целей, из нее извлекают квадратный корень. Получается так называемое стандартное отклонение. В статистике этот показатель еще называют среднеквадратическим отклонением, но первое название более короткое и распространенное. Будем им пользоваться. Формула стандартного отклонения имеет вид:
Примечание. Стандартное отклонение в Excel рассчитывается очень просто.
Кстати, стандартное отклонение еще называют сигмой – от греческой буквы, которой его обозначают. Отсюда и название известного статистического метода «6-сигма». То есть 6 стандартных отклонений. Почему 6, расскажу в другой раз.
Стандартное отклонение, очевидно, также характеризует меру рассеяния данных, но теперь (в отличие от дисперсии) его можно сравнивать с исходными данными, так как единицы измерения у них одинаковые (это явствует из формулы расчета). Но и этот показатель в чистом виде не очень информативен, так как в нем заложено слишком много промежуточных расчетов, которые сбивают с толку (отклонение, в квадрат, сумма, среднее, корень). Тем не менее, со стандартным отклонением уже можно работать непосредственно, потому что свойства данного показателя хорошо изучены и известны. К примеру, есть такое правило трех сигм, которое гласит, что в данных с нормальным распределением 997 значений из 1000 будут находиться не далее, чем 3 сигмы в ту или иную сторону от среднего значения. Сигма, как мера неопределенности, также участвует во многих статистических расчетах. С ее помощью устанавливают степень точности различных оценок и прогнозов. Если вариация очень большая, то стандартное отклонение тоже получится большим, следовательно, и прогноз будет неточным, что выразится, к примеру, в очень широких доверительных интервалах.
Коэффициент вариации
Из всех показателей вариации стандартное отклонение в наибольшей степени используется для проведения других видов статистического анализа. Как я уже писал выше, это оценка точности, качества и др. Однако среднеквадратическое отклонение дает абсолютную оценку меры разбросанности значений и чтобы понять, насколько она велика относительно самих значений, требуется относительный показатель. Такой показатель существует и называется он коэффициент вариации. Формула коэффициента вариации очень проста:
Примечание. Коэффициент вариации в Excel также считается быстро.
Как видно, это отношение стандартного отклонения к средней величине. Данный показатель измеряется в процентах (если умножить на 100%). Имея коэффициенты вариации, можно сравнивать однородность самых разных явлений независимо от их масштаба и единиц измерения. Данный факт и делает коэффициент вариации столь популярным.
В статистике принято, что, если значение коэффициента вариации менее 33%, то совокупность считается однородной, если больше 33%, то – неоднородной. Мне здесь трудно что-то прокомментировать. Не знаю, кто и почему так определил, но это считается аксиомой.
Чувствую, что я увлекся сухой теорией и нужно привести что-то наглядное и образное. С другой стороны все показатели вариации описывают примерно одно и то же, только рассчитываются по-разному. Поэтому разнообразием примеров блеснуть трудно, Отличаться могут лишь значения показателей, но не их суть. Вот и сравним, как отличаются значения различных показателей вариации для одной и той же совокупности данных. Это поможет несколько систематизировать представление о показателях вариации. Возьмем пример с расчетом среднего линейного отклонения (из предыдущей статьи). Вот исходные данные:
И график для напоминания
По этим данным рассчитаем: среднее значение, размах вариации, среднее линейное отклонение, дисперсию и стандартное отклонение.
Среднее значение – это обычная средняя арифметическая.
Размах вариации – разница между максимумом и минимумом:
Среднее линейное отклонение считается по формуле:
Дисперсия считается по формуле:
Стандартное отклонение – корень из дисперсии:
Расчет сведем в табличку.
Как видно, среднее линейное отклонение и стандартное отклонение дают похожие значения степени вариации данных. Дисперсия – это сигма в квадрате, поэтому она всегда будет относительно большим числом, что, собственно, ни о чем не говорит. Размах вариации – это разница между крайними значениями и может говорить о многом.
Подведем некоторые итоги.
Вариация показателя отражает изменчивость процесса или явления. Ее степень может измеряться с помощью нескольких показателей.
Размах вариации – разница между максимумом и минимумом. Отражает диапазон возможных значений.
Среднее линейное отклонение – отражает среднее из абсолютных (по модулю) отклонений всех значений анализируемой совокупности от их средней величины.
Дисперсия – средний квадрат отклонений.
Стандартное отклонение – корень из дисперсии (среднего квадрата отклонений).
Коэффициент вариации – наиболее универсальных показатель, отражающий степень разбросанности значений независимо от их масштаба и единиц измерения. Коэффициент вариации измеряется в процентах и может быть использован для сравнения вариации различных процессов и явлений.
Таким образом, в статистическом
анализе существует система показателей,
отражающих однородность явлений и устойчивость
процессов. Часто показатели вариации
не имеют самостоятельного смысла и используются
для дальнейшего анализа данных. Исключением
является коэффициент вариации, который
характеризует однородность данных, что
является ценной статистической характеристикой.
Про дисперсию можно много, чего еще рассказать. Например, у дисперсии есть ряд полезных свойств. Расчет дисперсии по выборке имеет свою особенность. Дисперсия также тесно связана с т.н. нормальным распределением, которое лежит в основе выборочного метода. В общем, рекомендую изучить тему разброса данных как можно тщательнее.