Вариация — это различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени.
Например, работники фирмы различаются по доходам, затратам времени на работу, уровню образования, уровню квалификации и т.д. Вариация возникает в результате того, что индивидуальные значения признака складываются под совокупным влиянием разнообразных факторов (условий), которые по-разному сочетаются в каждом отдельном случае.
Показатели вариации являются числовой мерой уровня колеблемости признака. Чем больше варианты отдельных единиц совокупности различаются между собой, тем больше они отличаются от своей средней, и наоборот, — чем меньше варианты отличаются друг от друга, тем меньше они отличаются от средней, которая в таком случае будет более реально представлять всю совокупность. Вот почему ограничиваться вычислением одной средней в ряде случаев нельзя. Нужны и другие показатели, характеризующие отклонения отдельных значений от средней.
В статистике применяют ряд обобщающих показателей вариации. .
К абсолютным показателям вариации относятся: размах вариации, среднее линейное отклонение, дисперсия и среднее квадратическое отклонение, квартильное отклонение. Для оценки интенсивности вариации и для сравнения ее в разных совокупностях используют относительные показатели вариации: коэффициент осцилляции, относительное линейное отклонение, коэффициент вариации.
Самым элементарным показателем вариации признака является размах вариации, представляющий собой разность между максимальным и минимальным значениями признака:
. (1)
Величина размаха характеризует лишь максимальное различие значений признака.
Показателем вариации выступает среднее линейное отклонение. Этот показатель рассчитывается по формуле для несгруппированных данных
, (2)
для сгруппированных данных
. (3)
– среднее значение признака,
– i значение признака (варианта),
– частот i варианты,
п – объем совокупности.
Среднее линейное отклонение нельзя поставить в соответствие, с каким- либо вероятностным законом, в том числе и с нормальным распределением, параметром которого является среднее квадратическое отклонение.
Расчет среднего квадратического отклонения проводится по формулам: для несгруппированных данных
, (4)
для сгруппированных данных
. (5)
Среднее квадратическое отклонение по величине в реальных совокупностях всегда больше среднего линейного отклонения. Соотношение зависит от наличия в совокупности резких, выделяющихся отклонений и может служить индикатором «засоренности» совокупности неоднородными элементами: чем это соотношение больше, тем сильнее подобная «засоренность». Для нормального закона распределения . Среднее квадратическое отклонение — это обобщающая характеристика размеров вариации признака в совокупности; оно показывает, на сколько в среднем отклоняются конкретные варианты от их среднего значения; является абсолютной мерой колеблемости признака и выражается в тех же единицах, что и варианты, поэтому экономически хорошо интерпретируется.
Квадрат среднего квадратического отклонения дает величину дисперсии 2. Формула дисперсии:
Для сгруппированных данных . (6)
Для не сгруппированных данных . (7)
Простыми преобразованиями могут быть получены формулы расчета дисперсии методом моментов .Расчет по этой формуле дает равенство результатов с (7) при точном значении средней арифметической величины. Если средняя округлена, то приведет к погрешности результатов.
Еще одним показателем силы вариации, характеризующим ее не по всей совокупности, а лишь в центральной части, служит среднее квартальное расстояние, т.е. средняя величина разности между квартилями, обозначаемое далее как q:
. (8)
Сила вариации в центральной части совокупности, как правило, меньше, чем в целом по всей совокупности. Соотношение между средним линейным отклонением и средним квартильным отклонением также служит для изучения структуры вариации: большое значение такого соотношения говорит о наличии слабо варьирующего «ядра» и сильно рассеянного вокруг этого ядра окружения. Например, d:q=1,23, что говорит о небольшом различии силы вариации в центральной части совокупности и на ее периферии.
Под альтернативным понимается такой статистический показатель, который принимает одно из двух возможных значений (пол – женский или мужской, изделие годное или негодное, план по выпуску продукции – выполнен или не выполнен). Конкретное содержание альтернативного признака устанавливается самим исследователем. Обозначим: 1 — наличие интересующего нас признака; 0 — его отсутствие; р — доля единиц, обладающих данным признаком; q — доля единиц, не обладающих данным признаком; р + q =1. Расчет среднего значения альтернативного признака и среднее квадратическое отклонение альтернативного признака проводят по формулам:
среднее значение альтернативного признака
, (9)
среднее квадратическое отклонение альтернативного признака
. (10)