Теория

Дисперсия. Формула. Виды дисперсии

Вариация признака обусловлена различными факторами, некоторые из этих факторов можно выделить, если статистическую совокупность разбить на группы по какому-либо признаку, то есть построить аналитическую группировку. Тогда, наряду с изучением вариации признака по всей совокупности в целом, становится возможным изучить вариацию для каждой из составляющих ее группы, а также и между этими группами.

Дисперсия результативного признака внутри группы при относительном постоянстве признака-фактора возникает за счет других факторов (не связанных с изучаемым). Такая дисперсия называется остаточной (та колеблемость, которая осталась при закреплении изучаемого фактора ).

Межгрупповая дисперсия относится на счет изучаемого фактора (и факторов, связанных с ним), поэтому называется факторной.

В простейшем случае, когда совокупность расчленена на группы по одному фактору, изучение вариации достигается посредством исчисления и анализа трех видов дисперсий: общей, межгрупповой и внутри групповой.

Общая дисперсия 2 измеряет вариацию признака по всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Она равна среднему квадрату отклонений отдельных значений признака Х– от общей средней и может быть вычислена как простая дисперсия или взвешенная дисперсия по формуле (6) или (7).

Межгрупповая дисперсия 2 характеризует систематическую вариацию результативного признака, обусловленную влиянием признака-фактора, положенного в основание группировки. Она равна среднему квадрату отклонений групповых (частных) средних , от общей средней . Межгрупповая дисперсия вычисляется по формуле:

(15)

где mj – численность единиц в группе,

j – номер группы,

– среднее значение признака в j группе,

общая средняя.

Внутригрупповая (частная) дисперсия , отражает случайную вариацию, т.е. часть вариации, обусловленную влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Она равна среднему квадрату отклонений отдельных значений признака внутри группы х от средней арифметической этой группы (групповой средней) и может быть исчислена как простая дисперсия или как взвешенная дисперсия по формулам, соответственно:

, , (16)

– среднее значение признака в j группе,

i значение признака (варианта),

– частот i варианты,

п – объем совокупности.

На основании внутри групповой дисперсии по каждой группе, т.е. на основании можно определить общую среднюю из внутригрупповых дисперсий :

. (17)

Согласно правилу сложения дисперсий общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсий:

. (18)

Пользуясь правилом сложения дисперсий, можно всегда по двум известным дисперсиям определить третью — неизвестную, а также судить о силе влияния группировочного признака.

Очевидно, чем больше доля межгрупповой дисперсии в общей дисперсии, тем сильнее влияние группировочного признака на изучаемый признак.

Поэтому в статистическом анализе широко используется эмпирический коэффициент детерминации (2) — показатель, представляющий собой долю межгрупповой дисперсии в общей дисперсии результативного признака и характеризующий силу влияния группировочного признака на образование общей вариации:

(19)

Эмпирический коэффициент детерминации показывает долю вариации результативного признака у под влиянием факторного признака х (остальная часть общей вариации у обуславливается вариацией прочих факторов). При отсутствии связи эмпирический коэффициент детерминации равен нулю, а при функциональной связи – единице.

Эмпирическое корреляционное отношение — это корень квадратный из эмпирического коэффициента детерминации:

оно показывает тесноту связи между группировочным и результативным признаками.

Эмпирическое корреляционное отношение , как и 2, может принимать значения от 0 до 1.

Если связь отсутствует, то корреляционное отношение равно нулю, т.е. все групповые средние будут равны между собой, межгрупповой вариации не будет. Значит, группировочный признак никак не влияет на образование общей вариации.

Если связь функциональная, то корреляционное отношение будет равно единице. В этом случае дисперсия групповых средних равна обшей дисперсии (), т.е. внутригрупповой вариации не будет. Это означает, что группировочный признак целиком определяет вариацию изучаемого результативного признака.

Чем значение корреляционного отношения ближе к единице, тем теснее, ближе к функциональной зависимости связь между признаками.

Для качественной оценки тесноты связи на основе показателя эмпирического корреляционного отношения можно воспользоваться соотношениями Чэддока:

э

0,1-0,3

0,3-0,5

0,5-0,7

0,7-0,9

0,9-0,99

Сила связи

Слабая

Умеренная

Заметная

Тесная

Весьма тесная

Пример.

Имеются следующие данные о величине кредитов, выданных частным лицам, российскими и иностранными банками, функционирующими на территории РФ:

Таблица 3

Банки

Выдано кредитов частным лицам, млн. руб.

Российские

2557,3; 2025,1; 1682,2; 1608,5; 1346,3; 1340,2; 1312,4; 1308,6

Иностранные

410,1; 273,2; 187,5; 148,1

На основании приведенных данных проверить правило сложения дисперсий и определить влияние факторного признака на вариацию величины кредитов, выданных частным лицам.

Решение.

Проанализируем вариацию кредитов частным лицам по всем банкам. Для этого рассчитаем общую дисперсию по следующей формуле:

,

где значение признака по каждой единице;

общая средняя, рассчитанная по всем единицам.

Общая дисперсия характеризует вариацию объема кредитов частным лицам под влиянием всех факторов. Однако из таблицы видно, что вариация объема кредитов частным лицам зависит прежде всего от факторного признака.

Построим групповую таблицу, полученную по результатам аналитической группировки:

Таблица 4

Банки

Число банков, nj

Средний объем кредитов частным лицам,

Дисперсия объема кредитов частным лицам в группе, 2j

Российские

8

1647,6

173186,45

Иностранные

4

254,7

10105,44

Итого

12

По каждой группе рассчитывается внутригрупповая дисперсия, характеризующая вариацию объема кредитов частным лицам под влиянием всех прочих случайных факторов (кроме фактора, положенного в основу группировки), по следующей формуле:

,

где j =1k (номер группы)

i = 1n (номер единицы)

Таким образом, имеем:

В целом для всех единиц рассчитывается средняя из внутригрупповых дисперсий:

Для оценки вариации объема кредитов частным лицам под влиянием факторного признака рассчитаем межгрупповую дисперсию:

Общую среднюю () определим по следующей формуле:

(млн. руб.)

Тогда

Общая дисперсия представляет собой сумму межгрупповой и средней из внутригрупповых дисперсий:

, что соответствует общей дисперсии, рассчитанной выше.

Для оценки влияния факторного признака на вариацию объема кредитов частным лицам рассчитаем долю межгрупповой дисперсии в общей, которая называется коэффициентом детерминации (2):

(78,4%)

Следовательно, на 78,4 % вариация объема кредитов частным лицам зависит от факторного признака и на 21,6 % (100-78,4) – от влияния всех прочих факторов.

Таким образом, в сочетании с методом группировок правило сложения дисперсий позволяет выявить факторы, оказывающие наибольшее влияние на вариацию признака в совокупности и дать количественную оценку степени влияния этих факторов.