Теория

Технология работы в режиме Анализ данных

Пакет анализа представляет собой надстройку (вспомогательную программу, служащую для добавления в Microsoft Office специальных команд или возможностей). Чтобы использовать надстройку в Excel, необходимо сначала загрузить ее.

  1. Выберите кнопку «Office» …Параметры Excel… Надстройки.

  2. Щёлкните по кнопке «Перейти».

  3. В раскрывшемся окне активируйте опцию «Пакет анализа».

  1. ОК

  2. В меню «Данные» появляется надстройка «Анализ данных».

В ней представлен список методов статистической обработки данных:

Алгоритм выполнения индивидуального задания 1

  1. Скопируйте свой вариант задания на лист Excel.

  2. Исключите суммарные итоги по федеральным округам и Российской федерации в целом (удалите эти строки).

  3. Ранжируйте полученный вариационный ряд, используя кнопку .

  4. Найдите первый и последний децили. Исключите из вариационного ряда значения первого и последнего дециля (используя статистическую функцию «ПЕРСЕНТИЛЬ»). Для этого выбирается , категория статистические , функция ПЕРСЕНТИЛЬ , заполните раскрывшееся окно

Значение К=0,1, поскольку первый дециль составляет одну десятую часть персентиля. Для нахождения последнего персентиля вместо 0,1 проставьте 0,9

Регионы, попавшие в первый и последний дециль выделите курсивом и заливкой, они из анализа исключаются.

  1. Для оставшегося вариационного ряда постройте интервальный ряд распределения с равными интервалами, предварительно рассчитав количество групп по формуле Стерджесса n = 1 + 3,322 lgN,

где n — число групп; N — число единиц совокупности. Поскольку оставшихся регионов 63, n = 1 + 3,322 lg63=7.

  1. Рассчитайте интервал группировки.

где = 8268,7 и = 607,9 максимальное и минимальное значения признака в совокупности; n=7 – число групп. Тогда =1094,4

Определите начальные и конечные значения каждого из 7 интервалов по формуле hконечные = hначальные + h, например, h1конечное = h1начальное + h= 607,9 + 1094,4 = 1702,3. Каждый из интервалов удобно выделить своей заливкой.

  1. Определите количество единиц в каждой группе и накопленную частоту. Накопленная частота рассчитывается путем последовательного суммирования частот предшествующих интервалов.

  1. Рассчитайте среднюю взвешенную величину по формуле

где – средневзвешенная арифметическая всего интервального ряда, – средняя арифметическая в каждой группе, – число элементов (частота) в каждой группе.

  1. Рассчитайте моду (значение признака, наиболее часто встречающееся в исследуемой совокупности) по формуле

где и i – соответственно нижняя граница и величина модального интервала; – частоты модального, предмодального и послемодального интервалов. В рассматриваемом примере модальный интервал (тот, в который входит наибольшее количество элементов) – второй (в него входят 25 регионов). Тогда нижняя граница равна 1702,3, частоты модального интервала равна 25, предмодального интервала равна 17, послемодального интервала равна 6, величина модального интервала равна интервалу группировки 1094,4.

Мода равна

  1. Рассчитайте медиану( значение признака, приходящееся на середину ранжированной (упорядоченной) совокупности по формуле , где и i — соответственно нижняя граница и величина медианного интервала; — частота медианного интервала; — кумулятивная частота предмедианного интервала.

В интервальном ряду медианным интервалом является тот в который попадает половина суммарного значения 63/2 = 31,5. В рассматриваемом примере модальный интервал второй. Тогда нижняя граница равна 1702,3, частоты модального интервала равна 25, кумулятивная частота предмедианная интервала равна 17, величина модального интервала равна интервалу группировки 1094,4.

Медианная частота равна

  1. Постройте полигон распределения (графического изображения дискретного вариационного ряда), строится по столбцам Число элементов.

    1. Постройте кумуляту интервального ряда распределения. Она строится по столбцу Накопленная частота.

    1. Сделайте вывод об однородности совокупности. Для такого вывода нужно рассчитать коэффициент вариации, а для этого сначала рассчитать среднеквадратическое отклонение, для определения которого, ранее нужно рассчитать дисперсию.

    1. Расчёт дисперсии (среднего квадрата отклонений индивидуальных значений от средней величины по формуле

    Например, для первого интервала числитель дисперсии рассчитывается (1176,2- 2942,60)2*17=53045413

    Дисперсия равна 4129771,1

    1. Расчёт среднеквадратического отклонения (оно показывает, на сколько в среднем отклоняются конкретные варианты признака от его среднего значения). Вычисляется как квадратный корень из дисперсии. Среднеквадратическое отклонение равно 2032,2

    2. Расчёт коэффициента вариации (она характеризует долю усредненного значения отклонений от средней величины). При этом совокупность считается однородной, если V не превышает 33%. Коэффициент вариации рассчитывается по формуле

    V=2032,2/2942,6*100%=70%. Вывод – совокупность неоднородна.

    1. Определите скошенность и величину асимметрии.

    1. Для характеристики асимметрии применяется нормированный момент третьего порядка: .

    As=0, т. е. , если ряд распределения симметричен;

    As >0, т.е. ,если скошенность ряда правосторонняя;

    As <0, т.е. ,если скошенность ряда левосторонняя;

    Если As < 0,5 (независимо от знака) то асимметрия считается незначительной.

    Если As > 0,5 то асимметрия считается значительной.

    Например, для первого интервала числитель асимметрии рассчитывается (1176,2- 2942,60)3*17= -93701660477

    Асимметрия равна 1,36. Вывод: скошенность правосторонняя(>0) и значительная(>0,5).

    Оценка степени существенности этого показателя дается с помощью средней квадратической ошибки, рассчитываемой по формуле: , где n — число наблюдений.

    Если , то асимметрия существенна и распределение признака в генеральной совокупности не является симметричным.

    Если , то асимметрия несущественна, ее наличие объясняется влиянием случайных обстоятельств.

    ; .

    Т.е., > 2, асимметрия существенна.

    1. Рассчитайте эксцесс и сделайте вывод о нормальности распределения. Под эксцессом понимается степень островершинности (крутизны) распределения, при этом в качестве эталона берется нормальное распределение.

    1. Характеристикой эксцесса является нормированный момент четвертого порядка .

    Для вариационного ряда нормального распределения Ех = 0.

    Для более островершинных распределений, чем нормальное, Ех > 0, для более плосковершинных Ех < 0.

    Например, для первого интервала числитель эксцесс рассчитывается (1176,2- 2942,60)4*17= 1,65519E+14.

Числ.эксцесса

1,65519E+14

1,09829E+13

48808620698

1,74119E+13

1,20002E+14

0

3,64637E+15

Вывод: Эксцесс равен 0,7. Распределение островершинное (>0).

Предельным значением отрицательного эксцесса является значение Ех=-2; величина положительного эксцесса является величиной бесконечной. В нормальном распределении .

Средняя квадратическая ошибка эксцесса исчисляется по формуле

, где nчисло наблюдений.

Если , то распределение можно считать нормальным.

.

, т.е. распределение можно считать нормальным.