Теория

Множественная регрессия

Множественная регрессия занимается изучением связи между результативным признаком и двумя и более факторными.

Множественная регрессия определяет:

1) форму связи;

2) тесноту связи;

3) влияние отдельных факторов на общий результат.

Определение формы связи сводится обычно к отысканию уравнения связи у с факторами х1, х2, х3, …, хn. Так, линейное уравнение зависимости результативного признака от двух и более факторных определяется по формуле:

Y=a0 + a1x1 + a2x2+a3x3+…anxn

Алгоритм выполнения индивидуального задания 3

Пакет анализа представляет собой надстройку (вспомогательную программу, служащую для добавления в Microsoft Office специальных команд или возможностей). Чтобы использовать надстройку в Excel, необходимо сначала загрузить ее.

  1. Выберите кнопку «Office» …Параметры Excel… Надстройки.

  2. Щёлкните по кнопке «Перейти».

  3. В раскрывшемся окне активируйте опцию «Пакет анализа».

  1. ОК

  2. В меню «Данные» появляется надстройка «Анализ данных».

В ней представлен список методов статистической обработки данных:

  1. Рассчитайте коэффициенты корреляции (тесноту связи) между отдельными факторами, используя надстройку Пакет анализа.

  1. Откройте файл «Задание для корреляционно-регрессионного анализа», выполненный в Excel.

  2. Удалите из списка суммарные данные по округам и Российской Федерации в целом.

  3. Выберите меню Данные, Анализ данных, Корреляция.

  1. Поместите курсор в окно Входной интервал и обведите мышью все столбцы с данными, включая и заголовки столбцов.

  2. Активизируйте опцию Метки в первой строке (если заголовки столбцов не включены, то метки не активизируются).

  3. В Параметрах ввода активизируйте опцию Новый рабочий лист.

  1. ОК.

  2. В результате на отдельном листе выводится единичная симметричная матрица

В ней представлены коэффициенты корреляции между всеми факторами. Дайте интерпретацию коэффициентам корреляции, например:

  1. связь между Валовым региональным продуктом и Средней начисленной заработной платой, а также Денежными доходами на душу населения и Объёмом промышленного производства– сильная;

  2. между Валовым региональным продуктом и Оборотом розничной торговли – заметная;

  3. между Оборотом розничной торговли и Денежными доходами на душу населения сильная, более 0,8;

  4. связь между Выявленными правонарушениями и остальными факторами отсутствует.

  1. Если связь между независимыми переменными тесная, т.е. если коэффициент корреляции превышает 0,8, то такие независимые переменные называются мультиколлинеарными.

Это означает, что отобранные для анализа независимые факторы совместно воздействуют на общий результат. Эта связь затрудняет оценивание параметров регрессии. Поскольку одним из условий нахождения уравнения множественной регрессии является независимость действия факторов, коллинеарность факторов нарушает это условие. Если факторы модели коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение в этом случае отдается не фактору, более сильно связанному с результатом, а фактору, который при сильной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом условии проявляется специфика множественной регрессии как метода исследования комплексного влияния факторов на результат в условиях их независимости друг от друга.

Например, при изучении зависимости у = f(x, z, v) матрица парных коэффициентов корреляции оказалась следующей:


 

Y

x

z

v

Y

1

 

 

 

x

0,8

1

 

 

z

0,7

0,8

1

 

v

0,6

0,5

0,2

1

Факторы х и z дублируют друг друга, т.к. связь между ними сильная (больше 0,7). В анализ нужно включить фактор z, а не х, хотя корреляция z с результатом у слабее, чем корреляция фактора х с у, но значительно слабее межфакторная связь Rzv (0,2) < Rxv (0,5). Поэтому в приведённом примере в уравнение множественной регрессии включаем факторы z, v.

В решаемой нами задаче исключим фактор Оборот розничной торговли.

Пермь Питер Пятигорск