Кластерный анализ — это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором признаков (параметров) Х1, Х2, …, Хk. Целью кластерного анализа является образование групп схожих между собой объектов, которые принято называть кластерами (другие названия — класс, таксон, сгущение). Методы кластерного анализа ...
Для оценки параметров идентифицируемой системы может использоваться косвенный метод наименьших квадратов. Пусть строится система взаимозависимых уравнений регрессии: Эта система является структурной формой, а параметры a10, b12, a11, a20, b21 и a22 — структурными коэффициентами. Подставим правую часть второго уравнения в первое уравнение вместо ; после преобразований получим: ...
Система одновременных уравнений может быть преобразована к приведенной форме, в каждом уравнении которой результативная переменная выражена только через факторные переменные. Первоначальная система в этом случае называется структурной формой. Для существования однозначного соответствия между параметрами структурной и приведенной форм необходимо, чтобы каждое уравнение системы ...
Экономические показатели, часто оказываются взаимозависимыми. Структура связей между переменными может быть описана с помощью системы одновременных уравнений регрессии, которые бывают двух видов: 1. В системе взаимозависимых линейных уравнений одни и те же результативные переменные одновременно рассматриваются как зависимые в одних уравнениях и как независимые в других: ...
Точечный прогноз результата Y представляет собой рассчитанное по уравнению регрессии значение Y в предположении того, что факторы X1, X2, …, Xp примут соответственно значения x01, x02, …, x0p: . Стандартная ошибка прогноза . Интервальный прогноз значения Y: , где tтаб — табличное значение t-критерия Стьюдента при и . Предполагается, что с вероятностью фактическое значение Y ...
Для экономического анализа уравнения регрессии используют: 1. Средний коэффициент эластичности . Он показывает, на сколько процентов изменяется в среднем Y при увеличении только фактора Xj на один процент. 2. С помощью бета-коэффициентов можно упорядочить факторы по степени их влияния на Y: больший модуль бета-коэффициента соответствует более сильному влиянию. 3. ...
Автокорреляции остатков наблюдается тогда, когда значения предыдущих остатков завышают (положительная) или занижают (отрицательная) значения последующих. Положительная автокорреляция на графике остатков проявляется в чередовании зон положительных и отрицательных остатков: Отрицательная автокорреляция на графике выражается в том, что остатки «слишком часто» меняют знак: ...
Гетероскедастичность остатков проявляется в том, что их дисперсия (разброс) зависит от значений факторов: и: Гетероскедастичность приводит к тому, что может быть ошибочно принято решение о статистической значимости коэффициентов регрессии, тогда как на самом деле это не так. Выполнение предпосылки 3 может проверяться методом Глейзера, для чего рассчитывается коэффициент ...
Проверка предпосылки 1 может проводиться путем визуального анализа графиков остатков от значений факторов либо от предсказанных уравнением регрессии значений результата Y. Остатки считают случайными, если на графике они расположены в виде горизонтальной полосы: Выполнение предпосылки 5 может проверяться с помощью R/S‑критерия , где emax, emin — соответственно наибольший и ...
Коэффициенты уравнения регрессии b0, b1, b2, …, bp являются случайными величинами. Если выполняются предпосылки 1 — 4 МНК, то они обладают следующими свойствами: 1. Несмещенности. Математическое ожидание коэффициента равно соответствующему истинному параметру регрессии: . 2. Эффективности. Они характеризуются наименьшей дисперсией: . 3. Состоятельности. При увеличении числа ...
Для получения корректной модели следует проверить выполнение предпосылок МНК: 1. Остатки регрессии (i=1, 2,…, n) являются случайными. 2. Средняя величина остатков равна нулю. Данная предпосылка всегда выполняется для линейных моделей со свободным коэффициентом. 3. Дисперсия остатков одинакова и не зависит от значений факторов. 4. Остатки независимы (отсутствие ...
Для проверки значимости уравнения в целом используется F–статистика . Уравнение значимо, если , где Fтаб — табличное значение F‑критерия Фишера при принятом , и . В качестве меры точности используются стандартная ошибка регрессии и средняя относительная ошибка аппроксимации . Продолжение примера 3. В EXCEL также были получены F–статистика F=17,08 и стандартная ошибка ...
Компьютерные программы рассчитывают для каждого из коэффициентов уравнения регрессии стандартную ошибку и t-статистику . Коэффициент bj признается статистически значимым, если , где tтаб — табличное значение t-критерия Стьюдента в соответствии с принятым и . Обычно рассчитывается и наблюдаемый уровень значимости («P-Значение») — вероятность того, что bj сформировался ...
Основным показателем качества модели множественной регрессии является множественный коэффициент детерминации . Он показывает, какая доля изменений результата Y учтена в модели и обусловлена влиянием включенных факторов. Чем ближе R2 к единице, тем выше качество модели. Заметим, что R2 всегда увеличивается при добавлении в модель новых факторов, даже не оказывающих ...
Ситуация, когда два фактора связаны между собой тесной линейной связью (), называется коллинеарностью. Коллинеарные факторы математически дублируют друг друга, поэтому один из них целесообразно исключить из рассмотрения, исходя из желаемого вида модели. Если ни одному из факторов нельзя отдать предпочтение, то в модели оставляют тот из них, который имеет больший по модулю ...
Перед построением модели вычисляются парные коэффициенты корреляции между всеми исследуемыми переменными, анализ которых позволяет выявить факторы наиболее сильно связанные с результатом Y, а также определить направление связей и факторы, тесно связанные друг с другом. Пример 2. Пусть получена матрица парных коэффициентов корреляции: Y X1 X2 X3 X4 Y ...
Наиболее часто применяются два метод отбора факторов: 1. Метод исключения предполагает построение модели, включающей всю совокупность факторов, с последующим сокращением их числа до тех пор, пока все коэффициенты при факторах не будут иметь t-статистики, превышающие по модулю единицу. На каждом шаге исключается тот фактор, коэффициент при котором незначим и имеет наименьшую ...
В модели регрессии можно учесть влияние на Y и качественного фактора, для чего его необходимо преобразовать в фиктивную переменную (ФП), в качестве которой используются двоичные переменные, принимающие значения (уровня): 0 или 1. Модель регрессии с хотя бы одной фиктивной переменной называется моделью с переменной структурой. Значение фиктивной переменной, равное «1», обычно ...
Чем больше факторов включено в модель, тем лучше она объясняет формирование результата Y. Однако при этом: каждый фактор должен быть теоретически обоснованным; в модель следует включать только существенно влияющие на Y факторы; факторы не должны находиться друг с другом в тесной связи; число наблюдений n должно как минимум в 4 раза превышать число факторов p: .
На практике изменение значения результата Y обычно зависит от одновременного изменения нескольких факторов. В этом случае строится модель множественной регрессии, простейшей из которых является линейная модель . Параметры 1, 2, …, p показывают, на сколько единиц в среднем изменяется Y при увеличении соответствующего фактора на одну единицу и неизменных значениях остальных ...