8-5
Многофакторный
корреляционно-регрессионный
анализ (КРА)
Стадии
отбора факторов для включения в
модель:
1)
осуществляется анализ и выявление
факторов, влияющих на вариацию
изучаемого признака (результативного
признака)
2)
производится отсев части факторов.
Условием включения факторных признаков
в регрессионную модель является наличие
тесной связи между результативным и факторными
признаками и как можно менее существенная
связь между факторными признаками.
Между
факторными признаками может существовать
значительная линейная связь, что приводит
к недопустимому искажению параметров
регрессии (такое явления называется
мультиколлинеарность). Для выявления
и устранения мультиколлинеарности составляется
матрица парных коэффициентов корреляции,
измеряющих тесноту связи каждого признака-фактора
с результативным признаком и между собой.
Анализ таблицы ведется с учетом критериев:
где
- парный коэффициент корреляции
между j-м и k-м факторами (как правило,
для включения в модель требуется, чтобы
<0,8)
- парный коэффициент корреляции
между результативным признаком и j-м
фактором (как правило, для включения
в модель требуется, чтобы
>0,4)
- парный коэффициент корреляции
между результативным признаком и k-м
фактором
Если
приведенные неравенства (или хотя
бы одно из них) не выполняются, то из модели
исключается тот фактор хj
или хk связь которого с результативным
признаком у будет менее тесной.
3)
производится окончательный отбор
факторов путем анализа значимости
различных вариантов уравнений
с использованием критерия Стьюдента:
tрасч>tтабл
При
многофакторном корреляционном и регрессионном
анализе оцениваются параметры линейного
уравнения вида:
=a0+a1x1+а2х2+…+акхк
Совокупный
коэффициент множественной
корреляции R - показатель тесноты связи
между результативным и двумя и более
факторными признаками, который в общем
случае определяется по формуле
,
где
– общая дисперсия значений
результативного признака
y, характеризует вариацию результативного
признака за счет всех факторов (учтенных
и неучтенных);
– факторная дисперсия значений
результативного признака
y, отражает влияние учтенных факторов
на вариацию у;
– остаточная дисперсия
значений результативного признака, отражает
влияние на вариацию у всех прочих
факторов, неучтенных при моделировании.
Частные
коэффициенты корреляции применяются
для оценки вклада во множественный коэффициент
корреляции каждого из факторов, позволяют
установить степень тесноты связи между
результативным признаком и каждым из
факторных признаков при исключении искажающего
влияния других факторных признаков:
,
где
– общая дисперсия эмпирических
значений y, характеризует вариацию
результативного признака за счет всех
факторов (учтенных и неучтенных);
– факторная дисперсия теоретических
значений результативного признака, отражает
влияние всех учтенных факторов на
вариацию у;
– факторная дисперсия теоретических
значений результативного признака, отражает
влияние учтенных факторов, за исключением
x1, на вариацию у;
– остаточная дисперсия
значений результативного признака, отражает
влияние на вариацию у всех прочих
факторов, неучтенных при моделировании,
и фактора x1.
Совокупный
коэффициент множественной
детерминации R2 показывает, какая
доля вариации изучаемого показателя
объясняется влиянием факторов, включенных
в уравнение множественной регрессии.
Значимость
коэффициента множественной детерминации,
а соответственно и адекватность всей
модели и правильность выбора формы связи
можно проверить с помощью критерия
Фишера:
,
где R2
– коэффициент множественной детерминации
(R2
);
k
– число факторных признаков, включенных
в уравнение регрессии.
Связь считается
существенной, если расчетное значение
F-критерия больше табличного значения
для заданного уровня значимости α
и числе степеней свободы v1 =
k, v2 = n
– k – 1: Fрасч > Fтабл
. |