Коллинеарность факторов. Методы преодоления межфакторной связи

Предположим, что

у = a +b1х1 +b2х2 + и

и допустим, что величины b1и b2 положительны и х1 и х2 положительно коррелированы.

Что произойдет, если оценить парную регрессию между у и х1? По мере увеличения х1:

1) у имеет тенденцию к росту, поскольку коэффициент b1 положителен; 2) х2 имеет тенденцию к росту, так как х1 и х2 положительно коррелированы ;

3) у получит ускорение из-за увеличения х2 и благодаря тому, что коэффициент b2 положителен. Другими словами, изменения у будут преувеличивать влияние текущих значений х1 , так как отчасти они будут связаны с изменениями х2 . В результате оценка значения b1 будет смещена

Считается, что факторы явно коллинеарны (то есть находятся между собой в линейной зависимости), если коэффициент парной линейной корреляции между ними rx1x2 ³ 0,7. Коллинеарность факторов нарушает условие независимости объясняющих переменных и приводит к тому, что факторы дублируют друг друга. Коэффициенты интеркорреляции (то есть коэффициенты корреляции между самими факторами) позволяют исключать из модели какой-то из дублирующих факторов. Оставлять в модели следует не тот фактор, который теснее связан с результатом, а тот, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. Рассмотрим пример.

 

Таблица 5.1. Коэффициенты парной корреляции между переменными

  у х1 х2 Х3
у      
х1 0,78    
х2 0,69 0,73  
Х3 0,57 0,49 0,12

 

Очевидно, что факторы х1 и х2 дублируют друг друга. В модель целесообразно включить фактор х2 , а не х1,, так как у него значительно слабее связь с третьим фактором.

Наибольшие трудности в аппарате множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более двух факторов связаны между собой тесной линейной зависимостью, то есть имеет место совокупное воздействие факторов друг на друга. Включение мультиколлинеарных факторов в модель приводит к следующим негативным последствиям:

1) такие факторы всегда будут действовать в унисон, поэтому затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом виде», параметры линейной множественной регрессии теряют экономический смысл;

2) оценки параметров связи становятся ненадежными, обнаруживают большие стандартные ошибки, что делает модель непригодной для анализа и прогнозирования.

Существует ряд методов, которые позволяют преодолеть сильную межфакторную связь.

Первый метод основан на последовательном анализе коэффициентов множественной детерминации, где в качестве зависимой переменной рассматривается каждый из факторов (R2x1/x2x3…, R2x2 /x1x3 и т.п.). Чем ближе значение коэффициента множественной детерминации к единице, тем сильнее проявляется мультиколлинеарность факторов. Сравнивая между собой коэффициенты множественной детерминации факторов, можно выделить переменные, ответственные за мультиколлинеарность и исключить их из модели. В уравнении останутся факторы с минимальной величиной межфакторной связи.

Второй метод связан с преобразованием факторов, при котором уменьшается корреляция между ними. Этот метод наиболее часто используется при анализе корреляции в динамических рядах экономических показателей. При построении модели на основе рядов динамики переходят от первоначальных данных к первым разностям уровней , чтобы исключить влияние тенденции (мы подробнее познакомимся с этим методом позднее в теме «корреляция в рядах динамики»).

Третий метод – построение совмещенных уравнений регрессии. Совмещенными называют уравнения, которые отражают не только влияние факторов, но и их взаимодействие. Так, если у=f(x1,x2,x3), то возможно построение следующего совмещенного уравнения

y=a+b1x1+b2 x2+b3x3+b12x1x2+b13 x1x3+b23 x2x3

Если дисперсионный анализ совмещенного уравнения по критерию Фишера доказал статистическую значимость взаимодействия только первого и третьего факторов, то уравнение регрессии будет иметь вид:

y=a+b1x1+b2 x2+b3x3+2+b13 x1x3

Взаимодействие факторов (первого и третьего) можно продемонстрировать на рисунке 5.1.2.

Если взаимодействие есть, то на разных уровнях третьего фактора влияние первого фактора будет неодинаково (б). И наоборот, параллельные линии влияния первого фактора на результат при разных уровнях третьего фактора означают отсутствие взаимодействия самих факторов (а).

Четвертый метод преодоления мультиколлинеарности факторов – переход к уравнениям приведенной формы. С этой целью в уравнение регрессии производится подстановка рассматриваемого фактора через выражение его из другого уравнения. Пусть, например, рассматривается двухфакторная регрессия у = a +b1х1 +b2х2, для которой факторы обнаруживают высокую корреляцию. Если исключить один из факторов, то мы придем к уравнению парной регрессии. Вместо этого, можно оставить факторы в модели, но исследовать данное двухфакторное уравнение регрессии вместе с другим уравнением, где второй фактор рассматривается как зависимая переменная х2 = А + Ву+ Сх3.. Далее можно подставить правую часть данного равенства (А + Ву+ Сх3) вместо х2 в исходную модель.

Итак, мы имели следующие проблемы: первый и второй фактор одновременно включать было нельзя из-за тесной их связи; второй фактор был также функционально связан с третьим фактором, что также не давало возможности их одновременного включения. Выразив второй фактор через третий, мы включили его действие в модель, избежав при этом корреляции самих факторов.