Понятие множественной регрессии, и ее графическая интерпретация

 

Множественный регрессионный анализ является развитием парного регрессионного анализа применительно к случаям, когда зависимая переменная гипотетически связана с более чем одной независимой переменной. Большая часть анализа будет непосредственным расширением парной регрессионной модели, но здесь мы сталкиваемся с двумя новыми проблемами. Во-первых, при оценке влияния данной независимой переменной на зависимую переменную нам придется решать проблему разграничения ее воздействия и воздействий других независимых переменных. Во-вторых, мы должны будем решить проблему спецификации модели. Часто предполагается, что несколько переменных могут оказывать влияние на зависимую переменную, с другой стороны, некоторые переменные могут не подходить для модели. Мы должны решить, какие из них следует включить в уравнение регрессии, а какие - исключить из него, и какова форма связи изучаемых переменных? В большинстве ситуаций мы ограничимся основным случаем, где используются только две независимые переменные.

Начнем с рассмотрения примера, в котором определяются факторы совокупного спроса на продукты питания. Расширим первоначальную модель, включив учет влияния ценовых изменений на спрос, и допустим, что истинную зависимость можно выразить следующим образом:

у = a + b1х + b2 р + и, (5.1.1)

где у - общая величина расходов на питание, х - располагаемый личный доход, а р - цена продуктов питания. Это, разумеется, является значительным упрощением как с точки зрения состава независимых переменных, включенных в зависимость, так и с точки зрения математической формулы связи.

Для геометрической иллюстрации этой зависимости необходима трехмерная диаграмма с отдельными осями для у, х и р (рис. 5.1.1).

 

 

Рис. 5.1.1.

 

 

Основание диаграммы содержит оси для х и р, и если пренебречь текущим влиянием случайного члена, то наклонная плоскость над ним показывает величину у , соответствующую любому сочетанию х и р, измеренную расстоянием по вертикали от данной точки до этой плоскости. Так как расходы на питание могут увеличиваться с ростом доходов и уменьшаться с увеличением цены, изображение на диаграмме было построено на основе допущения о том, что величина b1 является положительной, а величина b2 - отрицательной. Конечно, нереально было бы предположить, что одна из величин х и р могла бы быть равной нулю, но если бы обе величины х и р оказались равными нулю, то величина у равнялась бы a. При сохранении р = 0 уравнение (5.1.1) означает, что для любого положительного дохода величина у будет равна (a + b1х), и на рис. 5.1 приращение b1х обозначено как "чистый эффект дохода". При сохранении х = 0 уравнение означает, что для любой положительной цены величина у будет равной (a + b2р), приращение b2 р на рисунке обозначено как "чистый эффект цены". Поскольку b2 на практике является отрицательной величиной, отрицательным будет и этот эффект. Показан также комбинированный эффект дохода и цены (b1х + b2р).

До сих пор мы пренебрегали случайным членом. Если он отсутствует на данный момент в уравнении (5.1.1), то значения у в выборке наблюдений для у, х и р будут находиться точно на наклонной плоскости и будет довольно просто вывести точные значения b1 и b2.

Учет случайного члена приводит к тому, что фактические значения у будут лежать несколько выше или ниже значений, соответствующих наклонной плоскости. Следовательно, теперь мы имеем трехмерный аналог для двухмерной задачи, рассмотренной в теме «Парная линейная регрессия». Вместо нахождения линии, соответствующей двухмерному рассеянию точек, мы теперь должны расположить плоскость так, чтобы она соответствовала трехмерному рассеянию. Уравнение для выбранной плоскости будет иметь вид:

(5.1.2)

и ее расположение будет зависеть от выбора величин а , b1 и b2 , являющихся, соответственно, оценками a , b1 и b2.

Используя данные для США за 1959 - 1983 гг. по затратам на питание, располагаемому личному доходу и ценам, мы получим уравнение регрессии:

; R2 =0,99, (5.1.3)

где у и х измерены в долларах США в постоянных ценах 1972 г., а р является индексом относительной цены, вычисленной путем деления неявного дефлятора цен на продукты питания на неявный дефлятор общих расходов ( равный 100 в 1972 г.) и умноженным на 100.

Полученное уравнение следует интерпретировать следующим образом. При каждом увеличении располагаемого личного дохода на 1 млрд. долл. (при сохранении постоянных цен) расходы на питание увеличатся на 112 млн.долл. На каждую единицу увеличения индекса цен ( при сохранении постоянных доходов) эти расходы уменьшаться на 739 млн. долл. Чистый эффект в любой момент времени будет зависеть не только от этих коэффициентов , но и от размеров изменений х и р.

Например, в период 1975-1980 гг. располагаемый личный доход увеличился на 145,8 млрд. долл., и, согласно уравнению (5.3), это привело к увеличению расходов на питание на 16,3 млрд. долл. В течение указанного периода индекс цен упал со 111,9 до 109,7, т.е. на 2,2 пункта, и это привело к дальнейшему увеличению у на 1,6 млрд. долл. Совместный эффект, прогнозируемый уравнением (5.3), таким образом, составил увеличение затрат на питание в размере 17,9 млрд. долл. Фактическое увеличение оказалось несколько больше, а именно 20,3 млрд. долл.

Даже если спецификация модели оказалась бы верной, то между прогнозируемым изменением и полученным результатом будет наблюдаться расхождение. Прежде всего, оценки b1 и b2 подвержены влиянию ошибки выборки. Кроме того, фактические уровни затрат на питание в 1975 и 1980 гг. определялись не только экономической зависимостью, но и случайным членом и в тот и в другой годы, а следовательно, измеренное приращение в течение этого периода имеет, наряду с экономической составляющей, также и случайную составляющую.

 

 

5.1.2. Отбор факторов при построении модели.

Основная цель множественной регрессии - построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также их совокупное влияние на результативный признак.

Построение уравнения множественной регрессии, как и в случае парной зависимости признаков, начинается с проблемы спецификации модели. Эта проблема включает в себя два круга вопросов – отбор факторов и выбор вида уравнения регрессии. Их решение при построении модели множественной регрессии имеет некоторую специфику.

Отбор факторов.

1. Отбор факторов производится на основе качественного теоретико-экономического анализа, то есть включение в уравнение тех или иных факторов должно опираться на понимание природы взаимосвязи экономических переменных.

2. Факторы должны быть количественно измеримы. Если исследователь хотел бы включить в модель качественный фактор (например, район города как фактор цены на квартиру), то нужно придать этому фактору количественную определенность. В зависимости от целей модели район города можно ранжировать по экологической ситуации, или по удаленности от центра и в модель включить уже порядковый номер района в ранжированном ряду.

3. Каждый из факторов не может быть частью другого.

4. Число включаемых факторов должно быть как минимум в 6-7 раз меньше объема совокупности, по которой изучается регрессия.

5. Каждый дополнительно включенный в уравнение регрессии фактор должен увеличивать множественный коэффициент детерминации, то есть доля объясненной вариации результативного признака за счет включенного фактора должна увеличиваться, а, соответственно, доля остаточной вариации должна уменьшаться. Если до включения фактора в модель и после его включения коэффициенты множественной детерминации мало отличаются друг от друга, то данный фактор является лишним в модели. Насыщение модели лишними факторами приводит к статистической недостоверности параметров регрессии по критерию Стьюдента.

6. Факторы, включенные в модель, должны быть независимы друг от друга, то есть они не должны быть интеркоррелированы друг с другом и, тем более, находиться в жесткой функциональной связи. Если между самими факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результат и параметры уравнения тогда невозможно интерпретировать.

Проблема коррелированности факторов является наиболее серьезной проблемой множественной регрессии, поэтому рассмотрим ее подробнее.