Лабораторная работа №6. «Множественная линейная регрессияя»

Модульная единица 5.1.

Требования к содержанию, оформлению и порядку выполнения:

Для успешного выполнения работы студенты должны знать материал лекции по темам «Параметризация и спецификация уравнения множественной регрессии».

Теоретическая часть.

Множественный регрессионный анализ является развитием парного регрессионного анализа применительно к случаям, когда зависимая переменная гипотетически связана с более чем одной независимой переменной. Для двухфакторной модели выборочное уравнение множественной линейной регрессии имеет вид:

 

.

 

Оценка параметров осуществляется методом наименьших квадратов, который реализован в инструменте пакета анализа «Регрессия» MS EXCEL.

Коэффициенты при независимых переменных называют коэффициентами чистой регрессии, они показывают, на сколько измениться зависимая переменная, если анализируемый фактор изменится на 1 единицу своего измерения, при условии, что другие факторы останутся зафиксированными на среднем уровне.

Оценка тесноты связи в уравнении множественной регрессии, его качества проводится с использованием множественных коэффициентов детерминации и корреляции.

Напомним, что коэффициент множественной детерминации определяется по формуле:

,

 

где W – общий, – воспроизведенный уравнением, а Wе – остаточный объем вариации.

Множественный коэффициент корреляции (R) и скорректированный коэффициент детерминации ( ):

,

 

где n – число наблюдений (n=12), p – число регрессоров (факторов) в уравнении, в нашем случае p=2).

чувствителен к увеличению числа регрессоров и уменьшению числа наблюдений, чем больше факторов включено в модель и чем меньше число наблюдений, тем больше различия между множественным коэффициентом детерминации и скорректированной его величиной.

Оценка значимости уравнения в целом проводится на основе дисперсионного анализа:

Формулируются гипотезы:

 

Н0:

НА:

 

Выбирается уровень значимости .

В качестве критерия используется критерий F-Фишера.

Уравнение будет значимо, если:

 

.

Оценка значимости параметров проводится с использованием t-теста:

Выдвигается рабочая гипотеза о равенстве нулю всех параметров уравнения в генеральной совокупности и альтернативная ей:

 

H0: HА:

 

Выбирается уровень значимости .

Параметр будет значим, если:

 

.

 

В случае значимости параметров проводится их интервальная оценка:

.

Чтобы продолжить корреляционный анализ и сравнить факторы по силе влияния, определить чистый вклад каждого фактора рассчитывают стандартизованные коэффициенты (коэффициенты эластичности (Э) и бета-коэффициенты (β)) и коэффициенты раздельной детерминации (d2) по каждому фактору:

 

;

;

,

 

где - средние значения, - среднеквадратические отклонения результативного признака, первого и второго факторного признака соответственно.

Стандартизованный коэффициент регрессии показывает, на сколько среднеквадратических отклонений в среднем изменится зависимая переменная при увеличении (уменьшении) только i-той независимой переменной (другие переменные рассматриваются как неизменные, зафиксированные на своем среднем уровне), а коэффициент эластичности Эi – на сколько процентов (от средней) изменится в среднем при увеличении (уменьшении) только хi.

Такая интерпретация коэффициента эластичности вытекает из формулы:

( ).

 

Сумма коэффициентов раздельной детерминации дает множественный коэффициент детерминации:

.

Стандартизованные коэффициенты регрессии позволяют выделить приоритетные факторы, в изменении которых заложены наибольшие возможности в управлении изменением результативного признака.

При использовании уравнения множественной регрессии в целях прогнозирования, необходимо давать точечную и интервальную оценку полученных прогнозных значений зависимой переменной.

Средняя ошибка прогноза ( ) зависит от среднеквадратического отклонения индивидуальных значений от выравненных по уравнению регрессии Se и ошибки положения гиперплоскости регрессии при экстраполяции факторных признаков (расчет этой ошибки производится с применением линейной алгебры, что не входит в программу дисциплины «Эконометрика»).

Доверительный интервал прогноза имеет вид:

.

При оценке прогноза предпочтительнее проводить интервальное оценивание, поскольку вероятность осуществления точечного прогноза невелика.

Общая постановка задачи. Используя средства MS EXCEL построить множественную линейную модель регрессии, рассчитать показатели тесноты связи по индивидуальным данным, стандартизованные коэффициенты регрессии и коэффициенты раздельной детерминации, дать оценку достоверности уравнения в целом и его параметрам, построить и оценить прогноз.

Индивидуальные данные представлены в файле «исходные данные.exl» на листе «множественная регрессия».

 

Пример и методические указания к выполнению работы.

 

Условие. Имеются данные по 12 регионам одного из федеральных округов России о валовом региональном продукте (ВРП), инвестициях в основной капитал в расчете на душу населения и уровне экономической активности населения, представленные в виде электронной таблицы в MS EXCEL (рис. 1).

1. Исходные данные

 

Требуется, используя средства MS EXCEL:

1. построить множественную модель с использованием встроенного инструмента «Регрессия»;

2. оценить показатели тесноты связи;

3. дать оценку уравнения в целом и параметрам, провести интерпретацию коэффициентов чистой регрессии;

4. рассчитать и проанализировать стандартизованные коэффициенты регрессии и коэффициенты раздельной детерминации;

5. рассчитать и оценить прогнозное значение валового внутреннего продукта для округа.

 

Методические указания.

1. Постановка проблемы. Уровень ВРП в расчете на душу населения является основным показателем эффективности экономики региона, уровня жизни населения. Аналогом данного показателя на уровне страны является валовой внутренний продукт (ВВП), увеличение которого является общенациональной задачей.

2. Информационной базой являются данные по 12 регионам РФ из 89. Исследуемая совокупность регионов является выборкой. Число наблюдений в расчете на фактор удовлетворяет минимальным требованиям (напомним, что, по мнению разных ученых, на каждый фактор, включенный в модель должно приходиться от 6-7 до 10 наблюдений как минимум).

3. Спецификация модели (отбор факторов и установление формы связи между ними).

Известно, что уровень ВРП на душу населения – основной показатель уровня жизни, зависит от множества факторов. По имеющимся эмпирическим данным построим множественную модель связи уровня ВРП (у) с инвестициями в основной капитал (х1) в расчете на душу населения и уровнем экономической активности (х2). Предположим, что связь линейная:

 

.

 

5. Построим модель с использованием инструмента «Регрессия», предусмотрев вывод остатков, в итоге получим выходные данные (рис.1).

Выборочная модель множественной линейной регрессии может быть записана в виде:

.

6. Оценим тесноту связи в уравнении.

EXCEL автоматически рассчитал коэффициенты множественной корреляции (множественный R) и детерминации (R-квадрат), а также скорректированный коэффициент детерминации (нормированный R-квадрат) (рис. 1).

Напомним, что коэффициент множественной детерминации определяется по формуле:

,

где W – общий, – воспроизведенный уравнением, а Wе – остаточный объем вариации.

Множественный коэффициент корреляции (R) и скорректированный коэффициент детерминации ( ):

Рис.1. Результаты реализации инструмента «Регрессия»

 

ВЫВОД ИТОГОВ            
             
Регрессионная статистика          
Множественный R 0,963          
R-квадрат 0,927        
Нормированный R-квадрат 0,911          
Стандартная ошибка 5,23          
Наблюдения          
Дисперсионный анализ            
df SS MS F Значимость F  
Регрессия 3132,5 1566,2 57,2 0,000008  
Остаток 246,6 27,4      
Итого 3379,1        
             
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y-пересечение -226,0 54,6956 -4,13 0,00255 -349,7 -102,2
Переменная X 1 0,004 0,0005 7,56 0,00003 0,003 0,005
Переменная X 2 3,935 0,8796 4,47 0,00155 1,945 5,925
ВЫВОД ОСТАТКА          
Наблюдение Предсказанное Y Остатки        
36,8 -6,0        
36,8 1,5        
3 24,8 -3,1        
43,3 -0,7        
32,8 -3,8        
78,2 0,6        
52,5 2,7        
54,1 -4,8        
45,1 2,8        
31,1 11,9        
76,1 0,3        
38,1 -1,6        

 

 

,

где n – число наблюдений (n=12), p – число регрессоров (факторов) в уравнении, в нашем случае p=2).

чувствителен к увеличению числа регрессоров и уменьшению числа наблюдений, чем больше факторов включено в модель и чем меньше число наблюдений, тем больше различия между множественным коэффициентом детерминации и скорректированной его величиной.

Мы получили следующие показатели тесноты связи: R2=0,927, , R=0,963.

Между коэффициентом детерминации и скорректированным коэффициентом существуют различия (1,6%), так как число наблюдений не велико. Поскольку различия не столь существенны, можно использовать R2 и R для оценки тесноты связи. Множественный коэффициент корреляции (R = 0,963) свидетельствует об очень тесной связи между факторами и результатом, множественный коэффициент детерминации показывает, что 92,7 % вариации ВРП на душу населения связано с включенными в модель факторами. Полученные выводы следует оценить: насколько они существенны для генеральной совокупности, поскольку мы получили лишь выборочные показатели связи и выборочное уравнение регрессии.

7. Дадим оценку значимости уравнения в целом, условного начала и коэффициентов чистой регрессии.

Оценка значимости уравнения в целом проводится на основе дисперсионного анализа.

Предположим, что уравнение не значимо для генеральной совокупности (Н0: ) в качестве альтернативной гипотезы выдвинем предположение о значимости уравнения (НА: ). Проверим эти гипотезы на 5% уровне значимости. В качестве критерия выберем критерий F-Фишера, его фактическое значение определяется по формуле.

 

.

Фактическое значение критерия равно 57,2 (рис. 1). Сравним его с критическим значением , которое можно найти, используя встроенную функцию FРАСПОБР( ). В нашем случае: =FРАСПОБР(0,05;2;9)=4,3.

Поскольку фактическое значение превышает критическое, принимаем гипотезу о значимости уравнения в целом.

Можно также оценить значимость критерия (фактического значения), из рис. 1 видно, что критерий значим уже при 0,0008% области, что гораздо меньше принятой нами 5%.

Следовательно, уравнение в целом значимо, но возможно не значим какой-либо из его параметров для генеральной совокупности.

Выдвинем рабочую гипотезу о равенстве нулю всех параметров уравнения в генеральной совокупности и альтернативную ей:

 

H0: HА:

 

Гипотезы проверим на 5% уровне значимости.

Для проверки гипотез используется критерием t-Стьюдента, фактические значения которого определяется по формуле:

,

EXCEL автоматически производит расчет фактических значений критерия Стьюдента и его значимости, средних ошибок, доверительных интервалов (на 95% уровне вероятности суждения) для каждого из параметров уравнения регрессии (рис. 1). Оформим результаты тестирования и оценки генеральных параметров в таблицу (табл. 2).

 

2. Оценка значимости. Точечная и интервальная оценки параметров уравнения регрессии

Пара-метры Выборочная оценка параметров Средняя ошибка, m Значение критерия t-Стьюдента Значимость фактического значения критерия t-Стьюдента Доверительный интервал
фактическое критическое нижняя граница верхняя граница
в0 -226,0 54,6956 4,13 2,26 0,00255 -349,7 -102,2
в1 0,004 0,0005 7,56 2,26 0,00003 0,003 0,005
в2 3,935 0,8796 4,47 2,26 0,00155 1,945 5,925

 

Напомним, что найти критическое значение можно, используя функцию СТЬЮДРАСПОБР( ;n-p-1).

Как видно из табл. 2 все параметры оказались значимы на уровне от 0,003% до 0,255%, а задавали мы 5% уровень. Следовательно, можно дать точечную и интервальную оценку параметрам в генеральной совокупности.

Точечная оценка позволяет предположить, что генеральное уравнение будет иметь параметры:

 

, при соответствующих размерах средних ошибок (табл. 1).

Проведем интервальную оценку:

 

.

Для нашей модели с уровнем вероятности суждения 95% можно утверждать, что параметры генерального уравнения множественной регрессии попадут в интервалы:

 

;

 

Поскольку все параметры уравнения регрессии оказались значимыми, возможна их интерпретация. Коэффициенты чистой регрессии показывают, что:

- при увеличении уровня инвестиций на душу населения на 1 рубль уровень ВРП возрастет в среднем на 4 рубля (с уровнем доверия 95% можно утверждать, что он возрастет от 3 до 5 рублей), при условии, что уровень экономической активности останется зафиксированным на среднем уровне;

- при увеличении уровня экономической активности на 1%, ВРП на душу населения возрастет в среднем почти на 4 тыс. руб. (с уровнем доверия 95% можно утверждать, что он возрастет от 2 до 6 тысяч рублей), если второй фактор не изменится.

Условное начало интерпретации не подлежит.

Следует отметить, что модель можно использовать в целях прогнозирования, поскольку при высоком коэффициенте детерминации все параметры уравнения оказались значимы.

Чтобы продолжить корреляционный анализ и сравнить факторы по силе влияния, определить чистый вклад каждого фактора рассчитаем стандартизованные коэффициенты (коэффициенты эластичности (Э) и бета-коэффициенты (β)) и коэффициенты раздельной детерминации (d2) по каждому фактору:

 

;

;

,

 

где - средние значения, - среднеквадратические отклонения результативного признака, первого и второго факторного признака соответственно.

Сумма коэффициентов раздельной детерминации дает множественный коэффициент детерминации : .

Средние значения определим с использованием встроенной функции «СРЗНАЧ()», а среднеквадратические отклонения – «СТАНДОТКЛОНП()».

Для определения коэффициентов раздельной детерминации нам понадобятся коэффициенты парной корреляции каждого их факторов с результативной переменной. Построим матрицу парных коэффициентов корреляции с использованием инструмента «Корреляция» пакета анализа данных EXCEL:

 

Результаты расчетов стандартизованных коэффициентов регрессии и коэффициентов раздельной детерминации оформим (табл.3).

 

3. Стандартизованные коэффициенты регрессии и коэффициенты раздельной детерминации

Переменная Коэффициент чистой регрессии, b Среднее значение Среднеквадратическое отклонение, σ Коэффициент парной корреляции с зависимой переменной, ryx Коэффициент эластичности, Э Бэта-коэффициент, β Коэффициент раздельной детерминации, d2
ВРП в расчете на душу населения (у) х 45,8 16,8 1,000 х х х
инвестиции в основной капитал в расчете на душу населения (х1) 0,004 6289,5 3359,2 0,874 0,5 0,7 0,635
уровень экономической активности населения (х2) 3,935 63,3 1,8 0,681 х 0,4 0,292
Итого   х х х х х 0,927

Коэффициент эластичности (Э1) показывает, что при увеличении инвестиций в расчете на душу населения на 1% ВРП возрастет на 0,5%, при условии, что экономическая активность будет зафиксирована на среднем уровне. Расчет коэффициента по второму фактору не имеет смысла, поскольку уровень экономической активности – это показатель структуры, уже выраженный в процентах от общей численности трудовых ресурсов. Так как , то по данному признаку отношение не имеет смысла.

-коэффициентыпоказывают, что если каждый из факторов изменится на свое среднеквадратическое отклонение, то ВРП под воздействием первого фактора изменится на 0,7 своего среднеквадратического отклонения, второго фактора – на 0,4. То есть, большее влияние на изменение ВРП оказывает уровень инвестиций.

Коэффициенты раздельной детерминации показывают вклад каждого фактора в формирование коэффициента множественной детерминации, вклад первого фактора – 0,635, второго – 0,292. Сумма частных коэффициентов равна коэффициенту детерминации: .

Итак, при анализе стандартизованных коэффициентов регрессии и коэффициентов раздельной детерминации было выявлено, что на уровень валового регионального продукта в расчете на душу населения влияние различий в уровне инвестиций сильнее, чем различий в уровне экономической активности населения.

6. Определим прогнозное значение ВРП на душу населения. Предположим, что в изучаемом округе удастся повысить уровень вложений с 6290 руб. до 7000 (в трех регионах уже достигнуты и более высокие уровни), т.е. запланируем прирост на уровне 10-11%; а уровень экономической активности увеличить на 1 % по сравнению со средним, т.е. предположим, что он достигнет 64,3%.

Подставим прогнозные значения факторов в уравнение регрессии, тогда прогнозное значение ВРП составит: =52,4 тыс. руб. в расчете на душу населения, что на 6,6 тыс. руб., или 14,5%, больше достигнутого среднего уровня. Средняя ошибка прогноза ( ) зависит от среднеквадратического отклонения индивидуальных значений от выравненных по уравнению регрессии Se (Se=5,23 (см. рис. 1) и ошибки положения плоскости регрессии при экстраполяции факторных признаков (расчет этой ошибки производится с применением линейной алгебры, что не входит в программу дисциплины).

Пример точечного и интервального оценивания (студентам не требуется проводить аналогичные расчеты):

С использованием элементов линейной алгебры была получена средняя ошибка прогноза: .

Средняя ошибка прогноза велика вследствие большой дисперсии остатка, на величину которой в свою очередь оказывает влияние число степеней свободы, которое равно всего 9 регионам. Поэтому при увеличении числа наблюдений качество прогноза повысится.

Доверительный интервал прогноза имеет вид:

.

Прогнозное значение в генеральной совокупности при уровне вероятности суждения 95% будет находиться в пределах:

, т.е. от 40 до 65 тыс. руб.

 

Но в нашем случае средняя ошибка прогноза лишь немного превышает ошибку регрессии: , Se=5,23.

Если в качестве приблизительной оценки взять Se, то 95% доверительный интервал прогноза составит (без учета ошибки положения плоскости регрессии):

Т.е. прогнозное значение будет находиться в пределах от 41 до 64 тыс. руб. Результаты практически совпадают, таким образом, для данной модели регрессии интервальное оценивание может быть проведено только с учетом средней ошибки значения результативного признака (Se).

 

Контрольные вопросы к защите

 

1. Какова форма уравнения множественной линейной регрессии?

2. Что показывают чистые коэффициенты регрессии?

3. Как оценить значимость уравнения множественной регрессии в целом?

4. Как оценить значимость параметров уравнения регрессии?

5. Какие показатели используются для оценки качества уравнения множественной регрессии?

6. Чем отличается скорректированный коэффициент множественной детерминации от множественного коэффициента детерминации?

7. Раскройте назначение стандартизованных коэффициентов регрессии.

8. Как рассчитать средний коэффициент эластичности, и какова его интерпретация?

9. Что показывает бета-коэффициент и как его рассчитать?

10. Как рассчитываются и интерпретируются коэффициенты раздельной детерминации?

11. Как выявить приоритетный фактор(ы) в формировании уровня результативного признака?

12. Как определяется прогнозное значение по уравнению множественной регрессии?

 

 

Способ оценки результатов

№ п/п Элементы выполнения работы и усвоения теоретического материала Максимальный балл
Расчетная часть работы выполнена корректно и полностью
Сделаны подробные выводы, в которых отражены выявленные закономерности
Защита работы
Соблюдение сроков защиты
Итого х