Скорректированный индекс детерминации (корреляции).

В рассмотренных показателях множественной корреляции (индекс и коэффициент) используется остаточная дисперсия, которая имеет систематическую ошибку в сторону преуменьшения, тем более значительную, чем больше параметров определяется в уравнении регрессии при заданном объеме п. Таким образом, чем больше параметров при х, тем ближе остаточная дисперсия к нулю и, тем ближе коэффициент (индекс) корреляции приблизится к единице даже при слабой связи фактора с результатом. Для того, чтобы не допускать возможного преувеличения тесноты связи, используется скорректированный индекс (коэффициент) множественной корреляции.

Скорректированный индекс множественной корреляции содержит поправку на число степеней свободы, а именно: остаточная сумма квадратов делится на число степеней свободы остаточной вариации, а общая сумма квадратов делится на число степеней свободы в целом по совокупности

(5.2.11)

Поскольку , то величину скорректированного индекса детерминации можно представить в виде

(5.2.12)

Чем больше т, тем сильнее различия между и R2.

Для линейной зависимости признаков скорректированный коэффициент множественной корреляции определяется как корень квадратный из скорректированного коэффициента детерминации. Отличие состоит лишь в том, что в линейной регрессии под т понимают число факторов, включенных в модель, а в криволинейной зависимости т – число параметров при х и их преобразованиях (х2, loq x и др.). Так, для функции

y = a + b1x1 + c1x21+ b2x2 + c2x22 m = 4.

При заданном объеме наблюдений с увеличением числа факторов скорректированный коэффициент множественной детерминации убывает Его величина может стать и отрицательной при слабых связях результата с факторами, в этом случае он должен считаться равным нулю. Чем больше объем совокупности, тем ближе значения и R2.

В статистических пакетах прикладных программ в процедуре множественной регрессии обычно приводится скорректированный коэффициент (индекс) корреляции (детерминации). Величина коэффициента детерминации применяется для оценки качества модели. Низкое значение показателя означает, что в модель не включены существенные факторы – с одной стороны, а с другой – форма связи не отражает реальные соотношения между переменными. Требуется дальнейшая работа по улучшению качества модели.

 

Частная корреляция.

Ранжирование факторов, участвующих в множественной линейной регрессии, может быть проведено с помощью стандартизованных коэффициентов регрессии, коэффициентов раздельной детерминации, а также с помощью частных коэффициентов корреляции для линейных связей, с помощью частных индексов детерминации для нелинейных связей.

Частные коэффициенты (или индексы) корреляции, в отличие от полных, характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии.

Показатели частной корреляции представляют собой отношение сокращения остаточной дисперсии за счет дополнительного включения в анализ нового фактора к остаточной дисперсии, имевшей место до введения его в модель.

Пусть - остаточная дисперсия до введения фактора х2 в модель, а – остаточная дисперсия после его введения. Тогда сокращение остаточной дисперсии за счет дополнительного введения фактора составит - .

Чем больше доля этого сокращения в остаточной вариации до введения этого фактора, тем сильнее его воздействие на результат при постоянном действии ранее включенного фактора. Следовательно, чистое влияние фактора х2 на результат можно определить по формуле

(5.2.13)

 

А чистое влияние на результат фактора х1

(5.2.14)

Если выразить остаточную дисперсию через показатель детерминации

s ост2 = σу 2 (1 – r2), то формула коэффициента частной корреляции примет вид

(5.2.15)

 

Частные коэффициенты корреляции подтверждают ранг факторов по их воздействию на результат, проведенную на основе стандартизованных коэффициентов. Если из стандартизованного уравнения мы получаем, что , то тот же порядок факторов определяется и по соотношению частных коэффициентов корреляции.

В эконометрике частные коэффициенты корреляции в основном используют на стадии формирования модели в процедуре отсева факторов.

Так, строя многофакторную модель методом исключения переменных

1) определяется уравнение регрессии с полным набором факторов;

2) рассчитывается матрица частных коэффициентов корреляции;

3) отбирается фактор с наименьшей и несущественной по критерию Т-Стьюдента величиной показателя частной корреляции, он исключается из модели;

4) строится новое уравнение регрессии и процедура повторяется до тех пор, пока не окажется, что все оставшиеся факторы существенно отличаются от нуля. Если исключен несущественный фактор, то множественные коэффициенты детерминации на двух смежных шагах построения модели почти не отличаются друг от друга.

Частные F- тесты

Достоверность уравнения множественной регрессии в целом, как и парной, оценивается с помощью критерия Фишера

(5.2.16)

где

Wобщ.=п×σу 2 ; Wрегр.= Wобщ×R2 ; ; Wост..= Wобщ×(1-R2)= Wобщ.- Wрегр

Оценивается также значимость не только уравнения в целом, но и фактора, дополнительно включенного в регрессионную модель. Необходимость такой оценки связана с тем, что не каждый фактор, вошедший в модель, может существенно увеличивать долю объясненной вариации результативного признака. Мерой для оценки включения фактора в модель служит частный критерий Фишера. Частный F - критерий построен на сравнении прироста факторной дисперсии, обусловленного влиянием дополнительно включенного фактора с остаточной дисперсией на одну степень свободы по регрессионной модели, включающей полный набор факторов

(5.2.17)

Так как прирост факторной суммы квадратов отклонений обусловлен дополнительным включением в модель одного исследуемого фактора, то число степеней свободы для него равно dfx1 = 1. Для остаточного объема вариации число степеней свободы dfост = n-m-1. Соотношение числа степеней свободы приведено в формуле частного F-критерия в виде дроби .

Дисперсионный анализ такой модели отличается от анализа, проводимого нами ранее. Источник вариации «регрессия» раскладывается здесь на две составляющие:

1) обусловленная влиянием фактора х1;

2) обусловленная дополнительным включением в модель фактора х2. Соответственно для двухфакторной линейной регрессии число степеней свободы для регрессии, равное двум, также раскладывается на число степеней свободы для каждого фактора, то есть 1 для фактора х1 и 1 для фактора х2.

Сумма квадратов за счет регрессии Wрегр распадается здесь на две суммы. Сумма квадратов, обусловленная включением в модель фактора х1 (Wрегр х1), определяется в предположении, что построено лишь парное уравнение регрессии ух1=а + вх1. Эта величина может быть определена следующим образом Wрегрх1 = rух12× Wобщ. Сумму квадратов, обусловленную дополнительным включением фактора х2, после того, как в модель включен фактор х1, определим как разность суммы квадратов за счет регрессии по двум факторам и за счет регрессии только фактора х1. Далее по известным нам формулам определяется дисперсии на одну степень свободы и критерии Фишера. Если величина частного критерия Фишера оказывается меньше табличного, то включение в модель такого фактора нецелесообразно.

 

Предпосылки МНК.

При оценке параметров уравнения регрессии мы применяем метод наименьших квадратов (МНК). В модели у = a + b1х + b2 р + е, случайная составляющая (е) представляет собой «необъясненную или ненаблюдаемую величину». После того, как произведено решение модели, то есть дана оценка параметрам, мы можем определить величину остатков в каждом конкретном случае как разность между фактическими и теоретическими значениями результативного признака еi=yi- . Поскольку это не есть реальные остатки, то мы их считаем лишь выборочной реализацией неизвестного остатка заданного уравнения. При изменении спецификации модели, добавления в нее новых наблюдений, выборочные оценки остатков могут меняться, поэтому в задачу регрессионного анализа входит не только построение самой модели, но и исследование случайных отклонений, то есть остаточных величин.

В предыдущих разделах мы останавливались на формально-математических проверках статистической достоверности коэффициентов регрессии и корреляции с помощью Т-критерия Стьюдента и критерия Фишера. При использовании этих критериев делаются предположения относительно поведения остатков: предполагают, что 1) остатки представляют собой независимые случайные величины и их среднее значение равно нулю; 2) остатки имеют постоянную дисперсию и подчиняются закону нормального распределения.

Пока мы не построим модель, остатки определены быть не могут, и поэтому мы не можем проверить, обладают ли они этими свойствами или нет. Таким образом, проверяя статистическую достоверность параметров связи, мы опираемся всего лишь на непроверенные предпосылки о распределении случайной составляющей уравнения регрессии. Но после построения уравнения регрессии мы уже можем определить остатки и проверить у них наличие тех свойств, которые предполагались вначале.

С чем связана необходимость проверки таких свойств? Связано это с тем, что выборочные оценки параметров регрессии должны отвечать определенным критериям. Они должны быть несмещенными, состоятельными и эффективными. Эти свойства оценок, полученных по МНК, имеют важное практическое значение в использование результатов регрессии и корреляции.

Несмещенные оценки означают, что математическое ожидание остатков равно нулю. Следовательно, при большом числе выборочных оценок коэффициента регрессии в найденный параметр по результатам одной выборки можно рассматривать как среднее значение из большого числа несмещенных оценок.

Оценки считаются эффективными, если они характеризуются меньшей дисперсией (то есть мы имеем минимальную вариацию выборочных оценок).

Оценки считаются состоятельными, если их точность увеличивается с увеличением объема выборки.

Условия, необходимые для получения несмещенных, состоятельных и эффективных оценок, представляют собой предпосылки МНК, соблюдение которых желательно для получения достоверных результатов регрессии.

Предпосылки МНК:

1- случайный характер остатков;

2- гомоскедастичность – дисперсия остатков одинакова для всех значений фактора;

3- отсутствие автокорреляции остатков (то есть остатки распределены независимо друг от друга);

4- остатки подчиняются нормальному закону распределения.

В тех случаях, когда эти предпосылки выполняются, оценки, полученные по МНК, будут обладать вышеназванными свойствами, если же некоторые предпосылки не выполняются, то необходимо корректировать модель.

Итак, проверяем случайный характер остатков. С этой целью строится график зависимости остатков от теоретических значений результативного признака (рис.5.2.1.)

Если на графике получена горизонтальная полоса, то остатки представляют собой случайные величины и МНК оправдан.

Возможны иные случаи (рис.5.2.2):

 

 

 

 

а) – остатки носят систематический характер, то есть отрицательные значения соответствуют низким значениям расчетных «у», а положительные – высоким;

б) – преобладание положительных остатков над отрицательными. В этих случаях необходимо применять либо другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии до тех пор, пока остатки не будут случайными величинами.

Вторая предпосылка МНК требует, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора остатки имеют одинаковую дисперсию. Если это условие не соблюдается, то имеет место гетероскедастичность.Наличие гомо- или гетероскедастичности можно видеть по графику зависимости остатков от теоретических значений результативного признака (рис. 5.2.3.):

 

 

а) большая дисперсия остатков для больших значений «у» (гетероскедастичность);

б) большая дисперсия остатков для средних значений «у» (гетероскедастичность);

в) – большая дисперсия для меньших значений результата (гетероскедастичность);

г) – равная дисперсия (гомоскедастичность).

Наличие гетероскедастичности приводит к смещенным оценкам коэффициентов регрессии, а также уменьшает их эффективность. В частности, становится затруднительным использование формулы стандартной ошибки коэффициента регрессии, которая предполагает единую дисперсию остатков.

Для множественной регрессии данный вид графиков является наиболее приемлемым визуальным способом изучения гомо- или гетероскедастичности. Однако, чтобы убедиться в наличии этих качеств, обычно не ограничиваются визуальной проверкой гетероскедастичности, а проводят также ее количественное подтверждение. При малом объеме выборки, что характерно для эконометрических исследований для этих целей используется метод Гольдфельда –Квандта, который включает в себя следующие шаги:

1. Упорядочение наблюдений по мере возрастания фактора х.

2. Исключение из наблюдений нескольких центральных наблюдений (С). При этом должно выполняться условие, что (N – С)/2 должно быть больше р – число параметров в модели.

3. Распределение оставшихся наблюдений на две равные группы с малыми и большими значениями факторного признака.

4. Решение уравнения регрессии для каждой группы (имеем два уравнения).

5. Определение остаточной суммы квадратов отклонений для каждой группы и определение их отношения (отношение большей к меньшей).

6. Сравнение этого отношения с табличным значением критерия Фишера (d f = n - C – 2p/2). Если это отношение меньше табличного значения F- критерия, то мы имеем гомоскедастичные остатки. Чем больше это отношение превышает табличное, тем больше нарушена предпосылка о равенстве дисперсий остаточных величин.

 

Следующая предпосылка МНК – это отсутствие автокорреляции остатков. Это означает, что остатки распределены независимо друг от друга. Автокорреляция – это наличие тесной корреляционной зависимости между остатками текущих и предшествующих наблюдений, если наблюдения упорядочены по фактору х. Автокорреляционная зависимость определяется по линейному коэффициенту корреляции между текущими и предшествующими наблюдениями (более подробно с этой проблемой мы ознакомимся в теме «Моделирование рядов динамики»). Отсутствие автокорреляции остатков обеспечивает состоятельность и эффективность оценок коэффициентов регрессии.

Соответствие распределение остатков нормальному закону распределения можно проверить с помощью критерия Пирсона как критерия согласия (изучалось в курсе «Математическая статистика»).

При несоблюдении основных предпосылок МНК приходится корректировать модель, изменяя ее спецификацию, добавлять или исключать некоторые факторы, преобразовывать исходные данные. В частности, при нарушении гомоскедастичности и наличии автокорреляции остатков рекомендуется традиционный МНК, который проводится по исходным данным, заменять обобщенным методом наименьших квадратов, который проводится по преобразованным данным.

Вопросы для повторения:

1. Какова связь коэффициентов раздельной (частной) детерминации с множественной детерминацией?

2. В каких случаях индекс множественной корреляции равен линейному коэффициенту множественной корреляции?

3. С какой целью определяется скорректированный коэффициент множественной корреляции?

4. Чем отличается частный коэффициент корреляции от полного коэффициента корреляции?

5. Каково назначение частной корреляции при построении модели множественной регрессии?

6. Чем отличается дисперсионный анализ парной регрессионной модели от дисперсионного анализа множественной модели?

7. Что такое частный F-тест? Раскройте его назначение и сущность.

8. Раскройте понятия «несмещенности, состоятельности и эффективности» выборочных оценок параметров регрессии.

9. Перечислите предпосылки МНК.

10. С какой целью в множественной регрессии используется графический анализ остатков?

11. Раскройте назначение и сущность метода Гольдфельда – Квандта.

Резюме по модульной единице 5.2.

Рассмотрев понятия и способы оценки множественной и частной корреляции, а также предпосылки МНК, мы понимаем теперь, что только многофакторные модели с достаточно высокой детерминацией и надежными коэффициентами регрессии позволяют применять эти методы и в анализе, и в прогнозе.

 

Тесты для самоконтроля

 

1. Коэффициент множественной детерминации определяется по формулам:

1) (верно) 3) (верно)
2) 4)

 

2. Коэффициент множественной детерминации для двухфакторной модели может быть определен по формулам:

1) , где - бета-коэффициент (верно) 3)
2) (верно) 4)

 

3. Коэффициент раздельной детерминации можно определить по формулам:

1) , где - бета-коэффициент (верно) 3) (верно)
2) 4)

 

4. Индекс корреляции для нелинейных моделей можно определить по формулам:

 

1) 3)
2) 4) (верно)

 

5. Скорректированный индекс детерминации определяется по формулам:

1) 3)
2) (верно) 4) (верно)

 

6. Частные коэффициенты (или индексы) корреляции

1) характеризуют тесноту связи между результатом и соответствующим фактором 3) характеризуют тесноту связи между факторами
2) характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии (верно) 4) равны парным коэффициентам корреляции

 

7. Коэффициент частной корреляции может быть рассчитан по формулам:

1) (верно) 3)
2) 4) (верно)

 

8. Для двухфакторной модели можно рассчитать … коэффициент(а) частной корреляции

1) один 3) три (верно)
2) два 4) четыре

 

9. При отборе факторов методом исключения переменных исключается фактор с несущественным по t-критерию

 

1) частным коэффициентом корреляции (верно) 3) коэффициентом эластичности
2) коэффициентом парной корреляции 4) скорректированным индексом корреляции

 

10. Частый критерий Фишера определяется по формуле

1) 3)
2) 4) (верно)

 

11. Перечислите требования t и F-тестов к остаткам регрессии

1) остатки должны представлять собой независимые случайные величины и их среднее значение равно нулю (верно) 3) остатки должны иметь постоянную дисперсию и подчиняться закону нормального распределения (верно)
2) остатки должны представлять собой независимые фиксированные величины и их среднее значение должно быть больше нуля 4) дисперсия остатков должна быть непостоянной

 

12. Оценки параметров уравнения регрессии, полученные МНК, должны быть

1) смещенными 4) неэффективными
2) несмещенными (верно) 5) состоятельными (верно)
3) эффективными (верно) 6) равными

 

13.Если математическое ожидание остатков равно нулю, то оценки параметров уравнения регрессии, полученные МНК являются

1) смещенными 4) неэффективными
2) несмещенными (верно) 5) состоятельными
3) эффективными 6) равными

 

14. Оценки считаются … , если они характеризуются меньшей дисперсией (то есть мы имеем минимальную вариацию выборочных оценок)

1) смещенными 4) неэффективными
2) несмещенными 5) состоятельными
3) эффективными (верно) 6) несостоятельными

 

15. Если точность оценок уменьшается с увеличением объема выборки на одну единицу, то они являются

1) смещенными 4) неэффективными
2) несмещенными 5) состоятельными
3) эффективными 6) несостоятельными (верно)

 

16. Укажите условия, которые соответствуют требованиям МНК

 

1) случайный характер остатков (верно) 3) автокорреляция остатков
2) гетероскедастичность остатков 4) остатки подчиняются нормальному закону распределения (верно)

 

17. Укажите график, который соответствует случайному характеру остатков

 

1) 3)
2) (верно) 4)

 

18. На каком из графиков большая дисперсия остатков соответствует большим значениям «у» ?

1) (верно) 3)
2) 4)  

 

19. На каком из графиков большая дисперсия остатков соответствует меньшим значениям «у» ?

 

1)   3)
2) (верно) 4)  

 

20. Какой график соответствует гетероскедастичности остатков ?

1) (верно) 3) (верно)
2) (верно) 4)  

 

21. Для проверки остатков на гомоскедастичность используется метод

1) Гольдфельда-Квандта (верно) 4) косвенный метод наименьших квадратов
2) метод инструментальных переменных 5) двухшаговый метод наименьших квадратов