Оценка достоверности уравнения регрессии в целом

В корреляционно-регрессионном анализе наиболее точные характеристики связи можно получить лишь в том случае, если исследователь опирается на всю совокупность фактов и событий определенного рода, то есть если удалось провести сплошное наблюдение генеральной совокупности. Многие экономические совокупности являются бесконечными по своей численности (это совокупности фактов купли-продажи товаров, совокупность решений покупателей и т.д.), что делает сплошное наблюдение невозможным или труднореализуемым.

Если же уравнение регрессии определено по выборочным данным, то важно помнить о том, что вся интерпретация уравнения в действительности представляет собой лишь оценку реальных соотношений взаимосвязанных признаков в генеральной совокупности. Кроме того, уравнение регрессии отражает только общую закономерность для выборки. При этом каждое отдельное наблюдение подвержено воздействию случайностей. Поэтому, если выборочные характеристики связи необходимо распространить на генеральную совокупность, то следует провести статистическую оценку их достоверности или существенности.

Определение.

Достоверным (существенным) показателем связи называют тот, величина которого сформировалась под действием закономерности, имеющей место в генеральной совокупности; под достоверностью в математической статистике понимают вероятность того, что значение проверяемого показателя связи не равно нулю и не включает в себя величины противоположных знаков. Недостоверный (несущественный) показатель формируется под влиянием случайных причин.

 

Статистическую оценку достоверности выборочных показателей связи обычно проводят в определенной последовательности. Первая процедура проводится на основе дисперсионного анализа с помощью F-критерия Фишера. Данная процедура получила название F-теста уравнения регрессии. Ее назначение - сделать вывод о правильности выбора вида взаимосвязи и дать характеристику достоверности всего уравнения регрессии в целом.

Рассмотрим данную процедуру более подробно. Непосредственному расчету F-критерия предшествует анализ вариации зависимой переменной. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной у от среднего значения на две части – «воспроизведенную регрессией» и «остаточную»:

= + 3.1.

↓ ↓ ↓

Общая сумма Сумма квадратов Остаточная сумма

квадратов отклонений, квадратов

отклонений воспроизведенная отклонений

регрессией

Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат у.

Любая сумма квадратов отклонений связана с числом степеней свободы (df – degrees of freedom), то есть с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности п и с числом определяемых по ней констант. Число степеней свободы показывает, сколько независимых отклонений из п возможных требуется для образования данной суммы квадратов отклонений. Так, для общей суммы квадратов требуется (п –1) независимых отклонений, ибо по совокупности из п единиц после расчета среднего уровня свободно варьируют лишь (п –1) число отклонений.

При расчете «объясненной» суммы квадратов используются теоретические (расчетные) значения результативного признака, найденные по линии регрессии = а + вх. Параметр а можно определить как . Подставив выражение параметра а в линейную модель, получим: . Отсюда видно, что при заданном наборе переменных у и х расчетное значение является в линейной регрессии функцией только одного параметра – коэффициента регрессии. Соответственно и регрессионная сумма квадратов отклонений имеет число степеней свободы, равное 1. В общем случае для воспроизведенного (регрессионного, факторного) объема вариации число степеней свободы определяется как число неизвестных параметров уравнения при объясняющих переменных. Так, в случае двухфакторной линейной регрессии ( = а + вх1+сх2 ) dfрегр.=2.

Число степеней свободы для остаточной вариации находят по остаточному принципу, то есть как разность между общим и регрессионным числом степеней свободы: dfост. = dfобщ. – dfрегр.. Для парной линейной регрессии dfост= (п-1) – 1 = п – 2.

Итак, имеем два равенства:

= +

dfобщ = dfрегр + dfост 3.2.

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или что тоже самое, дисперсию на одну степень свободы s2:

; ; 3.3

Определение дисперсии на одну степень свободы приводит дисперсии к сопоставимому виду. Общая дисперсия s2общ. дает количественную оценку средней изменчивости результативного признака под влиянием всех факторов; s2регр. – под влиянием фактора (факторов), включенных в уравнение связи; s2ост. – под влиянием всех прочих неучтенных в уравнении (случайных) причин.

Если уравнение регрессии построено по выборочным данным, то вполне логичным является опасение: не является ли «объясненная» вариация в действительности мнимым объяснением, то есть следствием случайной выборки, а не влиянием изучаемого фактора? Для того чтобы ответить на этот вопрос, необходимо сопоставить регрессионную и остаточную дисперсии. Отношение этих дисперсий дает фактическое значение критерия Фишера (F-критерия):

3.4.

где

F- это критерий для проверки нулевой гипотезы Н0: s2регр.= s2ост.

Если нулевая гипотеза справедлива, то регрессионная и остаточная дисперсии не отличаются друг от друга. Для опровержения нулевой гипотезы необходимо, чтобы регрессионная дисперсия превышала остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F-отношений (Fтабл.) при разном уровне существенности нулевой гипотезы и различном числе степеней свободы. Табличное значение F-критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности суждения. Фактическое (вычисленное) значение F-критерия признается достоверным (отличным от единицы), если оно больше табличного. В этом случае нулевая гипотеза о случайном характере связи изучаемых признаков отклоняется и делается вывод о достоверности такой связи Fфакт.> Fтабл., , Н0 отклоняется.

Если же величина окажется меньше табличной Fфакт.≤ Fтабл, то вероятность нулевой гипотезы выше заданного уровня (например, 0,05) и она не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически недостоверным, Н0 не отклоняется.