Лабораторная работа №3. «Оценка достоверности параметров и уравнения регрессии в целом»

Модульная единица 3.

Требования к содержанию, оформлению и порядку выполнения:

 

Для успешного выполнения работы студенты должны знать материал лекции по теме «Статистическая оценка достоверности выборочных показателей связи»

Теоретическая часть.

 

Если уравнение регрессии построено по выборочным данным, то оно является лишь оценкой генерального уравнения.

Для парной линейной регрессии является оценкой .

Выборочные оценки параметров и уравнение в целом могут оказаться незначимыми для генеральной совокупности в силу ошибок выборки, поэтому необходима проверка их достоверности (значимости). Проверить достоверность уравнения регрессии – значит, установить: соответствует ли математическая модель, выражающая зависимость между переменными связям в генеральной совокупности и достаточно ли включенных в уравнение объясняющих переменных для описания зависимой переменной.

Проверка достоверности уравнения в целом проводится на основе дисперсионного анализа по критерию F-Фишера.

 

Схема дисперсионного анализа:

1. Выдвигается рабочая гипотеза о равенстве генеральных дисперсий: дисперсии, воспроизведенной (σ2регр.) уравнением регрессии, и остаточной дисперсии (σ 2ост.), а также альтернативная ей:

 

Н0: σ 2регр. = σ 2ост.

Нa: σ 2регр. ¹ σ 2ост

 

2. Выбирается уровень значимости критерия .

3. Производится разложение общего объема вариации:

 
 

 


Поскольку остатки определяются как:

,

т.е. отклонения от линии регрессии по каждому наблюдению, будем обозначать остаточный объем вариации как .

3. Определяется число степеней свободы, которое обозначается d.f. или v:

vобщ.=n-1, где n – численность выборки;

vрегр.=m (m – число параметров без условного начала). Для парной линейной регрессии vрегр.=1

vост..=n-m-1

Для парной линейной регрессии vост.=n-2.

4. Рассчитываются выборочные несмещенные оценки дисперсий:

 

5. Определяется фактическое значение F-критерия Фишера:

 

 
 

 

 


6. Определяется критическое (табличное) значение критерия:

6. Делается статистический вывод:

 

а) Fфакт.≤ Fтабл.ÞН02факт.= σ 2ост.)

б) Fфакт.> Fтабл.ÞНa 2факт. ¹ σ 2ост)

 

7. Делается заключение о значимости уравнения в целом, в случае принятия альтернативной гипотезы при выбранном уровне вероятности суждения , либо – о его недостоверности , если была принята нулевая гипотеза.

 

Если уравнение регрессии в целом значимо, то имеет смысл оценить значимость его параметров по t-критерию Стьюдента. Этот критерий применяется также для оценки значимости коэффициента парной корреляции, поскольку r – это лишь выборочная оценка генерального коэффициента корреляции .

Схема t-теста:

1. Формулируются рабочая и альтернативная гипотезы:

 

2. Выбирается уровень значимости критерия .

3. Рассчитываются средние ошибки выборочных характеристик:

,

где – выборочная дисперсия независимой переменной х.

 

 

4. Определяются фактические значения t-критерия:

5. Определяется критическое значение:

.

6. Фактические значения сравниваются с критическими. Тестируемые параметры будут значимыми, если:

 

Отметим, что парной линейной модели, поскольку в модели всего один регрессор:

.

Если параметры уравнения оказались значимыми, то возможна их интерпретация и распространение выводов на генеральную совокупность.

В этом случае возможна их интервальная оценка:

 

 

Нужно иметь ввиду, что существенные параметры регрессии не могут менять знаки на противоположные. Если нижняя граница у Вас получается отрицательной, а выборочный параметр при этом – положительный, то в качестве нижней границы следует взять ноль. Аналогично для коэффициента корреляции, к тому же нужно помнить, что он изменяется в пределах от -1 до 1, соответственно предельные границы в генеральной совокупности не могут превышать по модулю единицу.

Общая постановка задачи. Используя средства MS EXCEL провести F- и t- тесты уравнения парной линейной регрессии, интервальную оценку его параметров.

Индивидуальные данные. Работа выполняется на основе данных и уравнения регрессии лабораторной работы №2. «Парный корреляционно-регрессионный анализ»

 

Пример и методические указания к выполнению работы.

Условие. По результатам выполнения лабораторной работы №2 «Парный корреляционно-регрессионный анализ» получено уравнение парной линейной регрессии:

. Поскольку уравнение получено для отдельного региона, необходимо оценить его значимость для Российской Федерации.

Требуется:

1) оценить значимость уравнения регрессии в целом методом дисперсионного анализа (F-тест);

2) оценить значимость параметров уравнения регрессии и коэффициента парной линейной корреляции по t-критерию Стьюдента (t-тест);

3) сравнить результаты F- и t-тестов;

4) провести интервальную оценку генеральных параметров уравнения регрессии и коэффициента корреляции.

Интервальное оценивание и тесты провести на 5%-ом уровне значимости.

Методические указания.

1. Проведем F-тест.

Предположим, что уравнение будет не значимо для генеральной совокупности (нулевая гипотеза). Запишем в формализованном виде нулевую и альтернативную гипотезы:

Н0: σ 2регр. = σ 2ост.,

Нa: σ 2регр. ¹ σ 2ост

Уровень значимости задан по условию: .

Все дальнейшие расчеты проведем в EXCEL, продолжив предыдущую работу. Откройте файл, с расчетными данными (рис.1):

 

 

Рис. 1. Расчетные данные из лабораторной работы №2.

 

Для расчета F-критерия нам нужно рассчитать несмещенные оценки воспроизведенной регрессией дисперсии и остаточной. Для этого необходимо определить соответствующие объемы вариации.

Общий объем вариации мы можем найти, умножив выборочную дисперсию зависимой переменной (мы ее определяли по формуле для генеральной совокупности) на численность выборки:

.

Аналогично определим , который нам понадобится в дальнейших расчетах:

Рис. 2.

Далее определим выравненные значения для каждой единицы выборки, подставив индивидуальные значения независимой переменной в уравнение регрессии (рис.3). Затем рассчитаем остатки и их квадраты для каждого наблюдения (столбцы H и I), сумма всех квадратов и будет являться остаточным объемом вариации (в нашем случае =795).

 

Рис. 3. Расчет остаточного объема вариации

 

Поскольку мы знаем общий объем вариаций, то вычитая из него остаточный, получим объясненную регрессией вариацию:

. Результаты оформим в таблицу:

Рис. 4.

 

Определим число степеней свободы:

vобщ.=n-1=12-1=11

vрегр.= m =1

vост..=n-m-1=12-1-1=10.

А затем, поделив объемы вариации на соответствующие им степени свободы, получим несмещенные оценки дисперсии (табл. 1).

 

1. Дисперсионный анализ
Источник вариации Объем вариации Число степеней свободы Дисперсия
регрессия 2584,1 2584,1
остаток 795,0 79,5
общая 3379,1 х

 

Рассчитаем фактическое значение критерия Фишера:

 
 

 

 


Теоретическое значение найдем, воспользовавшись встроенной формулой:

«=fраспобр(α;vрегр; vост)».

В нашем случае введем следующие данные: «=fраспобр(0,05;1; 10)», в итоге было получено значение – 4,1.

Таким образом, фактическое значение критерия (32,5) превысило его теоретическое значение (4,1):

 

Fфакт.> Fтабл.ÞНa 2факт. ¹ σ 2ост).

 

Следовательно, принимается альтернативная гипотеза и уравнение в целом значимо для генеральной совокупности.

 

2. Проверим значимость параметров и коэффициента корреляции по t-критерию.

Сформулируем нулевую и альтернативную гипотезы:

Уровень значимости критерия = 0,05 по условию.

Рассчитаем средние ошибки выборочных характеристик:

:

 

Рис. 5.

Определим средние ошибки для коэффициента полной регрессии и коэффициента корреляции по формулам:

 

Далее рассчитаем фактические значения критериев:

Критическое значение найдем, используя встроенную функцию «=стьюдраспобр(α;v=n-m-1)», в нашем случае:

 

 

Рис. 6.

 

В итоге мы получили следующие результаты (табл. 2).

 

2. Оценка значимости параметров уравнения парной регрессии и коэффициента парной корреляции
Параметр Средняя ошибка, m tфакт tтабл
а 5,5 3,4 2,2
b 0,0008 5,7 2,2
r 0,15 5,7 2,2

 

Как видно из таблицы каждый из параметров уравнения оказался значимым, как и коэффициент корреляции для генеральной совокупности. Результаты корреляционно-регрессионного анализа можно распространять на всю генеральную совокупность, использовать уравнение в целях прогнозирования.

3. В отношении значимости коэффициента корреляции, коэффициента регрессии мы и не могли получить других выводов, поскольку F-тест указал на значимость уравнения в целом, поскольку для парной линейной регрессии:

.

Это равенство действительно выполняется:

;

;

 

Если параметры уравнения оказались значимыми, то возможна их интерпретация и распространение выводов на генеральную совокупность.

4. Проведем интервальную оценку параметров уравнения регрессии и коэффициента корреляции. Определим доверительные интервалы для генеральных параметров:

С 95% уровнем вероятности суждения можно утверждать, что условное начало попадет в интервал от 6,1 до 30,5:

 

Генеральный коэффициент полной регрессии будет находиться в пределах:

, а коэффициент корреляции:

 

. По расчетам верхняя граница получилась равной 1,1, поэтому следует указать максимально возможное значение для коэффициента корреляции, т.е. единицу.

 

Контрольные вопросы к защите

1. Раскройте понятие «достоверность» применительно к параметрам взаимосвязи переменных.

2. С какой целью проводится F-тест уравнения регрессии?

3. На какие части раскладывается общий объем вариации результативного признака в ходе дисперсионного анализа регрессионной модели?

4. Назовите причины существования остаточной вариации.

5. В каком случае уравнение регрессии признается достоверным в целом?

6. С какой целью в регрессионном анализе используется критерий t-Стьюдента?

7. Что показывает средняя ошибка коэффициента корреляции (регрессии) и как ее рассчитать?

8. Что показывает доверительный интервал параметра связи?

9. Как определить доверительный интервал коэффициента регрессии?

10. В каком случае принимается гипотеза о достоверности коэффициента регрессии?

 

 

Способ оценки результатов