Средняя ошибка уравнения и интервальная оценка отдельных значений результативного признака.

Важным направлением использования уравнений связи является их применение для прогнозирования ожидаемых результатов при заданном уровне факторов для целей управления исследуемой совокупностью. Использование регрессионной модели для прогнозирования состоит в подстановке в уравнение регрессии ожидаемых значений факторных признаков для расчета точечного прогноза результативного признака и его доверительного интервала с заданной вероятностью.

Поскольку не все значения результативного признака лежат на линии регрессии, то использование уравнения регрессии для прогнозирования приведет к некоторой погрешности (ошибке) в оценке анализируемого показателя. Можно назвать два источника возникновения этой погрешности. Во-первых, решенное по выборочным данным уравнение регрессии является всего лишь одним из множества возможных по воле случая подобных уравнений. Каждое из них является лучшим или худшим приближением к истинной (генеральной) линии связи. Во-вторых, уравнение регрессии не воспроизводит общую вариацию результативного признака в полном объеме; остаточная вариация вносит свой вклад в величину погрешности (ошибки) прогноза.

Ошибка точечного прогноза или ошибка положения линии регрессии покажет, на какую величину в среднем точечные прогнозы по всем возможным выборочным линиям регрессии будут отличаться от прогнозного значения результативного признака, определенного по истинной (генеральной) линии связи.

Чтобы понять, как строится формула ошибки, обратимся к уравнению линейной регрессии: . Учитывая, что , уравнение примет вид: . Отсюда вытекает, что стандартная ошибка зависит от ошибки выборочной средней и ошибки коэффициента регрессии: . Из теории выборки известно, что . Используя в качестве оценки σ2у остаточную дисперсию s2ост. и учитывая вышеприведенную формулу стандартной ошибки коэффициента регрессии (п.3.3), имеем выражение:

= . 3.12.

Из данной формулы видно, что ошибка положения линии регрессии в прогнозной точке зависит от ошибок отдельных параметров уравнения и от того, как сильно значение признака-фактора отклоняется от его среднего значения. Чем больше разность , тем больше ошибка , с которой предсказывается значение для заданного значения х.

Доверительные интервалы положения линии регрессии при заданном х определяются выражением

3.13.

где а – уровень значимости. На рисунке 3.1. доверительные границы для представлены гиперболами, расположенными по обе стороны от выборочной линии регрессии.

Однако фактические значения yi отклоняются от уравнения регрессии на величину случайной ошибки , дисперсия которой оценивается как остаточная дисперсия на одну степень свободы s2ост. Поэтому ошибка прогноза индивидуального значения yi должна учитывать не только ошибку положения линии регрессии, но и остаточную вариацию. Средняя ошибка прогнозируемого индивидуального значения результативного признака yi(х) составит

3.14

 

.

Доверительный интервал индивидуального прогноза дает возможность в каждом отдельном случае с определенной вероятностью указать, что величина результативного признака окажется в определенном интервале относительно значения, вычисленного по уравнению связи.

 

Вопросы для повторения

1. Раскройте понятие «достоверность» применительно к параметрам взаимосвязи переменных.

2. Всегда ли необходима процедура оценки достоверности результатов регрессионного анализа?

3. С какой целью проводится F-тест уравнения регрессии?

4. Что такое «число степеней свободы», и как оно определяется для факторной и остаточной сумм квадратов?

5. На какие части раскладывается общий объем вариации результативного признака в ходе дисперсионного анализа регрессионной модели?

6. Как рассчитать остаточный объем вариации результативного признака?

7. Назовите причины существования остаточной вариации.

8. Что показывает табличное (критическое) значение критерия Фишера?

9. Чем определяется табличное значение критерия Фишера?

10. В каком случае уравнение регрессии признается достоверным в целом?

11. Как формулируется нулевая гипотеза при проверке достоверности коэффициента корреляции (регрессии)?

12. С какой целью в регрессионном анализе используется критерий t-Стьюдента?

13. Что показывает средняя ошибка коэффициента корреляции (регрессии) и как ее рассчитать?

14. Что показывает предельная ошибка коэффициента корреляции (регрессии) и как ее рассчитать?

15. Что показывает доверительный интервал параметра связи?

16. Как определить доверительный интервал коэффициента регрессии?

17. Чем отличается процедура проверки достоверности параметров связи для больших и малых выборок?

18. В каком случае принимается гипотеза о достоверности коэффициента регрессии?

19. Назовите источники возникновения ошибки прогноза результативного признака.

20. Что такое «точечный прогноз»?

21. Чем отличается доверительный интервал положения линии регрессии от доверительного интервала индивидуального прогноза?

 

Резюме по модульной единице 3.Применение регрессионного метода в условиях малочисленных или выборочных наблюдений предполагает последующую оценку достоверности полученных параметров связи. Предлагаемые в данном разделе методики дают возможность выявить случайную или закономерную природу зависимости между факторами и результатами хозяйственной деятельности. Только наличие устойчивой зависимости дает возможность проводить нормативные и прогнозные расчеты и тем самым получать верные выводы о развитии экономических явлений и процессов.

Тесты для самоконтроля

 

1. Уравнение регрессии требует оценки достоверности, если оно построено

 

1) исходным данным 3) реальным данным
2) генеральным данным 4) выборочным данным (верно)

 

2. Достоверным (существенным) показателем связи называют тот

 

1) величина которого сформирована по выборочным данным 3) величина которого сформировалась под действием закономерности, имеющей место в выборочной совокупности
2) величина которого сформировалась под действием закономерности, имеющей место в генеральной совокупности (верно) 4) величина которого положительна

 

3. Под достоверностью в математической статистике понимают вероятность того, что значение проверяемого показателя связи

1) не равно нулю и не включает в себя величины противоположных знаков (верно) 3) равно нулю
2) сформировано под влиянием случайных факторов 4) включает в себя величины противоположных знаков

 

4. Оценка достоверности уравнения в целом проводится с использованием

 

1) t-критерия нормального распределения 3) F-критерия Фишера (верно)
2) критерия t-Стьюдента 4) критерия - Пирсона

 

5. Если общий объем вариации равен 200, то воспроизведенная вариация равна

 

1) -100 3) 300
2) 100 (верно) 4)250

 

6. Получено уравнение парной линейной регрессии по 15 единицам наблюдения. Число степеней свободы для воспроизведенной дисперсии равно

1) 2 3) 13
2) 1 (верно) 4) 14

 

 

7. Получено уравнение парной линейной регрессии по 15 единицам наблюдения. Число степеней свободы для остаточной дисперсии равно

 

1) 2 3) 13 (верно)
2) 1 4) 14

 

8. Получено уравнение регрессии, описывающее зависимость между ценой и спросом на мясо. Если общий объем вариации равен 100, доля остаточной вариации в общей равна 0,19, численность выборки – 12. Чему равна несмещенная оценка воспроизведенной дисперсии:

 

1) 8,1 3) 81 (верно)
2) 9,1 4) 91

 

9. Получено уравнение регрессии, описывающее зависимость между ценой и спросом на мясо. Если общий объем вариации равен 100, коэффициент детерминации – 0,64, численность выборки – 12. Чему равна несмещенная оценка остаточной дисперсии:

 

1) 36 3) 3,6 (верно)
2) 64 4) 8,3

 

10. Получено уравнение регрессии, описывающее зависимость между ценой и спросом на мясо. Если общий объем вариации равен 100, коэффициент детерминации – 0,64, численность выборки – 12. Чему равно фактическое значение F-критерия Фишера:

 

1) 17,78 (верно) 3) 5,33
2) 7,04 4) 4,96

 

11. Если коэффициент корреляции равен 0,6, численность выборки – 10. По выборке получено парное линейное уравнение регрессии. Чему будет фактическое значение F-критерия Фишера?

 

1) 4,5 (верно) 3) 12
2) информации не достаточно для ответа на вопрос 4) 6

 

12. Чему равно табличное значение критерия, который собирается применить исследователь для оценки значимости уравнения парной линейной регрессии, если численность выборки равна 15, уровень значимости – 0,05.

 

1) 4,60 3) 2,14
2) 4,54 4) 4,67 (верно)

 

13. Чему равно фактическое значение t-критерия Стьюдента, если фактическое значение F-критерия Фишера равно 16? Численность выборки равна 10.

 

1) информации не достаточно для ответа на вопрос 3) 16
2) 1,6 4) 4 (верно)

 

14. По выборке из 18 единиц оценены параметры уравнения парной линейной регрессии. Общий объем вариации равен 100, объем вариации, воспроизведенной уравнением – 60. Чему равно фактическое значение t-критерия Стьюдента?

 

1) 3 3) 3,9 (верно)
2) 1,5 4) 9

 

15. По выборке из 12 единиц оценены параметры уравнения парной линейной регрессии. Коэффициент корреляции равен 0,7. Чему равно фактическое значение t-критерия Стьюдента?

 

1) 3,1 (верно) 3) 12,8
2) 9,8 4) 4,0

 

16. В каких пределах будет находиться генеральный коэффициент корреляции, если его выборочное значение равно 0,6?

 

1) от -1 до 1 3) от 0,4 до 0,6
2) от 0,4 до 0,8 (верно) 4) от 0,6 до 0,8

 

17. Чему равна ошибка коэффициента корреляции, если его выборочное значение равно 0,8? Численности выборки – 18.

 

1) 4 3) 0,15 (верно)
2) 0,2 4) 0,04

 

18. В каких пределах будет находиться коэффициент полной регрессии выборочного уравнения:

у=0,4х+2,

если предельная ошибка этого коэффициента в 2,12 раза превышает среднюю ошибку, а выборочный коэффициент корреляции равен 0,6?

 

 

1) от 0,12 до 0,68 с уровнем вероятности суждения 95 % (верно) 3) от нуля до 0,824 с уровнем вероятности суждения 95 %
2) от -0,024 до 0,824 с уровнем вероятности суждения 95 % 4) от нуля до 0,824 с уровнем вероятности суждения 90 %

 

19. В каких пределах будет находиться генеральный парный линейный коэффициент корреляции с уровнем вероятности суждения 95%, если его выборочное значение равно 0,9? Численности выборки – 18.

 

1) 0,67 – 1,13 3) 0,79 – 1,00
2) 0,67 – 1,00 (верно) 4) 0,73 – 1,07

 

20. Чему должно быть равно фактическое значение t-критерия Стьюдента, чтобы с доверительным уровнем вероятности суждения 90 % была принята гипотеза о значимости условного начала уравнения регрессии: у=5+6х, оцененного по выборке из 60 единиц?

 

1) 1,2 4) 1,64
2) не менее 1,64 5) свыше 1,64 (верно)