Лабораторная работа №1. Определение показателей выборочной ковариации и корреляции.

Модульная единица 1.

Требования к содержанию, оформлению и порядку выполнения:

Теоретическая часть.

Взаимосвязь переменных х и у может быть выражена одним числом. Показателями взаимосвязи переменных являются их ковариация и корреляция. Ковариация определяется по одной из следующих формул

1) Cov (x,y)=

2) Cov (x, y) =

Величина показателя ковариации зависит от масштаба переменных, поэтому не является устойчивой характеристикой взаимосвязи и не подлежит смысловой интерпретации. Знак показателя ковариации указывает на направление связи: положительная величина показателя говорит о том, что связь прямая, а отрицательная – об обратной связи.

Устойчивой характеристикой взаимосвязи, то есть не зависящей от масштаба переменных, является коэффициент корреляции. В случае парной линейной зависимости переменных он определяется по формуле

где Var (х) = (х - )2 и Var (y) = ( y -

Коэффициент парной корреляции r имеет максимальное значение, равное единице, которое получается при строгой линейной положительной зависимости между выборочными значениями х и у. Аналогичным образом r принимает минимальное значение -1, когда существует линейная отрицательная зависимость. Величина r =0 показывает, что зависимость между наблюдениями х и у в выборке отсутствует. Промежуточные значения коэффициента корреляции интерпретируются следующим образом:

0 – 0,3 - слабая связь;

0,3 – 0,5 - умеренная связь;

0,5 – 0,7 - средняя сила связи;

0,7 – 1,0 - сильная или тесная зависимость.

Если на зависимую переменную у параллельно с фактором х оказывает влияние еще и фактор z, то коэффициент парной корреляции между у и х (rxy) может преувеличивать или преуменьшать действительную силу связи между ними. В таких случаях частный коэффициент корреляции является более точной мерой зависимости. Его величина определяется по формуле:

,

где rху.z - коэффициент частной корреляции между х и у в случае постоянства воздействия величины z , а rху, rxz и ryz - обычные коэффициенты корреляции между х и у, между х и z, между у и z соответственно.

Квадрат коэффициента корреляции r2 называется коэффициентом детерминации, он показывает долю общей вариации зависимой переменной, объясненной влиянием независимой переменой.

Общая постановка задачи:по выборочным данным определить величину ковариации двумя способами, убедиться в равенстве результатов, сделать вывод о направлении связи переменных; изменить масштаб одной из переменных, рассчитать ковариацию по преобразованным данным, сделать выводы; по этим же данным рассчитать парный и частный коэффициенты корреляции, сделать выводы.

Список индивидуальных данных представлен в файле «исходные данные.exl» на листе «ЛПЗ №1»

Пример выполнения работы.

Дана информация о годовых доходах населения, потребительском спросе на бензин и об индексах цен на него (табл.1.1)

Таблица 1.1 Динамика спроса и цены на бензин

Год Спрос на бензин, ден.ед. (у) Базисный индекс цен на бензин, % (х) Доходы населения, ден.ед., (z)
26,2 103,5 865,3
24,8 127,0 858,4
25,6 126,0 875,8
26,8 124,8 906,8
27,7 124,7 942,9
28,3 121,6 988,8
27,4 149,7 1015,5
25,1 188,8 1021,6
25,2 193,6 1049,3
25,6 173,9 1058,3
Сумма 262,7 1433,6 9582,7
Среднее 26,27 143,36 958,27

 

1). Определим ковариацию между спросом на бензин и индексом цен. Необходимые промежуточные расчеты выполним в таблице 1.2.

 

 

Таблица 1.2 Расчет ковариации

Год ух
2711,70 -0,07 -39,86 2,79
3149,60 -1,47 -16,36 24,05
3225,60 -0,67 -17,36 11,63
3344,64 0,53 -18,56 -9,84
3454,19 1,43 -18,66 -26,68
3441,28 2,03 -21,76 -44,17
4101,78 1,13 6,34 7,16
4738,88 -1,17 45,44 -53,16
4878,72 -1,07 50,24 -53,76
4451,84 -0,67 30,54 -20,46
Сумма 37498,23 Х Х -162,44
Среднее 3749,82 Х Х -16,24

 

По первому способу расчета ковариации

Cov (x,y)= = ;

по второму способу

Cov (x, y) = = = -16,24.

Вывод: мы убедились в тождественности двух способов расчета ковариации. Отрицательный знак ковариации указывает на то, что между спросом на бензин и индексом цен имеет место обратная зависимость, то есть чем больше индекс цен на бензин, тем меньше спрос на него.

2) Преобразуем базу данных, приняв за базисный 8-ой год данного ряда динамики. Для этого индекс каждого года умножим на коэффициент 0,53 (100/188,8=0,53)

 

Таблица 1.3 Расчет ковариации по преобразованным данным

Год Преобразованный индекс цен на бензин, % (х1) (х1- ) (х1- )
54,855 -21,125 -0,07 1,478
67,31 -8,67 -1,47 12,74
66,78 -9,2 -0,67 6,16
66,14 -9,84 0,53 -5,22
66,09 -9,889 1,43 -14,141
64,45 -11,532 2,03 -23,41
79,34 3,36 1,13 3,79
100,00 24,02 -1,17 -28,10
102,61 26,63 -1,07 -28,49
92,17 16,19 -0,67 -10,84
Сумма 759,81 Х Х -86,03
Среднее 75,98 Х Х -8,60

Cov (x1,y)=

Новое значение ковариации относится к старому значению как 0,53

(-16,24/-8,6=0,53).

Вывод: эмпирическим путем мы доказали, что если одна из переменных меняется с коэффициентом k, то и показатель ковариации переменных меняется с этим же коэффициентом.

 

3). Измерим силу связи между переменными х и у с помощью коэффициента корреляции. Рассчитаем парный коэффициент корреляции по формуле .

Числитель данного выражения (ковариация) определен нами ранее, а знаменатель представляет собой произведение средних квадратических отклонений взаимосвязанных признаков. Поскольку способы расчета дисперсии и среднего квадратического отклонения рассматривались в курсе математической статистики, то промежуточные расчеты здесь не приводим. Отметим лишь, что дисперсия переменной может быть определена с помощью программы Excel. Для этого в главном меню последовательно выберите Вставка функции / Статистические / Диспр. и заполните диалоговое окно ввода данных. В нашем примере σ2х = 888,57 и σ2у=1,33. Тогда

Вывод: величина и знак коэффициента парной корреляции указывают, что сила связи между переменными умеренная, и связь обратная по направлению. Коэффициент детерминации r2 (-0,472= 0,22) говорит о том, что только 22% вариации спроса на бензин за данный период объяснялось изменением цен, а 78% - другими факторами.

4). Из экономической теории известно, что фактором спроса на товар является не только цена, но и доход населения. Из данных таблицы 1.1 видна тенденция роста доходов населения за анализируемый период. Поскольку рост доходов является положительным фактором спроса, то эта тенденция могла преуменьшить отрицательное влияние роста цен. Проверим данную гипотезу с помощью частного коэффициента корреляции. Для его расчета с помощью программы Excel получим матрицу парных коэффициентов корреляции. Для этого в главном меню выбираем Сервис /Анализ данных / Корреляция и заполняем диалоговое окно ввода данных.

 

Таблица 1.4. Матрица парных коэффициентов корреляции

  у х z
y 1,000    
x -0,470 1,000  
z 0,055 0,825 1,000

 

Подставим необходимые значения в формулу частного коэффициента корреляции

Вывод: гипотеза о том, что рост доходов преуменьшил влияние роста цен на спрос, подтвердилась нашими расчетами. Величина частного коэффициента корреляции между спросом и ценами говорит о том, что если исключить параллельное изменение доходов, то вариация цен на 84% (-0,91462 = 0,836) определяла вариацию спроса на бензин.

 

Контрольные вопросы к защите

1. Что означает термин «ковариация», и каковы способы ее расчета?

2. Что показывает знак ковариации?

3. Если все значения одной переменной уменьшить в 100 раз, то как это скажется на величине ковариации?

4. Как рассчитать парный коэффициент корреляции?

5. Как интерпретируется величина коэффициента корреляции?

6. Влияет ли изменение масштаба переменных на величину коэффициента корреляции?

7. Как рассчитать частный коэффициент корреляции?

8. Чем интерпретация частного коэффициента корреляции отличается от парного?

9. В каком случае частный коэффициент корреляции больше (или меньше) парного?

10. Какова интерпретация коэффициента детерминации?

Способ оценки результатов