Выборочная дисперсия. Правила расчета дисперсии.

До сих пор термин "дисперсия" использовался в смысле теоретической дисперсии, то есть относящейся ко всей генеральной совокупности . Для целей, которые прояснятся при обсуждении регрессионного анализа, целесообразно ввести понятие выборочной дисперсии. Для выборки из п наблюдений х1,...хп выборочная дисперсия определяется как среднеквадратичное отклонение в выборке :

Var (x ) = 2 9.

Сделаем три важных замечания:

1. Определенная таким образом выборочная дисперсия представляет собой смещенную оценку теоретической дисперсии. Выборочная дисперсия, определенная как

s2 = (x - 2 10.

является несмещенной оценкой s2. Отсюда следует, что ожидаемое значение величины Var (x) равно [(n - 1)/ n] s2 и что , следовательно, она имеет отрицательное смещение. Отметим, что если размер выборки п становится большим, то (п - 1)/п стремится к единице и, таким образом, математическое ожидание величины Var (x) стремится к s2. Можно показать, что ее предел по вероятности (plim) равен s2 и, следовательно, она является примером состоятельной оценки, которая смещена для небольших выборок.

2. Так как величина s2 является несмещенной, то в некоторых работах ее часто определяют как выборочную дисперсию и либо избегают ссылок на Var(x), либо дают ей какое-то другое название. В русскоязычной литературе величина Var (x) обычно называется выборочной дисперсией, а s2 -"исправленной" или несмещенной, выборочной дисперсией. К сожалению, общепринятой договоренности по этому поводу нет.

3. Поскольку указанная договоренность отсутствует, отсутствует и договоренность относительно условного обозначения данного понятия, и для этого используются самые различные символы. Мы условимся теоретическую (или генеральную) дисперсию переменной х обозначать как рор.var (x) или s . Если ясно, о какой переменной идет речь, то нижний индекс может быть опущен. Выборочную дисперсию будем обозначать как Var (х).

Почему выборочная дисперсия в среднем занижает значение теоретической дисперсии? Причина заключается в том, что она вычисляется как среднеквадратичное отклонение от выборочного среднего, а не от истинного значения. Так как выборочное среднее автоматически находится в центре выборки, то отклонения от него в среднем меньше отклонений от теоретического среднего значения.

Существует несколько простых и очень полезных правил для расчета дисперсии, являющихся аналогами правил для ковариации, рассмотренных в разделе 2.

 

Правило дисперсии 1.

Если у = v + w , то Var (y) = Var (v) + Var (w) + 2 Cov (v,w) 11.

Правило дисперсии 2.

Если y = a z, где а является постоянной, то Var (y) = a2 Var (z) 12.

Правило дисперсии 3.

Если у = а , где а является постоянной, то Var (y) = 0 13.

Правило дисперсии 4.

Если у = v + a , где a является постоянной, то Var (y) = Var (v). 14.

Кроме того, заметим, что дисперсия переменной х может рассматриваться как ковариация между двумя величинами х :

Var (x) = = Cov (x, x) 15.

Учитывая это правило, мы можем воспользоваться правилами расчета выборочной ковариации, чтобы вывести правила расчета дисперсии. Кроме того, мы можем получить другую формулу для представления Var (x), используя соотношение (15) для выборочной ковариации.

Var ( x ) = 16.

Если две переменные независимы и, следовательно, их совокупная ковариация равняется нулю, то теоретическая дисперсия суммы этих переменных будет равна сумме их теоретических дисперсий :

pop.var (x + y ) = pop.var (x) + pop. var (y) + 2 pop.cov (x , y ) = pop.var (x) + + pop.var (y ) = s + s 17.

Из данного результата можно получить общее правило о том, что теоретическая дисперсия суммы любого числа переменных равняется сумме их дисперсий при условии, что наблюдения независимы друг от друга. При этом можно показать, что если случайная переменная х имеет дисперсию s2, то дисперсия выборочного среднего будет равна s2/ п , где п - число наблюдений в выборке :

pop.var ( ) = pop.var var ( x1 + ... + x var (x1) +...

+ pop.var (x 18.

 

Коэффициент корреляции.

В этой лекции большое внимание уделено ковариации. Это объясняется тем, что она весьма удобна с математической точки зрения, а вовсе не тем, что ковариация является особенно хорошим измерителем взаимосвязи между величинами (ниже мы рассмотрим ее недостатки ). Более точной мерой зависимости является тесно связанный с ней коэффициент корреляции.

Подобно дисперсии и ковариации, коэффициент корреляции имеет две формы - теоретическую и выборочную. Теоретический коэффициент корреляции традиционно обозначается греческой буквой р, которая произносится как "ро" и соответствует латинской "r". Для переменных х и у этот коэффициент определяется следующим образом:

rх,у = 19.

Если х и у независимы, то r равно нулю, так как равна нулю теоретическая ковариация. Если между переменными существует положительная зависимость, то sxy , а следовательно, и rху будут положительными. Если существует строгая положительная линейная зависимость, то rху примет максимальное значение, равное 1. Аналогичным образом при отрицательной зависимости rху будет отрицательным с минимальным значением -1.

Выборочный коэффициент корреляции r определяется путем замены теоретических дисперсий и ковариаций в выражении «19» на их несмещенные оценки. Мы показали, что такие оценки могут быть получены умножением выборочных дисперсий и ковариации на п / (п-1). Следовательно,

20.

Множители п / (п-1) сокращаются, поэтому можно определить выборочную корреляцию как

21.

Подобно величине r , r имеет максимальное значение, равное единице, которое получается при строгой линейной положительной зависимости между выборочными значениями х и у (когда на диаграмме рассеяния все точки лежат на восходящей прямой линии). Аналогичным образом r принимает минимальное значение -1, когда существует линейная отрицательная зависимость (точки лежат точно на нисходящей прямой линии). Величина r =0 показывает, что зависимость между наблюдениями х и у в выборке отсутствует. Разумеется, тот факт, что r =0 , необязательно означает, что r = 0 , и наоборот.

Иллюстрация

Для иллюстрации вычисления выборочного коэффициента корреляции мы используем пример о спросе на бензин из раздела 1. Мы уже вычислили Cov (р,y) (см. табл.1), которая составляет -16,24, поэтому нам теперь необходимы только Var (p) и Var (y).

По данным табл. 1 можно найти, что

Var (p) = (p - = х 8885,75 = 888,58 и

Var (y) = ( y - = 13,30 / 10 = 1,33. Следовательно,

r =

Коэффициент корреляции является более подходящим измерителем зависимости, чем ковариация. Основная причина этого заключается в том, что ковариация зависит от единиц, в которых измеряются переменные х и у, в то время как коэффициент корреляции есть величина безразмерная. Это будет показано для выборочного коэффициента корреляции.

Возвращаясь к примеру со спросом на бензин, мы исследуем, что может случиться, когда при вычислении индекса реальных цен в качестве базового года используется 1980 вместо 1972г. В этом случае ковариация изменится, а коэффициент корреляции - нет.

При использовании 1972 г. в качестве базового года индекс реальных цен для 1980г. составил 188,8. Если теперь принять этот индекс за 100 для 1980г., то нужно пересчитать ряды путем перемножения на коэффициент 100/188,8 = 0,53. Новый ряд индексов реальной цены на бензин обозначим р1.

Величина р1 численно меньше, чем р.

Так как каждое отдельное наблюдение ряда цен было пересчитано с коэффициентом 0,53, то отсюда следует, что и среднее значение для р1 пересчитывается с этим же коэффициентом. Следовательно, в году t

р1- = 0,53 p1 - 0,53

Это означает, что в году t

и, следовательно, Cov (p1,y) = 0,53 Cov (p , y). Однако на коэффициент корреляции это изменение не повлияет. Коэффициент корреляции для р1 и у будет равен

Числитель дроби был умножен на 0,53, но на ту же величину был умножен и знаменатель , так как Var (p1) = 0,532 Var (p). (Необходимо иметь в виду, что когда вы умножаете переменную величину на постоянную, ее дисперсия умножается на эту постоянную в квадрате.) Знаменатель умножается на 0,53 , а не на 0,532, так как из Var (p1) извлекается квадратный корень.