Ковариация, дисперсия и корреляция

Автор работы: Пользователь скрыл имя, 15 Ноября 2011 в 15:24, творческая работа

Описание работы

Выборочная и теоретическая ковариации
Ковариация является мерой взаимосвязи между двумя переменными
Если x и y - случайные величины, то теоретическая ковариация определяется как математическое ожидание произведения отклонений этих величин от их средних значений:

где μx и μy - теоретические средние значения x и y соответственно.

Файлы: 1 файл

p3.ppt

— 743.00 Кб (Скачать файл)

Ковариация, дисперсия и корреляция

Выборочная  и теоретическая ковариации 

  • Ковариация  является мерой взаимосвязи между  двумя переменными
  • Если x и y - случайные величины, то теоретическая ковариация определяется как математическое ожидание произведения отклонений этих величин от их средних значений:
 
  • где μx и μy - теоретические средние значения x и y соответственно.
  • При наличии n наблюдений двух переменных (x и y) выборочная ковариация между x и y задается формулой:
  • Если теоретическая  ковариация неизвестна, то для  ее оценки может быть использована  выборочная ковариация, вычисленная по ряду наблюдений.
  • Эта оценка  будет иметь отрицательное смещение.
  • Причина заключается в том, что выборочные отклонения измеряются по отношению к выборочным средним значениям величин x и y и имеют тенденцию к занижению отклонений от истинных средних значений.
  • Можно рассчитать  несмещенную оценку путем умножения  выборочной оценки на n / (n - 1) .
  • Если x и y независимы, то их теоретическая ковариация равна нулю.

Пример расчета  ковариации 

  • Cо времен  нефтяного кризиса 1973 г. реальная  цена на бензин, т.е. цена  бензина, отнесенная к уровню  общей инфляции, значительно возросла,  и это оказало заметное воздействие  на потребительский спрос. 
  • В период между 1963 и 1972 гг. потребительский спрос на бензин устойчиво повышался.
  • Эта тенденция прекратилась в 1973 г., а затем последовали нерегулярные колебания спроса с незначительным его падением в целом.
  • В таблице  приведены данные о потребительском  спросе и реальных ценах после  нефтяного кризиса.
  • Реальная цена  вычислялась путем деления индекса  номинальной цены на бензин, на  общий индекс потребительских  цен и умножения результата  на 100.
  • Индексы основаны на данных 1972 г.; индекс реальной цены показывает повышение цены бензина относительно общей инфляции начиная с 1972г.

Эти данные  показаны в виде диаграммы  рассеяния.  

Можно видеть  отрицательную  связь между потребительским  спросом на бензин и его  реальной ценой.

  • Показатель  выборочной ковариации позволяет  выразить данную связь единым  числом.
  • Для его вычисления мы сначала находим средние значения цены и спроса на бензин.
 
  • Обозначив цену  через p и спрос через y, определяем средние значения, которые оказываются равными соответственно 143,36 и 26,27.
  • Затем для  каждого года вычисляем отклонение  величин p и y от средних и перемножаем их.
 

В нижней клетке  последнего столбца определяется  средняя величина (-16,24), она является  значением выборочной ковариации.

  • Ковариация  в данном случае отрицательна.
  • Так это и должно быть.
  • Отрицательная связь, как это имеет место в данном примере, выражается отрицательной ковариацией, а положительная связь - положительной ковариацией.
  • На рисунке  диаграмма рассеяния наблюдений  делится на четыре части вертикальной  и горизонтальной линиями, проведенными  через средние значения p и y   соответственно.
 
  • Пересечение  этих линий образует точку , которая  показывает среднюю цену и средний спрос за период, соответствующий выборке.

Для любого  наблюдения, лежащего в квадранте  А, значения реальной цены и спроса выше соответствующих средних значений.

Здесь      ,  и         являются  положительными, а поэтому должно  быть положительным и  

В квадранте  В наблюдения имеют реальную  цену ниже средней и спрос выше среднего. Наблюдения дают отрицательный вклад в ковариацию. 

  

Наблюдения  дают положительный вклад в  ковариацию.

В квадранте D реальная цена выше средней, а спрос ниже среднего. Наблюдения дают отрицательный вклад в ковариацию 

В квадранте  С как реальная цена, так и  спрос ниже своих средних значений. Наблюдения дают положительный вклад в ковариацию.

  • Поскольку выборочная  ковариация является средней  величиной произведения  для 10 наблюдений, она будет положительной, если положительные вклады будут доминировать над отрицательными, и отрицательной, если будут доминировать отрицательные вклады.
  • Положительные вклады исходят из квадрантов А и С, и ковариация будет, скорее всего, положительной, если основной разброс пойдет по наклонной вверх.
  • Точно так  же отрицательные вклады исходят  из квадрантов В и D.
  • Поэтому если основное рассеяние идет по наклонной вниз, как в данном примере, то ковариация будет, скорее всего, отрицательной.

Правила расчета  ковариации 

  • Существует  несколько правил, которые вытекают  непосредственно из определения  ковариации.
  • Правило 1:

Если y = v + w, то

 Cov(x, y) = Cov(x, v) + Cov(x, w).

  • Допустим, имеются  данные по 6 семьям: общий годовой  доход (х); расходы на питание и  одежду (y), расходы на питание (v), расходы на одежду (w). Естественно, y = v + w

Cov(x, v) равна  157500 и Cov(x, w) = 108750. 

Мы проверили, что Cov(x, y) = Cov(x, v)+ Cov(x, w).

  • Именно так  и должно быть. Рассмотрим i - ю  семью
  • Поскольку
  • yi = vi + wi и
 

Таким образом,  вклад семьи i в Cov(x, y) является суммой  ее вкладов в Cov(x, v) и Cov(x, w).

Тоже самое  справедливо для всех семей  и, соответственно, для ковариации  в целом.

  • Правило 2:
  • Если y = a z, где a - константа,

то Cov(x, y) = a Cov(x, z).

  • Последняя колонка (z) дает расходы на питание  и одежду для второго множества  из 6 семей.
  • Каждое наблюдение z=2y.
  • Предполагается, что значения величины x для второго набора семей являются такими же, как и ранее.

Из таблицы  можно видеть, что Cov(x, z) равна 532500, что равно 2Cov(x, y)

 Таким образом мы проверили, что Cov(x, 2y) = 2Cov(x, y).

  • Правило 3:
  • Если y = a, где a - константа,

 то Cov(x, y) = 0.

Допустим, что  каждая семья в выборке имеет  по два взрослых человека, и  предположим, что по недоразумению  вы решили вычислить ковариацию  между общим доходом (x) и числом  взрослых в семье (a).

 Естественно, что a1=a2...=a6 =2= среднему значению.

Поэтому Cov(x, a)=0.

Выборочная  дисперсия, правила расчета дисперсии 

  • Для выборки  из n наблюдений x1, ...,xn выборочная дисперсия определяется как среднеквадратичное отклонение в выборке:
 

Ранее была  определена исправленная", или  несмещенная, выборочная дисперсия :

  • Заметим, что  дисперсия переменной x может рассматриваться  как ковариация между двумя  величинами x:
 

Кроме того можно  получить другую формулу:

  • Существует  несколько правил для расчета  дисперсии, которые являются аналогами  правил для ковариации.
  • Правило 1: Если y = v + w,

то Var(y) = Var(v) + Var(w) + 2Cov(v, w).

  • Доказательство :

Если y = v + w, то 

Var(y) = Cov(y,  y) = Cov(y, [v + w]) = 

= Cov( [v  + w], v) + Cov( [v + w], w),  по правилу ковариации 1, 

= Cov(v, v)  + Cov(w, v) + Cov(v, w) + Cov(w,  w), по правилу ковариации 1, 

= Var(v) +  Var(w) + 2Cov(v, w).

  • Правило 2: Если y = a z, где a - константа,

то Var(y) = a2Var(z).

  • Доказательство:

Дважды используя  правило ковариации 2, получим:

Var(y) = Cov(y, y)  = Cov(y, az) = a Cov(y, z)=

= a Cov(az, z) =  a2 Cov(z, z) = a2Var(z).

  • Правило 3: Если y = a, где a - константа, то Var(y) = 0.
  • По правилу ковариации 3 имеем:

Var(y)  = Cov(a, a) = 0

  • Действительно, если y - постоянная, то ее среднее значение является той же самой постоянной и равняется нулю для всех наблюдений.
  • Следовательно, Var(y)=0.
  • Правило 4: Если y = v + a, где a - константа, то Var(y) = Var(v).
  • Доказательство:
  • Если y = v + a, где a - константа, то по правилу ковариации 1, используя затем правила 1 и 3 для дисперсии и правило 3 для ковариации, получаем:

Var(y) = Var(v  + a) = Var(v) + Var(a) + 2Cov(v,  a) = Var(v).

Коэффициент  корреляции 

  • Более точной  мерой зависимости между величинами  является коэффициент корреляции.
  • Подобно дисперсии и ковариации, коэффициент корреляции имеет две формы - теоретическую и выборочную.
  • Теоретический коэффициент корреляции p для переменных x и y определяется следующим образом:
  • Если x и y независимы, то px,y =0, так как равна нулю теоретическая ковариация.
  • Если между переменными существует положительная зависимость, то теоретический коэффициент корреляции будет положительным.
  • Если существует строгая положительная зависимость, то он примет максимальное значение, равное 1.
  • Аналогичным образом при отрицательной зависимости теоретический коэффициент корреляции будет отрицательным с минимальным значением -1.
  • Выборочный  коэффициент корреляции r для переменных x и y определяется путем замены теоретических дисперсий и ковариации в формуле теоретического коэффициента корреляции на их несмещенные оценки:
  • Выборочный  коэффициент корреляции имеет  максимальное значение, равное 1, которое  получается при строгой линейной  положительной зависимости между  выборочными значениями x и y, и минимальное  значение -1, когда существует линейная  отрицательная зависимость.
  • Величина r=0 показывает, что зависимость между наблюдениями x и y в выборке отсутствует, но это не говорит о том, что p=0, и наоборот.
  • Рассмотрим  пример расчета корреляции.
  • Уже вычислена Cov(p, y)= -16,24, поэтому необходимы вычислить только Var(p) и Var(y).
 

В последних  двух колонках таблицы можно  найти, что Var(p) составляет 888,58 и Var(y) равна 1,33.

  • Из примера  видим, что коэффициент корреляции  незначительно отличается от  нуля.
  • Одна из причин в получении такого результата заключается в очень небольшом размере выборки.
  • Еще одна  причина -  не учтено влияние увеличения дохода на потребительский спрос в целом и на спрос на бензин в частности.
  • Положительный эффект увеличения дохода в основном компенсировал отрицательный эффект роста цен, и, таким образом, спрос на бензин оставался стабильным.

Информация о работе Ковариация, дисперсия и корреляция