Ковариация, дисперсия и корреляция
Творческая работа, 15 Ноября 2011, автор: пользователь скрыл имя
Описание работы
Выборочная и теоретическая ковариации
Ковариация является мерой взаимосвязи между двумя переменными
Если x и y - случайные величины, то теоретическая ковариация определяется как математическое ожидание произведения отклонений этих величин от их средних значений:
где μx и μy - теоретические средние значения x и y соответственно.
Файлы: 1 файл
p3.ppt
— 743.00 Кб (Скачать файл)Ковариация, дисперсия и корреляция
Выборочная
и теоретическая ковариации
- Ковариация
является мерой взаимосвязи
между двумя переменными - Если x и y - случайные величины, то теоретическая ковариация определяется как математическое ожидание произведения отклонений этих величин от их средних значений:
- где μx и μy - теоретические средние значения x и y соответственно.
- При наличии n наблюдений двух переменных (x и y) выборочная ковариация между x и y задается формулой:
- Если теоретическая
ковариация неизвестна, то для
ее оценки может быть
использована выборочная ковариация, вычисленная по ряду наблюдений.
- Эта оценка
будет иметь отрицательное
смещение. - Причина заключается в том, что выборочные отклонения измеряются по отношению к выборочным средним значениям величин x и y и имеют тенденцию к занижению отклонений от истинных средних значений.
- Можно рассчитать
несмещенную оценку путем
умножения выборочной оценки на n / (n - 1) . - Если x и y независимы, то их теоретическая ковариация равна нулю.
Пример расчета
ковариации
- Cо времен
нефтяного кризиса 1973 г.
реальная цена на бензин, т.е. цена бензина, отнесенная к уровню общей инфляции, значительно возросла, и это оказало заметное воздействие на потребительский спрос. - В период между 1963 и 1972 гг. потребительский спрос на бензин устойчиво повышался.
- Эта тенденция прекратилась в 1973 г., а затем последовали нерегулярные колебания спроса с незначительным его падением в целом.
- В таблице
приведены данные о
потребительском спросе и реальных ценах после нефтяного кризиса.
- Реальная цена
вычислялась путем деления
индекса номинальной цены на бензин, на общий индекс потребительских цен и умножения результата на 100. - Индексы основаны на данных 1972 г.; индекс реальной цены показывает повышение цены бензина относительно общей инфляции начиная с 1972г.
Эти данные
показаны в виде диаграммы
рассеяния.
Можно видеть отрицательную связь между потребительским спросом на бензин и его реальной ценой.
- Показатель
выборочной ковариации
позволяет выразить данную связь единым числом. - Для его вычисления мы сначала находим средние значения цены и спроса на бензин.
- Обозначив цену через p и спрос через y, определяем средние значения, которые оказываются равными соответственно 143,36 и 26,27.
- Затем для
каждого года вычисляем
отклонение величин p и y от средних и перемножаем их.
В нижней клетке
последнего столбца
- Ковариация в данном случае отрицательна.
- Так это и должно быть.
- Отрицательная связь, как это имеет место в данном примере, выражается отрицательной ковариацией, а положительная связь - положительной ковариацией.
- На рисунке
диаграмма рассеяния
наблюдений делится на четыре части вертикальной и горизонтальной линиями, проведенными через средние значения p и y соответственно.
- Пересечение этих линий образует точку , которая показывает среднюю цену и средний спрос за период, соответствующий выборке.
Для любого наблюдения, лежащего в квадранте А, значения реальной цены и спроса выше соответствующих средних значений.
Здесь
, и являются
положительными, а поэтому должно
быть положительным и
В квадранте
В наблюдения имеют реальную
цену ниже средней и спрос выше
среднего. Наблюдения дают отрицательный
вклад в ковариацию.
Наблюдения дают положительный вклад в ковариацию.
В квадранте
D реальная цена выше средней,
а спрос ниже среднего. Наблюдения
дают отрицательный вклад в ковариацию
В квадранте С как реальная цена, так и спрос ниже своих средних значений. Наблюдения дают положительный вклад в ковариацию.
- Поскольку выборочная ковариация является средней величиной произведения для 10 наблюдений, она будет положительной, если положительные вклады будут доминировать над отрицательными, и отрицательной, если будут доминировать отрицательные вклады.
- Положительные вклады исходят из квадрантов А и С, и ковариация будет, скорее всего, положительной, если основной разброс пойдет по наклонной вверх.
- Точно так
же отрицательные вклады
исходят из квадрантов В и D. - Поэтому если основное рассеяние идет по наклонной вниз, как в данном примере, то ковариация будет, скорее всего, отрицательной.
Правила расчета
ковариации
- Существует
несколько правил, которые вытекают
непосредственно из
определения ковариации. - Правило 1:
Если y = v + w, то
Cov(x, y) = Cov(x, v) + Cov(x, w).
- Допустим, имеются данные по 6 семьям: общий годовой доход (х); расходы на питание и одежду (y), расходы на питание (v), расходы на одежду (w). Естественно, y = v + w
Cov(x, v) равна 157500 и Cov(x, w) = 108750.
Мы проверили, что Cov(x, y) = Cov(x, v)+ Cov(x, w).
- Именно так и должно быть. Рассмотрим i - ю семью
- Поскольку
- yi = vi + wi и
Таким образом, вклад семьи i в Cov(x, y) является суммой ее вкладов в Cov(x, v) и Cov(x, w).
Тоже самое справедливо для всех семей и, соответственно, для ковариации в целом.
- Правило 2:
- Если y = a z, где a - константа,
то Cov(x, y) = a Cov(x, z).
- Последняя колонка
(z) дает расходы на питание
и одежду для второго
множества из 6 семей. - Каждое наблюдение z=2y.
- Предполагается, что значения величины x для второго набора семей являются такими же, как и ранее.
Из таблицы можно видеть, что Cov(x, z) равна 532500, что равно 2Cov(x, y)
Таким образом мы проверили, что Cov(x, 2y) = 2Cov(x, y).
- Правило 3:
- Если y = a, где a - константа,
то Cov(x, y) = 0.
Допустим, что
каждая семья в выборке имеет
по два взрослых человека, и
предположим, что по недоразумению
вы решили вычислить
Естественно, что a1=a2...=a6 =2= среднему значению.
Поэтому Cov(x, a)=0.
Выборочная
дисперсия, правила расчета дисперсии
- Для выборки из n наблюдений x1, ...,xn выборочная дисперсия определяется как среднеквадратичное отклонение в выборке:
Ранее была определена исправленная", или несмещенная, выборочная дисперсия :
- Заметим, что дисперсия переменной x может рассматриваться как ковариация между двумя величинами x:
Кроме того можно получить другую формулу:
- Существует несколько правил для расчета дисперсии, которые являются аналогами правил для ковариации.
- Правило 1: Если y = v + w,
то Var(y) = Var(v) + Var(w) + 2Cov(v, w).
- Доказательство :
Если y = v + w, то
Var(y) = Cov(y, y) = Cov(y, [v + w]) =
= Cov( [v + w], v) + Cov( [v + w], w), по правилу ковариации 1,
= Cov(v, v)
+ Cov(w, v) + Cov(v, w) + Cov(
= Var(v) + Var(w) + 2Cov(v, w).
- Правило 2: Если y = a z, где a - константа,
то Var(y) = a2Var(z).
- Доказательство:
Дважды используя правило ковариации 2, получим:
Var(y) = Cov(y, y) = Cov(y, az) = a Cov(y, z)=
= a Cov(az, z) = a2 Cov(z, z) = a2Var(z).
- Правило 3: Если y = a, где a - константа, то Var(y) = 0.
- По правилу ковариации 3 имеем:
Var(y) = Cov(a, a) = 0
- Действительно, если y - постоянная, то ее среднее значение является той же самой постоянной и равняется нулю для всех наблюдений.
- Следовательно, Var(y)=0.
- Правило 4: Если y = v + a, где a - константа, то Var(y) = Var(v).
- Доказательство:
- Если y = v + a, где a - константа, то по правилу ковариации 1, используя затем правила 1 и 3 для дисперсии и правило 3 для ковариации, получаем:
Var(y) = Var(v
+ a) = Var(v) + Var(a) + 2Cov(
Коэффициент
корреляции
- Более точной
мерой зависимости между
величинами является коэффициент корреляции. - Подобно дисперсии и ковариации, коэффициент корреляции имеет две формы - теоретическую и выборочную.
- Теоретический коэффициент корреляции p для переменных x и y определяется следующим образом:
- Если x и y независимы, то px,y =0, так как равна нулю теоретическая ковариация.
- Если между переменными существует положительная зависимость, то теоретический коэффициент корреляции будет положительным.
- Если существует строгая положительная зависимость, то он примет максимальное значение, равное 1.
- Аналогичным образом при отрицательной зависимости теоретический коэффициент корреляции будет отрицательным с минимальным значением -1.
- Выборочный коэффициент корреляции r для переменных x и y определяется путем замены теоретических дисперсий и ковариации в формуле теоретического коэффициента корреляции на их несмещенные оценки:
- Выборочный
коэффициент корреляции имеет
максимальное значение, равное 1, которое
получается при строгой
линейной положительной зависимости между выборочными значениями x и y, и минимальное значение -1, когда существует линейная отрицательная зависимость. - Величина r=0 показывает, что зависимость между наблюдениями x и y в выборке отсутствует, но это не говорит о том, что p=0, и наоборот.
- Рассмотрим пример расчета корреляции.
- Уже вычислена Cov(p, y)= -16,24, поэтому необходимы вычислить только Var(p) и Var(y).
В последних двух колонках таблицы можно найти, что Var(p) составляет 888,58 и Var(y) равна 1,33.
- Из примера видим, что коэффициент корреляции незначительно отличается от нуля.
- Одна из причин в получении такого результата заключается в очень небольшом размере выборки.
- Еще одна причина - не учтено влияние увеличения дохода на потребительский спрос в целом и на спрос на бензин в частности.
- Положительный эффект увеличения дохода в основном компенсировал отрицательный эффект роста цен, и, таким образом, спрос на бензин оставался стабильным.