Ковариация,
дисперсия и корреляция
Выборочная
и теоретическая ковариации
- Ковариация
является мерой взаимосвязи между
двумя переменными
- Если x и y - случайные
величины, то теоретическая
ковариация определяется как математическое
ожидание произведения отклонений этих
величин от их средних значений:
- где μx
и μy - теоретические средние
значения x и y соответственно.
- При наличии
n наблюдений двух переменных (x и
y) выборочная ковариация между x и
y задается формулой:
- Если теоретическая
ковариация неизвестна, то для
ее оценки может быть использована
выборочная ковариация, вычисленная
по ряду наблюдений.
- Эта оценка
будет иметь отрицательное смещение.
- Причина заключается
в том, что выборочные отклонения измеряются
по отношению к выборочным средним значениям
величин x и y и имеют
тенденцию к занижению
отклонений от истинных средних значений.
- Можно рассчитать
несмещенную оценку путем умножения
выборочной оценки на n
/ (n - 1) .
- Если x
и y независимы, то их
теоретическая ковариация
равна нулю.
Пример расчета
ковариации
- Cо времен
нефтяного кризиса 1973 г. реальная
цена на бензин, т.е. цена
бензина, отнесенная к уровню
общей инфляции, значительно возросла,
и это оказало заметное воздействие
на потребительский спрос.
- В период между
1963 и 1972 гг. потребительский спрос на бензин
устойчиво повышался.
- Эта тенденция
прекратилась в 1973 г., а затем последовали
нерегулярные колебания спроса с незначительным
его падением в целом.
- В таблице
приведены данные о потребительском
спросе и реальных ценах после
нефтяного кризиса.
- Реальная цена
вычислялась путем деления индекса
номинальной цены на бензин, на
общий индекс потребительских
цен и умножения результата
на 100.
- Индексы основаны
на данных 1972 г.; индекс реальной цены показывает
повышение цены бензина относительно
общей инфляции начиная с 1972г.
Эти данные
показаны в виде диаграммы
рассеяния.
Можно видеть отрицательную
связь между потребительским
спросом на бензин и его
реальной ценой.
- Показатель
выборочной ковариации позволяет
выразить данную связь единым
числом.
- Для его вычисления
мы сначала находим средние значения цены
и спроса на бензин.
- Обозначив цену
через p и спрос через y, определяем
средние значения, которые оказываются
равными соответственно 143,36
и 26,27.
- Затем для
каждого года вычисляем отклонение
величин p и y
от средних и перемножаем их.
В нижней клетке
последнего столбца определяется
средняя величина (-16,24), она является
значением выборочной ковариации.
- Ковариация
в данном случае отрицательна.
- Так это и должно
быть.
- Отрицательная
связь, как это имеет место в данном примере,
выражается отрицательной ковариацией,
а положительная связь - положительной
ковариацией.
- На рисунке
диаграмма рассеяния наблюдений
делится на четыре части вертикальной
и горизонтальной линиями, проведенными
через средние значения p и y
соответственно.
- Пересечение
этих линий образует точку , которая
показывает среднюю
цену и средний спрос за период, соответствующий
выборке.
Для любого
наблюдения, лежащего в квадранте
А, значения реальной цены и спроса
выше соответствующих средних значений.
Здесь
, и являются
положительными, а поэтому должно
быть положительным и
В квадранте
В наблюдения имеют реальную
цену ниже средней и спрос выше
среднего. Наблюдения дают отрицательный
вклад в ковариацию.
Наблюдения
дают положительный вклад в
ковариацию.
В квадранте
D реальная цена выше средней,
а спрос ниже среднего. Наблюдения
дают отрицательный вклад в ковариацию
В квадранте
С как реальная цена, так и
спрос ниже своих средних значений.
Наблюдения дают положительный вклад
в ковариацию.
- Поскольку выборочная
ковариация является средней
величиной произведения для 10 наблюдений,
она будет положительной,
если положительные
вклады будут доминировать
над отрицательными,
и отрицательной, если
будут доминировать
отрицательные вклады.
- Положительные
вклады исходят из квадрантов А и С, и ковариация
будет, скорее всего, положительной, если
основной разброс пойдет по наклонной
вверх.
- Точно так
же отрицательные вклады исходят
из квадрантов В и D.
- Поэтому если основное
рассеяние идет по наклонной вниз, как
в данном примере, то ковариация будет,
скорее всего, отрицательной.
Правила расчета
ковариации
- Существует
несколько правил, которые вытекают
непосредственно из определения
ковариации.
- Правило 1:
Если y = v + w, то
Cov(x, y) = Cov(x, v) + Cov(x,
w).
- Допустим, имеются
данные по 6 семьям: общий годовой
доход (х); расходы на питание и
одежду (y), расходы на питание (v),
расходы на одежду (w). Естественно,
y = v + w
Cov(x, v) равна
157500 и Cov(x, w) = 108750.
Мы проверили,
что Cov(x, y) = Cov(x, v)+ Cov(x, w).
- Именно так
и должно быть. Рассмотрим i - ю
семью
- Поскольку
- yi = vi
+ wi и
Таким образом,
вклад семьи i в Cov(x, y) является суммой
ее вкладов в Cov(x, v) и Cov(x, w).
Тоже самое
справедливо для всех семей
и, соответственно, для ковариации
в целом.
- Правило 2:
- Если y = a z, где a
- константа,
то Cov(x, y) = a Cov(x,
z).
- Последняя колонка
(z) дает расходы на питание
и одежду для второго множества
из 6 семей.
- Каждое наблюдение
z=2y.
- Предполагается,
что значения величины x для второго набора
семей являются такими же, как и ранее.
Из таблицы
можно видеть, что Cov(x,
z) равна 532500, что равно 2Cov(x,
y)
Таким образом
мы проверили, что Cov(x,
2y) = 2Cov(x, y).
- Правило 3:
- Если y = a, где a -
константа,
то Cov(x,
y) = 0.
Допустим, что
каждая семья в выборке имеет
по два взрослых человека, и
предположим, что по недоразумению
вы решили вычислить ковариацию
между общим доходом (x) и числом
взрослых в семье (a).
Естественно, что
a1=a2...=a6 =2= среднему значению.
Поэтому Cov(x, a)=0.
Выборочная
дисперсия, правила расчета дисперсии
- Для выборки
из n наблюдений x1, ...,xn
выборочная дисперсия определяется как
среднеквадратичное отклонение в выборке:
Ранее была
определена исправленная", или
несмещенная, выборочная дисперсия
:
- Заметим, что
дисперсия переменной x может рассматриваться
как ковариация между двумя
величинами x:
Кроме того можно
получить другую формулу:
- Существует
несколько правил для расчета
дисперсии, которые являются аналогами
правил для ковариации.
- Правило 1: Если
y = v + w,
то Var(y) = Var(v)
+ Var(w) + 2Cov(v, w).
Если y = v + w, то
Var(y) = Cov(y,
y) = Cov(y, [v + w]) =
= Cov( [v
+ w], v) + Cov( [v + w], w),
по правилу ковариации 1,
= Cov(v, v)
+ Cov(w, v) + Cov(v, w) + Cov(w,
w), по правилу ковариации 1,
= Var(v) +
Var(w) + 2Cov(v, w).
- Правило 2: Если
y = a z, где a - константа,
то Var(y) = a2Var(z).
Дважды используя
правило ковариации 2, получим:
Var(y) = Cov(y, y)
= Cov(y, az) = a Cov(y, z)=
= a Cov(az, z) =
a2 Cov(z, z) = a2Var(z).
- Правило 3: Если
y = a, где a - константа, то Var(y) = 0.
- По правилу ковариации
3 имеем:
Var(y)
= Cov(a, a) = 0
- Действительно,
если y - постоянная, то ее среднее значение
является той же самой постоянной и равняется
нулю для всех наблюдений.
- Следовательно,
Var(y)=0.
- Правило 4: Если
y = v + a, где a - константа, то Var(y)
= Var(v).
- Доказательство:
- Если y = v + a, где
a - константа, то по правилу ковариации
1, используя затем правила 1 и 3 для дисперсии
и правило 3 для ковариации, получаем:
Var(y) = Var(v
+ a) = Var(v) + Var(a) + 2Cov(v,
a) = Var(v).
Коэффициент
корреляции
- Более точной
мерой зависимости между величинами
является коэффициент
корреляции.
- Подобно дисперсии
и ковариации, коэффициент корреляции
имеет две формы - теоретическую и выборочную.
- Теоретический
коэффициент корреляции p для переменных
x и y определяется следующим образом:
- Если x и y независимы,
то px,y
=0, так как равна нулю теоретическая
ковариация.
- Если между переменными
существует положительная зависимость,
то теоретический коэффициент
корреляции будет положительным.
- Если существует
строгая положительная зависимость, то
он примет максимальное значение, равное
1.
- Аналогичным образом
при отрицательной зависимости теоретический
коэффициент корреляции
будет отрицательным
с минимальным значением -1.
- Выборочный
коэффициент корреляции r для
переменных x и y определяется путем замены
теоретических дисперсий и ковариации
в формуле теоретического коэффициента
корреляции на их несмещенные оценки:
- Выборочный
коэффициент корреляции имеет
максимальное значение, равное 1, которое
получается при строгой линейной
положительной зависимости между
выборочными значениями x и y, и минимальное
значение -1, когда существует линейная
отрицательная зависимость.
- Величина r=0
показывает, что зависимость
между наблюдениями x
и y в выборке отсутствует,
но это не говорит о
том, что p=0, и наоборот.
- Рассмотрим
пример расчета корреляции.
- Уже вычислена
Cov(p, y)= -16,24, поэтому необходимы вычислить
только Var(p) и Var(y).
В последних
двух колонках таблицы можно
найти, что Var(p) составляет 888,58 и Var(y) равна
1,33.
- Из примера
видим, что коэффициент корреляции
незначительно отличается от
нуля.
- Одна из причин
в получении такого результата заключается
в очень небольшом размере выборки.
- Еще одна
причина - не учтено
влияние увеличения
дохода на потребительский
спрос в целом и на спрос
на бензин в частности.
- Положительный
эффект увеличения дохода
в основном компенсировал
отрицательный эффект
роста цен, и, таким образом,
спрос на бензин оставался
стабильным.