Понятие о статистической и корреляционной связи

Автор работы: Пользователь скрыл имя, 07 Декабря 2014 в 18:44, реферат

Описание работы

Использование возможностей современной вычислительной техники, оснащенной пакетами программ машинной обработки статистической информации на ЭВМ, делает практически осуществимым оперативное решение задач изучения взаимосвязи показателей биржевых ставок методами корреляционно-регрессионного анализа.
При машинной обработке исходной информации на ЭВМ, оснащенных пакетами стандартных программ ведения анализов, вычисление параметров применяемых математических функций является быстро выполняемой счетной операцией.

Файлы: 1 файл

курсач.docx

— 404.67 Кб (Скачать файл)

 

Коэффициент корреляции был предложен английским статистиком и философом Карлом Пирсоном (1857 - 1936). Его интерпретация такова: отклонение признака-фактора от его среднего значения на величину своего среднего квадратического отклонения в среднем по совокупности приводит к отклонению признака-результата от своего среднего значения на rxy его среднего квадратического отклонения.

В отличие от коэффициента регрессии b коэффициент корреляции не зависит от принятых единиц измерения признаков, а стало быть, он сравним для любых признаков.

Обычно считают связь сильной, если r ³. 0,7; средней тесноты, при 0,5 £ r £ 0,7; слабой при г < 0,5. Не следует, особенно работая с ЭВМ, гнаться за большим числом знаков коэффициента корреляции. Во-первых, исходная информация редко имеет более трех значащих точных цифр, во-вторых, оценка тесноты связи не требует более двух значащих цифр.

Квадрат коэффициента корреляции называется коэффициентом детерминации:

 

Эта формула понадобится при. анализе множественной корреляции. Умножив числитель и знаменатель (8.12) на   получим:

Это выражение соответствует выражению г\2 (см. формулу (8.2)). Тождество коэффициента детерминации и квадрата корреляционного отношения служит основанием для интерпретации величины г2 как доли общей дисперсии результативного признака у, которая объясняется вариацией признака-фактора х (и связью между вариацией обоих признаков). Собственно говоря, основным показателем тесноты связи и следовало бы считать коэффициент детерминации  (для линейной формулы связи) или квадрат корреляционного отношения. Но исторически раньше был введен коэффициент корреляции, который долгое время и рассматривался как основной показатель.

Аналогично разным «рабочим» формулам для вычисления коэффициента регрессии можно на основе исходной формулы (8.10) подучить разные «рабочие» формулы коэффициента корреляции.

Разделив числитель и знаменатель формулы (8.11) на п, получим:

 

.          (8.14)

 

Эта формула соответствует формуле (8.8) для коэффициента регрессии.

2. Средние квадратические отклонения можно выразить через средние величины признака:

 

Подставив эти выражения в (8.14), получим:

 

.     (8.15)

 

Эта формула (8.15) удобнее для расчетов, если средние величины признаков и средние квадраты индивидуальных величин вычислены ранее. Смысл же коэффициента корреляции раскрывается исходной формулой (8.11). В преобразованных формулах этот смысл не столь ясен.

Рассмотрим фактический пример анализа корреляционной парной линии связи по данным 16 сельхозпредприятий о затратах на 1 корову и о надое молока на корову. Ограниченный объем совокупности принят только в учебных целях, чтобы избежать приведения громоздких таблиц (табл. 8.1).

Средние значения признаков: x̅ = 1605 руб.; у̅ = 35,2 ц/голов.

Сопоставляя знаки отклонений признаков jc и у от средних величин, видим явное преобладание совпадающих по знакам пар отклонений: их 14 и только 2 пары несовпадающих знаков.

Таблица 8.1

Корреляция между затратами на корову и надоем молока

в среднем от коровы

 

Номера единиц сово-куп-ности

Затраты на 1 корову, руб./голов хi

Надой от 1 коровы,

ц, yi

 

 

xi - x̅

 

 

yi - y̅

 

 

(xi - x̅) ´

´ (yi - y̅)

 

 

(xi - x̅)2

 

 

(yi - y̅)2

Расчетные значения надоя, ц

i

1

1602

34,2

-3

-1,0

+3,0

9

1,00

35,1

2

1199

19,6

-406

-15,6

+6333,6

164836

243,36

21,1

3

1321

27,3

-283

-7,9

+2235,7

80089

62,41

25,3

4

1678

32,5

+73

-2,7

-197,1

5329

7,29

37,7

5

1600

33,2

-5

-2,0

+10,0

25

4,00

35,0

6

1355

31,8

-250

-3,4

+850,0

62500

11,56

26,5

7

1413

30,7

-192

^,5

+864,0

36864

20,25

28,5

8

1490

32,6

-115

-2,6

+299,0

13225

6,76

31,2

9

1616

26,7

+11

-8,5

-93,5

121

72,25

35,6

10

1693

42,4

+88

+7,2

+633,6

7744

51,84

38,2

11

1665

37,9

+60

+2,7

+162,0

3600

7,29

37,3

12

1666

36,6

+61

+1,4

+85,4

3721

1,96

37,3

13

1628

38,0

+23

+2,8

+64,4

529

7,84

36,0

14

1604

32,7

-1

-2,5

+2,5

1

6,25

35,2

15

2077

51,7

+472

+16,5

+7788

222784

272,25

51,6

16

2071

55,3

+466

+20,1

+9366,6

217156

404,01

51,4

S           25678

563,2

-

-

+28473,7

818533

1180,32

563,0


 

Немецкий психиатр Г. Т. Фехнер (1801 - 1887) предложил меру тесноты связи в виде отношения разности числа пар совпадающих и несовпадающих пар знаков к сумме этих чисел:

Конечно, коэффициент Фехнера - очень грубый показатель тесноты связи, не учитывающий величину отклонений признаков от средних значений, но он может служить некоторым ориентиром в оценке интенсивности связи. В данном случае он указывает на тесную связь признаков.

Вычислим на основе итоговой строки табл. 8.1 параметр парной линейной корреляции:

Он означает, что в среднем по изучаемой совокупности отклонение затрат на 1 корову от средней величины на 1 руб. приводило к отклонению с тем же знаком среднего надоя молока на 0,0347 ц, т. е. на 3,47 кг на корову. При нестрогой интерпретации говорят: «С увеличением затрат на корову на 1 руб. в среднем надой молока возрастал на 3,47 кг». Поскольку и до начала резкой инфляции стоимость 3,47 кг молока значительно превосходила рубль, увеличение затрат на корову было экономически целесообразным.

Свободный член уравнения регрессии вычислим по формуле (8.6):

а = 35,2 - 0,0347 • 1605 = - 20,49.

Уравнение регрессии в целом имеет вид:

Отрицательная величина свободного члена уравнения означает, что область существования признака у не включает нулевого значения признакам и близких значений. Можно рассчитать минимально возможную величину фактора х, при которой обеспечивается наименьшее значение признака у (разумеется, положительное).

- это наименьшая сумма затрат на 1 корову, при которых корова способна давать молоко. Если же область существования результативного признака^включает нулевое значение признака-фактора, то свободный член является положительным и означает среднее значение результативного признака при отсутствии данного фактора, например среднюю урожайность картофеля при отсутствии органических удобрений.

Графическое изображение корреляционной связи по данным табл. 8.1. приведено на рис. 8.1.

Коэффициент корреляции, рассчитанный на основе табл. 8.1,

 

 

 

           

Рис. 8.1. Корреляция затрат на корову с продуктивностью 

Полученное значение гораздо больше коэффициента Фехнера. Квадрат коэффициента корреляции, т.е. коэффициент детерминации, составил 0,839, или 83,9%. Вариации надоев молока на корову связаны с вариацией затрат в хозяйствах, произведенных в среднем на 1 корову.

Для интерпретации коэффициента корреляции необходимо знать область его существования 0≤|r|≤1. Как ясно из формулы(8.11), минимальное, именно нулевое, значение коэффициента корреляции может быть достигнуто, если положительные и отрицательные произведения отклонений признаков от их средних величин в числителе полностью уравновесят друг друга. Это свидетельствовало бы о полном отсутствии связи, но вероятность такого абсолютно точного взаимопогашения крайне мала для любой реальной, не бесконечно большой совокупности. Поэтому и при отсутствии реальной связи коэффициент корреляции на практике не равен нулю. Например, коэффициент корреляции между надоем молока от коров и числом букв в названии предприятия в совокупности хозяйств, указанных в табл. 8.1, равен +0,216. Как отделить реальные, надежно установленные связи от таких случайных, незначимых величин коэффициента корреляции, рассматривается в следующем разделе.

Максимально тесная связь ─ это связь функциональная, когда каждое индивидуальное значение результативного признака, может быть однозначно поставлено в соответствие значению , например когда

  , где ─ константа. Подставив это выражение в формулу коэффициента корреляции (8.11), получим:

 

 

Если связь обратная и , то коэффициент корреляции будет равен минус единице. Чем ближе коэффициент корреляции к единице, тем ближе связь к функциональной. Полученное в применение значение +0,916 свидетельствует об очень тесной связи надоев молока с затратами в расчете на 1 корову. Об этом же говорит и рис.8.1, где реальные значения для отдельных хозяйств (точки корреляционного поля) близко расположены к линии регрессии, выражающей среднюю закономерность связи.

 

Коэффициент корреляции рангов

 

К мерам тесноты парной связи относится и предложенный английским психологом Ч. Спирменом (1863 - 1945) коэффициент корреляции рангов. Ранги - это порядковые номера единиц совокупности в ранжированном ряду. Если проранжировать совокупность по двум признакам, связь между которыми изучается, то полное совпадение рангов означает максимально тесную прямую связь, а полная противоположность рангов - максимально тесную обратную связь. Ранжировать оба признака необходимо в одном и том же порядке: либо от меньших значений признака к большим, либо наоборот. Если ранги единиц совокупности по признакам х и у обозначить какр^,, р ,, то коэффициент корреляции рангов согласно (8.11) имеет вид:

 

,    (8.24)

 

где р̅x = р̅y - средние ранги в ряду натуральных чисел от 1 до п, равные, как известно, (п +1)/2. Также известно, что сумма квадратов отклонений чисел натурального ряда от их средней величины    и    равна (n3 - n)/12. Следовательно, знаменатель формулы (8.23) есть (п3 - п)/12.

Рассмотрим далее разности рангов di =pxi –pyi и сумму их квадратов:

 

Отсюда

 

Это числитель коэффициента корреляции рангов. Подставив в (8.24) найденные выражения для числителя и для знаменателя, имеем:

 

Это и есть формула Спирмена.

Преимущество коэффициента корреляции рангов состоит в том, что ранжировать можно и по таким признакам, которые нельзя выразить численно: можно проранжировать кандидатов на занятие определенной должности по профессиональному уровню, по умению руководить коллективом, по личному обаянию и т. п, При экспертных оценках можно ранжировать оценки разных экспертов и найти их корреляции друг с другом, чтобы затем исключить из рассмотрения оценки эксперта, слабо коррелированные с оценками других экспертов. Коэффициент корреляции рангов, как будет показано в гл. 9, применяется для оценки устойчивости тенденции динамики.

Недостатком коэффициента корреляции рангов является то, что одинаковым разностям рангов могут соответствовать совершенно отличные разности значений признаков (в случае количественных признаков). Поэтому для последних следует считать корреляцию рангов, как и коэффициент знаков Фехнера, приближенными мерами тесноты связи, обладающими меньшей информативностью, чем коэффициент корреляции числовых значений признаков.

В качестве примера рассчитаем коэффициент корреляции рангов по данным табл. 8.1 (табл. 8.4).

Коэффициент корреляции рангов по формуле Спирмена

Полученное значение больше коэффициента Фехнера, но намного ниже обычного коэффициента корреляции, составившего 0,916. Как видим, недоучет размеров отклонений признаков от их средних величин занижает меру тесноты связи.

Если среди значений признаков х и у встречается несколько одинаковых, образуются связанные ранги, т. е. одинаковые средние номера; например, вместо одинаковых по порядку третьего и четвертого значений признака будут два ранга по 3,5. В таком случае коэффициент Спирмена вычисляется как

,   (8.26)

 

где:

;

 

j - номера связок по порядку для признака х;

Аj - число одинаковых рангов в j-й связке по х;

k - номера связок по порядку для признака у;

Вk — число одинаковых рангов в k-й связке по у.

 

Таблица 8.4

Расчет коэффициента корреляции рангов по данным табл. 8.1

 

Номера хозяйств

Ранг по затратам на 1 голову рx

Ранг по надою молока рy

 

d = px -py

 

d2

1

7

10

-3

9

2

1

1

0

0

3

2

3

-1

1

4

13

6

7

49

5

6

9

-3

9

6

3

5

-2

4

7

4

4

0

0

8

5

7

-2

4

9

9

2

7

49

10

14

14

0

0

11

11

12

-1

1

12

12

11

1

1

13

10

13

-3

9

14

8

8

0

0

15

16

15

1

1

16

15

16

-1

1

S

136

136

0

138

Информация о работе Понятие о статистической и корреляционной связи