Автор работы: Пользователь скрыл имя, 06 Апреля 2011 в 23:43, курсовая работа
Диалектический подход к изучению природы и общества требует рассмотрения явлений в их взаимосвязи и непрестанном изменении. Понятия корреляции и регрессии появились в середине XIX в. благодаря работам английских статистиков Ф. Гальтона и К. Пирсона. Первый термин произошел от латинского «correlatio» – соотношение, взаимосвязь. Второй термин (от лат. «regressio» - движение назад) введен Ф. Гальтоном, который, изучая зависимость между ростом родителей и их детей, обнаружил явление «регрессии к среднему» – у детей, родившихся у очень высоких родителей, рост имел тенденцию быть ближе к средней величине.
Введение 3
Глава 1 Корреляционный анализ 4
1.1 Функциональная, статистическая и корреляционная зависимости 4
1.2 Линейная парная регрессия 6
1.3 Коэффициент корреляции 9
1.4 Основные положения корреляционного анализа. 12
1.5 Корреляционное отношение и индекс корреляции 12
1.6 Понятие о многомерном корреляционном анализе. 15
Множественный и частный коэффициенты корреляции 15
1.7 Ранговая корреляция 17
Глава 2 Регрессионный анализ 20
2.1. Основные положения регрессионного анализа. Парная регрессионная модель 20
2.2. Интервальная оценка функции регрессии 22
2.3. Проверка значимости уравнения регрессии. Интервальная оценка параметров парной модели 24
2.4. Нелинейная регрессия 27
2.5. Определение доверительных интервалов 29
для коэффициентов и функции регрессии 29
2.6. Мультиколлинеарность 30
2.7. Понятие о других методах многомерного статистического анализа 31
Заключение 34
Список используемых источников 35
межгрупповая дисперсия
Остаточной дисперсией измеряют ту часть колеблемости Y, которая возникает из-за изменчивости неучтенных факторов, не зависящих от Х. Межгрупповая дисперсия выражает ту часть вариации Y, которая обусловлена изменчивостью Х. Величина
получила название эмпирического корреляционного отношения Yпо Х. Чем теснее связь, тем большее влияние на вариацию переменной Y оказывает изменчивость Х по сравнению с неучтенными факторами, тем выше . Величина , называемая эмпирическим коэффициентом детерминации, показывает, какая часть общей вариации Y обусловлена вариацией Х. Аналогично вводится эмпирическое корреляционное отношение Х по Y:
Отметим основные свойства корреляционных отношений:
Эмпирическое корреляционное отношение является показателем рассеяния точек корреляционного поля относительно эмпирической линии регрессии, выражаемой ломаной, соединяющей значения Однако в связи с тем, что закономерное изменение нарушается случайными зигзагами ломаной, возникающими вследствие остаточного действия неучтенных факторов, преувеличивает тесноту связи. По- этому наряду с рассматривается показатель тесноты связи , характеризующий рассеяние точек корреляционного поля относительно линии регрессии (1.3). Показатель получил название теоретического корреляционного отношения или индекса корреляции Y по X:
Подобно вводится и индекс корреляции X по Y:
(1.39).
Достоинством рассмотренных показателей η и R является то, что они могут быть вычислены при любой форме связи между переменными. Хотя η и завышает тесноту связи по сравнению с R, но для его вычисления не нужно знать уравнение регрессии. Корреляционные отношения η и R связаны с коэффициентом корреляции r следующим образом: 0
В случае линейной модели т.е. зависимости индекс корреляции равен коэффициенту корреляции r(по абсолютной величине): .
Коэффициент детерминации , равный квадрату индекса корреляции (для парной линейной модели - r2), показывает долю общей вариации зависимой переменной, обусловленной регрессией или изменчивостью объясняющей переменной..
Чем ближе к единице, тем лучше регрессия аппроксимирует эмпирические данные, тем теснее наблюдения примыкают к линии регрессии. Если = 1, то эмпирические точки (x, у) лежат на линии регрессии (см. рис. 12.4) и между переменными Y и Х существует линейная функциональная зависимость. Если =0, то вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели переменных, и линия регрессии параллельна оси абсцисс .
Экономические явления чаще всего адекватно описываются многофакторными моделями. Поэтому возникает необходимость обобщить рассмотренную выше двумерную корреляционную модель на случай нескольких переменных.
Пусть имеется совокупность случайных переменных имеющих совместное нормальное распределение. В этом случае матрицу составленную из парных коэффициентов корреляции ,будем называть корреляционной. Основная задача многомерного корреляционного анализа состоит в оценке корреляционной матрицы по выборке. Эта задача решается определением матрицы выборочных коэффициентов корреляции.
В
многомерном корреляционном анализе
рассматривают две типовые
а)
определение тесноты связи
(р – 1) переменных, включенных в анализ;
б)
определение тесноты связи
Эти
задачи решаются с помощью множественных
и частных коэффициентов
Множественный коэффициент корреляции. Теснота линейной взаимосвязи одной переменной с совокупностью других (pпеременных рассматриваемой в целом, измеряется с помощью множественного (или совокупного) коэффициента корреляции , который является обобщением парного коэффициента корреляции Выборочный множественный, или совокупный, коэффициент корреляции , являющийся оценкой , может быть вычислен по формуле:
Где определитель матрицы ; алгебраическое дополнение элемента той же матрицы.
Множественный коэффициент корреляции заключен в пределах 0. Он не меньше, чем абсолютная величина любого парного или частного коэффициента корреляции с таким же первичным индексом.
С помощью множественного коэффициента корреляции (по мере приближения R к 1) делается вывод о тесноте взаимосвязи, но не о ее направлении. Величина , называемая выборочным множественным (или совокупным) коэффициентом детерминации, показывает, какую долю вариации исследуемой переменной объясняет вариация остальных переменных.
Частный коэффициент корреляции. Если переменные коррелируют друг с другом, то на величине парного коэффициента корреляции частично сказывается влияние других переменных. В связи с этим часто возникает необходимость исследовать частную корреляцию между переменными при исключении (элиминировании) влияния одной или нескольких других переменных.
Выборочным частным коэффициентом корреляции между переменными и при фиксированных значениях остальных (р2) переменных называется выражение
Где и алгебраические дополнения элементов матрицы .
Частный коэффициент корреляции , как и парный коэффициент корреляции r, может принимать значения от -1 до 1. Кроме того, , вычисленный на основе выборки объема n, имеет такое же распределение, что иY, вычисленный по (n–р + 2) наблюдениям. Поэтому значимость частного коэффициента корреляции оценивают так же, как и коэффициента корреляции, но при этом полагают
n' = n–р + 2.
Заканчивая краткое изложение, корреляционного анализа количественных признаков, остановимся на двух моментах.
1. Задача научного исследования состоит в отыскании причинных зависимостей. Только знание истинных причин явлений позволяет правильно истолковывать наблюдаемые закономерности. Однако корреляция как формальное статистическое понятие сама по себе не вскрывает причинного характера связи. С помощью корреляционного анализа нельзя указать, какую переменную принимать в качестве причины, а какую – в качестве следствия.
Иногда при наличии корреляционной связи ни одна из переменных не может рассматриваться причиной другой (например, зависимость между весом и ростом человека). Наконец, возможна ложная корреляция (нонсенс-корреляция), т.е. Чисто формальная связь между переменными, не находящая никакого объяснения и основанная лишь на количественном соотношении между ними (таких примеров в статистической литературе приводится немало). Поэтому при логических переходах от корреляциионной связи между переменными к их причинной взаимообусловленности необходимо глубокое проникновение в сущность анализируемых явлений.
2.
Не существует
До сих пор мы анализировали зависимости между количественными переменными, измеренными в так называемых количественных шкалах, Т.е. в шкалах с непрерывным множеством значений, позволяющих выявить, насколько (или во сколько раз) проявление признака у одного объекта больше (меньше), чем у другого.
Вместе с тем на практике часто встречаются с необходимостью изучения связи между ординальными (порядковыми) переменными, измеренными в так называемой порядковой шкале. В этой шкале можно установить лишь порядок, в котором объекты выстраиваются по степени проявления признака (например, качество жилищных условий, тестовые баллы, экзаменационные оценки и т.п.). Если, скажем, по некоторой дисциплине два студента имеют оценки «отлично» И «удовлетворительно», то можно лишь утверждать, что уровень подготовки по этой дисциплине первого студента выше (больше), чем второго, но нельзя сказать, на сколько или во сколько раз больше.
Оказывается,
что таких случаях проблема оценки
тесноты связи разрешима, если упорядочить,
или ранжировать, объекты анализа
по степени выраженности измеряемых
признаков. При этом каждому объекту присваивается
определенный номер, называемый рангом.
Например, объекту с наименьшим проявлением
(значением) признака присваивается ранг
1, следующему за ним – ранг 2 и т.д. Объекты
можно располагать и в порядке убывания
проявления (значений) признака. Если объекты
ранжированы по двум признакам, то имеется
возможность оценить. тесноту связи между
признаками, основываясь на рангах, Т.е.
тесноту ранговой корреляции.
Коэффициент ранговой корреляции Спирмена находится по формуле:
где и ранги i-го объекта по переменным X и Y, n число пар наблюдений.
Если ранги всех объектов равны, то ρ=1, т.е. при полной прямой связи ρ=1. При полной обратной связи, когда ранги объектов по двум переменным расположены в обратном порядке ρ=-. Во всех остальных случаях .
При ранжировании иногда сталкиваются со случаями, когда невозможно найти существенные различия между объектами по величине проявления рассматриваемого признака. Объекты, как говорят, оказываются связанными. Связанным объектам приписывают одинаковые средние ранги, такие, чтобы сумма всех рангов оставалась такой же, как и при отсутствии связанных рангов.