Автор работы: Пользователь скрыл имя, 06 Апреля 2011 в 23:43, курсовая работа
Диалектический подход к изучению природы и общества требует рассмотрения явлений в их взаимосвязи и непрестанном изменении. Понятия корреляции и регрессии появились в середине XIX в. благодаря работам английских статистиков Ф. Гальтона и К. Пирсона. Первый термин произошел от латинского «correlatio» – соотношение, взаимосвязь. Второй термин (от лат. «regressio» - движение назад) введен Ф. Гальтоном, который, изучая зависимость между ростом родителей и их детей, обнаружил явление «регрессии к среднему» – у детей, родившихся у очень высоких родителей, рост имел тенденцию быть ближе к средней величине.
Введение 3
Глава 1 Корреляционный анализ 4
1.1 Функциональная, статистическая и корреляционная зависимости 4
1.2 Линейная парная регрессия 6
1.3 Коэффициент корреляции 9
1.4 Основные положения корреляционного анализа. 12
1.5 Корреляционное отношение и индекс корреляции 12
1.6 Понятие о многомерном корреляционном анализе. 15
Множественный и частный коэффициенты корреляции 15
1.7 Ранговая корреляция 17
Глава 2 Регрессионный анализ 20
2.1. Основные положения регрессионного анализа. Парная регрессионная модель 20
2.2. Интервальная оценка функции регрессии 22
2.3. Проверка значимости уравнения регрессии. Интервальная оценка параметров парной модели 24
2.4. Нелинейная регрессия 27
2.5. Определение доверительных интервалов 29
для коэффициентов и функции регрессии 29
2.6. Мультиколлинеарность 30
2.7. Понятие о других методах многомерного статистического анализа 31
Заключение 34
Список используемых источников 35
При наличии связанных рангов ранговый коэффициент корреляции Спирмена вычисляется по формуле:
где ; ;
число групп неразличимых рангов у переменных X и Y;
число рангов, входящих
в группу
неразличимых рангов переменных X и Y.
Коэффициент ранговой корреляции Кендалла находится по формуле:
где K статистика Кендалла.
Для определения K необходимо ранжировать объекты по одной переменной в порядке возрастания рангов (1, 2, ... , n) и определить соответствующие их ранги () по другой переменной. Статистика K равна общему числу инверсий (нарушений порядка, когда большее число стоит слева от меньшего) в ранговой последовательности (ранжировке) . При полном совпадении двух ранжировок имеем K= 0 и τ= 1; при полной противоположности можно показать, что и . Во всех остальных случаях .
Коэффициент конкордации (согласованности) рангов Кендалла W, определяемый по формуле:
где n число объектов;
m число анализируемых порядковых переменных;
отклонение суммы рангов объекта от средней их суммы для всех объектов, равной m(n+1)/2.
Значения коэффициента W заключены на отрезке т.е. , причем W=1 при совпадении всех ранжировок.
Корреляционный анализ может быть использован и при оценке взаимосвязи качественных (категоризованных) признаков (переменных), представленных в так называемой номинальной шкале, в которой возможно лишь различение объектов по возможным состояниям, градациям (например, пол, социальное положение, профессия и т.п.). Здесь в качестве соответствующих показателей могут быть использованы коэффициенты ассоциации, контингеници (сопряженности), бисериальной корреляции.
В
регрессионном анализе
Рассмотрим линейный регрессионный анализ, для которого функция (Х) линейная относительно оцениваемых параметров:
. (2.1)
Предположим, что для оценки параметров линейной функции регрессии (2.1) взята выборка, содержащая n пар значений переменных (), где i=1,2,...,. В этом случае линейная парная регрессионная модель имеет вид:
Отметим основные предпосылки регрессионного анализа:
1. В модели (2.2) возмущение (или зависимая переменная ) есть величина случайная, а объясняющая переменная — величина неслучайная.
2.
Математическое ожидание
(или
математическое ожидание
M()= (2.3)
3. Дисперсия возмущения (или зависимой переменной ) постоянна для любого i:
(или D() = — условие гомоскедастичности или равноизменчивости возмущения (зависимой переменной)).
4. Возмущения (или переменные и) не коррелированы.
(i (2.5)
5. Возмущение , (или зависимая переменная ) есть нормально распределенная случайная величина.
Для получения уравнения регрессии достаточно первых четырех предпосылок. Требование выполнения пятой предпосылки (т.е. рассмотрение «нормальной регрессии») необходимо для оценки точности уравнения регрессии и его параметров.
Оценкой модели (2.2) по выборке является уравнение регрессии:
(1.8). Параметры этого уравнения и определяются на основе метода наименьших квадратов.
Теорема Гауса-Маркова. Если регрессионная модель удовлетворяет предпосылкам 1-4, то оценки и имеют наименьшую дисперсию в классе линейных несмещенных оценок, т.е. являются эффективными оценками параметров и .
Воздействие неучтенных случайных факторов и ошибок наблюдений в модели (2.2) определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии . Несмещенной оценкой этой дисперсии является выборочная остаточная дисперсия
где — групповая средняя, найденная по уравнению регрессии;
— выборочная оценка возмущения , или остаток регрессии.
В знаменателе выражения (2.6) стоит число степеней свободы n—2, а не n, так как две степени свободы теряются при определении двух параметров прямой и .
Построим доверительный интервал для функции регрессии, т.е. для условного математического ожидания , который с заданной надежностью (доверительной вероятностью) =1— накрывает неизвестное значение
Найдем дисперсию групповой средней , представляющей выборочную оценку С этой целью уравнение регрессии (1.15) представим в виде:
На рис. 2.1 линия регрессии (2.7) изображена графически. Для произвольного наблюдаемого значения , выделены его составляющие: средняя , приращение , образующие расчетное значение , и возмущение ,.
Дисперсия групповой средней равна сумме дисперсий двух независимых слагаемых выражения (2.7) :
Дисперсия выборочной средней
= (2.9)
Для нахождения дисперсии представим коэффициент регрессии в виде:
тогда
(
Найдем оценку дисперсии групповых средних (2.8), учитывая (2.9) и (2.11) и заменяя ее оценкой :
Исходя из того, что статистика t = имеет -распределение Стьюдента с k=n—2 степенями свободы, можно построить доверительный интервал для условного математического ожидания
(2.13)
где — стандартная ошибка групповой средней .
Из формул (2,12) и (2,13) видно, что величина доверительного интервала зависит от значения объясняющей переменной х: при х = она минимальна, а по мере удаления х от величина доверительного интервала увеличивается (рис. 2.2). Таким образом, прогноз значений (определение неизвестных значений) зависимой переменной у по уравнению регрессии оправдан, если значение объясняющей переменной не выходит за диапазон ее значений по выборке (причем тем более точный, чем ближе х к ). Другими словами, экстраполяция кривой регрессии, т.е. ее использование вне пределов обследованного диапазона значений объясняющей переменной (даже если она оправдана для рассматриваемой переменной исходя из смысла решаемой задачи) может привести к значительным погрешностям.
Построенная доверительная область для (см. рис. 2.2) определяет местоположение модельной линии регрессии (т.е. условного математического ожидания), но не отдельных возможных значений зависимой переменной, которые отклоняются от средней. Поэтому при определении доверительного интервала для индивидуальных значений зависимой переменной необходимо учитывать еще один источник вариации — рассеяние вокруг линии регрессии, т.е. в оценку суммарной дисперсии следует включить величину . В результате оценка дисперсии индивидуальных значений при х = равна:
а соответствующий доверительный интервал для прогнозов индивидуальных значений будет определяться по формуле:
(2.15)
Проверить значимость уравнения регрессии — значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.
Проверка значимости уравнения регрессии производится на основе дисперсионного анализа. Дисперсионный анализ применяется как вспомогательное средство для изучения качества регрессионной модели.
Согласно основной идее дисперсионного анализа
(2.16)
или
, (2.17)
Где Q — общая сумма квадратов отклонений зависимой переменной от средней, a и — соответственно сумма квадратов, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов.
Убедимся в том, что пропущенное в (2.17) третье слагаемое
равно нулю. Учитывая (2.7) и первое уравнение системы (1.11), имеем:
.
Теперь
Схема
дисперсионного анализа имеет вид,
представленный в табл. 2.1
Таблица 2.1
Средние квадраты и (табл. 2.1) представляют собой несмещенные оценки дисперсий зависимой переменной, обусловленной соответственно регрессией или объясняющей(ими) переменной(ыми) X и воздействием неучтенных случайных факторов и ошибок; m— число оцениваемых параметров уравнения регрессии; n — число наблюдений.
Замечание. При расчете общей суммы квадратов полезно иметь в виду, что