Функциональная зависимость и регрессия

Автор работы: Пользователь скрыл имя, 06 Апреля 2011 в 23:43, курсовая работа

Описание работы

Диалектический подход к изучению природы и общества требует рассмотрения явлений в их взаимосвязи и непрестанном изменении. Понятия корреляции и регрессии появились в середине XIX в. благодаря работам английских статистиков Ф. Гальтона и К. Пирсона. Первый термин произошел от латинского «correlatio» – соотношение, взаимосвязь. Второй термин (от лат. «regressio» - движение назад) введен Ф. Гальтоном, который, изучая зависимость между ростом родителей и их детей, обнаружил явление «регрессии к среднему» – у детей, родившихся у очень высоких родителей, рост имел тенденцию быть ближе к средней величине.

Содержание работы

Введение 3
Глава 1 Корреляционный анализ 4
1.1 Функциональная, статистическая и корреляционная зависимости 4
1.2 Линейная парная регрессия 6
1.3 Коэффициент корреляции 9
1.4 Основные положения корреляционного анализа. 12
1.5 Корреляционное отношение и индекс корреляции 12
1.6 Понятие о многомерном корреляционном анализе. 15
Множественный и частный коэффициенты корреляции 15
1.7 Ранговая корреляция 17
Глава 2 Регрессионный анализ 20
2.1. Основные положения регрессионного анализа. Парная регрессионная модель 20
2.2. Интервальная оценка функции регрессии 22
2.3. Проверка значимости уравнения регрессии. Интервальная оценка параметров парной модели 24
2.4. Нелинейная регрессия 27
2.5. Определение доверительных интервалов 29
для коэффициентов и функции регрессии 29
2.6. Мультиколлинеарность 30
2.7. Понятие о других методах многомерного статистического анализа 31
Заключение 34
Список используемых источников 35

Файлы: 1 файл

функциональная зависимость и регрессия Иволга В.А.docx

— 1.11 Мб (Скачать файл)

                                       ()

    (формула  (2.17') следует из разложения 

         

         При отсутствии линейной зависимости между  зависимой и объясняющей(ими) переменной(ыми) случайные величины и имеют -распределение соответственно с m-1 и n-m степенями свободы, а их отношение

    F-распределение с теми же степенями свободы . Поэтому уравнение регрессии значимо на уровне , если  фактически наблюдаемое значение статистики

                                       (2.18)

    где — табличное значение F-критерия Фишера—Снедекора, определенное на уровне значимости при =m-1 и n-m степенях свободы.

         Учитывая  смысл величин  и , можно сказать, что значение F показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с ее средней. В случае линейной парной регрессии m=2 и уравнение регрессии значимо на уровне , если 

         В 1 главе данной работы введен индекс корреляции R (для парной  линейной модели — коэффициент корреляции r), выраженный через дисперсии .Тот же коэффициент в терминах «сумм квадратов» примет вид:

                                       (2.19)

         Следует отметить, что значимость уравнения  парной  линейной регрессии может быть проверена и другим способом, если оценить значимость коэффициента регрессии ,что означает проверку нулевой гипотезы о равенстве параметра парной модели нулю.

         Можно показать, что при выполнении предпосылки 5 регрессионного анализа 

    статистика  t = имеет стандартный нормальный закон распределения N(0;l), а если в выражении (2.11) для заменить параметр его оценкой , то статистика

         t =      (2.19)

    имеет t-распределение с k= n— 2 степенями свободы. По этому коэффициент регрессии значим на уровне , если  , a доверительный интервал для имеет вид:  

         Для парной регрессионной модели оценка значимости  уравнения регрессии  по F-критерию равносильна оценке  значимости коэффициента регрессии либо коэффициента корреляции r по t-критерию , ибо эти критерии связаны соотношением F=. А интервальные оценки для параметра — при нормальном законе распределения зависимой переменной и = совпадают.

         При построении доверительного интервала  для дисперсии возмущении исходят из того, что статистика   имеет -распределение с k = n — 2 степенями свободы. Поэтому интервальная оценка дляна уровне значимости имеет вид

                                             (2.20)

         2.4. Нелинейная регрессия

         Соотношения между социально-экономическими явлениями  и процессами далеко не всегда можно выразить линейными функциями, так как при этом могут возникать неоправданно большие ошибки. В таких случаях используют нелинейную (по объясняющей переменной) регрессию. Выбор вида уравнения регрессии (8.3) (этот важный этап анализа называется спецификацией или этапом параметризации модели) производится на основании опыта предыдущих  исследований, литературных источников, других соображений  профессионально-теоретического характера, а также визуального  наблюдения расположения точек корреляционного поля. Наиболее часто встречаются следующие виды уравнений нелинейной  регрессии: полиномиальное  , гиперболическое  , степенное  .

         Например, если исследуемый экономический  показатель у при росте объема производства х состоит из двух частей — постоянной (не зависящей от х) и переменной (уменьшающейся с ростом х), то зависимость у от х можно представить в виде гиперболы . Если же показатель у отражает экономический процесс, который под влиянием фактора х происходит с постоянным ускорением или замедлением, то применяются полиномы. В ряде случаев для описания экономических процессов используются  более сложные функции. Например, если процесс вначале ускоренно развивается, а затем, после достижения некоторого уровня, затухает и приближается к некоторому пределу, то могут оказаться  полезными логистические функции типа у = .

         При исследовании степенного уравнения  регрессии следует иметь в  виду, что оно нелинейно относительно параметров ,однако путем логарифмирования может быть преобразовано в линейное:ln  = lnln +…+ln

         Для определения неизвестных параметров , ,как и ранее, используется метод наименьших квадратов.В некоторых случаях нелинейность связей является  следствием качественной неоднородности совокупности, к которой применяют регрессионный анализ. Например, объединение в одной совокупности предприятий различной специализации или предприятий, существенно различающихся по природным  условиям, и т.д. В этих случаях нелинейность может являться  следствием механического объединения разнородных единиц.  Регрессионный анализ таких совокупностей не может быть  эффективным. Поэтому любая нелинейность связей должна  критически анализироваться. По расположению точек корреляционного поля далеко не всегда можно принять окончательное решение о виде уравнения регрессии. Если теоретические соображения или опыт  предыдущих исследований не могут подсказать точного решения, то необходимо сделать расчеты по двум или нескольким уравнениям. Предпочтение отдается уравнению, для которого меньше  величина остаточной дисперсии. Однако при незначительных  расхождениях в остаточных дисперсиях следует всегда  останавливаться на более простом уравнении, интерпретация  показателей которого не представляется сложной. Весьма заманчивым представляется увеличение порядка  выравнивающей параболической кривой, ибо известно, что всякую функцию на любом интервале можно как угодно точно приблизить полиномом .Так, можно подобрать такой показатель k, что соответствующий полином пройдет  через все вершины эмпирической линии регрессии. Однако  повышение порядка гипотетической параболической кривой  может привести к неоправданному усложнению вида искомой функции регрессии, когда случайные отклонения осредненных точек неправильно истолковываются как определенные  закономерности в поведении кривой регрессии. Кроме того, за счет увеличения числа параметров снижается точность кривой  регрессии (особенно в случае малой по объему выборки) и  увеличивается объем вычислительных работ. В связи с этим в  практике регрессионного анализа для выравнивания крайне редко  используются полиномы выше третьей степени.

         2.5. Определение доверительных  интервалов

         для коэффициентов и  функции регрессии

         Весьма  важным для оценки точности  определения  зависимой переменной (прогноза) является построение доверительного интервала для функции регрессии или для условного математического ожидания зависимой переменной , найденного в предположении, что объясняющие переменные приняли значения, задаваемые вектором ).

         Обобщая соответствующие выражения на случай множественной регрессии, можно  получить  доверительный интервал для :  

    где — групповая средняя, определяемая по уравнению регрессии,  

    ее  стандартная ошибка.

         При обобщении формул (2.15) и (2.14) аналогичный  доверительный интервал для индивидуальных значений зависимой  переменной примет вид:  

    где  .

         Доверительный интервал для дисперсии возмущений в множественной регрессии с надежностью = 1 — строится  аналогично парной модели по формуле (2.20) с соответствующим изменением числа степеней свободы критерия :

         .

         Формально переменные, имеющие незначимые  коэффициенты регрессии, могут быть исключены из рассмотрения. В  экономических исследованиях исключению переменных из  регрессии должен предшествовать тщательный качественный анализ. Поэтому может оказаться целесообразным все же оставить в регрессионной модели одну или несколько объясняющих  переменных, не оказывающих существенного (значимого) влияния на зависимую переменную.

         2.6. Мультиколлинеарность

         Под мултиколлинеарностью понимается высокая взаимная коррелированностъ объясняющих переменных. Мультиколлинеарность может проявляться в функциональной (явной) стохастической (скрытой) формах. При функциональной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными является линейной функциональной зависимостью. В этом случае матрица Х'Х особенная, так как содержит линейно зависимые векторы-столбцы и ее определитель равен нулю, т.е. нарушается предпосылка 6 регрессионного анализа. Это приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели.

         Однако  в экономических исследованиях  мультиколлинеарность чаще проявляется в стохастической форме, когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. Матрица Х'Х в этом случае является неособенной, но ее определитель очень мал. В то же время  вектор оценок b и его ковариационная матрица К в соответствии с формулами пропорциональны обратной матрице а значит, их элементы обратно пропорциональны величине определителя . В результате получаются  значительные средние квадратические отклонения (стандартные ошибки) коэффициентов регрессии и оценка их значимости по t-критерию не имеет смысла, хотя в целом регрессионная модель может оказаться значимой по F-критерию.

         Оценки  становятся очень чувствительными к незначительному изменению результатов наблюдений и объема выборки. Уравнения регрессии в этом случае, как правило, не имеют реального смысла, так как некоторые из его коэффициентов могут иметь неправильные с точки зрения экономической теории знаки и неоправданно большие значения. Один из методов выявления мультиколлинеарности  заключается в анализе корреляционной матрицы между объясняющими переменными и выявлении пар переменных, имеющих высокие коэффициенты корреляции (обычно больше 0,8).Если такие переменные существуют, то говорят о мультиколлинеарности между ними. Полезно также находить множественные коэффициенты корреляции между одной из объясняющих переменных и  некоторой группой из них. Наличие высокого множественного  коэффициента корреляции (обычно принимают больше 0,8)  свидетельствует о мультиколлинеарности. Другой подход состоит в исследовании матрицы Х'Х. Если определитель матрицы Х'Х близок к нулю (например, одного порядка с накапливающимися ошибками вычислений), то это говорит о наличии мультиколлинеарности. Для устранения или уменьшения мультиколлинеарности используется рад методов. Один из них заключается в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом, какую переменную оставить, а какую удалить из анализа, решают в первую очередь на основании экономических соображений. Если с экономической точки зрения ни одной из переменной.Нельзя отдать предпочтение, то оставляют ту из двух переменных, которая имеет больший коэффициент корреляции с зависимой переменной. Другим из возможных методов устранения или уменьшения мультиколлинеарности является использование пошаговых процедур отбора наиболее информативных переменных. Например, вначале рассматривается линейная регрессия зависимой переменной Y объясняющей переменной, имеющей с ней  наиболее высокий коэффициент корреляции (или индекс корреляции при нелинейной форме связи). На втором шаге включается в рассмотрение та объясняющая переменная, которая имеет наиболее высокий частный коэффициент корреляции с Y и вычисляется множественный коэффициент (индекс) корреляции. На третьем шаге вводится новая объясняющая переменная, которая имеет наибольший частный коэффициент корреляции с Y, и вновь вычисляется множественный коэффициент корреляции и т.д. Процедура введения новых переменных продолжается до тех пор, пока добавление следующей объясняющей переменной существенно не увеличивает множественный коэффициент корреляции.

         2.7. Понятие о других  методах многомерного  статистического  анализа

         Многомерный статистический анализ определяется как  раздел математической статистики, посвященный математическим методам построения оптимальных планов сбора, систематизации и обработки многомерных статистических данных, направленных на выявление характера и структуры взаимосвязей между  компонентами исследуемого признака и предназначенных для получения научных и практических выводов. Многомерные статистические методы среди множества возможных вероятностно-статистических моделей позволяют  обоснованно выбрать ту, которая наилучшим образом соответствует исходным статистическим данным, характеризующим реальное поведение исследуемой совокупности объектов, оценить надежность и точность выводов, сделанных на основании ограниченного статистического материала. С некоторыми разделами многомерного статистического анализа, такими, как многомерный корреляционный анализ, множественная регрессия, многомерный дисперсионный анализ. Приведем теперь краткий обзор ряда других методов многомерного статистического анализа, которые уже нашли отражение в статистических пакетах прикладных программ. В первую очередь следует выделить методы, позволяющие выявить общие (скрытые или латентные) факторы, определяющие вариацию первоначальных факторов. К ним относятся факторный анализ и метод главных компонент.

         Факторный анализ. Основной задачей факторного анализа является переход от первоначальной системы большого числа взаимосвязанных факторов к относительно малому числу скрытых (латентных) факторов . Скажем, производительность труда на предприятиях зависит от  множества факторов из которых многие связаны между собой. Используя факторный анализ, можно установить влияние на рост производительности труда лишь нескольких обобщенных факторов  непосредственно не наблюдавшихся.

         Модель  факторного анализа записывается в  виде:

         , i=1,2,…,m, k,

    где = M() — математическое ожидание первоначального фактора

    — общие (скрытые или  латентные) факторы (J = 1,2,...,k);

      — нагрузки первоначальных  факторов на общие  факторы; 

    — характерные факторы (i = 1,2,...,/я);

      — нагрузки первоначальных  факторов на характерные   факторы. 

Информация о работе Функциональная зависимость и регрессия