Анализ регрессии в изучении экономических проблем

Автор работы: Пользователь скрыл имя, 14 Февраля 2011 в 00:30, курсовая работа

Описание работы

Цель работы: анализ экономических методов и моделей.
Задачи:
1 Обзор литературы;

2 Построение эконометрических моделей;

3 Оценка параметров построенной модели;

4 Проверка качества найденных параметров модели.

Содержание работы

ВВЕДЕНИЕ………………………………………………………………………….3

РАЗДЕЛ 1. РЕГРЕССИОННЫЙ АНАЛИЗ………………………………………..4


РАЗДЕЛ 2 МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ……………………5


1.Определение параметров уравнения регрессии………………………………5
2.Расчет коэффициентов множественной линейной регресcии……………….9
3.Дисперсии и стандартные ошибки коэффициентов…………………………13
4.Интервальные оценки коэффициентов теоретического
уравнения регресcии…………………………………………………………..15

5.Анализ качества эмпирического уравнения множественной линейной регрессии………………………………………………………………………16
6.Проверка статистической значимости коэффициентов
уравнения регрессии………………………………………………………….16

7.Проверка общего качества уравнения регрессии……………………………17
8.Анализ статистической значимости коэффициента детерминации………..19
9.Проверка равенства двух коэффициентов детерминации…………………..21
10.Проверка гипотезы о совпадении уравнений регрессии
для двух выборок……………………………………………………………..23

РАЗДЕЛ 3 ЛИНЕЙНАЯ РЕГРЕССИЯ…………………………………………..25

ВЫВОДЫ…………………………………………………………………………..30

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ…………………………….....

Файлы: 1 файл

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ УКРАИНЫ.doc

— 308.00 Кб (Скачать файл)

•  проверка  статистической  значимости  коэффициентов  уравнения 

регрессии;

•  проверка общего качества уравнения регрессии;

•  проверка свойств данных, выполнимость которых  предполагалась при оценивании уравнения (проверка выполнимости предпосылок

МНК).  

2.6  Проверка статистической значимости коэффициентов уравнения регрессии  

Как и  в случае парной регрессии ,статистическая значимость коэффициентов множественной линейной регрессии с  m  объясняющими переменными проверяется на основе  t-статистики: t=bj/Sbj                                           (2.33)

Имеющей в данной ситуации распределение Стьюдента с числом степеней свободы ν = n − m − 1 (n − объем выборки). При требуемом уро-вне значимости α наблюдаемое значение t-статистики сравнивается с критической точкой    распределения Стьюдента. 

Коэффициент bj  считается статистически незначимым (статистически близким к нулю). Это означает, что фактор Xj фактически линейно не связан с зависимой переменной Y. Его наличие среди объясняющих переменных не оправдано со статистической точки зрения. Не оказывая серьезного влияния на зависимую переменную, он лишь искажает реальную  картину  взаимосвязи. Поэтому  после  установления  того факта, что  коэффициент bj  статистически  незначим,  рекомендуется  исключить из уравнения регрессии переменную Xj. Это не приведет к существенной потере качества модели, но сделает ее более конкретной. Зачастую строгая проверка значимости коэффициентов заменяется простым сравнительным анализом.

•  Если  |t| < 1 ( bj < Sbj ), то коэффициент статистически незначим.

•  Если  1 < |t|  < 2 ( bj < 2Sbj ), то коэффициент относительно значим. В данном случае рекомендуется воспользоваться таблицами.

•  Если  2 < |t|  < 3, то коэффициент значим. Это утверждение является гарантированным при числе степеней ν > 20 и  α ≥ 0.05 (см. таблицу критических точек распределения Стьюдента).

•  Если |t| > 3, то коэффициент считается сильно значимым. Вероятность ошибки в данном случае при достаточном числе наблюдений не превосходит 0.001. 

 

2.7  Проверка общего качества уравнения регрессии 

      После  проверки  значимости  каждого  коэффициента  регрессии обычно проверяется  общее  качество  уравнения  регрессии. Для  этой цели,  как  и  в  случае  парной  регрессии,  используется  коэффициент детерминации R2, который в общем случае рассчитывается по формуле:

 R2=1-∑ei2/∑(yi-y)2              (2.34)    

Суть  данного коэффициента как доли общего разброса значений зависимой  переменной Y, объясненного  уравнением  регрессии. Как отмечалось, в общем случае  0 ≤ R2 ≤ 1. Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение Y. Поэтому естественно желание построить регрессию с наибольшим R2. Для множественной регрессии коэффициент детерминации является  неубывающей  функцией  числа  объясняющих  переменных.  Добавление новой  объясняющей переменной никогда не уменьшает значение R2.Действительно, каждая следующая объясняющая переменная может лишь дополнить, но никак не сократить информацию, объясняющую  поведение  зависимой  переменной. Это  уменьшает  (в худшем случае не увеличивает) область неопределенности в поведении Y. Иногда при расчете коэффициента детерминации для получения несмещенных оценок в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы. Вводится так  называемый  скорректированный (исправленный)  коэффициент детерминации 

      Можно  заметить,  что  ∑(yi −y)2/(n−1)   является  несмещенной оценкой  общей дисперсии − дисперсии отклонений значений переменной Y от  y. При этом число ее степеней свободы равно (n −1). Одна степень свободы теряется при вычислении y. ∑ei2 /(n−m−1)  является несмещенной  оценкой  остаточной  дисперсии − дисперсии случайных отклонений (отклонений точек наблюдений от линии регрессии). Ее число степеней свободы равно (n−m−1). Потеря (m + 1) степени свободы связана с необходимостью решения системы (m + 1) линейного уравнения при определении коэффициентов  эмпирического  уравнения  регрессии. Попутно  заметим,  что  несмещенная оценка объясненной дисперсии (дисперсии отклонений точек на линии регрессии от  y) имеет число степеней свободы, равное разности степеней свободы общей дисперсии и остаточной дисперсии:

(n −  1) − (n − m − 1) = m.  

Из (2.36) очевидно, что R2 <R2для m > 1. С ростом значения m скорректированный коэффициент детерминации  R2  растет  медленнее, чем (обычный) коэффициент детерминации R2. Другими словами, он корректируется в сторону уменьшения с ростом числа объясняющих переменных. Нетрудно заметить, что  R2 =R2только при R2 = 1.

      R2 может принимать отрицательные значения (например, при R2 = 0). Доказано,  что R2 увеличивается  при добавлении  новой объясняющей переменной тогда и только тогда, когда t-статистика для этой переменной по модулю больше единицы. Поэтому добавление в модель новых объясняющих переменных осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.  Обычно  в эконометрических пакетах приводятся данные как по R2,  так и по R2, являющиеся  суммарными мерами общего качества уравнения  регрессии.  Однако  не  следует  абсолютизировать  значимость коэффициентов детерминации. Существует достаточно примеров неправильно специфицированных моделей, имеющих высокие коэффициенты  детерминации (обсудим  данную  ситуацию  позже). Поэтому коэффициент детерминации в настоящее время рассматривается лишь  как  один  из  ряда  показателей,  который нужно проанализировать, чтобы уточнить строящуюся модель.   
 

2.8  Анализ статистической значимости коэффициента детерминации 

После оценки индивидуальной статистической  значимости каждого из коэффициентов регрессии обычно анализируется совокупная значимость коэффициентов. Такой анализ осуществляется на основе проверки гипотезы об общей значимости − гипотезы об одновременном равенстве нулю всех коэффициентов регрессии при объясняющих переменных:

Н0: β1 = β2  = … = βm = 0.

Если  данная гипотеза не отклоняется, то делается вывод о том, что совокупное влияние всех m объясняющих переменных Х1, Х2, …, Хm модели на зависимую переменную Y можно считать статистически несущественным, а общее качество уравнения регрессии − невысоким.  Проверка данной гипотезы осуществляется на основе дисперсионного анализа − сравнения объясненной и остаточной дисперсий.  Н0: (объясненная дисперсия) = (остаточная дисперсия),

Н1: (объясненная  дисперсия) > (остаточная дисперсия).

Для этого  строится F-статистика:

 F= ∑ki2/m/∑ei2/(n-m-1)= ∑(yi-y)2/m/∑(yi-yi)2/(n-m-1) (2.37) 

где ∑ki2/m  −  объясненная  дисперсия; ∑ei2/(n−m−1)  −  остаточная дисперсия.  При  выполнении  предпосылок  МНК  построенная F-статистика имеет распределение  Фишера с числами степеней свободы  ν1 = = m, ν2 = n − m − 1. Поэтому, если при требуемом уровне значимости α  Fнабл. > Fкр. = Fα;m;n−m−1 (где Fα;m;n−m−1 − критическая точка распределения Фишера), то Н0 отклоняется в пользу Н1. Это означает, что объясненная дисперсия существенно больше остаточной дисперсии, а следовательно, уравнение регрессии достаточно качественно отражает динамику изменения зависимой переменной Y. Если Fнабл. < Fкр. = Fα;m;n−m−1, то нет оснований для отклонения Н0. Значит, объясненная дисперсия соизмерима  с дисперсией,  вызванной  случайными факторами.  Это  дает  основания  считать,  что  совокупное  влияние  объясняющих переменных модели несущественно, а следовательно, общее качество модели невысоко.  Однако на практике чаще вместо указанной гипотезы проверяют тесно связанную с ней  гипотезу о статистической  значимости коэффициента детерминации R2:

Н0: R2 = 0,

Н0: R2 > 0.

Для  проверки  данной  гипотезы  используется  следующая F-

статистика: 

  F=R2/1-R2*n-m-1/m         (2.38)

Величина F при выполнении предпосылок МНК и при справедливости H0  имеет  распределение Фишера  аналогичное F-статистике (2.37).  Действительно,  разделив  числитель и знаменатель дроби в (2.37) на общую сумму квадратов отклонений ∑(yi −y)2

Очевидно, что показатели F и R2 равны или не равны нулю одновременно. Если F = 0, то R2 = 0, и линия регрессии Y = y является наилучшей по МНК, и, следовательно, величина Y линейно не зависит от X1, Х2, ..., Xm.  Для проверки нулевой гипотезы H0: F= 0 при  заданном уровне  значимости α по  таблицам критических  точек распределения  Фишера  находится  критическое  значение Fкр. = Fα;m;n−m−1. Нулевая гипотеза отклоняется, если  F > Fкр.. Это равносильно тому, что R2 > 0, т. е. R2 статистически значим. Анализ  статистики F позволяет  сделать  вывод  о  том,  что  для принятия гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии, коэффициент детерминации R2 не должен  существенно  отличаться  от  нуля.  Его  критическое  значение уменьшается при росте числа наблюдений и может стать сколь угодно малым.

Пример:

Пусть, например, при оценке регрессии с двумя объясняющими переменными по 30 наблюдениям R2 = 0.65. Тогда F =  0.65 30−2−1 ≈ 25.07.  По таблицам критических точек распределения Фишера найдем F0.05;2;27  = 3.36; F0,01;2;27 = 5.49. Поскольку F набл. = 25.07 > F крит.  как при 5%,  так и при 1%  уровне значимости, то нулевая гипотеза в обоих случаях отклоняется. Если в той же ситуации   R2 = 0.4, то F = 9. Предположение о не значимости связи отвергается и здесь.  Отметим, что в случае парной регрессии проверка нулевой гипотезы  для F-статистики  равносильна  проверке  нулевой  гипотезы  для   t-статистики  коэффициента  корреляции В этом случае F-статистика равна квадрату t-статистики. Самостоятельную важность коэффициент R2 приобретает в случае множественной линейной регрессии.  
 

2.9  Проверка равенства двух коэффициентов детерминации  

      Другим  важным направлением использования статистики Фишера является проверка гипотезы о равенстве нулю не всех коэффициентов регрессии одновременно, а только некоторой части этих коэффициентов. Данное использование статистики F позволяет оценить обоснованность исключения или добавления в уравнение регрессии некоторых  наборов  объясняющих  переменных,  что  особенно  важно  при совершенствовании линейной регрессионной модели. Пусть первоначально построенное по n наблюдениям уравнение регрессии имеет вид  

Y = b0 + b1X1 + b2X2 +  ...  + bm-kXm-k +  ...  + bmXm ,    (6.39) 

и коэффициент  детерминации для этой модели равен  R12. Исключим из рассмотрения k объясняющих  переменных (не нарушая общности, положим, что это будут k последних переменных). По первоначальным n наблюдениям для оставшихся факторов построим другое уравнение регрессии:  

 Y = с0 + с1X1 + с2X2 +  ...  + сm-kXm-k,            (6.40) 

для которого коэффициент детерминации равен R22. Очевидно,    R2 ≤R2, так как каждая дополнительная переменная объясняет часть (пусть незначительную)  рассеивания  зависимой  переменной. Возникает вопрос: существенно ли ухудшилось качество описания поведения зависимой переменной Y. На него можно ответить, проверяя гипотезу H0: R12 − R22 = 0  и используя статистику

F=R2/1-R2*n-m-1/k    (2.41)   

В случае справедливости H0 приведенная статистика F имеет распределение Фишера с числами степеней свободы  ν1 = k , ν2 = n − m − 1.

Здесь  (R12 −R22)  − потеря качества уравнения в результате отбрасывания k объясняющих переменных; k − число дополнительно появившихся  степеней  свободы;  (1−R12)/(n−m−1)  − необъясненная дисперсия  первоначального  уравнения.  Следовательно,  мы  попадаем  в ситуацию аналогичную (6.37).  По таблицам критических точек распределения Фишера находят Fкр. = Fα;m;n−m−1 (α − требуемый уровень значимости).

      Если  рассчитанное значение Fнабл. статистики (6.41) превосходит Fкр., то нулевая гипотеза о равенстве коэффициентов детерминации (фактически об одновременном равенстве нулю отброшенных k коэффициентов регрессии) должна быть отклонена. В этом случае одновременное исключение  из  рассмотрения k объясняющих  переменных  некорректно,  так как R12существенно превышаетR22. Это означает, что общее качество первоначального  уравнения  регрессии  существенно  лучше  качества уравнения регрессии с отброшенными переменными, так как оно объясняет гораздо большую долю разброса зависимой переменной. Если же, наоборот, наблюдаемая F-статистика невелика (т. е. меньше, чем Fкр.), то это означает, что разность  R12− R22 незначительна. Следовательно, можно сделать вывод, что в этом случае одновременное отбрасывание k объясняющих переменных не привело к существенному ухудшению общего качества уравнения регрессии, и оно вполне допустимо. Аналогичные рассуждения могут быть использованы и по поводу обоснованности  включения  новых k объясняющих  переменных.  В этом случае рассчитывается F-статистика. Если она превышает критическое значение Fкр., то включение новых переменных объясняет существенную часть необъясненной ранее дисперсии зависимой переменной.

Информация о работе Анализ регрессии в изучении экономических проблем