Линейная регрессия

Автор работы: Пользователь скрыл имя, 06 Ноября 2014 в 21:11, курсовая работа

Описание работы

Объектом исследования является один из методов регрессионной модели, а также способ проверки качества созданных уравнений регрессий.
Предмет исследования заключается в изучении метода линейной регрессии, в качестве одного из методов регрессионной модели, и скорректированного коэффициента детерминации в роли способа проверки качества уравнений.

Файлы: 1 файл

Курсовик СкорректКоэфДетермин.docx

— 172.72 Кб (Скачать файл)

Часто коэффициент детерминации иллюстрируют следующим образом (рис. 1)

 


Рисунок 1 – Иллюстрированный коэффициент детерминации

Здесь TSS (Total Sum of Squares) – общий разброс переменной , ESS (Explained Sum of Squares) – разброс, объясненный с помощью регрессии, USS (Unexplained Sum of Squares) – разброс, необъясненный с помощью регрессии. Из рисунка видно, что с увеличением объясненной доли разброса коэффициент приближается к единице. Кроме того, из рисунка видно, что с добавлением еще одной переменной обычно увеличивается, однако если объясняющие переменные и сильно коррелируют между собой, то они объясняют одну и ту же часть разброса переменной , и в этом случае трудно идентифицировать вклад каждой из переменных в объяснение поведения .

Если существует статистически значимая линейная связь величин и , то коэффициент близок к единице. Однако он может быть близким к единице просто в силу того, что обе эти величины имеют выраженный временный тренд, не связанный с их причинно-следственной взаимозависимостью. В экономике обычно объемные показатели (доход, потребление, инвестиции) имеют такой тренд, а темповые и относительные (производительности, темпы роста, доли, отношения) – не всегда. Поэтому при оценивании линейных регрессий по временным рядам объемных показателей (например, зависимости выпуска от затрат ресурсов или объема потребления от величины дохода) величина обычно очень близка к единице. Это говорит о том, что зависимую переменную нельзя описать просто как равную своему среднему значению, но это и заранее очевидно, раз она имеет временный тренд.

Если имеются не временные ряды, а перекрестная выборка, то есть данные об однотипных объектах в один и тот же момент времени, то для оцененного по ним уравнения линейной регрессии величина не превышает обычно уровня 0,6 - 0,7. То же самое обычно имеет место и для регрессии по временных рядам, если они не имеют выраженного тренда. В макроэкономике примерами таких зависимостей являются связи относительных, удельных, темповых показателей: зависимость темпа инфляции от уровня безработицы, нормы накопления от величины процентной ставки, темпа прироста выпуска от темпов прироста затрат ресурсов. Таким образом, при построении макроэкономических моделей, особенно – по временных рядам данных, нужно учитывать, являются входящие в них переменных объемными или относительными, имеют ли они временной тренд.

Точную границу приемлемости показателя указать сразу для всех случаев невозможно. Нужно принимать во внимание и число степеней свободы уравнения, и наличие трендов переменных, и содержательную интерпретацию уравнения. Показатель может оказаться даже отрицательным. Как правило, это случается в уравнении без свободного члена

.     (19)

Оценивание такого уравнения производится, как и в общем случае, по методу наименьших квадратов. Однако множество выбора при этом существенно сужается: рассматриваются не все возможные прямые или гиперплоскости, а только проходящие через начало координат. Величина получается отрицательной в том случае, если разброс значений зависимой переменной вокруг прямой (гиперплоскости) меньше, чем вокруг даже наилучшей прямой (гиперплоскости) из проходящих через начало координат. Отрицательная величина в уравнении говорит о целесообразности введения в него свободного члена. Эта ситуация проиллюстрирована на рис.2

Рисунок 2 – Иллюстрация введения свободного члена в уравнение

 

Линия 1 на нем- график уравнения регрессии без свободного члена (он проходит через начало координат), линия 2- со свободным членом (он равен ), линия 3 - . Горизонтальная линия 3 дает гораздо меньшую сумму квадратов отклонений , чем линия 1, и поэтому для последней коэффициент детерминации будет отрицательным.

Поправка на число степеней свободы всегда уменьшает значение , поскольку . В результате также может стать отрицательной. Но это означает, что она была близкой к нулю до такой поправки, и объясненная с помощью уравнения регрессии доля дисперсии зависимой переменной очень мала.

Свойства коэффициента детерминации

Таким образом можно выделить следующие свойства коэффициента детерминации:

  1. ; в силу определения
  2. =0;в этом случае RSS = 0, т. е. наша регрессия не объясняет, ничего не дает по сравнению с тривиальным прогнозом. Данные позволяют сделать вывод о независимости y и x, изменение в переменной x никак не влияет на изменение среднего значения переменной y. То есть увеличивается разброс точек на корреляционном поле относительно построенной линии регрессии(или статистическая зависимость очень слабая, или уравнение регрессии подобрано неверно).
  3. =1; в этом случае все точки () лежат на одной прямой (ESS = 0). Тогда на основании имеющихся данных можно сделать вывод о наличии функциональной, а именно, линейной, зависимости между переменными y и x. Изменение переменной y полностью объясняется изменением переменной x.

Для парной линей регрессии коэффициент детерминации точно равен квадрату коэффициента корреляции:

(20)

Вообще говоря, значение коэффициента детерминации не говорит о том, есть ли между факторами зависимость и насколько она тесная. Оно говорит только о качестве того уравнения, которое мы построили.

Удобно сравнивать коэффициенты детерминации для нескольких разных уравнений регрессии построенных по одним и тем же данным наблюдений. Из нескольких уравнений лучше то, у которого больше коэффициент детерминации.

Скорректированный коэффициент детерминации

Одним из свойств коэффициента детерминации является то, что это не убывающая функция от числа факторов, входящих в модель. Это следует из определения детерминации. Действительно в равенстве

(21)

Числитель не зависит, а знаменатель зависит от числа факторов модели. Следовательно, с увеличением числа независимых переменных в модели, коэффициент детерминации никогда не уменьшается. Тогда, если сравнить две регрессионные модели с одной и тоже зависимой переменной, но разным числом факторов, то более высокий коэффициент детерминации будет получен в модели с большим числом факторов. Поэтому необходимо скорректировать коэффициент детерминации с учетом количества факторов, входящих в модель.

Скорректированный (исправленный или оцененный) коэффициент детерминации определяют следующим образом:

(22)

Свойства скорректированного коэффициента детерминации:

  1. Несложно заметить что при >1 исправленный коэффициент детерминации меньше коэффициента детерминации ().
  2. , но может принимать отрицательные значения. При этом, если скорректированный принимает отрицательное значение, то принимает значение близкое к нулю ().

Таким образом скорректированный коэффициент детерминации является попыткой устранить эффект, связанный с ростом R2 при увеличении числа регрессоров. - "штраф" за увеличение числа независимых переменных.

 

ПРАКТИЧЕСКАЯ ЧАСТЬ

Построение линейной модели множественной регрессии. Расчет скорректированного коэффициента детерминации.

По данным РосСтата за последние 10 лет изучается зависимость количества малоимущего населения России (млн. человек) от количества безработного населения (млн. человек) и среднедушевого дохода жителей страны (тыс. рублей).

Год

Малоимущее население

Безработное население

Среднедушевой 
денежный доход

1

2002

35,6

5,7

3,9

2

2003

29,3

5,9

5,1

3

2004

25,2

5,7

6,4

4

2005

25,2

5,3

8,1

5

2006

21,5

5,3

10,2

6

2007

18,7

4,6

12,6

7

2008

18,8

4,8

14,9

8

2009

18,2

6,4

17,0

9

2010

17,9

5,6

18,9

10

2011

18,1

5,0

20,7


Необходимо построить линейную модель множественной регрессии. Найти скорректированный коэффициент детерминации и сравнить его с общем коэффициентом детерминации.

Для удобства проведения расчетов поместим результаты промежуточных расчетов в таблицу:

1

2

3

4

5

6

7

8

9

10

1

35,6

5,7

3,9

202,92

138,84

22,23

32,49

15,21

1267,36

2

29,3

5,9

5,1

172,87

149,43

30,09

34,81

26,01

858,49

3

25,2

5,7

6,4

143,64

161,28

36,48

32,49

40,96

635,04

4

25,2

5,3

8,1

133,56

204,12

42,93

28,09

65,61

635,04

5

21,5

5,3

10,2

113,95

219,30

54,06

28,09

104,04

462,25

6

18,7

4,6

12,6

86,02

235,62

57,96

21,16

158,76

349,69

7

18,8

4,8

14,9

90,24

280,12

71,52

23,04

222,01

353,44

8

18,2

6,4

17

116,48

309,40

108,80

40,96

289,00

331,24

9

17,9

5,6

18,9

100,24

338,31

105,84

31,36

357,21

320,41

10

18,1

5

20,7

90,50

374,67

103,50

25,00

428,49

327,61

Сумма

228,5

54,3

117,8

1250,42

2411,09

633,41

297,49

1707,30

5540,57

Ср. знач.

22,85

5,43

11,78

125,04

241,11

63,34

29,75

170,73

554,06


 

Найдем средние квадратические отклонения признаков:

 

 

 

Найдем параметры линейного уравнения множественной регрессии

.

Для этого необходимо решить следующую систему линейных уравнений относительно неизвестных параметров , , :

либо воспользоваться готовыми формулами:

;

;

.

Рассчитаем сначала парные коэффициенты корреляции:

 

 

 

 

 

Находим

 

 

 

 

 

Таким образом, получили следующее уравнение множественной регрессии:

.

При помощи найденных парных коэффициентов корреляции рассчитаем частные коэффициенты корреляции.

Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании (устранении влияния) других факторов, включенных в уравнение регрессии.

При двух факторах частные коэффициенты корреляции рассчитываются следующим образом:

 

 

Определим коэффициент множественной корреляции:

 

Коэффициент множественной корреляции показывает на сильную связь всего набора факторов с результатом.

 
Рассчитаем множественный коэффициент детерминации. Он равен квадрату коэффициента множественной корреляции:

 

Этот показатель оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 79,3% и указывает на высокую степень обусловленности вариации результата вариацией факторов, иными словами – на весьма тесную связь факторов с результатом.

Скорректированный коэффициент детерминации определяется следующим образом:

 

Он определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на высокую (73%) детерминированность результата в модели факторами и .

 

ЗАКЛЮЧЕНИЕ

Итак, многочисленные наблюдения и исследования показывают, что в окружающем нас мире величины существуют не изолированно друг от друга, а напротив, они связаны определенным образом.

Не важно рассматриваем мы экономическую сферу деятельности или какую-либо другую, везде существуют факторы, оказывающие влияние на объект/итог какого-либо процесса. Для верной интерпретации этого явления была разработаны методы математической статистики.

Информация о работе Линейная регрессия