Автор работы: Пользователь скрыл имя, 06 Ноября 2014 в 21:11, курсовая работа
Объектом исследования является один из методов регрессионной модели, а также способ проверки качества созданных уравнений регрессий.
Предмет исследования заключается в изучении метода линейной регрессии, в качестве одного из методов регрессионной модели, и скорректированного коэффициента детерминации в роли способа проверки качества уравнений.
Часто коэффициент детерминации иллюстрируют следующим образом (рис. 1)
Рисунок 1 – Иллюстрированный коэффициент детерминации
Здесь TSS (Total Sum of Squares) – общий разброс переменной , ESS (Explained Sum of Squares) – разброс, объясненный с помощью регрессии, USS (Unexplained Sum of Squares) – разброс, необъясненный с помощью регрессии. Из рисунка видно, что с увеличением объясненной доли разброса коэффициент приближается к единице. Кроме того, из рисунка видно, что с добавлением еще одной переменной обычно увеличивается, однако если объясняющие переменные и сильно коррелируют между собой, то они объясняют одну и ту же часть разброса переменной , и в этом случае трудно идентифицировать вклад каждой из переменных в объяснение поведения .
Если существует статистически значимая линейная связь величин и , то коэффициент близок к единице. Однако он может быть близким к единице просто в силу того, что обе эти величины имеют выраженный временный тренд, не связанный с их причинно-следственной взаимозависимостью. В экономике обычно объемные показатели (доход, потребление, инвестиции) имеют такой тренд, а темповые и относительные (производительности, темпы роста, доли, отношения) – не всегда. Поэтому при оценивании линейных регрессий по временным рядам объемных показателей (например, зависимости выпуска от затрат ресурсов или объема потребления от величины дохода) величина обычно очень близка к единице. Это говорит о том, что зависимую переменную нельзя описать просто как равную своему среднему значению, но это и заранее очевидно, раз она имеет временный тренд.
Если имеются не временные ряды, а перекрестная выборка, то есть данные об однотипных объектах в один и тот же момент времени, то для оцененного по ним уравнения линейной регрессии величина не превышает обычно уровня 0,6 - 0,7. То же самое обычно имеет место и для регрессии по временных рядам, если они не имеют выраженного тренда. В макроэкономике примерами таких зависимостей являются связи относительных, удельных, темповых показателей: зависимость темпа инфляции от уровня безработицы, нормы накопления от величины процентной ставки, темпа прироста выпуска от темпов прироста затрат ресурсов. Таким образом, при построении макроэкономических моделей, особенно – по временных рядам данных, нужно учитывать, являются входящие в них переменных объемными или относительными, имеют ли они временной тренд.
Точную границу приемлемости показателя указать сразу для всех случаев невозможно. Нужно принимать во внимание и число степеней свободы уравнения, и наличие трендов переменных, и содержательную интерпретацию уравнения. Показатель может оказаться даже отрицательным. Как правило, это случается в уравнении без свободного члена
. (19)
Оценивание такого уравнения производится, как и в общем случае, по методу наименьших квадратов. Однако множество выбора при этом существенно сужается: рассматриваются не все возможные прямые или гиперплоскости, а только проходящие через начало координат. Величина получается отрицательной в том случае, если разброс значений зависимой переменной вокруг прямой (гиперплоскости) меньше, чем вокруг даже наилучшей прямой (гиперплоскости) из проходящих через начало координат. Отрицательная величина в уравнении говорит о целесообразности введения в него свободного члена. Эта ситуация проиллюстрирована на рис.2
Рисунок 2 – Иллюстрация введения свободного члена в уравнение
Линия 1 на нем- график уравнения регрессии без свободного члена (он проходит через начало координат), линия 2- со свободным членом (он равен ), линия 3 - . Горизонтальная линия 3 дает гораздо меньшую сумму квадратов отклонений , чем линия 1, и поэтому для последней коэффициент детерминации будет отрицательным.
Поправка на число степеней свободы всегда уменьшает значение , поскольку . В результате также может стать отрицательной. Но это означает, что она была близкой к нулю до такой поправки, и объясненная с помощью уравнения регрессии доля дисперсии зависимой переменной очень мала.
Таким образом можно выделить следующие свойства коэффициента детерминации:
Для парной линей регрессии коэффициент детерминации точно равен квадрату коэффициента корреляции:
(20)
Вообще говоря, значение коэффициента детерминации не говорит о том, есть ли между факторами зависимость и насколько она тесная. Оно говорит только о качестве того уравнения, которое мы построили.
Удобно сравнивать коэффициенты детерминации для нескольких разных уравнений регрессии построенных по одним и тем же данным наблюдений. Из нескольких уравнений лучше то, у которого больше коэффициент детерминации.
Одним из свойств коэффициента детерминации является то, что это не убывающая функция от числа факторов, входящих в модель. Это следует из определения детерминации. Действительно в равенстве
(21)
Числитель не зависит, а знаменатель зависит от числа факторов модели. Следовательно, с увеличением числа независимых переменных в модели, коэффициент детерминации никогда не уменьшается. Тогда, если сравнить две регрессионные модели с одной и тоже зависимой переменной, но разным числом факторов, то более высокий коэффициент детерминации будет получен в модели с большим числом факторов. Поэтому необходимо скорректировать коэффициент детерминации с учетом количества факторов, входящих в модель.
Скорректированный (исправленный или оцененный) коэффициент детерминации определяют следующим образом:
(22)
Свойства скорректированного коэффициента детерминации:
Таким образом скорректированный коэффициент детерминации является попыткой устранить эффект, связанный с ростом R2 при увеличении числа регрессоров. - "штраф" за увеличение числа независимых переменных.
Построение линейной модели множественной регрессии. Расчет скорректированного коэффициента детерминации.
По данным РосСтата за последние 10 лет изучается зависимость количества малоимущего населения России (млн. человек) от количества безработного населения (млн. человек) и среднедушевого дохода жителей страны (тыс. рублей).
№ |
Год |
Малоимущее население |
Безработное население |
Среднедушевой |
1 |
2002 |
35,6 |
5,7 |
3,9 |
2 |
2003 |
29,3 |
5,9 |
5,1 |
3 |
2004 |
25,2 |
5,7 |
6,4 |
4 |
2005 |
25,2 |
5,3 |
8,1 |
5 |
2006 |
21,5 |
5,3 |
10,2 |
6 |
2007 |
18,7 |
4,6 |
12,6 |
7 |
2008 |
18,8 |
4,8 |
14,9 |
8 |
2009 |
18,2 |
6,4 |
17,0 |
9 |
2010 |
17,9 |
5,6 |
18,9 |
10 |
2011 |
18,1 |
5,0 |
20,7 |
Необходимо построить линейную модель множественной регрессии. Найти скорректированный коэффициент детерминации и сравнить его с общем коэффициентом детерминации.
Для удобства проведения расчетов поместим результаты промежуточных расчетов в таблицу:
№ |
|
|
|
|
|
|
|
|
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
1 |
35,6 |
5,7 |
3,9 |
202,92 |
138,84 |
22,23 |
32,49 |
15,21 |
1267,36 |
2 |
29,3 |
5,9 |
5,1 |
172,87 |
149,43 |
30,09 |
34,81 |
26,01 |
858,49 |
3 |
25,2 |
5,7 |
6,4 |
143,64 |
161,28 |
36,48 |
32,49 |
40,96 |
635,04 |
4 |
25,2 |
5,3 |
8,1 |
133,56 |
204,12 |
42,93 |
28,09 |
65,61 |
635,04 |
5 |
21,5 |
5,3 |
10,2 |
113,95 |
219,30 |
54,06 |
28,09 |
104,04 |
462,25 |
6 |
18,7 |
4,6 |
12,6 |
86,02 |
235,62 |
57,96 |
21,16 |
158,76 |
349,69 |
7 |
18,8 |
4,8 |
14,9 |
90,24 |
280,12 |
71,52 |
23,04 |
222,01 |
353,44 |
8 |
18,2 |
6,4 |
17 |
116,48 |
309,40 |
108,80 |
40,96 |
289,00 |
331,24 |
9 |
17,9 |
5,6 |
18,9 |
100,24 |
338,31 |
105,84 |
31,36 |
357,21 |
320,41 |
10 |
18,1 |
5 |
20,7 |
90,50 |
374,67 |
103,50 |
25,00 |
428,49 |
327,61 |
Сумма |
228,5 |
54,3 |
117,8 |
1250,42 |
2411,09 |
633,41 |
297,49 |
1707,30 |
5540,57 |
Ср. знач. |
22,85 |
5,43 |
11,78 |
125,04 |
241,11 |
63,34 |
29,75 |
170,73 |
554,06 |
Найдем средние квадратические отклонения признаков:
Найдем параметры линейного уравнения множественной регрессии
.
Для этого необходимо решить следующую систему линейных уравнений относительно неизвестных параметров , , :
либо воспользоваться готовыми формулами:
Рассчитаем сначала парные коэффициенты корреляции:
Находим
Таким образом, получили следующее уравнение множественной регрессии:
.
При помощи найденных парных коэффициентов корреляции рассчитаем частные коэффициенты корреляции.
Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании (устранении влияния) других факторов, включенных в уравнение регрессии.
При двух факторах частные коэффициенты корреляции рассчитываются следующим образом:
Определим коэффициент множественной корреляции:
Коэффициент множественной корреляции показывает на сильную связь всего набора факторов с результатом.
Рассчитаем множественный коэффициент
детерминации. Он равен квадрату коэффициента
множественной корреляции:
Этот показатель оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 79,3% и указывает на высокую степень обусловленности вариации результата вариацией факторов, иными словами – на весьма тесную связь факторов с результатом.
Скорректированный коэффициент детерминации определяется следующим образом:
Он определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на высокую (73%) детерминированность результата в модели факторами и .
Итак, многочисленные наблюдения и исследования показывают, что в окружающем нас мире величины существуют не изолированно друг от друга, а напротив, они связаны определенным образом.
Не важно рассматриваем мы экономическую сферу деятельности или какую-либо другую, везде существуют факторы, оказывающие влияние на объект/итог какого-либо процесса. Для верной интерпретации этого явления была разработаны методы математической статистики.