Модель простой регрессии

Автор работы: Пользователь скрыл имя, 12 Марта 2016 в 11:51, контрольная работа

Описание работы

Математические модели широко используются в экономике, в финансах, в общественных науках. Обычно модели строятся и верифицируются на основе имеющихся наблюдений изучаемого показателя и, так называемых, объясняющих факторов. Язык экономики все больше становится математическим, а саму экономику все чаще упоминают как одну из наиболее математизированных наук. В течение последних десятилетий математические и, в частности, статистические методы в экономике стремительно развиваются. Свидетельством признания эконометрики является присуждение за наиболее выдающиеся работы в этой области Нобелевских премий по экономике: Р.Фришу и Я. Тинбергу (1969) за разработку математических методов анализа экономических процессов, Л. Клейну (1980) за создание эконометрических моделей и их применение к анализу экономических колебаний и экономической политике, Т. Хаавельмо (1989) за работы в области вероятностных основ эконометрики и анализ одновременных экономических структур, Дж. Хекману и Д. Макфаддену (2000) за развитие методов анализа селективных выборок и моделей дискретного выбора.

Файлы: 1 файл

Kursovaya_Model_prostoy_regressii_116529.doc

— 1.05 Мб (Скачать файл)

Исходя из получившейся конфигурации точек, выбирается наиболее подходящий вид параметрической функциональной зависимости f(x). На рисунке 1.3.1 приведен пример поля корреляции для некоторой выборки объемом 11 наблюдений (каждому наблюдению соответствует одна точка) с графиками двух функциональных зависимостей — линейной функции и параболы.

Эмпирический метод состоит в следующем. Выбирается некоторая параметрическая функциональная зависимость f(x) (см., например, 1.3.3–1.3.7). Для построения по выборке оценки f'(x) этой зависимости чаще всего используется метод наименьших квадратов (МНК).

Согласно методу наименьших квадратов значения параметров функции f'(x) (будем обозначать их через a , b ) выбираются таким образом, чтобы сумма квадратов отклонений выборочных значений f(x) от значений f'( ) была минимальной

,                                                (1.3.8)

 

минимум ищется по параметрам a b , которые входят в зависимость f' ( x) .

Найденные значения параметров, которые минимизируют указанную сумму квадратов разностей, называются оценками неизвестных параметров регрессии по методу наименьших квадратов (оценками МНК). Выборочная регрессия y' = f '(x) (или ' = f'( ), i = 1,K, n ), в

которую подставлены найденные значения, уже не содержит неизвестных параметров и является оценкой теоретической регрессии. Именно эту зависимость f'(x) будем рассматривать как эмпирическую усредненную зависимость изучаемого показателя от объясняющего фактора.

После нахождения эмпирического уравнения регрессии вычисляются значения

'= f'( ) и остатки = − ', i = 1, n . По величине n остаточной суммы квадратов

можно судить о качестве соответствия эмпирической функции f'(x) имеющимся в наличии статистическим наблюдениям. Перебирая разные функциональные зависимости и, каждый раз, действуя подобным образом можно практически подобрать наиболее подходящую функцию для описания имеющихся данных.

Аналитический метод сводится к попытке выяснения содержательного смысла зависимости изучаемого показателя от объясняющего фактора и последующего выбора на этой основе соответствующей функциональной зависимости. Так, если y — расходы фирмы, x — объем выпущенной продукции за месяц, то нетрудно получить следующую модель зависимости расходов от объема выпущенной продукции:

y =α + β x+ε ,

где α — условно-постоянные расходы, β x — условно-переменные расходы.

В практике эконометрического анализа часто используют линейную парную регрессию. В модели парной линейной регрессии зависимость 1.3.1 между переменными представляется в виде

y =α + β x +ε ,            (1.3.9)

т.е. теоретическая регрессия имеет вид 1.3.3.

На основе выборочных наблюдений оценка теоретической регрессии — выборочная (эмпирическая) регрессия y строится в виде:

y' = a + bx ,           (1.3.10)

где a,b являются оценками параметров α,β теоретической регрессии.

 

  • 1.4 Оценка параметров. Метод наименьших квадратов.

 

Рассматривается модель парной линейной регрессии

 

= α + β  + , i = 1, n .

 

На основе эмпирических наблюдений построим оценку теоретической регрессии — найдем выборочное уравнение регрессии

 

' = a + bx , i = 1, n .

Оценки a,b параметров α,β определяются по методу наименьших квадратов из соотношения:

 

т.е. a , b выбираются таким образом, чтобы минимизировать сумму квадратов отклонений выборочных (эмпирических) значений показателя от расчетных '.

 

подставим в задачу формулу:

 

В данном случае у нас a и b – переменные, а х и у – параметры. Для нахождения экстремума функции, возьмем частные производные по a и b и приравняем их к нулю.

Получили систему из двух линейных уравнений. Разделим оба на 2n:

 

Из первого уравнения выразим неизвестную а:

и подставим это выражение во второе уравнение:

 

Построив оценки a и b коэффициентов  и , мы можем рассчитать т. н. «предсказанные», или «смоделированные» значения ŷi = a + bxi и их вероятностные характеристики – среднее арифметическое и дисперсию.

Несложно заметить, что оказалось . Так должно быть всегда:

 

Кроме того, вычислим т. н. случайные остатки и рассчитаем их вероятностные характеристики.

Оказалось, . Это также закономерно:

Таким образом, дисперсия случайных остатков будет равна:

 

Мы произвели вычисления, и построили регрессионное уравнение, позволяющее нам построить некую оценку переменной у (эту оценку мы обозначили ŷ). Однако, если бы мы взяли другие данные, по другим областям (или за другой период времени), то исходные, экспериментальные значения х и у у нас были бы другими и, соответственно, а и b, скорее всего, получились бы иными.

  • 1.5 Основные предположения регрессионного анализа

 

Основные предположения регрессионного анализа относятся к случайной компоненте ε и имеют решающее значение для правильного и обоснованного применения регрессионного анализа в эконометрических исследованиях.

В классической модели регрессионного анализа предполагаются выполненными следующие предположения (условия Гаусса-Маркова):

Условие 1.5.1. Величины ε i являются случайными.

Условие 1.5.2. Математическое ожидание возмущений равно ну-

лю: E ( ) = 0 .

Условие 1.5.3. Возмущения и ε j некоррелированы: E ( ) = 0 , i≠ j.

Условие 1.5.4. Дисперсия возмущения постоянна для каждого

i : D( ) = σ 2. Это условие называется условием гомоскедастичности. Нарушение этого условия называется гетероскедастичностью.

Условие 1.5.5. Величины ε i взаимно независимы со значениями

объясняющих переменных.

Здесь, во всех условиях i = 1,2,K , n .

Эти предположения образуют первую группу предположений, необходимых для проведения регрессионного анализа в рамках классической модели.

Вторая группа предположений дает достаточные условия для обоснованного проведения проверки статистической значимости эмпирических регрессий:

Условие 1.5.6. Совместное распределение случайных величин ,K,    является нормальным.

При выполнении предположений первой и второй групп случайные величины ,K, оказываются взаимно независимыми, одинаково распределенными случайными величинами, подчиняющимися нормальному распределению с нулевым математическим ожиданием и дисперсией σ2.

 

  • 1.6 Характеристика оценок коэффициентов уравнения регрессии

 

1) математическое ожидание

Теорема: М(а) = , M(b) =  - несмещенность оценок

Это означает, что при увеличении количества наблюдений значения МНК-оценок a и b будут приближаться к истинным значениям  и ;

2) дисперсия

Теорема:

;  

Благодаря этой теореме, мы можем получить представление о том, как далеко, в среднем, наши оценки a и b находятся от истинных значений  и .

Необходимо иметь в виду, что дисперсии характеризуют не отклонения, а «отклонения в квадрате». Чтобы перейти к сопоставимым значениям, рассчитаем стандартные отклонения a и b:

;  

Будем называть эти величины стандартными ошибками a и b соответственно.

  • 1.7 Построение доверительных интервалов

Пусть мы имеем оценку а. Реальное значение коэффициента уравнения регрессии  лежит где-то рядом, но где точно, мы узнать не можем. Однако, мы можем построить интервал, в который это реальное значение попадет с некоторой вероятностью. Доказано, что:

с вероятностью Р = 1 -

где t/2(n-1) - /2-процентная точка распределения Стьюдента с (n-1) степенями свободы – определяется из специальных таблиц.

При этом уровень значимости устанавливается произвольно.

Неравенство можно преобразовать следующим образом:

,

или, что то же самое:

Аналогично, с вероятностью Р = 1 - :

откуда следует:

,

или:

Уровень значимости  - это вероятность того, что на самом деле истинные значения  и  лежат за пределами построенных доверительных интервалов. Чем меньше его значение, тем больше величина t/2(n-1), соответственно, тем шире будет доверительный интервал.

  • 1.8 Проверка статистической значимости коэффициентов регрессии

 

Мы получили МНК-оценки коэффициентов, рассчитали для них доверительные интервалы. Однако мы не можем судить, не слишком ли широки эти интервалы, можно ли вообще говорить о значимости коэффициентов регрессии.

Гипотеза Н0: предположим, что =0, т. е. на самом деле независимой постоянной составляющей в отклике нет (альтернатива – гипотеза Н1:   0).

Для проверки этой гипотезы, с заданным уровнем значимости , рассчитывается t-статистика, для парной регрессии:

Значение t-статистики сравнивается с табличным значением t/2(n-1) - /2-процентной точка распределения Стьюдента с (n-1) степенями свободы.

Если t < t/2(n-1) – гипотеза Н0 не отвергается (обратить внимание: не «верна», а «не отвергается»), т. е. мы считаем, что с вероятностью 1- можно утверждать, что  = 0.

В противном случае гипотеза Н0 отвергается, принимается гипотеза Н1.

Аналогично для коэффициента b формулируем гипотезу Н0:  = 0, т. е. переменная, выбранная нами в качестве фактора, на самом деле никакого влияния на отклик не оказывае.

Для проверки этой гипотезы, с заданным уровнем значимости , рассчитывается t-статистика:

и сравнивается с табличным значением t/2(n-1).

Если t < t/2(n-1) – гипотеза Н0 не отвергается, т. е. мы считаем, что с вероятностью 1- можно утверждать, что  = 0.

В противном случае гипотеза Н0 отвергается, принимается гипотеза Н1.

  • 1.9 Автокорреляция остатков.

 

1. Примеры автокорреляции.

Возможные причины:

1) неверно выбрана функция регрессии;

2) имеется неучтенная объясняющая  переменная (переменные)

2. Статистика Дарбина-Уотсона

Очевидно:

0  DW  4

Если DW близко к нулю, это позволяет предполагать наличие положительной автокорреляции, если близко к 4 – отрицательной.

Распределение DW зависит от наблюденных значений, поэтому получить однозначный критерий, при выполнении которого DW считается «хорошим», а при невыполнении - «плохим», нельзя. Однако, для различных величин n и  найдены верхние и нижние границы, DWL и DWU, которые в ряде случаев позволяют с уверенностью судить о наличии (отсутствии) автокорреляции в модели. Правило:

1) При DW < 2:

а) если DW < DWL – делаем вывод о наличии положительной автокорреляции (с вероятностью 1-);

б) если DW > DWU – делаем вывод об отсутствии автокорреляции (с вероятностью 1-);

в) если DWL  DW  DWU – нельзя сделать никакого вывода;

2) При DW > 2:

а) если (4 – DW) < DWL – делаем вывод о наличии отрицательной автокорреляции (с вероятностью 1-);

б) если (4 – DW) > DWU – делаем вывод об отсутствии автокорреляции (с вероятностью 1-);

в) если DWL  (4 – DW)  DWU – нельзя сделать никакого вывода;

 

  • 1.10 Гетероскедастичность остатков

 

Возможные причины:

- ошибки в исходных данных;

- наличие закономерностей;

Обнаружение – возможны различные тесты. Наиболее простой:

(упрощенный тест Голдфелда –  Куандта)

1) упорядочиваем выборку по возрастанию  одной из объясняющих переменных;

2) формулируем гипотезу Н0: остатки гомоскедастичны

3) делим выборку приблизительно  на три части, выделяя k остатков, соответствующих «маленьким» х  и k остатков, соответствующих «большим»  х (kn/3);

4) строим модели парной линейной  регрессии отдельно для «меньшей» и «большей» частей

5) оцениваем дисперсии остатков  в «меньшей» (s21) и «большей» (s21) частях;

6) рассчитываем дисперсионное соотношение:

7) определяем табличное значение F-статистики Фишера с (k–m–1) степенями  свободы числителя и (k - m - 1) степенями свободы знаменателя при заданном уровне значимости

8) если дисперсионное соотношение  не превышает табличное значение F-статистики (т.е., оно подчиняется F-распределению  Фишера с (k–m–1) степенями свободы  числителя и (k - m - 1) степенями свободы знаменателя), то гипотеза Н0 не отвергается - делаем вывод о гомоскедастичности остатков. Иначе – предполагаем их гетероскедатичность.

Информация о работе Модель простой регрессии