Множественная линейная регрессия

Автор работы: Пользователь скрыл имя, 22 Марта 2013 в 14:27, лабораторная работа

Описание работы

Требуется исследовать, как стоимость квартиры зависит от общей площади (х1), жилой площади (х2), расстоянии до метро (х3). За зависимую переменную принят показатель стоимости квартиры, в роли независимых переменных выступают показатели общей площади, жилой площади, расстоянии до метро. Данные взяты из газеты “Бюллетень Недвижимости” № 22, 2005 года.

Файлы: 1 файл

Lilek_2.doc

— 350.50 Кб (Скачать файл)

Федеральное агентство по образованию

Государственное образовательное учреждение

высшего профессионального  образования

Башкирский государственный  университет

 

 

Экономический факультет

 

 

 

 

 

 

 

 

Лабораторная  работа

 

по предмету: «Эконометрика»

на тему: «Множественная линейная регрессия»

 

 

 

 

                                                                     Выполнила: студентка 3 курса                                                                 

                                                                     «Национальная экономика»

                                                                      группа 3.5 НЭ А Мусаликина Д.Е.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Уфа – 2012

 

§ 1. Постановка задачи

 

Требуется исследовать, как стоимость квартиры зависит от общей площади (х1), жилой площади (х2), расстоянии до метро (х3). За зависимую переменную принят показатель стоимости квартиры, в роли независимых переменных выступают показатели общей площади, жилой площади, расстоянии до метро. Данные взяты из газеты “Бюллетень Недвижимости” № 22, 2005 года.

Рис. 1. Первоначальные данные

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

§ 2. Построение регрессионного уравнения

 

Проверим зависимость переменной стоимости квартиры от переменных х1, х2, х3.

Получено уравнение регрессии = -10,63 + 0,46x1 + 0,005x2 – 0,120x3

Рис. 2..Значения коэффициентов РУ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

§ 3. Проверка качества подгонки МРУ

1. Коэффициент детерминации R² = 0,77 (см. таблица 2) > 0,7 это означает, что зависимость высокая; фактор х объясняет 77% зависимой переменной, следовательно, отклонение фактических значений зависимой переменной от расчетных значений небольшое и качество подгонки высокое. 0 ≤ R² ≤ 1, чем ближе R² к 1, тем лучше регрессионное уравнение (т.е. качество подгонки).

Рис. 3. Коэффициент детермминации

2. Остаточная дисперсия  = 1088,749, показывает влияние прочих, не учитываемых в уравнении регрессии факторов. Принимает значения в интервале (0, + ) и чем меньше , тем лучше регрессионное уравнение.

Рис. 4. Остаточная дисперсия

 

3. Проверка условия F-критерия по F-статистике. Уравнение по F-критерию имеет линейную связь между факторами:

Fрасч (3,16) = 18,124 > Fтабл (1,16) = 3,23 при p=0,05 и степенями свободы F(1, n-2) – следовательно, гипотезу об отсутствии линейной связи между переменными отвергаем.

 

 

Рис. 5. Проверка условия F-критерия

 

4. Проверка условия t-критерия по t-статистике. t-статистика подчиняется t-распределению Стьюдента, со степенями свободы =n-k-1.

tрасч. (16) = 18,2490 > tтабл (16) = 2,119905 при p=0,05 - следовательно, гипотезу о равенстве коэффициента корреляции нулю b=0 отвергаем, следовательно, x влияет на y существенно.

Рис. 6. Проверка условия t-критерия

 

                                      Рис. 7. Нахождение t-критерия табличного

 

t табличный критерий для коэффициента a равен -1,32;

t табличный критерий для коэффициента b1 равен 4,02;

t табличный критерий для коэффициента b2 равен 0,03;

t табличный критерий для коэффициента b3 равен -0,39.

Уравнение адекватно  по данным критериям.

 

 

 

4. Проверка выполнения условий получения “хороших” оценок методом наименьших квадратов (МНК)

  1. М( ) = 0,0000 – условие выполняется; нужно смотреть на пересечение Среднее и Остатки;

Рис. 8. Прогнозные значения и остатки

2. D(εi) =const, поверка в Statistica не предусматривается; 

3. Проверка по Дарбину-Уотсону:

d2 D-W расч. 4 – d1, по таблице значения Дарбина-Уотсона d1 = 0,998, d2 = 1,676; по Statistica D-W = 2,45

 1,67 D-W расч. 3,002, расчетное значение попало в интервал и следовательно, гипотеза об отсутствии автокорреляции принимается.

Рис. 9. Значение Дарбина-Уотсона

 

     4. Средняя величина случайного отклонения ε(остатков) для всех наблюдений равна нулю. Это означает, что случайное отклонение в среднем не оказывает влияния на зависимую переменную. В каждом конкретном наблюдении случайный член может быть либо положительным, либо отрицательным, но он не должен иметь систематического смещения.

Рис. 10. Наблюдаемые значения и остатки

 

     5. Показатель Колмогорова – Смирнова  расчетный = 0, 3037. Распределение является нормальным с вероятностью p=0,05, так как показатель К-С расчетный =0,14, т.е. 0,14<=0,3037

 

Рис. 11. Гистограмма ( К-С)

 

6. Проверим наличие мультиколлинарности. Условие независимости факторов между собой требует, чтобы переменные x были независимы между собой. Нарушение этого условия называется мультиколлиниарностью. Наличие мультиколлинарности ведет к невозможности построения адекватной модели.

Рис. 12. Матрица коэффициентов парной корреляции

Выдвинем гипотезу о  том, что мультиколлениарность присутствует и что коэффициент обратной матрицы ближе к 0 . Для этого в Excel находим коэффициент обратной матрицы.

Рис. 13. Обнаружение мультиколлениарности

0, 06859 ближе к 0, начит  присутствует мультиколлениарность, принимаем выдвинутую гипотезу.

Попробуем удалить одну из мультиколлиниарных переменных и  посмотреть насколько изменилось уравнение. Для этого используем метод пошаговой регрессией с включением на каждом шаге (используем пошаговую и гребневую регрессию).

 

 

 

 

 

 

 

 

Рис. 14. Шаг 0

 

На шаге 0 у нас ничего не включается.

Рис. 15. Шаг 1

Рис. 16. Шаг 2

 

     

 

Рис. 17. Итоги по шагам

 

Рис. 18. Коэффициенты

 

     В соответствии  с процедурой пошаговой регрессии  с включением предикторов подмножество  испытательных тестов (независимых  переменных), которое наилучшим образом  предсказывает оценки профессиональной пригодности (зависимую переменную), содержит тесты x1, x3. Поэтому регрессионное уравнение будет следующим:

y = -10,55+0,47x1-0,12x3.

 

 

 

 

 

 

 

 

 

 

 

5. Проверка оценки на гомо-, гетероскедостичность

С помощью теста Голдфельда – Квандта рассмотрим однофакторную линейную модель, для которой дисперсия остатков возрастает пропорционально квадрату фактора, чтобы оценить нарушение гомоскедостичности.

Выдвигаем гипотезу о  том, что присутствует гетероскедостичность, т.е.

F расчетное >= F табличного. Далее по тесту:

1. Упорядочить наблюдения  по возрастанию фактора х.

2. Разделить наблюдения  на 3 группы, так чтобы в 1 и 3 группах было одинаковое количество  наблюдений, а во 2 n/6 наблюдений и дальше 2 группу выкидываем. Для 1 и 3 групп строим уравнение регрессии (находим а и b). Для 1 и 3 групп вычисляем сумму квадратов остатков SS1 и SS2.

3. cov = 0, ковариация остатков не равно .

4. Находим F расчетное :

F расчетное = max (SS1, S2) / min (SS1, SS2)

Находим F табличное, с вероятностью p=0,05. Степени свободы d1=n1-2, n1- число наблюдений в 1 группе; d2=n2-2, n2- число наблюдений в 3 группе. Если F табличное > F расчетное, то дисперсия постоянна ( гомоскедостичность).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 19. Выявление гетероскедостичности

Гипотезу о наличии  гетероскедостичности принимаем и  делаем выводы, что переменные х1 и  х2 – гетероскедостичны. Устраняем гетероскедостичность

Рис. 20. Устранение гетероскедостичности

Для х1 и х2 F табличное стало больше чем F расчетное, следовательно можем утверждать, что мы избавились от гетероскедостичности.

6. Экономический  смысл коэффициента b

Имеется однофакторное  регрессионное уравнение: = -10,63 + 0,46x1 + 0,005x2 – 0,120x3

y1=-10,63+0,46*1+0,005-0,120=-10,285

y2=-10,63+0,46*2+0,005-0,120=-9,825

y2- y1=-9,825-(-10,285)=0,46, т.е. разность y2- y1 равна коэффициенту b1. Следовательно экономический смысл коэффициента b1 заключается в следующем: y изменяется на 0,46 при изменении x1 на единицу при постоянстве других факторов.

y1=-10,63+0,46+0,005*1-0,120=-10,285

y2=-10,63+0,46+0,005*2-0,120=-10,28

y2- y1=-10,28-(-10,285)=0,005, т.е. разность y2- y1 равна коэффициенту b2. Следовательно экономический смысл коэффициента b2 заключается в следующем: y изменяется на 0,005  при изменении x2 на единицу при постоянстве других факторов.

y1=-10,63+0,46+0,005-0,120*1=-10,285

y2=-10,63+0,46+0,005-0,120*2=-10,405

y2- y1=-10,405-(-10,285)=-0,120, т.е. разность y2- y1 равна коэффициенту b3. Следовательно экономический смысл коэффициента b3 заключается в следующем: y изменяется на -0,120  при изменении x3 на единицу при постоянстве других факторов.

 

 

 

 

 

 

 

 

 

 

Выводы

В процессе проделанной  работы были найдены следующие показатели:

  1. Остаточная дисперсия = 1088,749, показывает влияние прочих, не учитываемых в уравнении регрессии факторов.
  2. Коэффициент детерминации R² = 0,77 > 0,7 это означает, что зависимость очень высокая; фактор х объясняет 77% зависимой переменной, следовательно, отклонение фактических значений зависимой переменной от расчетных значений небольшое и качество подгонки высокое.
  3. Проверка условия F-критерия по F-статистике. Fрасч (3,16) = 18,124 > Fтабл (1,16) = 3,23 при p=0,05 и степенями свободы F(1, n-2) – следовательно, гипотезу об отсутствии линейной связи между переменными отвергаем.
  4. Проверка условия t-критерия по t-статистике. tрасч. tрасч. (16) = 18,2490 > tтабл (16) = 2,119905 при p=0,05, следовательно, гипотезу о равенстве коэффициента корреляции нулю b=0 отвергаем, следовательно, x влияет на y существенно;

t табличный критерий для коэффициента a равен -1,32;

t табличный критерий для коэффициента b1 равен 4,02;

t табличный критерий для коэффициента b2 равен 0,03;

t табличный критерий для коэффициента b3 равен -0,39.

Уравнение по данным критериям (1,2,3,4) адекватно.

  1. М( ) = 0,0000 – условие выполняется.
  2. D(εi) =const.
  3. Проверка по Дарбину-Уотсону. 1,67 D-W расч. 3,002, расчетное значение попало в интервал и следовательно, гипотеза об отсутствии автокорреляции принимается.
  4. Устранили мультиколлениарность с помощью пошаговой гребневой регрессии.
  5. Выявили и устранили гетероскедостичность с помощью теста Голдфельда - Квандта.

 

Условия МНК ( 5,6,7,8,9) выполняются.




Информация о работе Множественная линейная регрессия