Автор работы: Пользователь скрыл имя, 22 Марта 2013 в 14:27, лабораторная работа
Требуется исследовать, как стоимость квартиры зависит от общей площади (х1), жилой площади (х2), расстоянии до метро (х3). За зависимую переменную принят показатель стоимости квартиры, в роли независимых переменных выступают показатели общей площади, жилой площади, расстоянии до метро. Данные взяты из газеты “Бюллетень Недвижимости” № 22, 2005 года.
Федеральное агентство по образованию
Государственное образовательное учреждение
высшего профессионального образования
Башкирский государственный университет
Экономический факультет
Лабораторная работа
по предмету: «Эконометрика»
на тему: «Множественная линейная регрессия»
Уфа – 2012
§ 1. Постановка задачи
Требуется исследовать, как стоимость квартиры зависит от общей площади (х1), жилой площади (х2), расстоянии до метро (х3). За зависимую переменную принят показатель стоимости квартиры, в роли независимых переменных выступают показатели общей площади, жилой площади, расстоянии до метро. Данные взяты из газеты “Бюллетень Недвижимости” № 22, 2005 года.
Рис. 1. Первоначальные данные
§ 2. Построение регрессионного уравнения
Проверим зависимость переменной стоимости квартиры от переменных х1, х2, х3.
Получено уравнение регрессии = -10,63 + 0,46x1 + 0,005x2 – 0,120x3
Рис. 2..Значения коэффициентов РУ
§ 3. Проверка качества подгонки МРУ
1. Коэффициент детерминации R² = 0,77 (см. таблица 2) > 0,7 это означает, что зависимость высокая; фактор х объясняет 77% зависимой переменной, следовательно, отклонение фактических значений зависимой переменной от расчетных значений небольшое и качество подгонки высокое. 0 ≤ R² ≤ 1, чем ближе R² к 1, тем лучше регрессионное уравнение (т.е. качество подгонки).
Рис. 3. Коэффициент детермминации
2. Остаточная дисперсия = 1088,749, показывает влияние прочих, не учитываемых в уравнении регрессии факторов. Принимает значения в интервале (0, + ) и чем меньше , тем лучше регрессионное уравнение.
Рис. 4. Остаточная дисперсия
3. Проверка условия F-критерия по F-статистике. Уравнение по F-критерию имеет линейную связь между факторами:
Fрасч (3,16) = 18,124 > Fтабл (1,16) = 3,23 при p=0,05 и степенями свободы F(1, n-2) – следовательно, гипотезу об отсутствии линейной связи между переменными отвергаем.
Рис. 5. Проверка условия F-критерия
4. Проверка условия t-критерия по t-статистике. t-статистика подчиняется t-распределению Стьюдента, со степенями свободы =n-k-1.
tрасч. (16) = 18,2490 > tтабл (16) = 2,119905 при p=0,05 - следовательно, гипотезу о равенстве коэффициента корреляции нулю b=0 отвергаем, следовательно, x влияет на y существенно.
Рис. 6. Проверка условия t-критерия
t табличный критерий для коэффициента a равен -1,32;
t табличный критерий для коэффициента b1 равен 4,02;
t табличный критерий для коэффициента b2 равен 0,03;
t табличный критерий для коэффициента b3 равен -0,39.
Уравнение адекватно по данным критериям.
4. Проверка выполнения условий получения “хороших” оценок методом наименьших квадратов (МНК)
Рис. 8. Прогнозные значения и остатки
2. D(εi) =const, поверка в Statistica не предусматривается;
3. Проверка по Дарбину-Уотсону:
d2 D-W расч. 4 – d1, по таблице значения Дарбина-Уотсона d1 = 0,998, d2 = 1,676; по Statistica D-W = 2,45
1,67 D-W расч. 3,002, расчетное значение попало в интервал и следовательно, гипотеза об отсутствии автокорреляции принимается.
Рис. 9. Значение Дарбина-Уотсона
4. Средняя величина случайного отклонения εi (остатков) для всех наблюдений равна нулю. Это означает, что случайное отклонение в среднем не оказывает влияния на зависимую переменную. В каждом конкретном наблюдении случайный член может быть либо положительным, либо отрицательным, но он не должен иметь систематического смещения.
Рис. 10. Наблюдаемые значения и остатки
5. Показатель Колмогорова – Смирнова расчетный = 0, 3037. Распределение является нормальным с вероятностью p=0,05, так как показатель К-С расчетный =0,14, т.е. 0,14<=0,3037
Рис. 11. Гистограмма ( К-С)
6. Проверим наличие мультиколлинарности. Условие независимости факторов между собой требует, чтобы переменные x были независимы между собой. Нарушение этого условия называется мультиколлиниарностью. Наличие мультиколлинарности ведет к невозможности построения адекватной модели.
Рис. 12. Матрица коэффициентов парной корреляции
Выдвинем гипотезу о том, что мультиколлениарность присутствует и что коэффициент обратной матрицы ближе к 0 . Для этого в Excel находим коэффициент обратной матрицы.
Рис. 13. Обнаружение мультиколлениарности
0, 06859 ближе к 0, начит
присутствует
Попробуем удалить одну из мультиколлиниарных переменных и посмотреть насколько изменилось уравнение. Для этого используем метод пошаговой регрессией с включением на каждом шаге (используем пошаговую и гребневую регрессию).
Рис. 14. Шаг 0
На шаге 0 у нас ничего не включается.
Рис. 15. Шаг 1
Рис. 16. Шаг 2
Рис. 17. Итоги по шагам
Рис. 18. Коэффициенты
В соответствии
с процедурой пошаговой
y = -10,55+0,47x1-0,12x3.
5. Проверка оценки на гомо-, гетероскедостичность
С помощью теста Голдфельда – Квандта рассмотрим однофакторную линейную модель, для которой дисперсия остатков возрастает пропорционально квадрату фактора, чтобы оценить нарушение гомоскедостичности.
Выдвигаем гипотезу о том, что присутствует гетероскедостичность, т.е.
F расчетное >= F табличного. Далее по тесту:
1. Упорядочить наблюдения по возрастанию фактора х.
2. Разделить наблюдения
на 3 группы, так чтобы в 1 и 3
группах было одинаковое
3. cov = 0, ковариация остатков не равно .
4. Находим F расчетное :
F расчетное = max (SS1, S2) / min (SS1, SS2)
Находим F табличное, с вероятностью p=0,05. Степени свободы d1=n1-2, n1- число наблюдений в 1 группе; d2=n2-2, n2- число наблюдений в 3 группе. Если F табличное > F расчетное, то дисперсия постоянна ( гомоскедостичность).
Рис. 19. Выявление гетероскедостичности
Гипотезу о наличии гетероскедостичности принимаем и делаем выводы, что переменные х1 и х2 – гетероскедостичны. Устраняем гетероскедостичность
Рис. 20. Устранение гетероскедостичности
Для х1 и х2 F табличное стало больше чем F расчетное, следовательно можем утверждать, что мы избавились от гетероскедостичности.
6. Экономический смысл коэффициента b
Имеется однофакторное регрессионное уравнение: = -10,63 + 0,46x1 + 0,005x2 – 0,120x3
y1=-10,63+0,46*1+0,005-0,120=-
y2=-10,63+0,46*2+0,005-0,120=-
y2- y1=-9,825-(-10,285)=0,46, т.е. разность y2- y1 равна коэффициенту b1. Следовательно экономический смысл коэффициента b1 заключается в следующем: y изменяется на 0,46 при изменении x1 на единицу при постоянстве других факторов.
y1=-10,63+0,46+0,005*1-0,120=-
y2=-10,63+0,46+0,005*2-0,120=-
y2- y1=-10,28-(-10,285)=0,005, т.е. разность y2- y1 равна коэффициенту b2. Следовательно экономический смысл коэффициента b2 заключается в следующем: y изменяется на 0,005 при изменении x2 на единицу при постоянстве других факторов.
y1=-10,63+0,46+0,005-0,120*1=-
y2=-10,63+0,46+0,005-0,120*2=-
y2- y1=-10,405-(-10,285)=-0,120, т.е. разность y2- y1 равна коэффициенту b3. Следовательно экономический смысл коэффициента b3 заключается в следующем: y изменяется на -0,120 при изменении x3 на единицу при постоянстве других факторов.
Выводы
В процессе проделанной работы были найдены следующие показатели:
t табличный критерий для коэффициента a равен -1,32;
t табличный критерий для коэффициента b1 равен 4,02;
t табличный критерий для коэффициента b2 равен 0,03;
t табличный критерий для коэффициента b3 равен -0,39.
Уравнение по данным критериям (1,2,3,4) адекватно.
Условия МНК ( 5,6,7,8,9) выполняются.