Множественная регрессия
Автор работы: Пользователь скрыл имя, 31 Января 2013 в 15:56, реферат
Описание работы
Множественной регрессией называется условное математическое ожидание переменной Y как функция от переменных X2,…,Xk.
Модель множественной линейной регрессии имеет вид:
, i = 1,…, n,
где n – число наблюдений, - независимые переменные, Y – зависимая переменная, ε – случайная составляющая, - коэффициенты регрессии.
Для нахождения оценок параметров используется метод наименьших квадратов (МНК), сводящийся к минимизации по суммы квадратов отклонений
Файлы: 1 файл
Множественная регрессия.doc
— 166.00 Кб (Скачать файл)Глава Множественная регрессия
Множественной регрессией называется условное математическое ожидание переменной Y как функция от переменных X2,…,Xk.
Модель множественной линейной регрессии имеет вид:
где n – число наблюдений, - независимые переменные, Y – зависимая переменная, ε – случайная составляющая, - коэффициенты регрессии.
Для нахождения оценок параметров используется метод наименьших квадратов (МНК), сводящийся к минимизации по суммы квадратов отклонений
Оценки МНК параметров являются решениями системы нормальных уравнений:
,
где , I – единичный вектор - столбец размерности n,
, j = 2,…,k,
Если случайные величины при всех являются некоррелированными и ~ , i = 1,…, n, X2,…,Xk являются детерминированными, то случайная величина , имеет распределение Стьюдента с n-k степенями свободы.
Гипотеза о конкретном значении коэффициента ,
при двусторонней альтернативной гипотезе
проверяется с помощью тестовой статистики:
.
Если , где - выбранный уровень значимости, то основная гипотеза отвергается.
Если же альтернативная гипотеза односторонняя ( ), то основная гипотеза отвергается при ( ).
Проверка гипотезы о равенстве коэффициента , нулю (обычно при двусторонней альтернативной гипотезе) называется проверкой гипотезы о значимости этого коэффициента. Если гипотеза о равенстве нулю коэффициента не отвергается, то этот коэффициент называется незначимым.
При оценке регрессии статистическими пакетами Excel, Eviews, STATA, SPSS и др. автоматически проводится проверка гипотез о значимости коэффициентов. Для тестовой t – статистики вычисляется p - value (p - значение) – минимальный уровень значимости, при котором основная гипотеза отвергается. Если p – value превышает выбранный уровень значимости, то основная гипотеза (о равенстве коэффициента 0) не отвергается.
Если коэффициент является незначимым, то между переменной Xj , и переменной Y не существует статистически значимой линейной зависимости. Если коэффициент , является значимым, то его оценка интерпретируется следующим образом: при увеличении Xj на одну единицу Y изменяется на j единиц (в сторону увеличения при положительном j и уменьшения при отрицательном j) .
Очень важна проверка гипотезы об адекватности регрессии в целом.
Если гипотеза
отвергается в пользу альтернативной гипотезы
,
(при выбранном уровне
является адекватной.
Проверка гипотезы об адекватности регрессии проводится с помощью F- статистики Фишера с числом степеней свободы (k, n - k)
Значение тестовой статистики рассчитывается по формуле (где - объясненная с помощью регрессии сумма квадратов отклонений от среднего, - сумма квадратов остатков регрессии) и сравнивается с критическим (при выбранном уровне значимости ). Если рассчитанное значение F- статистики превышает критическое, то гипотеза отвергается.
Гипотеза об адекватности регрессии также автоматически проверяется статистическими пакетами Excel, Eviews, STATA, SPSS и др., выдается значение тестовой F-статистики и соответствующее p – value. Если p – value меньше выбранного уровня значимости, то регрессия является адекватной и можно интерпретировать оценки коэффициентов регрессии.
Показателем
качества подгонки регрессии является
коэффициент множественной
Чем ближе R2 к 1, тем лучше качество подгонки регрессии. Однако R2 в качестве показателя качества подгонки регрессии обладает существенным недостатком: R2 никогда не убывает при добавлении независимой переменной в уравнение регрессии. Однако при добавлении независимой переменной в уравнение регрессии может увеличиться дисперсия оценок коэффициентов, некоторые коэффициенты могут стать незначимыми.
Для устранения указанного недостатка вводится другой показатель качества оценки регрессии - коэффициент множественной детерминации, скорректированный на число степеней свободы .
Отметим, что R2 является показателем качества подгонки регрессии только в том случае, когда в определенной выше матрице X есть единичный столбец (в этом случае говорят, что в уравнение регрессии включена константа) или единичный столбец является линейной комбинацией столбцов матрицы Х.
R2 и выдаются при оценке регрессии с помощью МНК любыми статистическими пакетами.
1) Зависимость заработной платы от способностей индивидуума, его образования и образования его родителей в Америке (линейная модель)
В период с 1979 г. по 1994 г. американские ученые обследовали 3003 юношей и 3108 девушек в возрасте от 14 лет до 21 года (в 1979 г.). В массиве данных NLSY 1979 – the National Longitudinal Survey of Youth были собраны сведения об их семьях, образовании, способностях, доходах и т.д.
В файле Dougherty.dta, позаимствованном с http://econ.lse.ac.uk/ie, содержатся данные о случайно выбранных 270 юношах и 270 девушках.
Переменные:
EARNINGS – почасовая заработная плата индивида в 2002 г.,
S - количество лет обучения к 2002 г.,
AGE – возраст индивида в 2002 г.,
SM – количество лет обучения матери индивидуума,
SF - количество лет обучения отца индивидуума,
ASVAB02 – результаты теста по арифметике,
ASVAB03 – результаты теста по правописанию,
ASVAB04 – результаты теста по пониманию прочитанного материала,
ASVAB05 – результаты теста на скорость выполнения численных операций,
ASVAB06 – результаты теста на скорость восприятия прочитанного материала,
ASVABC = 0.5 ASVAB02 + 0.25 ASVAB03 + 0.25 ASVAB04 – обобщенная переменная, характеризующая способности школьника,
EXPERIENCE – опыт работы к 2002 г.,
SIBLINGS – число родных братьев и сестер индивидуума.
1.1. Зависимость длительности образования от способностей и длительности обучения родителей
1) С помощью данных файла Dougherty.dta оцените параметры уравнения множественной регрессии
2) Проверьте
адекватность регрессии в
3) Исходя
из полученных результатов,
1.2. Зависимость заработной платы от способностей и образования индивидуума
1) С помощью данных файла Dougherty.dta оцените параметры уравнения множественной регрессии
2) Проверьте
адекватность регрессии в
3) Исходя
из полученных результатов,
Методические рекомендации по выполнению упражнения 1
1) Воспользуйтесь соответствующими указаниями в разделе «Оценка регрессий в пакете STATA»
2) Для оценки параметров регрессии методом наименьших квадратов последовательно наберите в командном окне
reg S ASVABC SM
(для выполнения упражнения 1.
reg EARNINGS S ASVABC
(для выполнения упражнения 1.
последовательно кликая по именам переменных в окне переменных
4) Проверьте адекватность регрессии с помощью p-value для F-статистики. Если p-value меньше выбранного Вами уровня значимости, например, 0.05, то регрессия адекватна.
5) Проверьте значимость
2) Моделирование продаж одежды
В файле
clothing.dta содержатся данные о продажах одежды
в 400 голландских магазинах мужской одежды.
Эти данные позаимствованы с сайта издательства
книги Марно Вербика [4] http://wileyeurope.com/go/
Переменные:
tsales – среднегодовые продажи в гульденах,
sales - продажи в расчете на квадратный метр,
margin – маржинальная валовая прибыль,
nown – количество собственников (менеджеров),
nfull – количество полностью занятых работников,
npart - количество частично занятых работников,
naux – количество временно работающих,
hoursw – общее число отработанных часов,
hourspw – количество отработанных часов в расчете на одного работающего,
inv1 – капиталовложения в помещения,
inv2 - капиталовложения в автоматизацию,
ssize – размер магазина в м2,
start – год открытия магазина.
1) Оцените параметры уравнения множественной регрессии
2) Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по-отдельности.
3) Влияет ли общее число отработанных часов и размер магазина на продажи в расчете на квадратный метр (и каким образом)?
4) Улучшится ли качество подгонки регрессии при включении в модель переменной nown? А переменной npart? Поэкспериментируйте и с включением других переменных.
Методические рекомендации по выполнению упражнения 2
1) Воспользуйтесь соответствующими указаниями в разделе «Оценка регрессий в пакете STATA».
2) Для оценки параметров уравнения регрессии
методом наименьших квадратов наберите в командном окне последовательно:
reg sales hoursw ssize
reg sales hoursw ssize nown
reg sales hoursw ssize npart
3) Проверьте адекватность регрессии с помощью p-value для F-статистики. Если p-value меньше выбранного Вами уровня значимости, например, 0.05, то регрессия адекватна.
4) Проверьте значимость
5) Если при включении дополнительной переменной увеличивается, то модель при включении этой переменной становится лучше.
3) Моделирование продаж мороженого
В файле
icecream.dta содержатся данные о четырехнедельных
продажах мороженого с 18.03.1951 по 11.07.1953.
Эти данные позаимствованы с сайта издательства
книги Марно Вербика [4] http://wileyeurope.com/go/
Переменные:
CONS – потребление мороженого в расчете на одного покупателя в пинтах,
INCOME – средний доход семьи за неделю в долларах США,
PRICE – цена одной пинты мороженого,
TEMP – средняя температура в градусах Фаренгейта.
1) Оцените параметры уравнения множественной регрессии
2) Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по-отдельности. Какие факторы влияют на потребление мороженого?
Методические рекомендации по выполнению упражнения 3
1) Воспользуйтесь соответствующими указаниями в разделе «Оценка регрессий в пакете STATA».
2) Наберите в командном окне последовательно:
reg cons income price temp
и переходите к выполнению пунктов 3-4 предыдущей рекомендации.