Автор работы: Пользователь скрыл имя, 31 Января 2013 в 15:56, реферат
Множественной регрессией называется условное математическое ожидание переменной Y как функция от переменных X2,…,Xk.
Модель множественной линейной регрессии имеет вид:
, i = 1,…, n,
где n – число наблюдений, - независимые переменные, Y – зависимая переменная, ε – случайная составляющая, - коэффициенты регрессии.
Для нахождения оценок параметров используется метод наименьших квадратов (МНК), сводящийся к минимизации по суммы квадратов отклонений
Множественной регрессией называется условное математическое ожидание переменной Y как функция от переменных X2,…,Xk.
Модель множественной линейной регрессии имеет вид:
где n – число наблюдений, - независимые переменные, Y – зависимая переменная, ε – случайная составляющая, - коэффициенты регрессии.
Для нахождения оценок параметров используется метод наименьших квадратов (МНК), сводящийся к минимизации по суммы квадратов отклонений
Оценки МНК параметров являются решениями системы нормальных уравнений:
,
где , I – единичный вектор - столбец размерности n,
, j = 2,…,k,
Если случайные величины при всех являются некоррелированными и ~ , i = 1,…, n, X2,…,Xk являются детерминированными, то случайная величина , имеет распределение Стьюдента с n-k степенями свободы.
Гипотеза о конкретном значении коэффициента ,
при двусторонней альтернативной гипотезе
проверяется с помощью тестовой статистики:
.
Если , где - выбранный уровень значимости, то основная гипотеза отвергается.
Если же альтернативная гипотеза односторонняя ( ), то основная гипотеза отвергается при ( ).
Проверка гипотезы о равенстве коэффициента , нулю (обычно при двусторонней альтернативной гипотезе) называется проверкой гипотезы о значимости этого коэффициента. Если гипотеза о равенстве нулю коэффициента не отвергается, то этот коэффициент называется незначимым.
При оценке регрессии статистическими пакетами Excel, Eviews, STATA, SPSS и др. автоматически проводится проверка гипотез о значимости коэффициентов. Для тестовой t – статистики вычисляется p - value (p - значение) – минимальный уровень значимости, при котором основная гипотеза отвергается. Если p – value превышает выбранный уровень значимости, то основная гипотеза (о равенстве коэффициента 0) не отвергается.
Если коэффициент является незначимым, то между переменной Xj , и переменной Y не существует статистически значимой линейной зависимости. Если коэффициент , является значимым, то его оценка интерпретируется следующим образом: при увеличении Xj на одну единицу Y изменяется на j единиц (в сторону увеличения при положительном j и уменьшения при отрицательном j) .
Очень важна проверка гипотезы об адекватности регрессии в целом.
Если гипотеза
отвергается в пользу альтернативной гипотезы
,
(при выбранном уровне
является адекватной.
Проверка гипотезы об адекватности регрессии проводится с помощью F- статистики Фишера с числом степеней свободы (k, n - k)
Значение тестовой статистики рассчитывается по формуле (где - объясненная с помощью регрессии сумма квадратов отклонений от среднего, - сумма квадратов остатков регрессии) и сравнивается с критическим (при выбранном уровне значимости ). Если рассчитанное значение F- статистики превышает критическое, то гипотеза отвергается.
Гипотеза об адекватности регрессии также автоматически проверяется статистическими пакетами Excel, Eviews, STATA, SPSS и др., выдается значение тестовой F-статистики и соответствующее p – value. Если p – value меньше выбранного уровня значимости, то регрессия является адекватной и можно интерпретировать оценки коэффициентов регрессии.
Показателем
качества подгонки регрессии является
коэффициент множественной
Чем ближе R2 к 1, тем лучше качество подгонки регрессии. Однако R2 в качестве показателя качества подгонки регрессии обладает существенным недостатком: R2 никогда не убывает при добавлении независимой переменной в уравнение регрессии. Однако при добавлении независимой переменной в уравнение регрессии может увеличиться дисперсия оценок коэффициентов, некоторые коэффициенты могут стать незначимыми.
Для устранения указанного недостатка вводится другой показатель качества оценки регрессии - коэффициент множественной детерминации, скорректированный на число степеней свободы .
Отметим, что R2 является показателем качества подгонки регрессии только в том случае, когда в определенной выше матрице X есть единичный столбец (в этом случае говорят, что в уравнение регрессии включена константа) или единичный столбец является линейной комбинацией столбцов матрицы Х.
R2 и выдаются при оценке регрессии с помощью МНК любыми статистическими пакетами.
В период с 1979 г. по 1994 г. американские ученые обследовали 3003 юношей и 3108 девушек в возрасте от 14 лет до 21 года (в 1979 г.). В массиве данных NLSY 1979 – the National Longitudinal Survey of Youth были собраны сведения об их семьях, образовании, способностях, доходах и т.д.
В файле Dougherty.dta, позаимствованном с http://econ.lse.ac.uk/ie, содержатся данные о случайно выбранных 270 юношах и 270 девушках.
EARNINGS – почасовая заработная плата индивида в 2002 г.,
S - количество лет обучения к 2002 г.,
AGE – возраст индивида в 2002 г.,
SM – количество лет обучения матери индивидуума,
SF - количество лет обучения отца индивидуума,
ASVAB02 – результаты теста по арифметике,
ASVAB03 – результаты теста по правописанию,
ASVAB04 – результаты теста по пониманию прочитанного материала,
ASVAB05 – результаты теста на скорость выполнения численных операций,
ASVAB06 – результаты теста на скорость восприятия прочитанного материала,
ASVABC = 0.5 ASVAB02 + 0.25 ASVAB03 + 0.25 ASVAB04 – обобщенная переменная, характеризующая способности школьника,
EXPERIENCE – опыт работы к 2002 г.,
SIBLINGS – число родных братьев и сестер индивидуума.
1) С помощью данных файла Dougherty.dta оцените параметры уравнения множественной регрессии
2) Проверьте
адекватность регрессии в
3) Исходя
из полученных результатов,
1) С помощью данных файла Dougherty.dta оцените параметры уравнения множественной регрессии
2) Проверьте
адекватность регрессии в
3) Исходя
из полученных результатов,
Методические рекомендации по выполнению упражнения 1
1) Воспользуйтесь соответствующими указаниями в разделе «Оценка регрессий в пакете STATA»
2) Для оценки параметров регрессии методом наименьших квадратов последовательно наберите в командном окне
reg S ASVABC SM
(для выполнения упражнения 1.
reg EARNINGS S ASVABC
(для выполнения упражнения 1.
последовательно кликая по именам переменных в окне переменных
4) Проверьте адекватность регрессии с помощью p-value для F-статистики. Если p-value меньше выбранного Вами уровня значимости, например, 0.05, то регрессия адекватна.
5) Проверьте значимость
В файле
clothing.dta содержатся данные о продажах одежды
в 400 голландских магазинах мужской одежды.
Эти данные позаимствованы с сайта издательства
книги Марно Вербика [4] http://wileyeurope.com/go/
Переменные:
tsales – среднегодовые продажи в гульденах,
sales - продажи в расчете на квадратный метр,
margin – маржинальная валовая прибыль,
nown – количество собственников (менеджеров),
nfull – количество полностью занятых работников,
npart - количество частично занятых работников,
naux – количество временно работающих,
hoursw – общее число отработанных часов,
hourspw – количество отработанных часов в расчете на одного работающего,
inv1 – капиталовложения в помещения,
inv2 - капиталовложения в автоматизацию,
ssize – размер магазина в м2,
start – год открытия магазина.
1) Оцените параметры уравнения множественной регрессии
2) Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по-отдельности.
3) Влияет ли общее число отработанных часов и размер магазина на продажи в расчете на квадратный метр (и каким образом)?
4) Улучшится ли качество подгонки регрессии при включении в модель переменной nown? А переменной npart? Поэкспериментируйте и с включением других переменных.
Методические рекомендации по выполнению упражнения 2
1) Воспользуйтесь соответствующими указаниями в разделе «Оценка регрессий в пакете STATA».
2) Для оценки параметров уравнения регрессии
методом наименьших квадратов наберите в командном окне последовательно:
reg sales hoursw ssize
reg sales hoursw ssize nown
reg sales hoursw ssize npart
3) Проверьте адекватность регрессии с помощью p-value для F-статистики. Если p-value меньше выбранного Вами уровня значимости, например, 0.05, то регрессия адекватна.
4) Проверьте значимость
5) Если при включении дополнительной переменной увеличивается, то модель при включении этой переменной становится лучше.
В файле
icecream.dta содержатся данные о четырехнедельных
продажах мороженого с 18.03.1951 по 11.07.1953.
Эти данные позаимствованы с сайта издательства
книги Марно Вербика [4] http://wileyeurope.com/go/
Переменные:
CONS – потребление мороженого в расчете на одного покупателя в пинтах,
INCOME – средний доход семьи за неделю в долларах США,
PRICE – цена одной пинты мороженого,
TEMP – средняя температура в градусах Фаренгейта.
1) Оцените параметры уравнения множественной регрессии
2) Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по-отдельности. Какие факторы влияют на потребление мороженого?
Методические рекомендации по выполнению упражнения 3
1) Воспользуйтесь соответствующими указаниями в разделе «Оценка регрессий в пакете STATA».
2) Наберите в командном окне последовательно:
reg cons income price temp
и переходите к выполнению пунктов 3-4 предыдущей рекомендации.