Множественная регрессия

Автор работы: Пользователь скрыл имя, 31 Января 2013 в 15:56, реферат

Описание работы

Множественной регрессией называется условное математическое ожидание переменной Y как функция от переменных X2,…,Xk.
Модель множественной линейной регрессии имеет вид:

, i = 1,…, n,
где n – число наблюдений, - независимые переменные, Y – зависимая переменная, ε – случайная составляющая, - коэффициенты регрессии.
Для нахождения оценок параметров используется метод наименьших квадратов (МНК), сводящийся к минимизации по суммы квадратов отклонений

Файлы: 1 файл

Множественная регрессия.doc

— 166.00 Кб (Скачать файл)

Глава  Множественная регрессия

Множественной регрессией называется условное математическое ожидание  переменной Y как функция от  переменных X2,…,Xk.

Модель множественной линейной регрессии имеет вид:

, i = 1,…, n,

где n – число наблюдений, - независимые переменные, Y – зависимая переменная, ε – случайная составляющая, - коэффициенты регрессии.

Для нахождения оценок параметров используется метод наименьших квадратов (МНК), сводящийся к минимизации по суммы квадратов отклонений

.

Оценки МНК параметров являются решениями системы нормальных уравнений:

,

где , I – единичный вектор - столбец размерности n,

, j = 2,…,k,

 

Если случайные величины при всех являются некоррелированными и ~ , i = 1,…, n, X2,…,Xk являются детерминированными, то случайная величина , имеет распределение Стьюдента с n-k степенями свободы.

Гипотеза  о конкретном значении коэффициента ,

при двусторонней альтернативной гипотезе

проверяется с помощью тестовой статистики:

.

Если  , где - выбранный уровень значимости, то основная гипотеза отвергается.

Если  же альтернативная гипотеза односторонняя ( ), то основная гипотеза отвергается при ( ).

Проверка гипотезы о равенстве  коэффициента , нулю (обычно при двусторонней альтернативной гипотезе) называется проверкой гипотезы о значимости этого коэффициента. Если гипотеза о равенстве нулю коэффициента не отвергается, то этот коэффициент называется незначимым.

При оценке регрессии статистическими пакетами Excel, Eviews, STATA, SPSS и др. автоматически проводится проверка гипотез о значимости коэффициентов. Для тестовой t – статистики вычисляется p - value (p - значение) – минимальный уровень значимости, при котором основная гипотеза отвергается. Если p – value превышает выбранный уровень значимости, то основная гипотеза (о равенстве коэффициента 0) не отвергается.

Если коэффициент является незначимым, то между переменной Xj , и переменной Y не существует статистически значимой линейной зависимости. Если коэффициент , является значимым, то его оценка интерпретируется следующим образом: при увеличении Xj на одну единицу Y изменяется на j единиц (в сторону увеличения при положительном j и уменьшения при отрицательном j) .

Очень важна проверка гипотезы об адекватности регрессии в целом.

Если  гипотеза

отвергается в пользу альтернативной гипотезы

,

(при выбранном уровне значимости  ), то регрессия

является адекватной.

Проверка  гипотезы об адекватности регрессии проводится с помощью F- статистики Фишера с числом степеней свободы (k, n  - k)

Значение  тестовой статистики рассчитывается по формуле (где - объясненная с помощью регрессии сумма квадратов отклонений от среднего, - сумма квадратов остатков регрессии) и сравнивается с критическим (при выбранном уровне значимости ). Если рассчитанное значение F- статистики превышает критическое, то гипотеза отвергается.

Гипотеза  об адекватности регрессии также автоматически проверяется статистическими пакетами Excel, Eviews, STATA, SPSS и др., выдается значение тестовой F-статистики и соответствующее p – value. Если p – value меньше выбранного уровня значимости, то регрессия является адекватной и можно интерпретировать оценки коэффициентов регрессии.

Показателем качества подгонки регрессии является коэффициент множественной детерминации R2, рассчитываемый по формуле , где - сумма квадратов отклонений от среднего. R2 изменяется в пределах [0; 1] и характеризует долю выборочной дисперсии Y, оцененной с помощью регрессии.

Чем ближе R2 к 1, тем лучше качество подгонки регрессии. Однако R2 в качестве показателя качества подгонки регрессии обладает существенным недостатком: R2 никогда не убывает при добавлении независимой переменной в уравнение регрессии. Однако при добавлении независимой переменной в уравнение регрессии может  увеличиться дисперсия оценок коэффициентов, некоторые коэффициенты могут стать незначимыми.

Для устранения указанного недостатка вводится другой показатель качества оценки регрессии - коэффициент множественной детерминации, скорректированный на число степеней свободы .

Отметим, что R2 является показателем качества подгонки регрессии только в том случае, когда в определенной выше матрице X есть единичный столбец (в этом случае говорят, что в уравнение регрессии включена константа) или единичный столбец является линейной комбинацией столбцов матрицы Х.

R2 и выдаются при оценке регрессии с помощью МНК любыми статистическими пакетами.

1) Зависимость заработной платы от способностей индивидуума, его образования и образования его родителей в Америке (линейная модель)

В период с 1979 г. по 1994 г. американские  ученые обследовали 3003 юношей и 3108 девушек в возрасте от 14 лет до 21 года (в 1979 г.). В массиве данных NLSY 1979 – the National Longitudinal Survey of Youth были собраны сведения об их семьях, образовании, способностях, доходах и т.д.

В файле  Dougherty.dta, позаимствованном с http://econ.lse.ac.uk/ie, содержатся данные о случайно выбранных 270 юношах и 270 девушках.

Переменные:

EARNINGS – почасовая заработная плата индивида в 2002 г.,

S - количество лет обучения к 2002 г.,

AGE – возраст индивида в 2002 г.,

SM – количество лет обучения матери индивидуума,

SF - количество лет обучения отца индивидуума,

ASVAB02 – результаты теста по арифметике,

ASVAB03 – результаты теста по правописанию,

ASVAB04 – результаты теста по пониманию прочитанного материала,

ASVAB05 – результаты теста на скорость выполнения численных операций,

ASVAB06 – результаты теста на скорость восприятия прочитанного материала,

ASVABC = 0.5 ASVAB02 + 0.25 ASVAB03 + 0.25 ASVAB04  – обобщенная переменная, характеризующая способности школьника,

EXPERIENCE – опыт работы к 2002 г.,

SIBLINGS – число родных братьев и сестер индивидуума.

1.1. Зависимость длительности образования от способностей и длительности обучения родителей

1) С помощью данных файла Dougherty.dta оцените параметры уравнения множественной регрессии

2) Проверьте  адекватность регрессии в целом  и значимость коэффициентов регрессии по-отдельности.

3) Исходя  из полученных результатов, какие  факторы влияют на длительность  обучения индивида? Дайте интерпретацию  полученным результатам.

1.2. Зависимость заработной платы от способностей и образования индивидуума

1) С помощью данных файла Dougherty.dta оцените параметры уравнения множественной регрессии

2) Проверьте  адекватность регрессии в целом  и значимость коэффициентов регрессии  по-отдельности.

3) Исходя  из полученных результатов, какие  факторы влияют на заработную плату индивида? Дайте интерпретацию полученным результатам.

Методические  рекомендации по выполнению упражнения 1

1) Воспользуйтесь соответствующими указаниями в разделе «Оценка регрессий в пакете STATA»

2) Для оценки параметров регрессии методом наименьших квадратов последовательно наберите в командном окне

reg S ASVABC SM

(для выполнения упражнения 1.1)

reg EARNINGS S ASVABC

(для выполнения упражнения 1.2),

последовательно кликая по именам переменных в окне переменных

4) Проверьте адекватность регрессии с помощью p-value для F-статистики. Если  p-value меньше выбранного Вами уровня значимости, например, 0.05, то регрессия адекватна.

5) Проверьте значимость коэффициентов  бета, сравнивая рассчитанные для них значения p-value с выбранным уровнем значимости. Если p-value меньше выбранного Вами уровня значимости, то соответствующий коэффициент значим.

2) Моделирование продаж одежды

В файле  clothing.dta содержатся данные о продажах одежды в 400 голландских магазинах мужской одежды. Эти данные позаимствованы с сайта издательства книги Марно Вербика [4] http://wileyeurope.com/go/verbeek2ed.

Переменные:

 tsales – среднегодовые продажи в гульденах,

 sales  - продажи в расчете на квадратный метр,

 margin – маржинальная валовая прибыль,

 nown – количество собственников (менеджеров),

 nfull – количество полностью занятых работников,

 npart - количество частично занятых работников,

 naux – количество временно работающих,

 hoursw – общее число отработанных часов,

 hourspw – количество отработанных часов в расчете на одного работающего,

 inv1 – капиталовложения в помещения,

 inv2 - капиталовложения в автоматизацию,

 ssize – размер магазина в м2,

 start – год открытия магазина.

1) Оцените параметры уравнения множественной регрессии

.

2) Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по-отдельности.

3) Влияет ли общее число отработанных часов и размер магазина на продажи в расчете на квадратный метр (и каким образом)?

4) Улучшится ли качество подгонки регрессии при включении в модель переменной nown? А переменной npart? Поэкспериментируйте и с включением других переменных.

Методические  рекомендации по выполнению упражнения 2

1) Воспользуйтесь соответствующими указаниями в разделе «Оценка регрессий в пакете STATA».

2) Для оценки параметров уравнения регрессии

 методом наименьших квадратов  наберите в командном окне последовательно:

reg sales hoursw ssize

reg sales hoursw ssize nown

reg sales hoursw ssize npart

3) Проверьте адекватность регрессии с помощью p-value для F-статистики. Если  p-value меньше выбранного Вами уровня значимости, например, 0.05, то регрессия адекватна.

4) Проверьте значимость коэффициентов  бета, сравнивая рассчитанные для них значения p-value с выбранным уровнем значимости. Если p-value меньше выбранного Вами уровня значимости, то соответствующий коэффициент значим.

5) Если при включении дополнительной переменной увеличивается, то модель при включении этой переменной становится лучше.

3) Моделирование продаж мороженого

В файле  icecream.dta содержатся данные о четырехнедельных продажах мороженого с 18.03.1951 по 11.07.1953. Эти данные позаимствованы с сайта издательства книги Марно Вербика [4] http://wileyeurope.com/go/verbeek2ed.

Переменные:

CONS – потребление мороженого в расчете на одного покупателя в пинтах,

INCOME – средний доход семьи за неделю в долларах США,

PRICE – цена одной пинты мороженого,

TEMP – средняя температура в градусах Фаренгейта.

1) Оцените параметры уравнения множественной регрессии

,

2) Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по-отдельности. Какие факторы влияют на потребление мороженого?

Методические  рекомендации по выполнению упражнения 3

1) Воспользуйтесь соответствующими указаниями в разделе «Оценка регрессий в пакете STATA».

2) Наберите в командном окне  последовательно: 

reg cons income price temp

и переходите к выполнению пунктов 3-4 предыдущей рекомендации.




Информация о работе Множественная регрессия