Множественная регрессия

Автор работы: Пользователь скрыл имя, 31 Января 2013 в 15:56, реферат

Описание работы

Множественной регрессией называется условное математическое ожидание переменной Y как функция от переменных X2,…,Xk.
Модель множественной линейной регрессии имеет вид:

, i = 1,…, n,
где n – число наблюдений, - независимые переменные, Y – зависимая переменная, ε – случайная составляющая, - коэффициенты регрессии.
Для нахождения оценок параметров используется метод наименьших квадратов (МНК), сводящийся к минимизации по суммы квадратов отклонений

Скачать архив (41.50 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

Множественная регрессия.doc

— 166.00 Кб (Скачать файл)

Глава Множественная регрессия

Множественной регрессией называется условное математическое ожидание переменной Y как функция от переменных X₂,…,X_k.

Модель множественной линейной регрессии имеет вид:

, i = 1,…, n,

где n – число наблюдений, - независимые переменные, Y – зависимая переменная, ε – случайная составляющая, - коэффициенты регрессии.

Для нахождения оценок параметров используется метод наименьших квадратов (МНК), сводящийся к минимизации по суммы квадратов отклонений

Оценки МНК параметров являются решениями системы нормальных уравнений:

где , I – единичный вектор - столбец размерности n,

, j = 2,…,k,

Если случайные величины при всех являются некоррелированными и ~, i = 1,…, n, X₂,…,X_k являются детерминированными, то случайная величина , имеет распределение Стьюдента с n-k степенями свободы.

Гипотеза о конкретном значении коэффициента,

при двусторонней альтернативной гипотезе

проверяется с помощью тестовой статистики:

Если , где - выбранный уровень значимости, то основная гипотеза отвергается.

Если же альтернативная гипотеза односторонняя (), то основная гипотеза отвергается при ().

Проверка гипотезы о равенстве коэффициента, нулю (обычно при двусторонней альтернативной гипотезе) называется проверкой гипотезы о значимости этого коэффициента. Если гипотеза о равенстве нулю коэффициента не отвергается, то этот коэффициент называется незначимым.

При оценке регрессии статистическими пакетами Excel, Eviews, STATA, SPSS и др. автоматически проводится проверка гипотез о значимости коэффициентов. Для тестовой t – статистики вычисляется p - value (p - значение) – минимальный уровень значимости, при котором основная гипотеза отвергается. Если p – value превышает выбранный уровень значимости, то основная гипотеза (о равенстве коэффициента 0) не отвергается.

Если коэффициент является незначимым, то между переменной X_j , и переменной Y не существует статистически значимой линейной зависимости. Если коэффициент,является значимым, то его оценка интерпретируется следующим образом: при увеличении X_j на одну единицу Y изменяется на _j единиц (в сторону увеличения при положительном _j и уменьшения при отрицательном _j) .

Очень важна проверка гипотезы об адекватности регрессии в целом.

Если гипотеза

отвергается в пользу альтернативной гипотезы

(при выбранном уровне значимости ), то регрессия

является адекватной.

Проверка гипотезы об адекватности регрессии проводится с помощью F- статистики Фишера с числом степеней свободы (k, n - k)

Значение тестовой статистики рассчитывается по формуле (где - объясненная с помощью регрессии сумма квадратов отклонений от среднего, - сумма квадратов остатков регрессии) и сравнивается с критическим (при выбранном уровне значимости ). Если рассчитанное значение F- статистики превышает критическое, то гипотеза отвергается.

Гипотеза об адекватности регрессии также автоматически проверяется статистическими пакетами Excel, Eviews, STATA, SPSS и др., выдается значение тестовой F-статистики и соответствующее p – value. Если p – value меньше выбранного уровня значимости, то регрессия является адекватной и можно интерпретировать оценки коэффициентов регрессии.

Показателем качества подгонки регрессии является коэффициент множественной детерминации R², рассчитываемый по формуле , где - сумма квадратов отклонений от среднего. R² изменяется в пределах [0; 1] и характеризует долю выборочной дисперсии Y, оцененной с помощью регрессии.

Чем ближе R² к 1, тем лучше качество подгонки регрессии. Однако R² в качестве показателя качества подгонки регрессии обладает существенным недостатком: R² никогда не убывает при добавлении независимой переменной в уравнение регрессии. Однако при добавлении независимой переменной в уравнение регрессии может увеличиться дисперсия оценок коэффициентов, некоторые коэффициенты могут стать незначимыми.

Для устранения указанного недостатка вводится другой показатель качества оценки регрессии - коэффициент множественной детерминации, скорректированный на число степеней свободы .

Отметим, что R² является показателем качества подгонки регрессии только в том случае, когда в определенной выше матрице X есть единичный столбец (в этом случае говорят, что в уравнение регрессии включена константа) или единичный столбец является линейной комбинацией столбцов матрицы Х.

R² и выдаются при оценке регрессии с помощью МНК любыми статистическими пакетами.

1) Зависимость заработной платы от способностей индивидуума, его образования и образования его родителей в Америке (линейная модель)

В период с 1979 г. по 1994 г. американские ученые обследовали 3003 юношей и 3108 девушек в возрасте от 14 лет до 21 года (в 1979 г.). В массиве данных NLSY 1979 – the National Longitudinal Survey of Youth были собраны сведения об их семьях, образовании, способностях, доходах и т.д.

В файле Dougherty.dta, позаимствованном с http://econ.lse.ac.uk/ie, содержатся данные о случайно выбранных 270 юношах и 270 девушках.

Переменные:

EARNINGS – почасовая заработная плата индивида в 2002 г.,

S - количество лет обучения к 2002 г.,

AGE – возраст индивида в 2002 г.,

SM – количество лет обучения матери индивидуума,

SF - количество лет обучения отца индивидуума,

ASVAB02 – результаты теста по арифметике,

ASVAB03 – результаты теста по правописанию,

ASVAB04 – результаты теста по пониманию прочитанного материала,

ASVAB05 – результаты теста на скорость выполнения численных операций,

ASVAB06 – результаты теста на скорость восприятия прочитанного материала,

ASVABC = 0.5 ASVAB02 + 0.25 ASVAB03 + 0.25 ASVAB04 – обобщенная переменная, характеризующая способности школьника,

EXPERIENCE – опыт работы к 2002 г.,

SIBLINGS – число родных братьев и сестер индивидуума.

1.1. Зависимость длительности образования от способностей и длительности обучения родителей

1) С помощью данных файла Dougherty.dta оцените параметры уравнения множественной регрессии

2) Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по-отдельности.

3) Исходя из полученных результатов, какие факторы влияют на длительность обучения индивида? Дайте интерпретацию полученным результатам.

1.2. Зависимость заработной платы от способностей и образования индивидуума

1) С помощью данных файла Dougherty.dta оцените параметры уравнения множественной регрессии

2) Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по-отдельности.

3) Исходя из полученных результатов, какие факторы влияют на заработную плату индивида? Дайте интерпретацию полученным результатам.

Методические рекомендации по выполнению упражнения 1

1) Воспользуйтесь соответствующими указаниями в разделе «Оценка регрессий в пакете STATA»

2) Для оценки параметров регрессии методом наименьших квадратов последовательно наберите в командном окне

reg S ASVABC SM

(для выполнения упражнения 1.1)

reg EARNINGS S ASVABC

(для выполнения упражнения 1.2),

последовательно кликая по именам переменных в окне переменных

4) Проверьте адекватность регрессии с помощью p-value для F-статистики. Если p-value меньше выбранного Вами уровня значимости, например, 0.05, то регрессия адекватна.

5) Проверьте значимость коэффициентов бета, сравнивая рассчитанные для них значения p-value с выбранным уровнем значимости. Если p-value меньше выбранного Вами уровня значимости, то соответствующий коэффициент значим.

2) Моделирование продаж одежды

В файле clothing.dta содержатся данные о продажах одежды в 400 голландских магазинах мужской одежды. Эти данные позаимствованы с сайта издательства книги Марно Вербика [4] http://wileyeurope.com/go/verbeek2ed.

Переменные:

tsales – среднегодовые продажи в гульденах,

sales - продажи в расчете на квадратный метр,

margin – маржинальная валовая прибыль,

nown – количество собственников (менеджеров),

nfull – количество полностью занятых работников,

npart - количество частично занятых работников,

naux – количество временно работающих,

hoursw – общее число отработанных часов,

hourspw – количество отработанных часов в расчете на одного работающего,

inv1 – капиталовложения в помещения,

inv2 - капиталовложения в автоматизацию,

ssize – размер магазина в м²,

start – год открытия магазина.

1) Оцените параметры уравнения множественной регрессии

2) Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по-отдельности.

3) Влияет ли общее число отработанных часов и размер магазина на продажи в расчете на квадратный метр (и каким образом)?

4) Улучшится ли качество подгонки регрессии при включении в модель переменной nown? А переменной npart? Поэкспериментируйте и с включением других переменных.

Методические рекомендации по выполнению упражнения 2

1) Воспользуйтесь соответствующими указаниями в разделе «Оценка регрессий в пакете STATA».

2) Для оценки параметров уравнения регрессии

методом наименьших квадратов наберите в командном окне последовательно:

reg sales hoursw ssize

reg sales hoursw ssize nown

reg sales hoursw ssize npart

3) Проверьте адекватность регрессии с помощью p-value для F-статистики. Если p-value меньше выбранного Вами уровня значимости, например, 0.05, то регрессия адекватна.

4) Проверьте значимость коэффициентов бета, сравнивая рассчитанные для них значения p-value с выбранным уровнем значимости. Если p-value меньше выбранного Вами уровня значимости, то соответствующий коэффициент значим.

5) Если при включении дополнительной переменной увеличивается, то модель при включении этой переменной становится лучше.

3) Моделирование продаж мороженого

В файле icecream.dta содержатся данные о четырехнедельных продажах мороженого с 18.03.1951 по 11.07.1953. Эти данные позаимствованы с сайта издательства книги Марно Вербика [4] http://wileyeurope.com/go/verbeek2ed.

Переменные:

CONS – потребление мороженого в расчете на одного покупателя в пинтах,

INCOME – средний доход семьи за неделю в долларах США,

PRICE – цена одной пинты мороженого,

TEMP – средняя температура в градусах Фаренгейта.

1) Оцените параметры уравнения множественной регрессии

2) Проверьте адекватность регрессии в целом и значимость коэффициентов регрессии по-отдельности. Какие факторы влияют на потребление мороженого?

Методические рекомендации по выполнению упражнения 3

1) Воспользуйтесь соответствующими указаниями в разделе «Оценка регрессий в пакете STATA».

2) Наберите в командном окне последовательно:

reg cons income price temp

и переходите к выполнению пунктов 3-4 предыдущей рекомендации.

Информация о работе Множественная регрессия