Множественная линейная регрессия

Автор работы: Пользователь скрыл имя, 14 Мая 2012 в 18:35, доклад

Описание работы

На любой экономический показатель чаще всего оказывает влияние не один, а несколько факторов. В этом случае вместо парной регрессии рассматривается множественная регрессия:

.

Теоретическое уравнение множественной линейной регрессии имеет вид:
.

Для индивидуальных наблюдений имеем:
, ,

где – вектор теоретических коэффициентов регрессии.
Свободный член определяет значение эндогенной переменной в случае, когда все экзогенные переменные равны нулю.
Коэффициент , , отражает влияние независимой переменной на условное математическое ожидание зависимой переменной Y при условии, что все другие независимые переменные остаются постоянными.
Как и в случае парной линейной регрессии, истинные значения теоретических коэффициентов регрессии , , по выборке определить невозможно.

Скачать архив (115.63 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

MnozhestvennayaLineynayaRegressia.doc

— 462.50 Кб (Скачать файл)

Множественная линейная регрессия

1. Множественная линейная регрессия

Теоретическое уравнение множественной линейной регрессии имеет вид:

Для индивидуальных наблюдений имеем:

, ,

где – вектор теоретических коэффициентов регрессии.

Свободный член определяет значение эндогенной переменной в случае, когда все экзогенные переменные равны нулю.

Коэффициент , , отражает влияние независимой переменной на условное математическое ожидание зависимой переменной Y при условии, что все другие независимые переменные остаются постоянными.

Как и в случае парной линейной регрессии, истинные значения теоретических коэффициентов регрессии , , по выборке определить невозможно. В этом случае вместо теоретического уравнения регрессии строится эмпирическое уравнение регрессии:

где – оценка условного математического ожидания, – эмпирические коэффициенты регрессии.

Для индивидуальных наблюдений имеем:

, ,

где – оценки теоретических случайных отклонений , .

2. Определение оценок коэффициентов множественной регрессии

В случае, когда число наблюдений , возникает необходимость оценивания теоретических коэффициентов регрессии. При выполнении предпосылок относительно случайных отклонений, оценки , , найденные по МНК, являются несмещенными, состоятельными и эффективными. Для множественной линейной регрессии существенными являются еще две предпосылки:

6. Отсутствие между экзогенными переменными сильной линейной зависимости (мультиколлинеарности).

7. Ошибки имеют нормальное распределение: .

Для нахождения оценок по МНК минимизируется функция:

Необходимым условием существования минимума функции Q является равенство нулю всех ее частных производных по неизвестным параметрам:

Решение системы рассмотрим в векторно–матричной форме. Введем обозначения:

, , , .

Тогда функцию можно представить как произведение вектор–строки на вектор–столбец . В свою очередь, вектор–столбец . Тогда:

Математически доказано, что вектор–столбец частных производных имеет вид:

Приравняв к нулю, получим формулу для вычисления оценок коэффициентов множественной линейной регрессии: .

3. Дисперсии и стандартные ошибки коэффициентов

Знание дисперсий и стандартных ошибок позволяет анализировать точность оценок, строить доверительные интервалы для теоретических коэффициентов регрессии, проверять соответствующие гипотезы. Наиболее удобны формулы расчета данных характеристик в векторно–матричной форме.

Первые три предпосылки МНК в векторно–матричной форме имеют вид:

1. ; 2. ; 3. .

Здесь , , , .

В формулу для вычисления эмпирических коэффициентов множественной линейной регрессии подставим теоретические значения , получим:

Отсюда .

Построим дисперсионно–ковариационную матрицу вектора оценок параметров:

=[т.к. , , не являются СВ]

, где .

Тогда , , где – j–й диагональный элемент матрицы Z.

Поскольку истинное значение дисперсии по выборке определить невозможно, то оно заменяется соответствующей несмещенной оценкой .

Следовательно, по выборке мы можем определить лишь выборочные дисперсии эмпирических коэффициентов регрессии:

, .

Как и в случае парной линейной регрессии называется стандартной ошибкой регрессии, а , , называются стандартными ошибками коэффициентов регрессии.

4. Интервальные оценки теоретических коэффициентов

После определения точечных оценок коэффициентов , , теоретического уравнения регрессии могут быть рассчитаны интервальные оценки этих коэффициентов.

Для построения интервальной оценки коэффициента строится t–статистика:

, ,

имеющая распределение Стьюдента с числом степеней свободы , где n – объем выборки, а m – количество объясняющих переменных в модели.

По требуемому уровню значимости и числу степеней свободы определяется критическая точка , удовлетворяющее условию:

, .

Подставляя , , получим:

, .

Здесь , .

Таким образом, доверительный интервал определяется неравенством:

, .

По аналогии с парной регрессией может быть построена в матричной форме интервальная оценка для среднего значения предсказания:

5. Анализ качества эмпирического уравнения

множественной линейной регрессии

Проверка статистического качества оцененного уравнения регрессии проводится по следующим направлениям:

▪ проверка статистической значимости эмпирических коэффициентов регрессии;

▪ проверка общего качества уравнения регрессии;

▪ проверка выполнимости предпосылок МНК.

5.1. Проверка статистической значимости коэффициентов уравнения регрессии

Как и в случае парной регрессии, статистическая значимость коэффициентов множественной линейной регрессии проверяется на основе t–статистики:

, ,

которая имеет распределение Стьюдента с числом степеней свободы .

При требуемом уровне значимости наблюдаемое значение t–статистики сравнивается с критической точкой :

▪ если , , то коэффициент считается статистически значимым;

▪ если , , то коэффициент считается статистически незначимым.

Если коэффициент статистически незначим, то рекомендуется из уравнения регрессии исключить переменную .

Строгую проверку значимости коэффициентов можно заменить сравнительным анализом:

▪ если , то коэффициент статистически незначим;

▪ если , то коэффициент относительно значим, и в этом случае рекомендуется воспользоваться таблицей критических точек распределения Стьюдента;

▪ если , то коэффициент значим гарантированно при и ;

▪ если , то коэффициент сильно значим, вероятность ошибки при достаточном числе наблюдений не превосходит 0,001.

5.2. Проверка общего качества уравнения регрессии

После проверки значимости каждого коэффициента регрессии проверяется общее качество уравнения регрессии. Для этого используется коэффициент детерминации :

Чем ближе коэффициент детерминации к единице, тем больше уравнение регрессии объясняет поведение эндогенной переменной.

Отметим, что для множественной регрессии каждая следующая объясняющая переменная уменьшает область неопределенности в поведении зависимой переменной.

Иногда при расчете коэффициента детерминации в числителе и знаменателе дроби делается поправка на число степеней свободы:

Здесь – скорректированный (исправленный) коэффициент детерминации, числитель – несмещенная оценка остаточной дисперсии, а знаменатель – несмещенная оценка общей дисперсии.

Последнее соотношение можно представить в виде: .

Видно, что для . С ростом числа объясняющих переменных m скорректированный коэффициент детерминации растет медленнее, чем обычный. Доказано, что добавление в модель новых объясняющих переменных осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.

5.3. Анализ статистической значимости коэффициента детерминации

После проверки статистической значимости каждого коэффициента регрессии анализируется совокупная значимость коэффициентов. Такой анализ осуществляется на основе проверки гипотезы об одновременном равенстве нулю всех коэффициентов регрессии при объясняющих переменных (гипотезы об общей значимости):

Если данная гипотеза не отклоняется, то делается вывод о том, что совокупное влияние всех объясняющих переменных модели на зависимую переменную Y можно считать статистически несущественным, а общее качество уравнения регрессии невысоким.

Проверка данной гипотезы осуществляется на основе сравнения объясненной и остаточной дисперсий.

Строится F–статистика:

. (1)

При выполнении предпосылок МНК построенная F–статистика имеет распределение Фишера с числом степеней свободы , . Поэтому, если при требуемом уровне значимости , то гипотеза отклоняется в пользу . Это означает, что объясненная дисперсия существенно больше остаточной дисперсии, а следовательно, уравнение регрессии достаточно качественно отражает динамику изменения зависимой переменной Y. Если , то нет оснований для отклонения гипотезы . Значит, объясненная дисперсия соизмерима с дисперсией, вызванной случайными факторами. Это дает основание считать, что совокупное влияние объясняющих переменных модели несущественно, а это значит, что общее качество модели невысоко.

На практике чаще всего вместо указанной гипотезы проверяется тесно связанная с ней гипотеза о статистической значимости коэффициента детерминации :

, .

Для проверки данной гипотезы используется F–статистика:

. (2)

Действительно, разделив числитель и знаменатель дроби (1) на общую сумму квадратов отклонений , мы получим формулу (2):

Из (2) очевидно, что если , то и Нулевая гипотеза отклоняется, если . Это равносильно тому, что , т.е. статистически значим.

Анализ F–статистики позволяет сделать вывод о том, что для принятия гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии коэффициент детерминации не должен существенно отличаться от нуля. Его критическое значение уменьшается при росте числа наблюдений и может стать сколь угодно малым.

5.4. Проверка равенства двух коэффициентов детерминации

Другим важным направлением использования статистики Фишера является проверка гипотезы о равенстве нулю не всех коэффициентов регрессии одновременно, а только некоторой части этих коэффициентов. Данное использование статистики F позволяет оценить обоснованность исключения или добавления в уравнение регрессии некоторых наборов объясняющих переменных, что особенно ценно при совершенствовании линейной регрессионной модели.

Пусть эмпирическое уравнение регрессии имеет вид:

и коэффициент детерминации для этой модели равен .

Исключим k объясняющих переменных, например, последних. Для оставшихся факторов построим другое уравнение регрессии:

для которого коэффициент детерминации равен .

Очевидно, что , так как каждая дополняющая переменная объясняет часть рассеивания зависимой переменной. Возникает вопрос: ухудшилось ли качество описания поведения зависимой переменной? На него можно ответить, проверяя гипотезу

и используя статистику .

В случае справедливости гипотезы приведенная статистика F имеет распределение Фишера с числами степеней свободы , . Действительно, последнее соотношение может быть переписано в виде:

Здесь – потеря качества уравнения в результате отбрасывания k объясняющих переменных, k – число дополнительно появившихся степеней свободы, – необъясненная дисперсия первоначального уравнения.

По таблице критических точек распределения Фишера для требуемого уровня значимости находим . Если рассчитанное значение статистики превосходит , то нулевая гипотеза о равенстве коэффициентов детерминации (фактически об одновременном равенстве нулю отброшенных k коэффициентов регрессии) должна быть отклонена. В этом случае одновременное исключение из рассмотрения k объясняющих переменных некорректно. Это означает, что общее качество первоначального уравнения регрессии существенно лучше качества уравнения регрессии с отброшенными переменными, так как первоначальное уравнение объясняет гораздо большую долю разброса зависимой переменной. Если же, наоборот, наблюдаемая F–статистика невелика, т.е. меньше чем , то это означает, что разность незначительна. Следовательно, можно сделать вывод, что в этом случае одновременное отбрасывание k объясняющих переменных не привело к существенному ухудшению общего качества уравнения регрессии, и оно вполне допустимо.

Аналогичные рассуждения могут быть использованы и по поводу обоснованности включения новых k объясняющих переменных. В этом случае рассчитывается F–статистика:

Если она превышает критическое значение, то включение новых переменных объясняет существенную часть не объясненной ранее дисперсии зависимой переменной. Поэтому такое добавление оправдано. Однако отметим, что добавлять переменные целесообразно по одной. Кроме того, при добавлении объясняющих переменных в уравнение регрессии логично использовать скорректированный коэффициент детерминации , так как обычный всегда растет при добавлении новой переменной, а в скорректированном одновременно растет величина m, уменьшающая его. Если увеличение доли объясненной дисперсии при добавлении новой переменной незначительно, то может уменьшиться. В этом случае добавление указанной переменной нецелесообразно.

Заметим, что для сравнения качества двух уравнений регрессии по коэффициенту детерминации обязательным является требование, чтобы зависимая переменная была представлена в одной и той же форме и число наблюдений n для обеих моделей было одинаковым.

Например, пусть один и тот же показатель Y моделируется двумя уравнениями: линейным – и лог–линейным . Тогда их коэффициенты детерминации рассчитываются по формулам:

и .

Так как знаменатели дробей в приведенных соотношениях различны, то прямое сравнение коэффициентов детерминации в этом случае будет некорректным.

5.5. Проверка гипотезы о совпадении уравнений регрессии для двух выборок

Еще одним направлением использования F-статистики является проверка гипотезы о совпадении уравнений регрессии для отдельных групп наблюдений. Распространенным тестом проверки данной гипотезы является тест Чоу.

Пусть имеются две выборки объемами и соответственно. Для каждой из этих выборок оценено уравнение регрессии вида:

, .

Проверяется нулевая гипотеза о равенстве друг другу соответствующих коэффициентов регрессии, или, другими словами, будет ли уравнение регрессии одним и тем же для обеих выборок:

, .

Пусть суммы квадратов отклонений значений от линий регрессии , , равны и соответственно для первого и второго уравнений регрессии.

Пусть по объединенной выборке объема оценено еще одно уравнение регрессии, для которого сумма квадратов отклонений от уравнения регрессии .

Для проверки гипотезы строится F–статистика:

В случае справедливости построенная F–статистика имеет распределение Фишера с числом степеней свободы и .

Очевидно, F–статистика близка к нулю, если . Это фактически означает, что уравнение регрессии для обеих выборок практически одинаковы. В этом случае . Если же , то нулевая гипотеза отклоняется.

Приведенные рассуждения особенно важны для ответа на вопрос: можно ли за весь рассматриваемый период времени построить единое уравнение регрессии, или же нужно разбить временной интервал на части и на каждой из них строить свое уравнение регрессии.

5.6. Статистика Дарбина–Уотсона

Статистическая значимость коэффициентов регрессии и близкое к единице значение коэффициента детерминации не гарантируют высокое качество уравнения регрессии. Это может быть вызвано невыполнимостью предпосылок МНК.

Причинами, по которым случайные отклонения, например, не обладают постоянной дисперсией или не являются взаимно независимыми, могут быть либо нелинейный характер зависимости между рассматриваемыми переменными, либо наличие не учтенного существенного фактора.

На начальном этапе при статистическом анализе уравнения регрессии проверяются условия независимости случайных отклонений между собой. Поскольку значения теоретических случайных отклонений по выборке определены быть не могут, то проверяется независимость оценок отклонений , . При этом проверяется некоррелированность соседних оценок и , для которых можно рассчитать коэффициент корреляции, который называется коэффициентом автокорреляции первого порядка:

На практике для анализа коррелированности оценок случайных отклонений используется статистика Дарбина–Уотсона DW, которая рассчитывается по формуле:

Если сделать допущение, что при больших n , то , тогда

Если , то и , а если , то и . В остальных случаях .

Так как абсолютная величина отклонений в среднем одинакова, то при случайном поведении отклонений можно считать, что в половине случаев знаки последовательных отклонений совпадают , а в другой – противоположны , то тогда:

Таким образом, необходимым условием независимости случайных отклонений является близость к двойке значения статистики Дарбина–Уотсона.

Для ответа на вопрос, какие значения DW считать статистически близкими к двум, разработана специальная таблица критических точек статистики Дарбина–Уотсона, позволяющие при заданном уровне значимости , данном числе наблюдений n и количестве объясняющих переменных m определять границы приемлемости и (критические точки) наблюдаемой статистики Дарбина–Уотсона.

Выводы осуществляются по следующей схеме:

▪ если , то это свидетельствует о положительной автокорреляции остатков;

▪ если , то это свидетельствует об отрицательной автокорреляции остатков;

▪ если , то гипотеза об отсутствии автокорреляции остатков принимается;

▪ если или , то гипотеза об отсутствии автокорреляции остатков не может быть принята или отклонена.

Можно использовать «грубое» правило и считать, что автокорреляция остатков отсутствует, если .

МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Информация о работе Множественная линейная регрессия