Линейная регрессия

Автор работы: Пользователь скрыл имя, 06 Ноября 2014 в 21:11, курсовая работа

Описание работы

Объектом исследования является один из методов регрессионной модели, а также способ проверки качества созданных уравнений регрессий.
Предмет исследования заключается в изучении метода линейной регрессии, в качестве одного из методов регрессионной модели, и скорректированного коэффициента детерминации в роли способа проверки качества уравнений.

Файлы: 1 файл

Курсовик СкорректКоэфДетермин.docx

— 172.72 Кб (Скачать файл)

ОГЛАВЛЕНИЕ

 

ВВЕДЕНИЕ

Обработка статистических данных уже давно применяется в самых разнообразных видах человеческой деятельности. Сейчас трудно назвать ту сферу, в которой она бы не использовалась. Однако наибольшую роль обработка статистических данных играет в экономике, имеющей дело с обработкой и анализом огромных массивов информации о социально-экономических явлениях и процессах.

В экономике, как и в социологии, анализ данных представляет собой систему знаний, связанную с исследованием взаимозависимости различных явлений, выявлением положительных и отрицательных факторов и измерением степени их влияния, тенденций и закономерностей, резервов, упущенных выгод, с практическими обобщениями и выводами.

Анализ обеспечивает взаимосвязанное изучение явлений и процессов, их развития, происходящих в них количественных и  качественных изменений. Обработка данных позволяет выявить причины положительно или отрицательно влияющие на деятельность различных сфер. Кроме того, в экономике, он является аппаратом контроля выполнения планов, поставленных перед собой предприятием. Еще одной характерной  чертой экономического анализа является выявление закономерностей  развития предприятия.

Для того чтобы правильно понять основные причины, влияющие на процесс, установить взаимосвязь между факторами, оказывающими воздействие, и результатами, созданы различные методы, носящее название математическая статистика.

Цель данной курсовой работы изучение одного из методов математической статистики. Выявление причин и ситуации, когда необходимо использовать данный метод.

Объектом исследования является один из методов регрессионной модели, а также способ проверки качества созданных уравнений регрессий.

Предмет исследования заключается в изучении метода линейной регрессии, в качестве одного из методов регрессионной модели, и скорректированного коэффициента детерминации в роли способа проверки качества уравнений.

Структура курсовой работы включает введение, теоритическую часть, практическую часть, заключение и библиографический список.

 

ТЕОРИТИЧЕСКАЯ ЧАСТЬ

Линейная регрессия

Определение. Матричное представление

Регрессия (лат. Regressio — обратное движение) — статистическая зависимость среднего значения случайной величины от значений другой случайной величины или нескольких случайных величин. В отличие от функциональной зависимости , которая каждому значению независимой переменной ставит в соответствие одно определённое значение величины , при регрессионной зависимости одному и тому же значению могут соответствовать различные значения величины . Если при каждом значении наблюдается значений , величины , то зависимость среднего арифметического: от и является средней регрессией.

Классическим примером средней регрессии служит зависимость среднего роста детей от роста родителей.

Естественным первым приближением для функции регрессии является ее линеаризция, и соответствующая модель носит название модель линей регрессии.

Линейная регрессия является одним из известнейших методов регрессии, достаточно хорошо работающим в ряде простых задач. К достоинствам линейной регрессии можно отнести простоту алгоритма и высокое быстродействие. Недостаток только один, и он очевиден - неприспособленность к решению существенно нелинейных задач.

Линейная регрессия (англ. Linear regression) — используемая в статистике регрессионная модель зависимости одной (объясняемой, зависимой) переменной от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) с линейной функцией зависимости. Регрессионная модель выглядит следующим образом:

(1)

Где - параметры модели,

 - случайная ошибка модели

Регрессионная модель называется линейной регрессией, если функция регрессии имеет вид:

    (2)

Где - параметры (коэффициенты) регрессии

- регрессоры (факторы модели)

k - количество факторов модели.

Предположим следующее функциональное соотношение между реализовавшимся значением зависимой переменной и регрессорами:

(3)

Где – зависимая переменная,

 –вектор объясняющих  переменных, ,

 – вектор параметров соответствующей размерности,

 – ошибка,

 – номер наблюдения

 – общее количество  наблюдений. 

Если объединить в столбцы данные по всем наблюдением, то модель может быть записана в матричном виде следующим образом:

(4)

Где – вектор наблюдения зависимой переменной,

 – вектор  случайных ошибок,

Матрица плана Х представляет собой матрицу,  которой по строкам записаны наблюдения , а по столбцам – объясняющие переменные :

Х 

Чаще всего полагается, что =1, тогда коэффициент - это константа, или свободный член регрессивной модели.

Классическая линейная регрессия.

В классической линейной модели регрессии предполагается выполнение следующих условий для случайного члена (условий Гаусса-Маркова):

  1. Во всех наблюдениях математическое ожидание должно быть равно нулю:

      (5)

Данное условие означает, что случайное отклонение в среднем не оказывает влияния на зависимую переменную. В каждом наблюдении случайный член может быть либо положительным, либо отрицательным, но он не должен иметь систематического смещения. Выполнимость влечет выполнимость

(6)

  1. Все объясняющие переменные не коррелированы со случайным членом

(7)

Это условие имеет значение в том случае, если факторные переменные являются случайными величинами. В случае классической модели, когда неслучайные величины, это условие выполняется автоматически.

  1. Случайный член имеет постоянную дисперсию:

(8)

Данное условие подразумевает, что, не смотря на то, что в каждом конкретном наблюдении случайное отклонение может быть различно, не должно быть некой априорной причины для того, чтобы в одних наблюдениях ошибка была существенно больше, чем в других. Выполнимость этого предположения называется гомоскедастичностью (постоянством дисперсии отклонений), невыполнимость этого предположения называется гетероскедастичностью (непостоянством дисперсии отклонений). При выполнении условия гомоскедастичности ковариационная матрица вектора возмущений

(9)

где – единичная матрица n-го порядка.

  1. Отсутствует систематическая корреляционная связь между значениями случайного члена в любых двух наблюдениях , для любых .

Данное условия предполагает отсутствие систематической связи между значениями случайного члена в любых двух наблюдениях, т.е.

(10)

Наличие такой связи называется автокорреляцией остатков.

  1. Случайный член распределен нормально (необязательное, но часто используемое условие).

 

Парная и множественная линейная регрессия.

Если модель включает лишь одну факторную переменную, то она называется парной регрессией. Модель линейной регрессии является наиболее распространенным (и простым) видом зависимости между экономическими показателями и обычно служит отправной точкой для экономического анализа. Теоретическое уравнение линейной модели парной регрессии можно быть записано:

(11)

Однако, как известно, экономические величины складываются под воздействием не одного. А целого ряда факторов, между которыми могут быть сложные взаимосвязи. Поэтому влияние этих факторов комплексное и его нельзя рассматривать как простую сумму изолированных влияний, иначе можно прийти к неверным выводам. Все это приводит к необходимости применения для исследования сложных экономических явлений многофакторных корреляционных моделей:

(12)

где – факторные (объясняющие) переменные

 – истинные  параметры модели

 – стохастическое  возмущение (случайный член), включение  которого в уравнение обусловлено  теми же причинами, что и в  случае парной регрессии.

В настоящее время одной из самых распространенных моделей множественной регрессии является линейная модель, широко применяема в макроэкономических расчетах, при изучении производственных функций, проблем спроса.

Теоретическое уравнение линейной модели множественной регрессии записывается следующим образом:

(13)

При k=1 уравнение становится уравнением парной линейной регрессии.

Коэффициент детерминации.

Проверка качества регрессионных моделей

Для практического использования экономической модели большое значение имеет их адекватность, т.е. соответствие реальному процессу и тем статистическим данным, на основе которых построена модель. Анализ качества (верификация модели) включает статистическую и содержательную составляющую. Проверка статистического качества экономической модели обычно состоит из следующих шагов:

  1. Проверка статистической значимости коэффициентов уравнения регрессии.
  2. Проверка общего качества уравнения регрессии.
  3. Проверка точности модели.
  4. Проверка свойств данных, выполнение которых предполагалось при оценивании уравнения.

Под содержательной составляющей анализа качества понимается рассмотрение экономического смысла оцененного уравнения регрессии: действительно ли значимым оказались объясняющие факторы, важные с точки зрения теории; положительны или отрицательны коэффициенты, показывающие направление воздействия этих факторов; попали ли оценки коэффициентов регрессии в предполагаемые из теоретических соображений интервалы.

Коэффициент детерминации. Определение. Формула

Для анализа общего качества оцененной линейной регрессии используют обычно коэффициент детерминации , называемый также квадратом коэффициента множественной корреляции. Для случая парной регрессии это квадрат коэффициента корреляции переменных и .

 

 

Коэффициент детерминации рассчитывается по формуле:

(14)

Где – сумма квадратов остатков регрессии

, – фактические и расчетные значения объясняемой переменной.

 – общая сумма квадратов.

Он характеризует долю вариации (разброса) зависимой переменой, объясненной с помощью данного уравнения. В качестве меры разброса зависимой переменной обычно используется ее дисперсия, а остаточная вариация может быть измерена как дисперсия отклонений вокруг линии регрессии. Если числитель и знаменатель вычитаемой из единицы дроби разделить на число наблюдений n, то получим, соответственно, выборочные оценки остаточной дисперсии и дисперсии зависимой переменной . Отношение остаточной и общей дисперсии представляют собой долю необъясненной дисперсии. Если же эту долю вычесть из единицы, то получим долю дисперсии зависимой переменной. Объясненной с помощью регрессии. Иногда при расчете коэффициента детерминации для получения несмещенных оценок дисперсии в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы: тогда

(15)

Или, для парной регрессии, где число независимым переменных равно 1,

(16)

В числителе дроби, которая вычитается из единицы, стоит сумма квадратов отклонений наблюдений от линии регрессии, в знаменателе – от среднего значения переменной . Таким образом, дробь это мала (а коэффициент , очевидно, близок к единице), если разброс точек вокруг линии регрессии значительно меньше, чем вокруг среднего значения.

Метод наименьших квадратов (МНК) позволяет найти прямую, для которой сумма минимальна, а представляет собой одну из возможных линий, для которых выполняется условие . Поэтому величина в числителе вычитаемой из единицы дроби меньше, чем величина в ее знаменателе, - иначе выбираемой по МНК линией регрессии была бы прямая . Таким образом, коэффициент детерминации является мерой, позволяющей определить, в какой степени найденная регрессионная прямая дает лучший результат для объяснения поведения зависимой переменной , чем просто горизонтальная прямая .

Смысл коэффициента детерминации может быть пояснен и немного иначе. Можно показать, что

(17)

где – отклонение -й точки на линии регрессии от .

В данной формуле величина в левой части может интерпретироваться как мера общего разброса (вариации) переменной , первое слагаемое в правой части – как мера остаточного, необъясненного разброса (разброса точек вокруг линии регрессии). Если разделить эту формулу на ее левую часть и перегруппировать члены, то

(18)

То есть коэффициент детерминации есть доля объясненной части разброса зависимой переменной (или доля объясненной дисперсии, если разделить числитель и знаменатель на и ().

Информация о работе Линейная регрессия