Автор работы: Пользователь скрыл имя, 21 Октября 2009 в 02:35, Не определен
Курс обучения
Парная линейная регрессия. Метод наименьших квадратов.
Начальный
пункт эконометрического
Обычно
в качестве критерия близости используется
минимум суммы квадратов
Здесь yi и xi – известные данные наблюдений, .a и b неизвестные параметры линии регрессии. Поскольку функция Q непрерывна, выпукла и ограничена снизу нулем, она имеет минимум. Метод оценивания параметров линейной регрессии, минимизирующей сумму квадратов отклонений наблюдений зависимой переменной от искомой линейной функции, называется МНК или Least Squares Method (LS).
Наилучшая
по МНК прямая линия всегда существует,
но даже наилучшая не всегда является
хорошей
Рассмотрим эту задачу оценки коэффициентов парной линейной регрессии более формально.
Предположим,
что связь между всеми
Причины существования случайного члена:
Так как отклонения ei. – случайны и их значения в выборке неизвестны; то
Для оценки параметров a и b - используется МНК. Минимум ищется по переменным а и b.
Пример. Представлены статистические данные о расходах на питание и душевом доходе семьи для девяти групп семей. Необходимо сделать анализ зависимости величины расходов на питание от величины душевого дохода семьи.
№ группы | Расход на питание (У) | Душевой доход (Х) |
1 | 433 | 628 |
2 | 616 | 1577 |
3 | 900 | 2659 |
4 | 1113 | 3701 |
5 | 1305 | 4796 |
6 | 1488 | 5926 |
7 | 1645 | 7281 |
8 | 1914 | 9350 |
9 | 2411 | 18807 |
1.
Изобразим зависимость
между У и Х графически
точками координатной
плоскости. Такое изображение статистической
зависимости называют полем
корреляции.
2. Затем рассмотрим линейную регрессионную модель влияния душевого дохода семьи (Х) на расходы, связанные с питанием (У).
Однофакторная линейная модель:
(1) ,
Найдем параметры a и b в результате решения системы нормальных уравнений, которая формируется на основе метода наименьших квадратов и имеет вид:
(2)
суммирование ведется по n наблюдениям. В примере n=9.
Расчет
производных величин для
n | y | x | yx | x2 | y2 | |
1 | ||||||
2 | ||||||
3 | ||||||
..... |
Используя данные таблицы, получим систему уравнений:
отсюда
а=549,68, а b=0,1257. Таким образом, модель
имеет вид:
(3) -уравнение регрессии.
3. Параметрам
линейной регрессии
можно придать экономический
смысл. Выполним
экономическую интерпретацию
параметров уравнения,
а также уравнения в
целом:
a) Параметр
b=0,13 - показывает среднее изменение результативного
показателя (в единицах измерения у) с
повышением или понижением величины фактора
на единицу его измерения. В данном примере
с увеличением дохода на 1 единицу расходы
на питание повышаются в среднем на 0,13.
Другими словами, из каждого дополнительного
рубля дохода 13 копеек будут израсходованы
на питание.
в) Параметр
а=549,68 формально показывает прогнозируемый
уровень у, но только в том случае, если
х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных
значений х, то буквальная интерпретация
может привести к неверным результатам,
и даже если линия регрессии довольно
точно описывает значения наблюдаемой
выборки, нет гарантий, что также будет
при экстраполяции влево или вправо.
с) Подставив
в уравнение регрессии
d) Связь
между у и х определяет знак коэффициента
регрессии b (если >0 – прямая связь, иначе
- обратная). В нашем примере связь прямая,
т.е. с увеличением душевого дохода расходы
на питание также увеличиваются.
e) Далее нужно рассчитать
показатель тесноты связи. Таким показателем
является линейный коэффициент корреляции
ryx, который рассчитывается по формуле:
,
Линейный коэффициент корреляции принимает
значения от –1 до +1. Если ryx>0,7,
то связь считается сильной. Если ryx<0,4,
слабая связь. Этот коэффициент дает объективную
оценку лишь при линейной зависимости.
В нашем примере ryx=0,927. Т.е. связь
между расходами на питание и душевым
доходом очень тесная.
f) Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:
Индекс корреляции рассчитывается по формуле:
, где
- сумма квадратов отклонений
остаточной компоненты;
-сумма квадратов отклонений уровней исходного ряда от его среднего значения.
Данный коэффициент
является универсальным, так как отражает
тесноту связи и точность модели, а также
может использоваться при любой форме
связи переменных. При построении однофакторной
корреляционной модели коэффициент множественной
корреляции равен коэффициенту парной
корреляции.
g) Следующий шаг – найдем коэффициент детерминации R2.
Коэффициент
множественной корреляции (индекс корреляции),
возведенный в квадрат (R2),
называется коэффициентом детерминации.
R2=
=
.
Он
показывает долю изменения (вариации)
результативного признака под действием
факторного признака. Объясняет поведение
у от выбранного х, т.е. определяет, какая
доля вариации признака У учтена в модели
и обусловлена влиянием на него факторов.
Поэтому величина 1-R2 характеризует
поведение у в зависимости от других факторов,
не учтенных в данной модели. В нашем примере
R2=0,859. Это означает, что фактором
душевого дохода можно объяснить почти
86% изменения расходов на питание. Остальные
14% изменения расходов на питание объясняются
факторами, не учтенными в модели.
h) Коэффициенты регрессии (в примере b) нельзя использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х. Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты. Коэффициент эластичности находится по формуле: , где i- номер факторного признака, если рассматривается множественная регрессия и и m – число факторов в модели.
Он показывает,
на сколько процентов изменяется результативный
признак у при изменении факторного признака
х на 1%. Он не учитывает степень колеблемости
факторов. В примере, а=0,1257, среднее значение
х=6080,6 и среднее значение у=1313,9. Коэффициент
эластичности тогда равен 0,58.
Бета – коэффициент показывает, на какую
часть величины своего среднего квадратического
отклонения изменится в среднем значение
результативного признака при изменении
факторного признака на величину его среднеквадратического
отклонения:
Т.е. увеличение душевого дохода на величину
среднеквадратического отклонения этого
показателя приведет к увеличению среднего
значения расходов на питание на 0,79 среднеквадратического
отклонения этих расходов.
i) Коэффициент вариации
показывает относительную меру отклонения
отдельных значений от среднеарифметической.
Чем он больше, тем относительно больший
разброс и меньшая выравненность изучаемых
объектов.
4. Оценка
качества эконометрических
регрессионных моделей
О качестве моделей регрессии можно судить по значениям коэффициента корреляции (индекса корреляции) и коэффициента детерминации для однофакторных моделей и по значениям коэффициента множественной корреляции и совокупного коэффициента детерминации для моделей множественной регрессии.
В качестве меры разброса зависимой переменной у обычно используется ее дисперсия. Мера разброса остатков (остаточная вариация) может быть измерена как дисперсия отклонений вокруг линии регрессии: = D( )
Для оценки точности
регрессионных моделей