Проверка статистической значимости уравнения регрессии
Контрольная работа, 22 Марта 2015, автор: пользователь скрыл имя
Описание работы
Эконометрика — это междисциплинарная наука, возникшая на стыке экономики, высших методов статистики, математической статистики и (в самое последнее время) информационных технологий, эффективно реализующих интеграцию этих наук. От первых простейших попыток применения точных количественных методов математики к экономическим проблемам она довольно быстро перешла к использованию методов математической статистики для решения задач экономики и даже теории нечетких множеств и нечеткой логики в исследовании сложных процессов социально-экономической природы
Содержание работы
Введение. 2
Информационные технологии в эконометрике. 4
Регрессионный анализ. Парная регрессия. 14
Построение модели. 14
Проверка статистической значимости уравнения регрессии. 19
Характеристика оценок коэффициентов уравнения регрессии. 21
Заключение. 27
Список использованной литературы. 28
Файлы: 1 файл
эконометрика.docx
— 236.74 Кб (Скачать файл)известные значения y - это множество значений y, которые уже известны для соотношения y=mx+b.
Массив известные значения х может содержать одно или несколько множеств переменных.
Конст - это логическое значение, которое указывает, требуются ли, чтобы константа b была равна нулю. Константа принимает одно из двух значений ИСТИНА или ЛОЖЬ. Если конст имеет значение истина или опущено, то b вычисляется, если конст имеет значение ЛОЖЬ, то b полагается равным 0.
Статистика - это логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии.
Статистика также принимает одно из значений ИСТИНА или ЛОЖЬ. В первом случае дополнительная статистика рассчитывается, во втором случае не рассчитывается.
Дополнительные статистические характеристики функции ЛИНЕЙН приведены ниже Дополнительные статистические характеристики функции ЛИНЕЙН приведены ниже:
b, m1, m2,…mn – коэффициенты регрессии (параметры модели);
se1, se2,...,sen - стандартные значения ошибок для коэффициентов m1,m2,...,mn;
seb - стандартное значение ошибки для постоянной b;
r2 - коэффициент детерминированности;
sey - стандартная ошибка для оценки y;
F - F-статистика, используемая для определения того, является ли наблюдаемая взаимосвязь между зависимой и независимой переменными случайной или нет;
df - степени свободы, используемые для нахождения F-критических значений в статистической таблице (для определения уровня надежности модели нужно сравнить значения в таблице с F-статистикой функции ЛИНЕЙН);
ssreg - регрессионая сумма квадратов;
ssresid- остаточная сумма квадратов.
Характеристики выводятся на экран дисплея в виде приведенного ниже массива (таблицы):
mn |
mn-1 |
… |
m2 |
m1 |
b |
sen |
Sen-1 |
… |
se2 |
se1 |
seb |
r2 |
Seу |
… |
|||
F |
Df |
… |
|||
ssreg |
ssresid |
… |
Порядок выполнения расчетов следующий:
1. Вводятся исходные данные или открывается существующий файл, содержащий исходные данные.
2. В рабочем окне Excel выделяется диапазон ячеек 5*(n+1) (5 число строк, (n+1) - число столбцов, n – число показателей факторов) для вывода результатов расчета.
3. Активизируются "Мастер функций" любым из способов:
а) в главном меню выбирается Вставка/Функция;
б) на панели инструментов Стандартная нажимается кнопка (fx)
|
4. В появившемся окне "Мастер
функций шаг 1 из 2" среди категорий
выбирается Статистические, среди функций
- ЛИНЕЙН шаг 1 из 2 (рис. 3.1.1)
Рис. 3. 1. 1. Диалоговое окно "Мастер функций шаг 1 из 2"
5. В появившемся втором окне "Мастер функций" (рис. 3. 1. 2)
вводятся аргументы, т.е. указываются диапазоны ячеек рабочего окна EXCEL, в которых находятся исходные данные для У и Х, а также значения аргументов константа и статистика.
Рис. 3. 1. 2. Второе диалоговое окно "Мастер функций"
6. Нажимается кнопка ОК. В выделенном диапазоне рабочего окна
Excel появляется результат - численное значение для коэффициента регрессии (b). Чтобы вывести всю статистику следует нажать клавишу <F2>, а затем - комбинацию клавиш <Ctrl>+<Shift>+<Enter>.
По вышерассмотренным данным (см. Таблица 3.1.1; 3.1.2; 3.1.3) получены следующие эконометрические модели:
линейного вида: y=5406,43+0,86х1 y= 11719,68-2,90х2 y= -6274,7+0,936х1+16,509х2 |
экспоненциального вида: y=6025,5•1,000086x1 y=3542,4•1,0014x2 y=2147,8•1,000086x1 • 1,0015x2 |
Рис. 3. 1. 3. Результат вычисления функции ЛИНЕЙН
Регрессионный анализ. Парная регрессия.
Смысл регрессионного анализа – построение функциональных зависимостей между двумя группами переменных величин Х1, Х2, … Хр и Y. При этом речь идет о влиянии переменных Х (это будут аргументы функций) на значения переменной Y (значение функции). Переменные Х мы будем называть факторами, а Y – откликом.
Построение модели.
Этап 1. Исходные данные: заранее известные (экспериментальные, наблюденные) значения фактора хi – экзогенная переменная и соответствующие им значения отклика yi, (i = 1,…,n) - эндогенная переменная;
Активный и пассивный эксперимент.
Выборочные характеристики – позволяют кратко охарактеризовать выборку, т. е., получить ее модель, хотя и очень грубую:
а) среднее арифметическое:
Среднее арифметическое – это «центр», вокруг которого колеблются значения случайной величины.
Пример: средняя продолжительность жизни в России и США
б) дисперсия:
Отклонение от среднего: - характеризует лишь «разброс» конкретной, отдельно взятой величины хi. Если мы захотим получить более полную информацию, нам придется выписать такие отклонения для всех х, т. е., получить такой же ряд чисел, как и исходная выборка.
Можно попытаться усреднить все отклонения, но «среднее арифметическое отклонений от среднего арифметического» имеет особенность:
Эта величина обнуляется из-за того, что отрицательные значения отклонений и положительные взаимно погашаются.
Чтобы избежать этого, возведем их в квадрат, получив так называемую выборочную дисперсию:
Выборочная дисперсия характеризует разброс (вариацию) элементов выборки вокруг их среднего арифметического. Важно иметь в виду, что сами элементы выборки и их дисперсия имеют разные порядок: если элементы выборки измеряются в метрах, то дисперсия – в квадратных метрах.
Стандартное отклонение:
Полезное свойство дисперсии:
Т. о.
Характеристики генеральной совокупности:
математическое ожидание М(Х)
дисперсия D(X)
Несмещенная оценка дисперсии:
Для простоты, мы будем использовать смещенную оценку – выборочную дисперсию – при достаточно больших n они практически равны.
Этап 2. Постановка задачи: предположим, что значение каждого отклика yi как бы состоит из двух частей:
- во-первых, закономерный результат того, что фактор х принял конкретное значение хi;
- во-вторых, некоторая случайная компонента ei, которая никак не зависит от значения хi.
Таким образом, для любого i = 1,…,n
yi = f(xi) + ei
Смысл случайной величины (ошибки) e:
а) внутренне присущая отклику у изменчивость;
б) влияние прочих, не учитываемых в модели факторов;
в) ошибка в измерениях
Этап 3. Предположения о характере регрессионной функции
Возможный вид функции f(xi)
- линейная:
- полиномиальная
- степенная:
- экспоненциальная:
- логистическая:
Методы подбора вида функции:
- графический
- аналитический
Этап 4. Оценка параметров линейной регрессионной модели
1. Имея два набора значений: x1, x2, …, xn и y1, y2, …, yn, предполагаем, что между ними существует взаимосвязь вида:
yi = a + bxi + ei
т. н. функция регрессии
Истинные значения параметров функции регрессии мы не знаем, и узнать не можем.
Задача: построить линейную функцию:
ŷi = a + bxi
так, чтобы вычисленные значения ŷi(xi) были максимально близки к экспериментальным уi (иначе говоря, чтобы остатки (ŷi - yi) были минимальны).
Экономическая интерпретация коэффициентов:
a – «постоянная составляющая» отклика, независимая от фактора
b – степень влияния фактора на отклик (случаи отрицательного)
2. Метод наименьших квадратов (МНК):
подставим в задачу формулу (2.2):
В данном случае у нас a и b – переменные, а х и у – параметры. Для нахождения экстремума функции, возьмем частные производные по a и b и приравняем их к нулю.
Получили систему из двух линейных уравнений. Разделим оба на 2n:
Из первого уравнения выразим неизвестную а:
и подставим это выражение во второе уравнение:
Построив оценки a и b коэффициентов a и b, мы можем рассчитать т. н. «предсказанные», или «смоделированные» значения ŷi = a + bxi и их вероятностные характеристики – среднее арифметическое и дисперсию.
Несложно заметить, что оказалось . Так должно быть всегда:
Кроме того, вычислим т. н. случайные остатки и рассчитаем их вероятностные характеристики.
Оказалось, . Это также закономерно:
Таким образом, дисперсия случайных остатков будет равна:
Мы произвели вычисления, и построили регрессионное уравнение, позволяющее нам построить некую оценку переменной у (эту оценку мы обозначили ŷ). Однако, если бы мы взяли другие данные, по другим областям (или за другой период времени), то исходные, экспериментальные значения х и у у нас были бы другими и, соответственно, а и b, скорее всего, получились бы иными.
Вопрос: насколько хороши оценки, полученные МНК, иначе говоря, насколько они близки к «истинным» значениям a и b?
Этап 5. Исследование регрессионной модели
1. Теснота связи между фактором и откликом
Мерой тесноты связи служит линейный коэффициент корреляции:
(2.13)
-1 £ rxy £ 1 (2.14)
Отрицательное значение КК означает, что увеличение фактора приводит к уменьшению отклика и наоборот:
2. Доля вариации отклика
у, объясненная полученным уравнением
регрессии характеризуется коэффициентом
детерминации R2. Путем математических
преобразований можно выразить:
где – оценка дисперсии случайных остатков в модели,
Таким образом, R2 – это доля дисперсии у, объясненной с помощью регрессионного уравнения в дисперсии фактически наблюденного у.
Очевидно: