Автор работы: Пользователь скрыл имя, 07 Апреля 2010 в 18:11, Не определен
Основные методы и формулы проведения регрессионнного и корреляционного анализа
Корреляционный анализ.
1. Сбор и анализ данных.
Будем считать, что данные, кот. нам даны – это случайная выборка.
Анализ данных – проводится с целью принятия гипотезы о виде корр. зависимости. График корр. поля. Если принимается гипотеза о линейной зависимости, то
2. Вычисл. лин. коэфф. корр.
3. Проверка стат. значимости
а) принимается нулевая гипотеза об отсутствии корр. в ген. совок-ти
б) альт. гип-за, что корр. есть
, где Р – дов. интер-ал
- ур-ень знач. гипотезы.
а) Отличие коэфф. корр. от нуля не случайно, выборочн. коэфф. корр. статистич. значим. С вероятностью Р корр. есть.
б) Нет основания отвергнуть , в выборке корр. есть, а в ген. сов-ти нет. Выборка случайна. Коэфф. корр. стат. незначим.
4. Выводы и рекомендации.
а) Наличие достаточно большого по величине стат. значимого выборочного коэфф. корр. свидет-ет о наличии достат. тесной корр. зав-ти м/у исследуемыми показателями т.е. изменение одного показателя ведет за собой изменение ср. знач-я другого показ-ля и это св-во с опред. вероятностью распространяется на всю ген. совокупность.
Если ЛПР считает политику в прошлом правильной, тоее можно распространить на будущее.
б) Если наоборот, то политика
была неэфф., в будущем ее надо менять.
Множеств. корреляция.
Коэфф. множеств. корр. показывает степень влияния всех остальных факторов на один (два…). Составляется матрица парных коэффициентов корр-ции:
или
теперь:
, где
- определитель полной корр. матрицы,
а
- определитель полной корр. матрицы
без k-ого столбца и k-ой строки.
Частная корреляция.
Частный коэфф-ент корр. показывает м/у двумя факторами при исключении третьего (в отличии от парного коэффициента, кот. не исключает влияния остальных факторов).
- частная формула
(общая имеет вид , где )
Чем ближе частный
коэфф. корр. к парному, тем меньше
влияние третьего фактора на первые
2.
Проверка стат. значимости.
Аналогично выдвигаются две гипотезы.
Гипотезы проверяются с помощью t-статистики Стьюдента
где L – число исключаемых факторов, n – число степеней свободы.
а) - гипотеза об отсутствии влияния исключаемых факторов на рассматриваемые отклоняется. Исключаемые факторы влияют на взаимосвязь рассматр. факторов с вероятностью .
б)
- принимаем гипотезу
об отсутствии влияния исключаемых факторов
на рассматриваемые. Исключ. факторы не
влияют с вероятностью ошибки
.
Регрессионный анализ.
1 этап. Построение задачи и определение цели регрессии исследования.
2 этап. Сбор и анализ данных.
3 этап. Спецификация.
4 этап. Оценка качества модели.
а) Анализ остатков.
1) Графический способ.
Наблюдение, кот. связано с выбросом, исключается таблицы данных и модель пересчитывается снова для нового объема данных.
2) Критерий серий.
, , где - число серий, - длина ряда, - макс. длина серии. При этом если , то , если , то . Если хотя бы одно неравенство нарушено, то гипотезу о случайности отвергают.
3) Критерий Дарбина-Уотсона.
Принимается гипотеза и альтернативная ей .
По таблице ( - число наблюдений, - число факторов в модели) находятся значения и .
Положительная
автокорреляция ? Автокорреляция отсутствует ? Отрицат. автокорреляция
0
Выводы:
Остатки удовлетворяют основным требованиям регрессионного анализа и можно переходить к следующему этапу;
Остатки не удовлетворяют основным требованиям регрессионного анализа, необходимо вернуться к исследованию спецификации модели на первом и втором этапах.
б) Анализ качества коэфф. регрессии.
Принимается гипотеза о том, что в ген. совок-ти фактор не оказывает воздействия на изменение результативного признака т.е. нет регресс. зависимости м/у и .
Проверка этой гипотезы осущ. с помощью t-статистики:
, где - оценка коэфф. регрессии, - оценка стандартной ошибки коэфф. регрессии в модели:
, где ; - остатки, - число наблюдений, - число факторов в модели, - диагональный элемент обратной матрицы системы нормальных уравнений.
Если , то данные наблюдений с уровнем значимости дают основания для отклонения гипотезы об отсутствии корр. зав-ти м/у фактором и , коэфф. регрессии стат. значим, его отличие от нуля не случайно.
Если , то данные наблюдений с уровнем значимости дают основания для принятия гипотезы об отсутствии регрессионной зависимости м/у фактором и , выборочный коэфф. регрессии стат. незначим, его отличие от нуля случайно, фактор не оказывает стат. значимого воздействия на изменение результативного признака . Фактор следует исключить из модели.
в) Построение доверительных интервалов для коэфф. теор. ур-я регрессии.
г) Оценка качества модели в целом.
- коэфф. детерминации, , чем ближе к 1, тем большее влияние оказ. факторы, включ. в модель.
Принимается гипотеза об отсутствии совместного влияния всех факторов на изменение т.е. . Проверка осущ. с помощью критерия Фишера:
, где - число факторов.
Если
, то гипотеза отклоняется; все факторы
оказывают опред. совместное влияние на
изменение
.
Криволинейная корр. зависимость.
Линейный коэфф. корр. применять нельзя. Применяются корр. отношения.
, где - групповая дисперсия, - остаточная (межгрупповая) дисперсия, - общая дисперсия.
, далее рассчитывается
1 | 2 | 3 | 4 | ||
2 | 1 | 2 | 3 | ||
4 | 2 | 1 | 3 | ||
5 | 1 | 1 | |||
2 | 1 | 2 | 2 | 7 |
Пример.
,
.
,
,
, - корр. отношение.
Проверка стат. значимости: критерий Фишера:
, где - число группировок по , - число степ. свободы.
принимаем гипотезу о наличии
корр. зависимости.
Способы построения модели регрессии.
Метод последовательного включения.
Все данные должны представлять случайную выборку.
На основе данных определяется корреляционная матрица:
, 1 столбец – показывает
По первому столбцу выбирается мах стат. значимый коэфф. регр-ии. Соответствующий фактор первым включается в модель ( ).
Далее определяется 2 фактор. Вычисляется частный коэфф. корр. 1 порядка м/у и всеми оставшимися факторами, за искл. уже включ. в модель.
. В модель включ. фактор .
Далее вычисл. частный коэф. корр. II порядка при исключ. уже включ. факторов:
и т.д.
Каждый раз строятся модели, вычисл. t-статистики, , F. Если добавление фактора в модель увеличивает , то он считается полезным. В противном случае он считается вредным.
Метод последовательного исключения.
Применяется, если среди факторных переменных есть неслуч. переменные.
Сначала строится регесс. модель, включ. все факторные переменные. производится оценка коэфф. регрессии, для всех коэфф. опред. t-статистика. Если в построенной модели все , то модель адекватна и по другим критериям. Построение модели заканчивается.
Если же для нескольких факторов , то из модели исключ. фактор с наименьшим . Перерасчитывается модель регрессии, снова производится оценка коэфф. – так до тех пор, пока не будет построена хорошая по стат. качествам модель.
Метод всех возможных регрессий.
Строятся модели с различным кол-вом факториальных признаков: от 1 до во всех возможных сочетаниях, которые позволяет данный набор факторов. Все модели включ. в таблицу:
модель | F | ||
Выбирается лучшая
модель (все коэфф. значимы).
Временные ряды.
Метод среднего абсолютного отклонения.
Предназначен для прогнозирования на один год. Временной ряд аппроксимируется функцией :
, ,
,
, прогнозное значение показателя Х в году Т+1 есть F(T+1).
Точность аппроксимации характеризуют: средняя абсолютная погрешность , средняя относительная погрешность и среднеквадратическое отклонение S:
, , .
Практически хорошим
качеством аппроксимации
Метод экспоненциального сглаживания.
, - параметр, кот. подбирается эмпирически.
Прогнозное значение показателя Х в году Т+1 есть S(t+1).
Метод скользящих средних.
Сущность метода состоит в укрупнении интервалов и определении средних для каждого укрупненного интервала:
… , где N – интервал усреднения, порядок средней скользящей; - уровни временного ряда; - скользящая средняя N-порядка.