Автор работы: Пользователь скрыл имя, 13 Декабря 2010 в 18:58, реферат
Для точного описания уравнения регрессии необходимо знать условный закон распределения зависимой переменной Y при условии, что переменная Х примет значение х, т.е. Х = х. В статистической практике такую информацию получить, как правило, не удается, так как обычно исследователь располагает лишь выборкой пар значений (xi, yi) ограниченного объема n. В этом случае речь может идти об оценке (приближенном выражении, аппроксимации) по выборке функции регрессии. Такой оценкой является выборочная линия (кривая) регрессии:
= ( x, b0, b1, …, bp) (2)
1-й уровень - 5% (a = 0,05), где допускается риск ошибки в выводе в пяти случаях из ста теоретически возможных таких же экспериментов при строго случайном отборе для каждого эксперимента;
2-й уровень - 1% (a = 0,01), т. е. соответственно допускается риск ошибиться только в одном случае из ста;
3-й уровень - 0,1% (a = 0,01), т. е. допускается риск ошибиться только в одном случае из тысячи.
Последний уровень значимости предъявляет очень высокие требования к обоснованию достоверности результатов эксперимента и потому редко используется. В эконометрических исследованиях, не нуждающихся в очень высоком уровне достоверности, представляется разумным принять 5%-й уровень значимости.
Статистика критерия - некоторая функция от исходных данных, по значению которой проверяется нулевая гипотеза. Чаще всего статистика критерия является числовой функцией.
Всякое
правило, на основе которого отклоняется
или принимается нулевая
Критическая область – совокупность значений критерия, при котором нулевую гипотезу отвергают. Область принятия нулевой гипотезы (область допустимых значений) – совокупность значений критерия, при котором нулевую гипотезу принимают. При справедливости нулевой гипотезы вероятность того, что статистика критерия попадает в область принятия нулевой гипотезы должна быть равна 1.
Процедура проверки нулевой гипотезы в общем случае включает следующие этапы:
В современных эконометрических программах (например, EViews) используются не стандартные уровни значимости, а уровни, подсчитываемые непосредственно в процессе работы с соответствующим статистическим методом. Эти уровни, обозначенные обычно Prob, могут иметь различное числовое выражение в интервале от 0 до 1, например, 0,7, 0,23 или 0,012. Понятно, что в первых двух случаях, полученные уровни значимости слишком велики и говорить о том, что результат значим нельзя. В последнем случае результаты значимы на уровне двенадцати тысячных.
Если вычисленное значение Рrob превосходит выбранный уровень Рrobкр, то принимается нулевая гипотеза, а в противном случае - альтернативная гипотеза. Чем меньше вычисленное значение Рrob, тем более исходные данные противоречат нулевой гипотезе.
Число степеней свободы у какого-либо параметра определяют как размер выборки, по которой рассчитан данный параметр, минус количество выбранных переменных.
Величина W называется мощностью критерия и представляет собой вероятность отклонения неверной нулевой гипотезы, т.е. вероятность правильного решения. Мощность критерия – вероятность попадания критерия в критическую область при условии, что справедлива альтернативная гипотеза. Чем больше W, тем вероятность ошибки второго рода меньше.
Коэффициент регрессии (b1) является случайной величиной. Отсюда после вычисления возникает необходимость проверки гипотезы о значимости полученного значения. Выдвигаем нулевую гипотеза (Н0) о равенстве нулю коэффициента регрессии (Н0:b1 = 0) против альтернативной гипотезы (Н1) о неравенстве нулю коэффициента регрессии (Н1:b1 ¹ 0). Для проверки гипотезы Н0 против альтернативы используется t-статистика, которая имеет распределение Стьюдента с (n - 2) степенями свободы (парная линейная регрессия).
Коэффициент регрессии надежно отличается от нуля (отвергается нулевая гипотеза Н0), если tнабл > ta;n-2. В этом случае вероятность нулевой гипотезы (Prob.) будет меньше выбранного уровня значимости. ta;n-2 - критическая точка, определяемая по математико-статистическим таблицам.
Проверка значимости уравнения регрессии производится на основе дисперсионного анализа.
Согласно основной идее дисперсионного анализа
(22)
или
Q = QR + Qe, (23)
где Q – общая сумма квадратов отклонений зависимой переменной от средней, а QR и Qe – соответственно сумма квадратов, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов.
Схема дисперсионного анализа имеет вид, представленный в табл. 1.
Средние квадраты и s2 (табл. 1) представляют собой несмещенные оценки дисперсий зависимой переменной, обусловленных соответственно регрессией или объясняющей переменной Х и воздействием неучтенных случайных факторов и ошибок; m – число оцениваемых параметров уравнения регрессии; п – число наблюдений.
При отсутствии линейной зависимости между зависимой и объясняющими(ей) переменными случайные величины и имеют c2-распределение соответственно с т – 1 и п – т степенями свободы.
Таблица 1
Компоненты дисперсии | Сумма квадратов | Число степеней свободы |
Средние квадраты |
Регрессия | m – 1 | ||
Остаточная | n – m | ||
Общая | n – 1 |
Поэтому уравнение регрессии значимо на уровне a, если фактически наблюдаемое значение статистики
, (24)
где - табличное значение F-критерия Фишера-Снедекора, определяемое на уровне значимости a при k1 = m – 1 и k2 = n – m степенях свободы.
Учитывая смысл величин и s2, можно сказать, что значение F показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с ее средней.
Для парной линейно регрессии т = 2, и уравнение регрессии значимо на уровне a (отвергается нулевая гипотеза), если
. (25)
Следует
отметить, что значимость уравнения парной
линейной регрессии может быть проведена
и другим способом, если оценить значимость
коэффициента регрессии
b1, который имеет
t-распределение Стьюдента с k =
n – 2 степенями свободы.
Уравнение
парной регрессии или коэффициент регрессии
b1 значимы на уровне a (иначе – гипотеза
Н0 о равенстве параметра b1
нулю, т.е.
Н0:b1 = 0, отвергается),
если фактически наблюдаемое значение
статистики
(26)
больше критического (по абсолютной величине), т.е. |t| > t1 - a; n - 2.
Коэффициент корреляции r значим на уровне a (Н0: r = 0), если
. (27)
Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии, характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации, определяемый по формуле:
. (28)
Величина R2 показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной.
В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату корреляции, т.е. R2 = r2.
Доверительный интервал для индивидуальных значений зависимой переменной .
- t1 – a; n - 2× £ £ + t1 - a; n - 2× , (29)
где - оценка дисперсии индивидуальных значений у0 при х = х0.
Доверительный интервал для параметров регрессионной модели.
(30)
По 28 предприятиям концерна изучается зависимость дневной выработки (ед.) у от уровня механизации труда (%) х по следующим данным (табл. 2).
Таблица 2
Номер пред-приятия | Уровень механизации, %, х | Дневная выработка, ед., у | Номер пред-приятия | Уровень механизации, %, х | Дневная выработка, ед., у |
1 | 15 | 5 | 15 | 63 | 24 |
2 | 24 | 6 | 16 | 64 | 25 |
3 | 42 | 6 | 17 | 66 | 25 |
4 | 46 | 9 | 18 | 70 | 27 |
5 | 48 | 15 | 19 | 72 | 31 |
6 | 48 | 14 | 20 | 75 | 33 |
7 | 50 | 17 | 21 | 76 | 33 |
8 | 52 | 17 | 22 | 80 | 42 |
9 | 53 | 22 | 23 | 82 | 41 |
10 | 54 | 21 | 24 | 87 | 44 |
11 | 55 | 22 | 25 | 90 | 53 |
12 | 60 | 23 | 26 | 93 | 55 |
13 | 61 | 23 | 27 | 95 | 57 |
14 | 62 | 24 | 28 | 99 | 62 |