Автор работы: Пользователь скрыл имя, 13 Декабря 2010 в 18:58, реферат
Для точного описания уравнения регрессии необходимо знать условный закон распределения зависимой переменной Y при условии, что переменная Х примет значение х, т.е. Х = х. В статистической практике такую информацию получить, как правило, не удается, так как обычно исследователь располагает лишь выборкой пар значений (xi, yi) ограниченного объема n. В этом случае речь может идти об оценке (приближенном выражении, аппроксимации) по выборке функции регрессии. Такой оценкой является выборочная линия (кривая) регрессии:
= ( x, b0, b1, …, bp) (2)
При анализе статистических зависимостей широко используются графические методы, которые задают направление его дальнейшего анализа. В Excel для этого можно использовать средство Мастер диаграмм. Для создания диаграммы необходимо выделить данные, запустить мастер диаграмм, выбрать тип и вид диаграммы (для нашего примера тип диаграммы – Точечная), выбрать и уточнить ориентацию диапазона данных и ряда, настроить параметры диаграммы.
Для описания закономерностей в исследуемой выборке наблюдений строится линия тренда.
Для добавления линии тренда в диаграмму необходимо выполнить следующие действия:
1) щелкнуть правой кнопкой мыши по ряду данных;
2) в динамическом меню выбрать команду Добавить линию тренда. На экране появится окно Линия тренда (рис. 2);
3)
выбрать вид зависимости
4) перейти на вкладку Параметры. В поле Показать уравнение на диаграмме установить подтверждение;
5) в случае необходимости можно задать остальные параметры.
Рис. 2. Диалоговое окно для выбора типа тренда
Изобразим полученную зависимость графически точками координатной плоскости (рис. 3). Такое изображение статистической зависимости называется полем корреляции.
По расположению эмпирических точек можно предполагать наличие линейной корреляционной (регрессионной) зависимости между переменными х и у.
По
данным табл. 2 найдем уравнение регрессии
у по х. Расчеты произведем в Excel
по формулам (7)–(13), промежуточные вычисления
представим в табл. 3.
Рис. 3. Поле корреляции
Таблица
3
N | X | Y | X*Y | X*X | Y*Y |
1 | 15 | 5 | 75 | 225 | 25 |
2 | 24 | 6 | 144 | 576 | 36 |
3 | 42 | 6 | 252 | 1764 | 36 |
4 | 46 | 9 | 414 | 2116 | 81 |
5 | 48 | 15 | 720 | 2304 | 225 |
6 | 48 | 14 | 672 | 2304 | 196 |
7 | 50 | 17 | 850 | 2500 | 289 |
8 | 52 | 17 | 884 | 2704 | 289 |
9 | 53 | 22 | 1166 | 2809 | 484 |
10 | 54 | 21 | 1134 | 2916 | 441 |
11 | 55 | 22 | 1210 | 3025 | 484 |
12 | 60 | 23 | 1380 | 3600 | 529 |
13 | 61 | 23 | 1403 | 3721 | 529 |
14 | 62 | 24 | 1488 | 3844 | 576 |
15 | 63 | 24 | 1512 | 3969 | 576 |
16 | 64 | 25 | 1600 | 4096 | 625 |
17 | 66 | 25 | 1650 | 4356 | 625 |
18 | 70 | 27 | 1890 | 4900 | 729 |
19 | 72 | 31 | 2232 | 5184 | 961 |
20 | 75 | 33 | 2475 | 5625 | 1089 |
21 | 76 | 33 | 2508 | 5776 | 1089 |
22 | 80 | 42 | 3360 | 6400 | 1764 |
23 | 82 | 41 | 3362 | 6724 | 1681 |
24 | 87 | 44 | 3828 | 7569 | 1936 |
25 | 90 | 53 | 4770 | 8100 | 2809 |
26 | 93 | 55 | 5115 | 8649 | 3025 |
27 | 95 | 57 | 5415 | 9025 | 3249 |
28 | 99 | 62 | 6138 | 9801 | 3844 |
Сумма | 1782 | 776 | 57647 | 124582 | 28222 |
Среднее | 63,64286 | 27,71429 | 2058,821 | 4449,357 | |
Дисперсия | 398,9439 | 239,8469 | b1 | 0,739465 | |
Cov(x,y) | 295,0051 | b0 | -19,3474 |
Итак, уравнение регрессии у по х:
Из
полученного уравнения
По исходным данным вычислим коэффициент корреляции.
Расчеты произведем в Excel, промежуточные вычисления см. табл. 3 и формулы (15), (16).
т.е. связь между переменными тесная.
Оценим на уровне значимости a = 0,05 значимость уравнения регрессии у по х.
1-й способ. Используя данные табл. 4 вычислим необходимые суммы по формулам табл. 1:
= 6715,71 (см. столбец 6);
QR = = 6108,09 (см. столбец 7);
Qe = Q - QR = 6715,71 – 6108,09 = 607,63
Таблица 4
N | X | Y | Yрег | Yi-Yрег | (Yi-Yср)^2 | (Yрег-Yср)^2 | (Xi-Xcp)^2 |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
1 | 15 | 5 | -8,25541 | 13,2554 | 515,9388 | 1293,8192 | 2366,12755 |
2 | 24 | 6 | -1,60023 | 7,6002 | 471,5102 | 859,3406 | 1571,55612 |
3 | 42 | 6 | 11,71015 | -5,7101 | 471,5102 | 256,1325 | 468,413265 |
4 | 46 | 9 | 14,66801 | -5,6680 | 350,2245 | 170,2054 | 311,270408 |
5 | 48 | 15 | 16,14694 | -1,1469 | 161,6531 | 133,8035 | 244,69898 |
6 | 48 | 14 | 16,14694 | -2,1469 | 188,0816 | 133,8035 | 244,69898 |
7 | 50 | 17 | 17,62587 | -0,6259 | 114,7959 | 101,7762 | 186,127551 |
8 | 52 | 17 | 19,1048 | -2,1048 | 114,7959 | 74,1233 | 135,556122 |
9 | 53 | 22 | 19,84426 | 2,1557 | 32,6531 | 61,9372 | 113,270408 |
10 | 54 | 21 | 20,58373 | 0,4163 | 45,0816 | 50,8448 | 92,9846939 |
11 | 55 | 22 | 21,32319 | 0,6768 | 32,6531 | 40,8461 | 74,6989796 |
12 | 60 | 23 | 25,02052 | -2,0205 | 22,2245 | 7,2564 | 13,2704082 |
13 | 61 | 23 | 25,75998 | -2,7600 | 22,2245 | 3,8193 | 6,98469388 |
14 | 62 | 24 | 26,49945 | -2,4995 | 13,7959 | 1,4758 | 2,69897959 |
15 | 63 | 24 | 27,23892 | -3,2389 | 13,7959 | 0,2260 | 0,41326531 |
16 | 64 | 25 | 27,97838 | -2,9784 | 7,3673 | 0,0697 | 0,12755102 |
17 | 66 | 25 | 29,45731 | -4,4573 | 7,3673 | 3,0381 | 5,55612245 |
18 | 70 | 27 | 32,41517 | -5,4152 | 0,5102 | 22,0983 | 40,4132653 |
19 | 72 | 31 | 33,8941 | -2,8941 | 10,7959 | 38,1901 | 69,8418367 |
20 | 75 | 33 | 36,1125 | -3,1125 | 27,9388 | 70,5300 | 128,984694 |
21 | 76 | 33 | 36,85196 | -3,8520 | 27,9388 | 83,4971 | 152,69898 |
22 | 80 | 42 | 39,80982 | 2,1902 | 204,0816 | 146,3020 | 267,556122 |
23 | 82 | 41 | 41,28875 | -0,2888 | 176,5102 | 184,2662 | 336,984694 |
24 | 87 | 44 | 44,98608 | -0,9861 | 265,2245 | 298,3149 | 545,556122 |
25 | 90 | 53 | 47,20447 | 5,7955 | 639,3673 | 379,8675 | 694,69898 |
26 | 93 | 55 | 49,42287 | 5,5771 | 744,5102 | 471,2626 | 861,841837 |
27 | 95 | 57 | 50,9018 | 6,0982 | 857,6531 | 537,6608 | 983,270408 |
28 | 99 | 62 | 53,85966 | 8,1403 | 1175,5102 | 683,5807 | 1250,12755 |
Сумма | 1782 | 776 | 0,00 | 6715,7143 | 6108,0879 | 11170,4286 | |
Среднее | 63,64286 | 27,71429 | |||||
b1 | 0,739465 | ||||||
b0 | -19,3474 |
F =
По
статистическим таблицам F-распределения
F0,05;1;26 = 4,22. Так как
F > F0,05;1;26, то уравнение
регрессии значимо.
2-й
способ. Учитывая, что b1 = 0,739,
= 11170,43
(табл. 4),
=
=23,37 (табл. 4), по формуле (26)
t =
По таблице t-распределения t0,95;26 = 2,06. Так как t > t0,95;26, то коэффициент регрессии b1, а значит, и уравнение парной линейной регрессии значимо.
Найдем коэффициент детерминации и поясним его смысл. Ранее было получено QR = 6108,09, Q = 6715,71. По формуле (28) = 0,9095 (или R2 = r2 = 0,9542 = 0,9095). Это означает, что изменения зависимой переменной у – дневная выработка – на 90% объясняется вариацией объясняющей переменной х – уровнем механизации.
Найдем
95%-ные доверительные
Ранее было получено уравнение регрессии
Чтобы
построить доверительный
Затем найдем дисперсию оценки:
и = 0,916.
Далее искомый доверительный интервал получим по (29):
28,718 –
2,06∙0,916 £
26,832 £
Таким
образом, дневная выработка при
уровне механизации равной 65% с надежностью
0,95 находится в пределах от 26,832 ед.
до
30,604 ед.
Найдем 95%-ный доверительный интервал для параметра b1.
По формуле (30)
0,74 –
2,06
0,645 £ b1 £ 0,834,
т.е. с надежностью 0,95 при изменении уровня механизации x на 1% дневная выработка y будет изменяться на величину, заключенную в интервале от 0,645 до 0,834 (ед.).
Исследуем полученную модель на наличие гетероскедастичности.
Тест Голфреда-Квандта.
Упорядочим
п наблюдений по мере возрастания переменной
х. Исключим из рассмотрения С = 6
центральных наблюдений (условие
(п -
С)/2 = (28 – 6)/2 = 11 > р = 1 выполняется).
Разделим совокупность из (п -
С) = (28 – 6) = 22 наблюдений на две группы
(соответственно с малыми и большими значениями
фактора х по 11 наблюдений) и определим
по каждой из групп уравнения регрессии.
Для первой группы оно составит
= -3,70
+ 0,39x. Для второй группы:
= 1,16 + 53,11x. Определим остаточные
суммы квадратов для первой (S1)
и второй (S2) групп. Промежуточные
расчеты занесем в табл. 5.
N | X | Y | Yрег = -3,70 + 0,39Х | e=Y-Yрег | e^2 |
1 | 15 | 5 | 2,15 | 2,85 | 8,1225 |
2 | 24 | 6 | 5,66 | 0,34 | 0,1156 |
3 | 42 | 6 | 12,68 | -6,68 | 44,6224 |
4 | 46 | 9 | 14,24 | -5,24 | 27,4576 |
5 | 48 | 15 | 15,02 | -0,02 | 0,0004 |
6 | 48 | 14 | 15,02 | -1,02 | 1,0404 |
7 | 50 | 17 | 15,8 | 1,2 | 1,44 |
8 | 52 | 17 | 16,58 | 0,42 | 0,1764 |
9 | 53 | 22 | 16,97 | 5,03 | 25,3009 |
10 | 54 | 21 | 17,36 | 3,64 | 13,2496 |
S1 | 121,5258 | ||||
N | X | Y | Yрег = -53,11 + 1,16Х | e=Y-Yрег | e^2 |
17 | 66 | 25 | 23,45 | 1,55 | 2,4025 |
18 | 70 | 27 | 28,09 | -1,09 | 1,1881 |
19 | 72 | 31 | 30,41 | 0,59 | 0,3481 |
20 | 75 | 33 | 33,89 | -0,89 | 0,7921 |
21 | 76 | 33 | 35,05 | -2,05 | 4,2025 |
22 | 80 | 42 | 39,69 | 2,31 | 5,3361 |
23 | 82 | 41 | 42,01 | -1,01 | 1,0201 |
24 | 87 | 44 | 47,81 | -3,81 | 14,5161 |
25 | 90 | 53 | 51,29 | 1,71 | 2,9241 |
26 | 93 | 55 | 54,77 | 0,23 | 0,0529 |
27 | 95 | 57 | 57,09 | -0,09 | 0,0081 |
28 | 99 | 62 | 61,73 | 0,27 | 0,0729 |
S2 | 32,8636 |
Тест ранговой корреляции Спирмэна
Проранжируем значения хi и абсолютные величины остатков в порядке возрастания, расчеты занесем в табл. 6.
Найдем коэффициент ранговой корреляции Спирмэна:
Таблица 6
N | X | Ei | Расчет ранговой корреляции | |||
Ранг Х | Ранг |Ei| | d | d^2 | |||
1 | 15 | 13,27 | 1 | 28 | -27 | 729 |
2 | 24 | 7,61 | 2 | 26 | -24 | 576 |
3 | 42 | -5,71 | 3 | 23 | -20 | 400 |
4 | 46 | -5,67 | 4 | 22 | -18 | 324 |
5 | 48 | -1,15 | 5 | 6 | -1 | 1 |
6 | 48 | -2,15 | 6 | 9 | -3 | 9 |
7 | 50 | -0,63 | 7 | 3 | 4 | 16 |
8 | 52 | -2,11 | 8 | 8 | 0 | 0 |
9 | 53 | 2,15 | 9 | 10 | -1 | 1 |
10 | 54 | 0,41 | 10 | 2 | 8 | 64 |
11 | 55 | 0,67 | 11 | 4 | 7 | 49 |
12 | 60 | -2,03 | 12 | 7 | 5 | 25 |
13 | 61 | -2,77 | 13 | 13 | 0 | 0 |
14 | 62 | -2,51 | 14 | 12 | 2 | 4 |
15 | 63 | -3,25 | 15 | 17 | -2 | 4 |
16 | 64 | -2,99 | 16 | 15 | 1 | 1 |
17 | 66 | -4,47 | 17 | 19 | -2 | 4 |
18 | 70 | -5,43 | 18 | 20 | -2 | 4 |
19 | 72 | -2,91 | 19 | 14 | 5 | 25 |
20 | 75 | -3,13 | 20 | 16 | 4 | 16 |
21 | 76 | -3,87 | 21 | 18 | 3 | 9 |
22 | 80 | 2,17 | 22 | 11 | 11 | 121 |
23 | 82 | -0,31 | 23 | 1 | 22 | 484 |
24 | 87 | -1,01 | 24 | 5 | 19 | 361 |
25 | 90 | 5,77 | 25 | 24 | 1 | 1 |
26 | 93 | 5,55 | 26 | 21 | 5 | 25 |
27 | 95 | 6,07 | 27 | 25 | 2 | 4 |
28 | 99 | 8,11 | 28 | 27 | 1 | 1 |
Сумма | 0,00 | 3258 |