Разложение общей суммы квадратов в двухфакторном дисперсионном анализе

Автор работы: Пользователь скрыл имя, 18 Апреля 2012 в 16:55, контрольная работа

Описание работы

Рассмотрим двухфакторный дисперсионный анализ, основой проведен-ия которого служит комбинационная группировка по двум факторам х и z, с последующим разложением дисперсии результативного признака у:
(1.1)
где i - номер единицы в j-й группе по признаку х и k-й по признаку z;
уjk - среднее значение признака у в группе, образованной комбинацией
j-го значения признака х и k-го значения признака z;

Содержание работы

1. Разложение общей суммы квадратов в двухфакторном дисперсионном анализе
3
2. Оценки дисперсий
7
3. Способы проверки распределения на нормальность
9
Список используемой литературы
18

Файлы: 1 файл

Эконометрика_Дом.контр..doc

— 316.50 Кб (Скачать файл)

18

 

СОДЕРЖАНИЕ

 

1. Разложение общей суммы квадратов в двухфакторном дисперсионном анализе

3

2. Оценки дисперсий

7

3. Способы проверки распределения на нормальность

9

Список используемой литературы

18

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1. Разложение общей суммы квадратов в двухфакторном дисперсионном анализе

 

Рассмотрим двухфакторный дисперсионный анализ, основой проведен-ия которого служит комбинационная группировка по двум факторам х и z, с  последующим разложением дисперсии результативного признака у:

(1.1)

где     i - номер единицы в j-й группе по признаку х и k-й по признаку z;

уjk - среднее значение признака у в группе, образованной комбинацией

j-го значения признака х и k-го значения признака z;

уj - среднее значение признака у в j-й группе по признаку х;

yk - среднее значение признака у в k-й группе по признаку z;

у - общая средняя признака y в целом по выборке;

пjk - число единиц в группе, образованной комбинацией j-го значения признака х и k-го значенияпризнака z;

пj - число единиц в j-й группе по признаку х,

пk - число единиц в k-й группе по признаку z;


                                         (1.2)

Равенство (1.2) можно записать так:

Dобщ = Dx + Dz + Dxz + Dост,                                                               (1.3)

где Dч - вариация у под влиянием фактора x;

Dz - вариация у под влиянием фактора z;

Dxz - вариация у, обусловленная взаимодействием факторов х и z;

Dост - вариация у под влиянием прочих факторов.

Первые три слагаемые составляют вариацию признака у, вызванную изучаемыми факторами, поэтому равенство (1.3) можно записать в виде:

Dобщ = Dфакт +Dост, где                                                                       (1.4)

Dфакт = Dх + Dz + Dxz.                                                                         (1.5)

 

Величина Dфакт может быть рассчитана не через составляющие, а непосредственно как

                                                                          (1.6)

Однако при неравенстве численностей подгрупп пjk и групп пj и пk рав-енство нарушается (за счет взвешивания при неравных весах).

Поэтому рассчитываются невзвешенные величины:

;                                      (1.7)

 ;                                           (1.8)

;                                            (1.9)

.                                    (1.10)

Затем на основе сравнения взвешенной (1.6) и невзвешенной величин факторной дисперсии находят поправочный коэффициент:

                                        (1.11)

Этот коэффициент используется для корректировки невзвешенных сумм квадратов отклонений , на основе которых проводят расчет F-критериев:

                               (1.12)

 

Число степеней свободы для каждой суммы квадратов отклонений составляет:

d.f.x=m- 1;  d.f.z = p - 1; d.f.xz = (m-1)(p -1) = mp - т - р + 1,

в целом

d.f.факт = d.f.x  + d.f.z + d.f.xz = mp-1;

       

            (1.13)

В двухфакторном дисперсионном анализе испытуемые гипотезы формулируются следующимобразом:

1. Н0 : μ1• = μ2. =μm  

2. Н0 : μ1• = μ2. =μp  

3. Н0 : μ1• = μ2. =μmp  

Вся процедура двухфакторного дисперсионного анализа обобщается в табл. 1.

Таблица 1 – Схема двухфакторного дисперсионного анализа

Источник вариации

Сумма квадратовотклонений

D

Число степеней.свободы

d. f.

Средний квадратотклонений s2 = D/d.f.

F-критерий

Факторы х и z

Dфакт•K

mp - 1

s2факт

 

Фактор х

Dx•K

m - 1

s2x

Фактор z

Dz•K

p - 1

s2z

Взаимодействиефакторов х и z

(Dфакт- Dx-

- Dz)•K

mp  p-m+1

s2xz

Остаточная

Dобщ - Dфакт•K

n - mp

s2ост

 

Общая

Dобщ

n - 1

s2

 

 

Решение о первой гипотезе принимается на основе сравнения 

 с  .

Если Fфакт > Fкрит, то Н0 отклоняется.

Вторая гипотеза испытывается на основе сравнения

 c 

Третья - на основе сравнения

 c 

Во всех случаях, если  Fфакт >Fкрит, Н0 отклоняется. На основе F-критерия принимаютсярешения о форме уравнения регрессии, о статистической значимости той или иной объясняющейпеременной при построении многофакторного уравнения регрессии и др.

Рассмотренные направления проверки статистических гипотез охватывают лишь важнейшие изних. Процедура испытания статистических гипотез применяется для определения того,случайно или нет полученное значение коэффициента корреляции, коэффициента вариации и т.д., случайны или нет различия в значениях показателей (медиан, коэффициентов корреляции,регрессии и т.д.) в разных совокупностях. Во всех случаях результатом являетсявероятностное суждение, которое составляет сущность анализа данных в разнооб-разныхсферах: в медицине, биологии, технике, политике, спорте, экономике, психологии и социологии.

 

 

 

 

 

 

 

 

 

 

 

 

2. Оценки дисперсий

 

На первый взгляд наиболее естественной оценкой представляется

(2.1)

Проверим, является ли оценка несмещенной. Формула (2.1) может быть записана следующим образом (2.2.):

.                                          (2.2)

Подставим в эту формулу выражение (2.1):

Найдем математическое ожидание оценки дисперсии:

(2.3)

Так как дисперсия случайной величины не зависит от того, какое математическое ожидание у случайной величины, примем математическое ожидание равным 0, т.е. m = 0.

Тогда:

(2.4)

при .

(2.5)

Последнее равенство следует из того, что эксперименты независимы, а математическое ожидание случайной величины в каждом эксперименте равно 0. Подставляя (2.4) и (2.5) в (2.3), получим:

                                               (2.6)

Отсюда следует, что оценка не является несмещенной - ее математическое ожидание равно не D, а несколько меньше. Пользуясь оценкой вместо дисперсии D, мы получим систематическую ошибку. Чтобы ликвидировать это смещение, достаточно ввести поправку, умножив величину на (N-1)/N. Такую исправленную статистическую дисперсию мы и выберем в качестве оценки:

                                              (2.7)

Таким образом, если в результате N экспериментов мы располагаем набором N значений случайной величины x1, x2, …, xN,

то для оценок математического ожидания и дисперсии необходимо воспользоваться следующими формулами:

(2.8)

 

 

 

 

 

 

 

 

3. Способы проверки распределения на нормальность

 

Эта задача представляет собой частный случай более общей проблемы, заключающейся в подборе теоретической функции распределения, в некотором смысле наилучшим образом согласующейся с опытными данными.

При большом числе результатов наблюдений (n>40) данная задача решается в следующем порядке.

Весь диапазон полученных результатов наблюдений Xmax ... Xmin разделяют на r интервалов шириной  и подсчитывают частоты mi, равные числу результатов, лежащих в каждом i-м интервале, т. е. меньших или равных его правой и больших левой границы.

Отношения

(3.1)


где n - общее число наблюдений, называются частостями и представляют собой статистические оценки вероятностей попадания результата наблюдений в i-й интервал. Распределение частот по интервалам образует статистическое распределение результатов наблюдений.

Если теперь разделить частость на длину интервала, то получим величины

(3.2)

являющиеся оценками средней плотности распределения в интервале .

Отложим вдоль оси результатов наблюдений (рис.1) интервалы  в порядке возрастания индекса i и на каждом интервале построим прямоугольник с высотой, равной . Полученный график называется гистограммой статистического распределения.

Площадь суммы всех прямоугольников равна единице:

При увеличении числа наблюдений число интервалов можно увеличить. Сами интервалы уменьшаются, и гистограмма все больше приближается к плавной кривой, ограничивающей единичную площадь, - к графику плотности распределения результатов наблюдений.

При построении гистограмм рекомендуется пользоваться следующими правилами:

1. Число интервалов выбирается в зависимости от числа наблюдений согласно рекомендациям табл.6.

Таблица 2

n

r

40 – 100

7 – 9

100 – 500

8 – 12

500 – 1000

10 – 16

1000 – 10000

12 – 22

2. Длины интервалов удобнее выбирать одинаковыми. Однако если распределение крайне неравномерно, то в области максимальной концентрации результатов наблюдений следует выбирать более узкие интервалы.

3. Масштабы по осям гистограммы должны быть такими, чтобы отношение ее высоты к основанию составляло примерно 5:8.

Пример. Было выполнено 100 измерений среднего диаметра резьбового калибра. Результаты наблюдений лежат в диапазоне 8.911 - 8.927 мм, т. е. зона распределения результатов составляет 0.016 мм. Весь диапазон удобно разделить на восемь равных интервалов через 0.002 мм. В табл.3 приведены частоты mi, частости  и плотности  статистического распределения.

Таблица 3

, мм

, мм

, 1/мм

1

8.911

8.913

1

0.01

5

2

8.913

8.915

5

0.05

25

3

8.915

8.917

14

0.14

70

4

8.917

8.919

27

0.27

135

5

8.919

8.921

24

0.24

120

6

8.921

8.923

18

0.18

90

7

8.923

8.925

9

0.09

45

8

8.925

8.927

2

0.02

10

После построения гистограммы надо подобрать теоретическую плавную кривую распределения, которая, выражая все существенные черты статистического распределения, сглаживала бы все случайности, связанные с недостаточным объемом экспериментальных данных. Принципиальный вид теоретической кривой выбирают заранее, проанализировав метод измерения, или хотя бы по внешнему виду гистограммы. Тогда определение аналитического вида кривой распределения сводится к выбору таких значений его параметров, при которых достигается наибольшее соответствие между теоретическим и статистическим распределением. Одним из методов решения этой задачи является метод моментов. При его использовании параметрам теоретического распределения придают такие значения, при которых несколько важнейших моментов совпадают с их статистическими оценками. Так, если статистическое распределение, определяемое гистограммой, приведенной на рис.1, мы хотим описать кривой нормального распределения, то естественно потребовать, чтобы математическое ожидание и дисперсия последнего совпадали со средним арифметическим и оценкой дисперсий, вычисленным по опытным данным. В предыдущем примере мм,  мм и уравнение кривой нормального распределения, лучше всего согласующегося со статистическим распределением, должно иметь вид:

На основании гистограммы, полученной при обработке опытных данных, строится гипотеза, состоящая в том, что результаты наблюдений подчиняются распределению  с плотностью .

Для того чтобы принять или опровергнуть эту гипотезу, выбирается некоторая величина U, представляющая собой меру расхождения теоретического и статистического распределений. В качестве меры расхождения можно принять сумму квадратов разностей частостей и теоретических вероятностей попадания результатов наблюдений в каждый интервал, взятых с некоторыми коэффициентами:

,

(3.3)


где  – коэффициенты, называемые весами разрядов;  – теоретические вероятности, определяемые как

,

(3.4)


Здесь  – предполагаемая плотность распределения.

Мера расхождения U является случайной величиной и, независимо от исходного распределения подчиняется -распределению с k степенями свободы. Если значения всех частот , число измерений стремится к бесконечности, а веса  выбираются равными . Число степеней свободы распределения k = r - s, где  – число разрядов гистограммы статистического распределения, а s – число независимых связей, наложенных на частости .

Если проверяется гипотеза о нормальности распределения, то к числу этих связей относится равенство среднего арифметического математическому ожиданию, а точечной оценки дисперсии - дисперсии предполагаемого нормального распределения. Кроме того, всегда требуется, чтобы сумма частостей по всем интервалам была равна единице. Поэтому в данном случае s = 3.

Поскольку проверка гипотезы основывается на опытных данных, то при принятии решения всегда возможны ошибки. Отвергая в действительности верную гипотезу, мы совершаем ошибку первого рода. Вероятность ошибки первого рода называется уровнем значимости и составляет . Принимая в действительности неверную гипотезу, мы совершаем ошибку второго рода. Вычислить ее вероятность, вообще говоря, невозможно, поскольку для этого нужно рассмотреть все прочие возможные гипотезы, являющиеся альтернативой обсуждаемой гипотезы. Можно лишь утверждать, что при уменьшении ошибки первого рода ошибка второго рода увеличивается, поэтому не имеет смысла брать слишком высокие значения доверительных вероятностей.

Проверка нормальности распределения согласно критерию  сводится к следующему.

1. Данные наблюдений группируют по интервалам, как при построении гистограммы, и подсчитывают частоты . Если в некоторые интервалы попадает меньше пяти наблюдений, то такие интервалы объединяют с соседними. При этом число степеней свободы k, конечно, уменьшается.

2. Вычисляют среднее арифметическое  и точечную оценку среднеквадратического отклонения результата наблюдений , которые принимают в качестве параметров теоретического нормального распределения с плотностью .

3. Для каждого интервала находят вероятности попадания в них результатов наблюдений либо приближенно как произведение плотности теоретического распределения в середине интервала на его длину:

.

(3.5)

4. Для каждого интервала вычисляют величины  и суммируют их по всем , в результате чего получают меру расхождения .

5. Определяют число степеней свободы  и, задаваясь уровнем значимости , находят значения  и . Если , то распределение результатов наблюдений считают нормальным.

Критерий согласия , построенный на предельном переходе при , рекомендуется применять, если общее число наблюдений больше сорока.

При малом числе наблюдений  нормальность распределения результатов наблюдений проверяется с помощью двух критериев.

Первый критерий основан на вычислении статистики

.

(3.6)

Гипотеза о нормальности распределения на основании первого критерия принимается, если при данном числе наблюдений и выбранном уровне значимости  соблюдается условие

,
где  и  – квантили.

На основании второго критерия гипотеза о нормальности распределения принимается, если не более  разностей  превосходят уровень , где  – оценка среднеквадратического отклонения результатов наблюдения,  – квантиль интегральной функции нормированного нормального распределения

.

Распределение результатов наблюдения считается отличным от нормального, если оно не соответствует хотя бы одному из этих двух критериев. Уровень значимости составного критерия 

.

При малом числе наблюдений для оценки нормальности можно воспользоваться понятием статистической функции распределения результатов наблюдений. Для ее построения полученные в процессе эксперимента результаты группируют в так называемый вариационный ряд  , члены которого располагаются в порядке их возрастания, так что всегда . Статистическую функцию распределения  определяют по формуле

(3.7)

 представляет собой ступенчатую линию, скачки которой соответствуют значениям членов вариационного ряда. Каждый скачок равен , если все  членов ряда различны. Если же для некоторого , то  в точке  возрастает на , где i – число равных между собой членов ряда.

Для проверки нормальности распределения результатов наблюдений находят значения , соответствующие полученным значениям  статистической функции распределения . Но переменная  определяется через результаты наблюдений как


и если в координатах  нанести точки , то при нормальном распределении они должны расположиться вдоль одной прямой линии. Если же в результате такого построения получится некоторая кривая линия, то гипотезу о нормальности распределения придется отвергнуть как противоречащую опытным данным.

Пример. Даны результаты девятнадцати измерений длины детали (см. табл.3). Проверить нормальность распределения результатов наблюдений.

Вычисления по изложенной методике сведены в табл.4.

 

Таблица 4

, мм

18.303

0.05

-1.6449

18.304

0.10

-1.2816

18.305

0.20

-0.8416

18.306

0.30

-0.52.44

18.307

0.40

-0.2533

18.308

0.60

0.2533

18.309

0.75

0.6745

18.310

0.85

1.0364

18.311

0.90

1.2816

18.312

0.95

1.6449

На рис.2 представлена зависимость . Отдельные точки располагаются очень близко к прямой, поэтому распределение результатов наблюдений можно считать нормальным.

Список используемой литературы

1. Гмурман   В.Е.    Теория    вероятностей    и    математическаястатистика. – М.: Высшая школа, 2003.-523с.

2. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.

3. Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2007.

4. Холлендер М., Вульф Д.А. Непараметрические методы статистики.

5. ЦициашвилиГ. Ш. , “Оценки дисперсий”, Дальневост. матем. журн., 8:2 (2008), 229–234.

6. Шеффе Г. Дисперсионный анализ. — М., 2006.

 

Информация о работе Разложение общей суммы квадратов в двухфакторном дисперсионном анализе