Автор работы: Пользователь скрыл имя, 09 Декабря 2010 в 12:58, курсовая работа
Основные определения, решение задач
Введение
Вариационные ряды, их графическое изображение
Эмпирическая функция распределения
Полигон и гистограмма
Средние величины
Мода и медиана6
Показатели вариации
Начальные и центральные характеристики вариационного ряда. Квантили
Основы математической теории выборочного метода
Статистические оценки параметров распределения
Понятие о точечной оценке числовой характеристики
Метод моментов
Метод наибольшего правдоподобия
Интервальная оценка параметров нормального распределения
Контрольная работа по теме: "Выборочный метод"
Контрольная работа по теме: «Интервальные оценки»
Проверка статистических гипотез
Типы статистических критериев проверки гипотез. Проверка гипотез на их основе
Критерий согласия Пирсона
Проверка гипотезы о нормальном распределении генеральной совокупности по критерию Пирсона
Проверка гипотезы о распределении генеральной совокупности по биноминальному закону
Проверка гипотезы о равномерном распределении генеральной совокупности
Проверка гипотезы о распределении генеральной совокупности по закону Пуассона
Проверка гипотезы о равенстве двух дисперсий
Проверка гипотезы о равенстве средних двух совокупностей
T-критерий для независимых выборок
Исключение грубых ошибок наблюдения
T-критерий для зависимых выборок
Проверка гипотезы о равенстве долей признака в двух совокупностях
Сравнение долей признака нескольких совокупностей
Проверка гипотез о числовых значениях параметров нормального закона распределения
Сравнение выборочной средней с гипотетической средней нормальной совокупности
Сравнение исправленной выборочной дисперсии с гипотетической генеральной дисперсией нормальной яхсовокупности………………………………………………………………
Контрольная работа на тему: «Статистическая проверка гипотез»
Корреляционный анализ
Понятие о статической и корреляционной связи
Коэффициент корреляции
Проверка значимости выборочного коэффициента корреляции
Значимость уравнения регрессии
Нелинейная регрессия
Множественная регрессия
Контрольная работа на тему: «Корреляционный анализ»
Заключение
Использованная литература
В повседневной жизни мы часто употребляем термины «в среднем», «средняя». Например, средняя цена товара, средний расход продуктов, средняя заработная плата, средняя выработка и т.д.
Средняя величина есть обобщающая количественная характеристика однородных явлений по какому-либо варьирующему признаку. Применение средних величин позволяет охарактеризовать определенный признак совокупности одним числом, несмотря на количественные различия единиц по данному признаку внутри совокупности. Средняя величина – величина абстрактная, а не конкретная, т.к. в ней сглаживаются отдельные значения единиц совокупности, имеющие отклонения в ту или другую сторону.
Средней
арифметической вариационного
ряда называется сумма произведений
всех вариант на соответствующие частоты,
деленная на сумму частот:
xi – варианты дискретного ряда или середины интервалов непрерывного вариационного ряда,
ni – соответствующие частоты,
ωi – соответствующие частости,
n
– объем выборки (сумма частот).
Основные свойства средней арифметической:
или ;
– общая средняя;
– групповая средняя i-й группы, объем которой ni;
l
– число групп.
Мода
и медиана.
Медианой вариационного ряда называется значение признака, приходящегося на середину ранжированного ряда наблюдений.
Для дискретного вариационного ряда с нечетным числом членов медиана равна серединной варианте, а для ряда с четным числом членов – полусумме двух серединных вариант.
Если
вариационный ряд составлен по интервалам,
то медиана вычисляется по следующей
приближенной формуле:
x0 – интервал, в котором находится серединная варианта;
h – длина медианного интервала;
n – объем выборки;
Ti-1 – сумма частот интервалов, предшествующих медианному;
ni
– частота медианного интервала.
Для
дискретного вариационного ряда
мода – значение, имеющее наибольшую
частоту. Если же вариационный ряд составлен
интервалами, то:
– начало модального интервала, т.е. интервала, имеющего максимальную частоту;
h –длина модального интервала;
ni – частота модального интервала;
ni-1 – частота интервала, предшествующего модальному;
ni+1
– частота интервала, последующего за
модельным.
При изучении совокупности явления нельзя ограничиваться только нахождением средней величины.
Средние
величины дают обобщенную характеристику
варьирующего признака, показывают типичные
характеристики для изучаемой совокупности.
Однако в средней величине не проявляется
степень колеблемости отдельных
значений признаков (вариант) вокруг среднего
уровня. В зависимости от однородности
в совокупности колеблемость признаков
может быть большой или, наоборот,
малой. Поэтому возникает
Простейшим показателем
Средним
линейным отклонением вариационного
ряда называется средняя арифметическая
абсолютных величин отклонений вариант
от их средней арифметической:
Дисперсией вариационного
ряда называется средняя арифметическая
квадратов отклонений вариант от их средней
арифметической:
- среднее
квадратичное отклонение, которое
составляет так называемое абсолютное
отклонение от средней величины.
Основные свойства дисперсии:
-
общая средняя;
-
групповая средняя j-й группы;
l – число групп;
- дисперсия
j-й группы.
Коэффициент вариации
. Если
v
признака, принимающего только положительные
значения, высок (например, > 100%), то это
свидетельствует о неоднородности значения
признака. При расчете коэффициента вариации
можно судить о том, насколько велико квадратическое
отклонение.
Начальные
и центральные
характеристики вариационного
ряда. Квантили.
Начальным моментом порядка k случайной величины Х называют математическое ожидание величины Хk:
.
Центральным
моментом порядка k
случайной величины Х называют математическое
ожидание величины [X-M(X)]k:
В частности:
На основе центрального
момента третьего порядка можно построить
показатель, характеризующий степень
асимметричности распределения. Коэффициентом
асимметрии вариационного ряда называется
число
Если As = 0, то распределение имеет симметричную форму;
As > 0 – правосторонняя асимметрия;
As
< 0 – левосторонняя асимметрия.
Эксцессом вариационного
ряда называется число:
> 0 – крутая вершина полигона по сравнению с нормальной кривой;
< 0 – пологая вершина
полигона по сравнению с нормальной кривой.
Квантилем
уровня q (q-квантилем) называют
такое значение варианты xi,
при котором империческая функция распределения
принимает значение, равное q:
Квантиль уровня 0,5 – Ме.
x0,25
и x0,75 – нижний и верхний
квантили.
Основы математической теории выборочного метода.
Вся подлежащая изучению совокупность объектов наблюдений называется генеральной совокупностью. В практике статистических наблюдений различают 2 вида наблюдений: сплошное (все объекты совокупности), выборочное (отдельные объекты, их часть). На практике сплошное наблюдение проводят крайне редко. К тому же, если эта совокупность содержит большое число объектов или исследование объекта требует нарушения функционального стандарта, то сплошное исследование нереально. В таких случаях из всей совокупности отбирают ограниченное число объектов и подвергают их исследованию. Выборочной совокупностью (выборкой) называется совокупность случайно отобранных объектов из генеральной совокупности. Число объектов в совокупности называется ее объемом.
Преимущества выборочного метода наблюдения:
Недостаток выборочного метода:
Выборка называется репрезентативной (представительной), если по ее данным можно достаточно уверенно судить об интересующем нас признаке генеральной совокупности.
Используют 2 способа образования выборки:
При дальнейшем рассмотрении выборочного наблюдения будем использовать следующие общепринятые условные обозначения:
xi – значение признака случайной величины Х.
N и n – объемы генеральной и выборочной совокупностей.
Ni и ni – число элементов генеральной и выборочной совокупностей со значением признака xi.
M и m – число элементов генеральной и выборочной совокупностей, обладающих данным признаком.
Важнейшей
задачей выборочного метода является
оценка параметров (характеристик) генеральной
совокупности по данным выборки.
Понятие
о точечной оценке
числовой характеристики
случайной величины.
Выборочная характеристика, используемая в качестве приближенного значения неизвестной генеральной характеристики, называется ее точечной статистической оценкой.
q - генеральная характеристика; ее числовое значение неизвестно, но предложена некоторая формула вычисления этой характеристики по результатам Х1, Х2, …, Хn наблюдений случайной величины Х
qn
= f (Х1,
Х2, …,
Хn)
Заменим Х1, Х2, …, Хn на результаты наблюдений , , …, и получим число
, которое принимается за приближенное значение неизвестной генеральной характеристики.
Свойства, которыми должна обладать оценка qn , чтобы ее можно было считать хорошим приближением к неизвестной генеральной характеристике q:
Теорема 1. Пусть результаты Х1, Х2, …, Хn наблюдения случайной величины Х независимы и , а дисперсии конечны, тогда – состоятельная и несмещенная оценка.
Теорема 2. Пусть выполняются условия теоремы 1 и случайная величина Х имеет нормальное распределение, тогда - несмещенная, эффективная оценка .
Теорема 3. Пусть результаты Х1, Х2, …, Хn наблюдения случайной величины Х независимы и удовлетворяют условиям и , а центральные моменты второго и четвертого порядка конечны, тогда для любого x > 0 выполняется равенство
, т.е. - состоятельная оценка, а - несмещенная оценка.
Теорема
4. Пусть m – число наступления
события А в n независимых испытаниях,
и p – вероятность наступления события
А в каждом из испытаний, тогда – доля или состоятельная,
несмещенная и эффективная оценка вероятности
p.
Метод
моментов.
Метод моментов точечной оценки неизвестных параметров заданного распределения состоит в приравнивании теоретических моментов соответствующим эмпирическим моментам того же порядка.
Если
распределение определяется одним
параметром, то для его отыскания
приравнивают один теоретический момент
одному эмпирическому моменту того
же порядка. Например, можно приравнять
начальный теоретический момент
первого порядка начальному эмпирическому
моменту первого порядка: . Учитывая, что ,
получим:
Математическое
ожидание является функцией от неизвестного
параметра заданного
Если распределение определяется двумя параметрами, то приравнивают два теоретических момента двум соответствующим эмпирическим моментам того же порядка. Например, можно приравнять начальные теоретические моменты первого и второго порядка к эмпирическим моментам первого и второго порядка соответственно.
Метод
наибольшего правдоподобия.
Метод
наибольшего правдоподобия
Дискретные случайные величины. Пусть Х – дискретная случайная величина, которая в результате n опытов приняла возможные значения х1, х2, …, хn. Допустим, что вид закона распределения величины Х задан, но неизвестен параметр q, которым определяется этот закон; требуется найти его точечную оценку qn = qn (х1, х2, …, хn).
Обозначим вероятность того, что в результате испытания величина Х примет значение xi через p (xi ; q).
Функцией правдоподобия дискретной случайной величины Х называют функцию аргумента q:
qqqq.
Оценкой
наибольшего правдоподобия
Функции L и ln L достигают максимума при одном и том же значении q, поэтому вместо отыскания максимума функции L ищут, что удобнее, максимум функции ln L.
Логарифмической функцией правдоподобия называют функцию ln L.
Точку максимума функции ln L аргумента q можно искать, например, так:
Найденную
точку максимума qn принимают в качестве
оценки наибольшего правдоподобия параметра q.
Непрерывные случайные величины. Пусть Х – непрерывная случайная величина, которая в результате n опытов приняла возможные значения х1, х2, …, хn. Допустим, что вид плотности распределения – функции f (x) – задан, но неизвестен параметр q, которым определяется эта функция.
Функцией
правдоподобия непрерывной
qqqq
Оценку
наибольшего правдоподобия
Если плотность распределения f (x)непрерывной случайной величины определяется двумя неизвестными параметрами qq, то функция правдоподобия есть функция двух независимых аргументов qq:
qqqqqq
Затем
находят логарифмическую
qq
Интервальные
оценки параметров нормального
распределения.
При
малых объемах выборки точечная
оценка выборки может приводить
к большим ошибкам и
Интервальной называют оценку, которая определяется двумя числами – концами интервала, покрывающего оцениваемый параметр. Интервальные оценки помогают установить точность и надежность оценок.
Для выборки небольшого объема важен вопрос о точности оценок. Точность - x, тогда .
Любую точность можно получить с определенной вероятностью:
– надежность,
доверительная вероятность.
Условие (1) обозначает, что интервал покрывает значение параметра q с доверительной вероятностью g.
Длина g равна
2x.
Доверительная вероятность g задается значениями, близкими
к 1: 0,95; 0,98; 0,999 и т.д.
. По условию: xiÎ N(a;σ)
Алгоритм решения задач:
g → g →
→
Известно,
что случайная величина
(s – исправленное
среднеквадратичное отклонение, несмещенная
оценка стандартного отклонения генеральной
совокупности) имеет распределение Стьюдента
с числом степеней свободы n-1; тогда
при получении генеральной оценки потребуем,
чтобы выполнялось условие:
Величина определяется по таблицам распределения Стьюдента, где α = 1 - g для односторонней критической области, α = (1 - g)/2 для двусторонней критической области.
Алгоритм
решения задач:
→ →
→
Определим,
какой объем должна иметь выборка,
чтобы можно было получить результаты
с нужной точностью. Будем исходить
из формул:
Предположим,
что генеральная совокупность имеет
распределение ,
тогда случайная величина имеет χ2-распределение
с n-1 степенями свободы.
По таблице χ2-распределения можем найти xα, что:
,
найти u1 и u2, что:
Замечание:
При
k > 30 можно считать, что случайная величина
имеет нормальное распределение. И для
определения u1 и u2:
,
где
Зададим g и определим p1 и p2, чтобы Интервал (p1; p2) является интервальной оценкой вероятности Р, отвечающей надежностью g.
Пусть А – случайное событие, p – вероятность появления этого события в одном испытании . Пусть событие А появилось m раз в n испытаниях, тогда по локальной теореме Муавра-Лапласа: при больших n и малых p m Î
Для g найдем ug:
Замечание:
При
.
Контрольная
работа по теме: «Выборочный
метод».
Необходимо изучить данные о яйценоскости 100 кур-несушек, всего 100 значений:
200 | 210 | 223 | 217 | 201 | 220 | 215 | 220 | 213 | 232 | 211 | 203 |
222 | 218 | 238 | 215 | 229 | 205 | 224 | 216 | 223 | 207 | 193 | 195 |
205 | 230 | 170 | 185 | 207 | 209 | 221 | 214 | 198 | 227 | 210 | 213 |
225 | 224 | 237 | 204 | 187 | 192 | 211 | 184 | 197 | 214 | 203 | 208 |
216 | 199 | 217 | 222 | 209 | 221 | 219 | 190 | 205 | 192 | 215 | 183 |
208 | 209 | 194 | 211 | 197 | 201 | 195 | 214 | 213 | 224 | 212 | 208 |
235 | 195 | 207 | 211 | 193 | 202 | 201 | 238 | 215 | 227 | 207 | 218 |
210 | 194 | 205 | 188 | 195 | 204 | 198 | 203 | 199 | 213 | 198 | 225 |
250 | 195 | 212 | 226 |
Вычислить:
Полученные результаты занести в таблицу.
Решение.
n = 100, xmin=170, xmax=250.
построим таблицу:
(Xi-1;Xi] | частота
ni |
частость ωi | накопленная частота niнак. | накопленная частость ωiнак. |
165-175 | 1 | 0,01 | 1 | 0,01 |
175-185 | 3 | 0,03 | 4 | 0,04 |
185-195 | 14 | 0,14 | 18 | 0,18 |
195-205 | 21 | 0,21 | 39 | 0,39 |
205-215 | 30 | 0,3 | 69 | 0,69 |
215-225 | 20 | 0,2 | 89 | 0,89 |
225-235 | 7 | 0,07 | 96 | 0,96 |
235-245 | 3 | 0,03 | 99 | 0,99 |
245-255 | 1 | 0,01 | 100 | 1 |
несгруппированные данные | сгруппированные данные | |
n | 100 | 100 |
min | 170 | 170 |
X0,25 | 199,75 | 198,333 |
Me | 210 | 208,667 |
X0,75 | 218,25 | 218 |
max | 250 | 250 |
Xср.в. | 209,63 | 208,5 |
d | 10,897 | 11,23 |
Mo | 195 | 209,737 |
D | 189,633 | 208,75 |
σ | 13,771 | 14,448 |
s | 13,84 | 14,521 |
v% | 6,57% | 6,93% |
As | 0,0865 | 0,1236 |
Ex | 0,255 | 0,142 |
интервал | ni | Pk | ni’=n* Pk | (ni - ni’)2/ ni’ | |||
165 | 175 | 1 | 0,00885 | 0,885 | |||
175 | 185 | 3 | 0,0414 | 4,14 | |||
185 | 195 | 14 | 18 | 0,1246 | 12,46 | 17,485 | 0,0152 |
195 | 205 | 21 | 21 | 0,229 | 22,9 | 22,9 | 0,1576 |
205 | 215 | 30 | 30 | 0,2684 | 26,84 | 26,84 | 0,3720 |
215 | 225 | 20 | 20 | 0,1993 | 19,93 | 19,93 | 0,0002 |
225 | 235 | 7 | 11 | 0,0935 | 9,35 | 12,641 | 0,2130 |
235 | 245 | 3 | 0,0279 | 2,79 | |||
245 | 255 | 1 | 0,00501 | 0,501 |
интервал | ni | ni’=n*p | (ni - ni’)2/ ni’ | |||
165 | 175 | 1 | 0 | |||
175 | 185 | 3 | 0 | |||
185 | 195 | 14 | 18 | 20 | 20 | 0,02 |
195 | 205 | 21 | 21 | 20 | 20 | 0,05 |
205 | 215 | 30 | 30 | 20 | 20 | 5 |
215 | 225 | 20 | 20 | 20 | 20 | 0 |
225 | 235 | 7 | 11 | 20 | 20 | 4,05 |
235 | 245 | 3 | 0 | |||
245 | 255 | 1 | 0 |
гипотезу о равномерном
распределении генеральной
совокупности отвергаем.
Для несгруппированных данных | Для сгруппированных данных | |||||
x | Хср. - x | Хср. + x | x | Хср. - x | Хср. + x | |
g = 0,95 | 2,699 | 206,931 | 212,329 | 2,832 | 205,668 | 211,332 |
g = 0,99 | 3,547 | 206,083 | 213,177 | 3,713 | 204,787 | 212,213 |
Контрольная
работа по теме: «Интервальные
оценки».
Задачи:
Решение:
xср.ген. = 12 мин. σген. = 3 мин. |
Решение: |
p (xср. > 10) - ? |
xср. = 42539 руб. σв. = 11690 руб. g = 0,9 α = 0,1 |
Решение:
→ →
|
? < a < ? |
m = 201 g = 0,99 |
Решение: |
? < p < ? |
= 0,05 g = 0,95 |
Решение: |
?
< p <
?
n - ? |
Проверка статистических гипотез.
Обычно в практических задачах не встречаются случайные величины, распределения которых точно соответствовали бы теоретическим распределениям. Последние являются математическими моделями реальных распределений. Подбор таких моделей и анализ их адекватности моделируемым случайным величинам, что является одной из основных задач математической статистики, которая, в свою очередь, сводится к проверке предположений (гипотез) о виде распределения и о его параметрах.
Статистической называется гипотеза о виде неизвестного распределения, о параметрах известных распределений, об отношениях между случайными величинами и т.д.
Виды статистических гипотез:
Общая схема проверки статистических гипотез.
Статистическим критерием (или просто критерием) называют случайную величину Т, которая служит для проверки статистических гипотез.
Основные моменты проверки статистических гипотез.
Интервал D называется областью принятия гипотезы Н0, а оставшаяся область числовой оси – критической областью. В ряде случаев за область D принимают один из интервалов: , где число - критическое значение теста проверки. Соответственно этим промежуткам критерий проверки называется правосторонним, двусторонним или левосторонним.
Принимая или отвергая гипотезу Н0, можно допустить ошибки двух видов:
Пусть
вероятность ошибки второго рода
равна β, тогда число 1 – β
называют мощностью критерия. Чем больше
мощность критерия, тем меньше вероятность
ошибки второго рода. При выбранном уровне
значимости критическую область следует
строить так, чтобы мощность критерия
была максимальной.
Замечания:
Критерий
согласия Пирсона (критерий χ2).
x1, x2, …, xn – выборка случайной величины Х. Н0: проверяется утверждение, что Х имеет распределение F(x).
Алгоритм:
r –число интервалов, если случайная величина Х непрерывна, r – число групп, если случайная величина Х дискретная;
nk
– число элементов, принадлежащим множеству
Δk, k=1, 2, …,r.
Очевидно, что
Δ1 | Δ2 | … | Δr | всего | |
наблюдаемая | n1 | n2 | … | nr | n |
ожидаемая | np1 | np2 | … | npr | n |
−число неизвестных параметров
распределения, оцениваемых по выборке.
Замечание:
Критерий использует
тот факт, что случайные
величины
имеют распределения, близкие к нормальным.
Чтобы это утверждение было верным, необходимо,
чтобы для всех интервалов выполнялось
условие .
Если для некоторых
интервалов это условие
не выполняется, то их
следует объединить
с соседними.
Проверка
гипотезы о нормальном
распределении генеральной
совокупности по критерию
Пирсона.
Эмпирическое
распределение задано
в виде последовательности
равноотстоящих вариант
и соответствующих
им частот. Пусть эмпирическое распределение
задано в виде последовательности
равноотстоящих вариант и соответствующих
им частот:
Требуется, используя критерий Пирсона, проверить гипотезу о том, что совокупность Х распределена нормально.
Правило 1. Для того чтобы при заданном уровне значимости α проверить гипотезу о нормальном распределении генеральной совокупности, надо:
где n –
объем выборки, h – шаг,
а) составляют
расчетную таблицу, по которой находят
наблюдаемое значение критерия
i | ni | ni’ | ni - ni’ | (ni - ni’)2 | (ni - ni’)2/ ni’ |
1
2 … |
|||||
Σ |
б) по таблице
распределения критических
Если -
нет оснований отвергнуть гипотезу о нормальном
распределении генеральной совокупности.
Другими словами, эмпирические и теоретические
частоты различаются незначимо (случайно).
В противном случае гипотезу отвергают.
Замечание.
Малочисленные частоты (ni
< 5) следует объединить; в этом случае
и соответствующие им теоретические частоты
также надо сложить. Если производилось
объединение частот, то при определении
числа степеней свободы по формуле k = s
– 3 следует в качестве s принять число
групп выборки, оставшихся после объединения
частот.
Эмпирическое
распределение задано
в виде последовательности
интервалов одинаковой
длины и соответствующих
им частот.
Правило 2. Для того чтобы при уровне значимости α проверить гипотезу о нормальном распределении генеральной совокупности, надо:
где n – объем выборки, вероятности попадания Х в интервалы (хi; хi+1), Ф(Z) – функция Лапласа.
Графическая
проверка гипотезы о
нормальном распределении
генеральной совокупности.
Метод спрямленных
диаграмм.
Сгруппированные данные. Пусть эмпирическое распределение выборки из генеральной совокупности Х задано в виде последовательности интервалов (х0; х1) , (х1; х2), …, (хk-1; хk) и соответствующих им частот ni (ni – число вариант, попавших в i-й интервал). Требуется графически проверить гипотезу о нормальном распределении Х.
Предварительно введем определение p-квантили случайной величины Х. Если задана вероятность p, то p-квантилью Х называют такое значение аргумента up функции распределения F(x), для которого вероятность события Х < up равна заданному значению p.
Заметим,
что поскольку функции
Правило
1. Для того чтобы графически проверить
гипотезу о нормальном распределении
генеральной совокупности Х по эмпирическому
распределению, заданному в виде последовательности
интервалов и соответствующих им частот,
надо:
Номер интервала | Правый конец интервала | Частота | Накопленная частота | Относительная накопленная частота | Относительная накопленная частота, % | Квантили |
i | xi | ni | ||||
Замечание 1. Следует иметь в виду, что «начальные» и «конечные» точки (xi; ui) могут заметно отклоняться от прямой .
Замечание
2. Если построенные точки оказались
вблизи прямой, то легко графически оценить
параметры α и σ нормального распределения.
В качестве оценки математического ожидания α
можно принять абсциссу точки L (xL;
0) пересечения построенной прямой с
осью 0x. В качестве оценки среднего квадратического
отклонения σ можно принять разность
абсцисс точки L(xL; 0) и
точки N(xN; -1) пересечения
построенной линии с прямой u = -1: σ*
= xL -
xN.
Замечание
3. При наличии вероятностной бумаги
надобность в отыскании квантилей отпадает:
на соответствующей оси откладывают накопленные
относительные частоты.
Несгруппированные по интервалам данные. Пусть эмпирическое распределение выборки из генеральной совокупности Х задано в виде последовательности вариант xi, расположенных в возрастающем порядке, т.е. в виде вариационного ряда, и соответствующих им частот ni. Требуется графически проверить гипотезу о нормальном распределении Х.
Правило 2. Для того чтобы по несгруппированной по интервалам выборке объема n проверить гипотезу о нормальном распределении генеральной совокупности Х, из которой извлечена выборка, надо:
Номер варианты | Варианта | Частота | Накопленная частота | Относительная накопленная частота | Относительная накопленная частота, % | Квантили |
i | xi | ni | ||||
Замечание
4. Замечания 1 – 3, приведенные выше
для сгруппированной по интервалам выборки,
остаются в силе.
Проверка
гипотезы о показательном
распределении генеральной
совокупности.
Задано эмпирическое распределение непрерывной случайной величины Х в виде последовательности интервалов xi – xi+1 и соответствующим им частот ni, причем (объем выборки). Требуется, используя критерий Пирсона, проверить гипотезу о том, что случайная величина Х имеет показательное распределение.
Правило. Для того чтобы при уровне значимости α проверить гипотезу о том, что непрерывная случайная величина распределена по показательному закону, надо:
.
Проверка
гипотезы о распределении
генеральной совокупности
по биноминальному закону.
Произведено
n испытаний. Каждый опыт состоит из
N независимых испытаний, в каждом из
которых вероятность появления события
А одна и та же. Регистрируется число появления
события А в каждом опыте. В итоге получено
следующее распределение дискретной случайной
величины Х – числа появлений события
А (в первой строке указано число xi
появлений события А в одном опыте; во
второй строке – частота ni,
т.е. число опытов, в которых зарегистрировано
xi появлений события А):
Требуется,
используя критерий Пирсона, проверить
гипотезу о распределении дискретной
случайной величины Х по биноминальному
закону.
Правило. Для того чтобы при уровне значимости α проверить гипотезу о том, что дискретная случайная величина Х (число появлений события А) распределена по биноминальному закону, надо:
где n – число опытов.
Если
же вероятность p была оценена по выборке,
то k = s – 2. Если, кроме того, было произведено
объединение малочисленных частот, то
s – число групп выборки, оставшихся после
объединения частот.
Проверка
гипотезы о равномерном
распределении генеральной
совокупности.
Задано
эмпирическое распределение непрерывной
случайной величины Х в виде последовательности
интервалов xi
– xi+1 и соответствующим им
частот ni, причем
(объем выборки).
Требуется, используя критерий Пирсона,
проверить гипотезу о том, что случайная
величина Х распределена равномерно.
Правило.
Для того чтобы проверить гипотезу о равномерном
распределении Х , т.е. по закону
надо:
Проверка
гипотезы о распределении
генеральной совокупности
по закону Пуассона.
Для того, чтобы при уровне значимости α проверить гипотезу о том, что случайная величина Х распределена по закону Пуассона, необходимо:
Проверка
гипотез о равенстве
двух дисперсий.
Гипотезы
о равенстве дисперсий
Алгоритм:
Для
проверки Н0:
при конкурирующих
гипотезах Н1,2: ,
берутся две независимые
выборки объемом n1
и n2. Для оценки
и используем . Пусть
и образуем
Fнабл. имеет F-распределение Фишера-Снедекора с степенями свободы.
Рассмотрим
конкурирующую гипотезу H1: :
Рассмотрим конкурирующую гипотезу H2: :
→
В противном
случае Н0 отвергается в пользу Н2.
Проверка
гипотез о равенстве
средних двух совокупностей.
Часто происходят случаи, когда средний результат серии экспериментов отличается от среднего результата другой серии. Возникает вопрос, можно ли объяснить обнаруженное расхождение средних неизбежными случайными ошибками эксперимента или оно вызвано некоторыми закономерностями. Контроль качества изделий, изготовленных на разных установках; при составлении уровня доходности различных активов.
Проверка гипотезы о равенстве двух средних с неизвестными дисперсиями для больших независимых выборок.
Пусть имеется две совокупности, характеризуемые генеральными средними и известными генеральными дисперсиями. Необходимо проверить гипотезу о равенстве генеральных средних. Для проверки гипотезы взяты выборки объемом n1 и n2, для которых и выборочные дисперсии .
Из
закона больших чисел следует, что
при достаточно больших объемах
выборки выборочные средние имеют
примерно нормальный закон распределения:
и Uкр , зависящее от вероятности α.
Если , то гипотеза о равенстве средних двух совокупностей принимается. В противном случае – отвергается в пользу Н1.
Если , то гипотеза о равенстве средних двух совокупностей принимается. В противном случае – отвергается в пользу Н2.
Если ,
то гипотеза о равенстве
средних двух совокупностей
принимается. В противном случае – отвергается
в пользу Н3.
Т-критерий
для независимых
выборок.
Теоретически t-критерий может применяться, если размер выборок небольшой (например, 10) и если переменные нормально распределены, а дисперсии наблюдений в группах не слишком различны.
Алгоритм решения:
Если
две генеральные дисперсии
Оценка
дисперсионной разности независимых
выборочных средних:
Число
степеней свободы k = n1 + n2
– 2 на 2 меньше общего числа наблюдаемых
n1 + n2, т.к. две степени свободы
«теряются» при определении по выборочным
данным
Статистика
имеет t-распределение Стьюдента с
k = n1 + n2 – 2 степенями свободы.
Т.к.
tкр. находят по специальной таблице t-распределения Стьюдента.
Если
Если
Если
Замечание.
Если генеральные дисперсии неизвестны
и не равны, то статистика имеет распределение Стьюдента,
но число степеней свободы определяется
примерно и более сложным способом.
Исключение
грубых ошибок наблюдения.
Рассмотренные критерии могут применяться для исключения грубых ошибок наблюдения, которые могут возникать из-за ошибок показаний измерительных приборов, регистрации, случайного сдвига запятой и т.д.
Пусть x*, x1, x2, …, xn –совокупность имеющихся наблюдений, причем x* резко выделяется. Необходимо решить вопрос о принадлежности x* к остальным наблюдениям.
Для x1, x2, …, xn находим xср.в. и s и рассматривает гипотезу Н0: xср.ген. = x* (гипотезу о принадлежности x* к остальным наблюдениям).
Статистика имеет t-распределение Стьюдента с k = n - 1 степенью свободы.
Рассмотрим конкурирующие гипотезы Н1: и Н2: .
Если
Т-критерий
для зависимых
выборок.
Этот критерий применяется к экспериментам, в которых две сравниваемые группы наблюдений по одной и той же выборке наблюдений, которые тестировались дважды (например, пациенты «до» и «после» лечения). Он дает преимущества в том случае, когда важный источник внутри групповой вариации может быть исключен из анализа.
В сравнении с t-критерием для независимых выборок такой подход дает всегда лучший результат, т.к. критерий становится более чувствительным.
Пусть
генеральные совокупности X и Y имеют
нормальное распределение, и их дисперсии
известны.
Находим , (средняя разности с одинаковыми номерами), sd (исправленная средняя квадратного отклонения).
Рассмотрим
гипотезы Н0: и Н1:
Статистика имеет t-распределение Стьюдента с k = n – 1 степенью свободы. Находим tкр.двустор.
Если ,
гипотеза Н0
принимается.
Проверка
гипотезы о равенстве
долей признака в двух
совокупностях.
Известны генеральные доли двух совокупностей: p1 и p2. Рассмотрим гипотезу о равенстве долей признака.
Из
совокупностей взяты две
При
больших n1 и n2 выборочные
доли
имеют приближенно нормальный
закон распределения
с математическими
ожиданиями p1
и p2 и дисперсиями:
При
справедливости гипотезы Н0: p1
= p2 = p разность приближенно имеет
нормальный закон распределения:
Поэтому
статистика имеет стандартное нормальное
распределение, где .
Если , то гипотеза о равенстве долей признака двух совокупностей принимается. В противном случае – отвергается в пользу Н1.
Если , то гипотеза о равенстве долей признака двух совокупностей принимается. В противном случае – отвергается в пользу Н2.
Если ,
то гипотеза о равенстве долей
признака двух совокупностей принимается.
В противном случае – отвергается в пользу
Н3.
Сравнение
долей признака нескольких
совокупностей.
Известны генеральные доли l совокупностей p1, p2, …,pl. Рассмотрим гипотезу о равенстве долей признака нескольких совокупностей Н0: p1 = p2 = … =pl. Из совокупностей отобраны выборки объемами n1, n2, …, nl с выборочными долями … .
При
справедливости гипотезы Н0 и при
n → ¥ статистика
имеет χ2-распределение
с k = l – 1 степенями свободы.
Для
проверки гипотезы Н0 обычно берут
правостороннюю критическую область (при
использовании таблиц). Н0 принимается,
если:
Сравнение
выборочной средней
с гипотетической
средней нормальной
совокупности.
Дисперсия генеральной совокупности известна.
Правило
1. Для того чтобы при заданном
уровне значимости α проверить нулевую гипотезу
Н0: a = a0 о равенстве генеральной
средней a нормальной совокупности с известной
дисперсией σ2 гипотетическому
(предполагаемому) значению a0 при
конкурирующей гипотезе Н1: а ≠
а0, надо вычислить наблюдаемое значение
критерия
и по таблице
функции Лапласа найти
Если то гипотеза Н0 принимается. В противном случае – отвергается в пользу Н1.
Правило
2. При конкурирующей гипотезе Н1:
a > a0 критическую точку правосторонней
критической области находят из равенства:
Если , то гипотеза Н0 принимается. В противном случае – отвергается в пользу Н1.
Правило
3. При конкурирующей гипотезе Н1:
a < a0 сначала находят вспомогательную
критическую точку
по правилу 2, а затем
полагают границу левосторонней
критической области
Если ,
то гипотеза Н0
принимается. В противном случае – отвергается
в пользу Н1.
Дисперсия
генеральной совокупности
неизвестна. Если дисперсия генеральной
совокупности неизвестна (например, в
случае малых выборок), то в качестве критерия
проверки нулевой гипотезы принимают
случайную величину
где - исправленное среднее квадратическое отклонение. Величина Т имеет распределение Стьюдента с k = n – 1 степенями свободы.
Правило 1. Для того чтобы при заданном уровне значимости α проверить нулевую гипотезу Н0: a = a0 о равенстве неизвестной генеральной средней a нормальной совокупности с неизвестной дисперсией гипотетическому (предполагаемому) значению a0 при конкурирующей гипотезе Н1: а ≠ а0, надо вычислить наблюдаемое значение критерия Т и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α (для двусторонней критической области) и числу степеней свободы k = n – 1 найти критическую точку.
Если , гипотеза Н0 принимается. В противном случае – нулевую гипотезу отвергают.
Правило 2. При конкурирующей гипотезе Н1: a > a0 по уровню значимости α (для односторонней критической области) и числу степеней свободы k = n – 1 найти критическую точку правосторонней критической области.
Еслито нет оснований отвергнуть нулевую гипотезу.
Правило 3. При конкурирующей гипотезе Н1: a < a0 сначала находят вспомогательную критическую точку (по правилу 2) и полагают границу левосторонней критической области
Еслито
нет оснований отвергнуть
нулевую гипотезу.
Сравнение
исправленной выборочной
дисперсии с гипотетической
генеральной дисперсией
нормальной совокупности.
Обозначим через n объем выборки, по которой найдена исправленная дисперсия s2.
Правило
1. Для того чтобы при заданном уровне
значимости α
проверить нулевую гипотезу Н0: о равенстве неизвестной
генеральной дисперсии
гипотетическому (предполагаемому)
значению при конкурирующей
гипотезе Н1: ,
надо вычислить
наблюдаемое значение критерия
и по таблице
критических точек
Если - нет оснований отвергнуть нулевую гипотезу. В противном случае нулевую гипотезу отвергают в пользу гипотезы Н1.
Правило 2. При конкурирующей гипотезе Н1: находят левую и правую критические точки.
Если - нет оснований отвергнуть нулевую гипотезу.
Правило 3. При конкурирующей гипотезе Н1: находят критическую точку .
Если -
нет оснований отвергнуть
нулевую гипотезу. В
противном случае нулевую
гипотезу отвергают
в пользу гипотезы Н1.
Замечание.
Если число степеней свободы k > 30, то
критическую точку
можно найти из равенства
Уилсона – Гильферти:
где находят,
используя функцию Лапласа,
из равенства:
Сравнение
наблюдаемой относительной
частоты с гипотетической
вероятностью появления
события.
По достаточно большому числу n независимых испытаний, в каждом из которых вероятность p появления события постоянна, но неизвестна, найдена относительная частота . Требуется при заданном уровне значимости α проверить нулевую гипотезу, состоящую в том, что неизвестная вероятность p равна гипотетической вероятности p0.
Правило
1. Для того чтобы при заданном уровне
значимости α проверить нулевую гипотезу
Н0: p = p0 при конкурирующей
гипотезе Н1: p ≠ p0, надо вычислить
наблюдаемое значение критерия
и по таблице
Лапласа найти критическую
Если , то гипотеза о равенстве неизвестной вероятности гипотетической принимается. В противном случае – отвергается в пользу Н1.
Правило
2. При конкурирующей гипотезе Н1: находят
критическую точку правосторонней критической
области из равенства:
Если , то гипотеза о равенстве неизвестной вероятности гипотетической принимается. В противном случае – отвергается в пользу Н1.
Правило 3. При конкурирующей гипотезе Н1: находят сначала «вспомогательную» критическую точку по правилу 2, а затем полагают границу левосторонней критической области
Если -
нет основания отвергать
нулевую гипотезу.
Замечание.
Удовлетворительные результаты обеспечивает
выполнение неравенства .
Контрольная
работа на тему: «Статистическая
проверка гипотез».
Задачи:
1. Производители нового вида аспирина утверждают, что он снимает головную боль за 30 минут. Случайная выборка 121 человека, страдающих головными болями, показала, что новый тип аспирина снимает головную боль за 28,6 минут при среднем квадратическом отклонении 4,2 минуты. Проверьте на уровне значимости a = 0,05 справедливость утверждения производителей аспирина о том, что это лекарство излечивает головную боль за 30 минут.
2. Отдел маркетинга автотранспортного предприятия, занимающегося междугородными перевозками, провел обследование стоимости топлива на бензоколонках по трассе между городами А и В. Результаты показали, что средняя цена одного литра топлива на 52 заправках фирмы Тор-ойл – 1076 рублей со стандартными отклонениями 0,085 руб., а на 58 заправках других фирм средняя цена одного литра - 1054 руб. со стандартным отклонением 0,075 руб. Проверьте на a = 0,05 уровне значимости гипотезу о том, что средняя цена одного литра топлива на заправках Тор-ойл существенно выше цены этого же топлива на заправках других фирм.
3. Производитель некоторого вида продукции утверждает, что 95% выпускаемой продукции не имеют дефектов. Случайная выборка 100 изделий показала, что 92 из них свободны от дефектов. Проверьте справедливость утверждения производителя продукции на уровне значимости a = 0,05.
4. При исследовании
влияния 2-х типов покрытия на удельную
проводимость телевизионных трубок получены
следующие результаты (в условных единицах):
№ трубки |
|
|
|
4 |
|
|
1-й тип |
|
|
12 |
|
10 | - |
2-й тип | 14 | 11 | 0 |
|
|
|
Можно ли считать, что тип покрытия влияет на удельную проводимость трубок? Принять a = 0,10.
(Проверить
гипотезу о равенстве
5. В таблице приведены данные о месячном доходе 100 жителей региона (в тыс. руб.)
Интервалы | Частоты mi |
8-10
10-12 12-14 14-16 16-18 18-20 |
6
16 54 14 8 2 |
Сумма | n = ∑ =100 |
Проверьте, используя критерий согласия χ2, гипотезу о том, что данные о месячном доходе жителей подчиняются нормальному закону распределения.
Решение:
xср. = 28,6 σв. = 4,2 α = 0,05 а0 = 30 |
Решение:
Конкурирующая
гипотеза Н1: а < а0. → нулевая гипотеза отвергается. Ответ: аспирин излечивает головную боль меньше, чем за 30 минут. |
Проверить
гипотезу:
Н0: а = а0 |
xср. = 1076 руб. σ1. = 0,085 руб. n2 = 58 yср. = 1054 руб. σ1. = 0,075 руб. α = 0,05 |
Решение:
Конкурирующая
гипотеза Н1:. →
нулевая гипотеза принимается. Конкурирующая
гипотеза Н1: а > а0. → нулевая гипотеза отвергается. Ответ: средняя цена одного литра топлива на заправках Тор-ойл существенно выше цены этого же топлива на заправках других фирм. |
Проверить
гипотезы:
Н0: Н0: а = а0 |
m = 92 α = 0,05 p0 = 0,95 |
Решение:
Конкурирующая
гипотеза Н1: pген. < p0. → нулевая гипотеза принимается. Ответ: 95% выпускаемой продукции не имеют дефектов. |
Проверить
гипотезу:
Н0: pген. = p0 |
|
Решение:
Конкурирующая
гипотеза Н1: :. →
нулевая гипотеза принимается. →
нулевая гипотеза принимается. Ответ: тип покрытия не влияет на удельную проводимость трубок. | ||||||||||||||
Проверить
гипотезы:
Н0: Н0: |
интервал | ni | j (ui) | ni’=n*h*j (ui)/σв. | (ni - ni’)2/ ni’ | |||
8 | 10 | 6 | 0,0492 | 4,8396 | |||
10 | 12 | 16 | 22 | 0,2269 | 22,3196 | 27,1592 | 0,9800 |
12 | 14 | 54 | 54 | 0,3977 | 39,1191 | 39,1191 | 5,6607 |
14 | 16 | 14 | 14 | 0,2649 | 26,0564 | 26,0564 | 5,5786 |
16 | 18 | 8 | 10 | 0,0670 | 6,5958 | 7,2303 | 1,0610 |
18 | 20 | 2 | 0,0065 | 0,6345 |
Ответ: данные о месячном
доходе жителей не подчиняются нормальному
закону распределения.
Корреляционный анализ.
Понятие
о статистической
и корреляционной
связи.
Современная наука исходит из взаимосвязей всех явлений природы и общества. Объем продукции предприятия связан с численностью работников, мощностью двигателей, стоимостью непроизводственных фондов и еще многими признаками. Невозможно управлять явлениями, предсказывать их развитие без изучения характера, силы и других особенностей связи. Поэтому методы исследования, измерения связей составляют чрезвычайно важную часть методологии научного исследования, в том числе и статистического.
Различают
два типа связей между различными
явлениями и их признаками: функциональную,
или жестко детерминированную, с
одной стороны, и статистическую,
или стохастически
Если с изменением значения одной из переменных, вторая изменяется строго определенным образом, т.е. значению одной переменной обязательно соответствует одно или несколько точно заданных значений другой переменной, связь между ними является функциональной.
Стохастически детерминированная связь не имеет ограничений и условий, присущих функциональной связи. Если с изменением значения одной из переменных вторая может в определенных пределах принимать любые значения с некоторыми вероятностями, но ее среднее значение или иные статистические (массовые) характеристики изменяются по определенному закону, связь является статистической. Иными словами, при статистической связи разным значениям одной переменной соответствуют разные распределения значений другой переменной.
Корреляционной связью называют важнейший частный случай статистической связи, состоящий в том, что разным значениям одной переменной соответствуют различные средние значения другой. С изменением значения признака x закономерным образом изменяется среднее значение признака y, в то время как в каждом отдельном случае значение признака y (с различными вероятностями) может принимать множество различных значений.
Если же с изменением значения признака x среднее значение признака y не изменяется закономерным образом, но закономерно изменяется другая статистическая характеристика (показатели вариации, асимметрии, эксцесса и т.д.), то связь не является корреляционной, но статистической.
Корреляционная связь между признаками может возникать разными путями. Первый (важнейший) путь – причинная зависимость результативного признака (его вариации) от вариации факторного признака. Например, признак x – балл оценки плодородия почв, y – урожайность сельскохозяйственной культуры. Здесь совершенно ясно, что x выступает как независимая переменная (фактор), у – как зависимая переменная (результат).
Второй путь – сопряженность, возникающая при наличии общей причины. Известен классический пример, приведенный крупнейшим статистиком России начала 20 века А.А.Чупровым: если в качестве признака x взять число пожарных команд в городе, а за признак y – сумму убытков за год в городе от пожаров, то между признаками x и y в совокупности городов России существовала прямая корреляция; в среднем, чем больше пожарников в городе, тем больше и убытков от пожаров. Уж не занимались ли пожарники поджигательством из боязни потерять работу? Но дело в другом. Данную корреляцию нельзя интерпретировать как связь причины и следствия; оба признака-следствия общей причины – размера города. Вполне логично, что в крупных городах больше пожарных частей, но больше и пожаров, и убытков за них за год, чем в малых городах.
Третий путь возникновения корреляции – взаимосвязь признаков, каждый из которых и причина, и следствие. Такова, например, корреляция между уровнями производительности труда рабочих и уровнем оплаты 1 ч труда (тарифной ставкой). С одной стороны, уровень зарплаты – следствие производительности труда: чем она выше, тем выше и оплата. Но, с другой стороны, установленные тарифные ставки и расценки играют стимулирующую роль: при правильной системе оплаты они выступают в качестве фактора, от которого зависит производительности труда. В такой системе признаков допустимы обе постановки задачи; каждый признак может выступать в роли независимой переменной x и в качестве зависимой переменой y.
Корреляционная
зависимость выражается модельными
уравнениями регрессии:
функции регрессии. Их графики – модельные линии регрессии. Для построения необходимо знать распределение двухмерной случайной величины (X; Y). На практике располагают лишь выборкой пар значений X, Y ограниченного объема.
Простейшей системой корреляционной связи является линейная связь между двумя признаками – парная линейная корреляция. Практическое ее значение в том, что есть системы, в которых среди факторов, влияющих на результативный признак, выделяется один важнейший фактор, который в основном определяет вариацию результативного признака. Измерение парных корреляций составляет необходимый этап в изучении сложных, многофакторных связей.
Уравнение
парной линейной корреляционной связи
называется уравнением парной регрессии
и имеет вид:
где – среднее значение признака y при определенном значении признака x; – свободный член уравнения; - коэффициент регрессии, измеряющий среднее отношение отклонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу измерения, - вариация y, приходящаяся на единицу вариации x.
Параметры уравнения рассчитываются методом наименьших квадратов (МНК) по данным о значениях признаков x и y в изучаемой совокупности, состоящей из n единиц.
МНК, разработанный К. Ф. Гауссом (1777 – 1855), состоит в минимизации суммы квадратов отклонений фактически измеренных значений зависимой переменной y от ее значений, вычисленных по уравнению связи с факторным признаком, одним или несколькими, x.
Исходное
условие МНК для прямой линии
имеет вид:
Для
отыскания значений параметров k и
b, при которых принимает
минимальное значение,
частные производные
функции приравниваем
нулю и преобразуем
полученные уравнения,
которые называются
нормальными уравнениями
МНК для прямой:
Отсюда
система нормальных уравнений имеет
вид:
– коэффициент регрессии.
- выборочный корреляционный
момент.
Коэффициент
корреляции.
При
линейной форме уравнения применяется
еще один показатель тесноты связи
– коэффициент
корреляции
Этот показатель представляет
собой стандартизированный
коэффициент регрессии,
т.е. коэффициент, выраженный
не в абсолютных единицах
измерения признаков,
а в долях среднего квадратического
отклонения результативного
признака:
Свойства коэффициента корреляции:
- прямая корреляционная связь между X и Y,
- обратная корреляционная связь между X и Y.
При прямой (обратной) связи увеличение одной переменной ведет к увеличению (уменьшению) условной средней переменной.
Проверка
значимости выборочного
коэффициента корреляции.
Предположим, что отлично от нуля. Т.к. выборка случайна, то нельзя исключить, что отличен от нуля.
Проверим гипотезу о значимости выборочного коэффициента корреляции или о равенстве нулю. Н0: ρ = 0.
Если нулевая гипотеза отвергается, то значим, а X и Y коррелированны. Если нулевая гипотеза принимается, то коэффициент незначим, а X и Y некоррелированны.
Н0: ρ = 0
Н1: ρ ≠ 0
Гипотеза
о незначимости коэффициента рассматривается
по t-распределению Стьюдента с k = n – 2
степенями свободы. Находим
Если ,
нулевая гипотеза отвергается,
т.е. следует говорить
о значимости выборочного
коэффициента корреляции.
Значимость
уравнения регрессии.
Проверить значимость уравнения регрессии – соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным. И достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимости переменных.
Проверка
значимости уравнения регрессии
производится на основе дисперсионного
анализа.
где – общая сумма квадратов отклонений зависимой переменной от средней ;
– сумма квадратов, обусловленная регрессией;
- сумма квадратов ошибок;
характеризует влияние неучтенных фактов.
Для
проверки значимости уравнения регрессии
построим сводную таблицу:
Компоненты дисперсии | Сумма квадратов | Число степеней свободы | Исправленные квадраты отклонений |
Регрессия | m – 1 | ||
Остаточная (ошибки) | n –m | ||
Общая | n – 1 |
Находим и , где m – количество параметров в уравнении.
Если ,
то уравнение регрессии
значимо.
Для
оценки качества подбора уравнения
регрессии вводят коэффициент
детерминации I2
(индекс корреляций, теоретическое корреляционное
отношение).
I2
зависит от величины ошибок и D(Y), характеризует
рассеяние точек корреляции относительно
yx.
И чем ближе к 1, тем большую часть колебаний y объясняют уравнения регрессии.
Значимость
коэффициента детерминации:
Уравнение
регрессии значимо, если
Нелинейная
регрессия.
Линейные
связи являются основными. Однако встречаются
и нелинейные связи, хорошо описываемые
параболой, гиперболой и т.д.
Уравнение
регрессии в форме параболы 2-го
порядка имеет следующий вид:
Если при линейной связи среднее изменение результативного признака на единицу фактора постоянно по всей области вариации фактора, то при параболической корреляции изменение признака x на единицу признака y меняется равномерно с изменением величины фактора. В результате связь может даже поменять знак на противоположный, из примой превратиться в обратную, из обратной в прямую. Такой характер связи объективно присущ многим системам. Например, с увеличением дозы удобрений урожайности сельскохозяйственных культур сначала повышается, но если превысить оптимальную величину дозы, то при дальнейшем росте дозы удобрений растения угнетаются и урожайность снижается.
Нормальные
уравнения при использовании
МНК для нахождения параметров уравнения
параболы 2-го порядка таковы:
Решая
эту систему, получаем значения параметров
a, b, c. Показателем тесноты параболической
корреляции является корреляционной отношение
I2.
Уравнение
регрессии по параметрам имеет следующий
вид:
МНК
в данном случае не работает. Применим
метод логарифмов:
А
теперь можно применить МНК:
Для
отыскания значений параметров a и
b, при которых принимает
минимальное значение,
частные производные
функции приравниваем
нулю и преобразуем
полученные уравнения,
которые называются
нормальными уравнениями
МНК для прямой:
Отсюда
система нормальных уравнений имеет
вид:
Решая
эту систему, получаем значения параметров
a, b. Проверка значимости уравнения регрессии
по параметрам производится в том же порядке,
что и при линейной регрессии.
Уравнение
регрессии в форме гиперболы
имеет следующий вид:
Если величина b положительна, то при увеличении значения факторного признака x значения результативного признака уменьшаются, причем это уменьшение все время замедляется, и при x → ¥ средняя величина признака y будет равна а. если же параметр b отрицателен, то значения результативного признака с ростом фактора возрастают, причем их рост замедляется, и при x → ¥ средняя величина признака y будет равна а. Таким образом, гиперболические зависимости характерны для связей, в которых результативный признак не может варьировать неограниченно, его вариация имеет односторонний предел. Например, при освоении нового оборудования его производительность возрастает, но рост замедлится по мере приближения к конструктивно-технологическому пределу производственной мощности агрегата.
Нормальные
уравнения МНК для гиперболы
таковы:
Решая
эту систему, получаем значения параметров
a, b. Проверка значимости уравнения гиперболической
регрессии производится в том же порядке,
что и при линейной регрессии.
Множественная
регрессия.
В экономических задачах часто не хватает одного данного для полного описания результирующей переменной y. В этом случае в уравнение регрессии вводится несколько объемных факторов: x1, x2, …, xm.
Пусть (Y; X1…; Xm) – многомерный случайный вектор, тогда функция - это вероятность многомерной регрессии Y по X1, …, Xm, т.е. дает среднее значение Y при условии, что X1, …, Xm принимает значения x1, …, xm.
В
некоторых случаях проверяют
существование линейной регрессии:
Теорема. Если случайной вектор имеет многомерное нормальное распределение, то функция регрессии линейна по x1, …, xm, т.е. имеет вид (1).
МНК
для определения коэффициентов
множественной линейной регрессии.
Пусть имеется выборка объемом
n:
Исходное
условие МНК для множественной линейной
регрессии имеет вид:
Получаем
матричное уравнение вида:
Оценка
качества подбора уравнения регрессии:
где
Критерий
значимости уравнения множественной
регрессии имеет вид:
Проверка значимости коэффициента регрессии.
В практических задачах переменная Y может оказаться независящей от 1 или нескольких объясняющих переменных xi. Для проверки значимости параметров, которые отличны от нуля проверяем гипотезу Н0: ai = 0.
В
случае принятия этой гипотезы соответствующие
переменные исключают из равновесия.
где – диагональный
элемент матрицы ,
соответствующий .
Замечание.
В случае наличия незначимых коэффициентов
регрессии переменная с наименьшим удаляется
из таблицы исходных
данных, а уравнение
регрессии пересчитывается
заново. Эта процедура
повторяется, пока все
коэффициенты не станут
значимыми.
Контрольная
работа по теме: «Корреляционный
анализ».
Задание 1.
Y \ X | 15 | 20 | 25 | 30 | 35 | 40 |
5 | 4 | 2 | ||||
10 | 6 | 4 | ||||
15 | 6 | 45 | 2 | |||
20 | 2 | 8 | 6 | |||
25 | 4 | 7 | 4 |
Задание 2.
y = a0 + a1x1 + a2x2
Y | X1 | X2 |
9,4 | 0,40 | 1,35 |
9,9 | 0,19 | 1,39 |
9,1 | 0,44 | 1,27 |
5,5 | 0,25 | 1,10 |
6,6 | 0,02 | 1,23 |
4,3 | 0,06 | 1,39 |
7,4 | 0,15 | 1,38 |
6,6 | 0,24 | 1,35 |
5,5 | 0,11 | 1,24 |
9,4 | 0,47 | 1,40 |
5,7 | 0,20 | 1,28 |
5,2 | 0,24 | 1,33 |
10 | 0,54 | 1,22 |
6,7 | 0,29 | 1,35 |
9,4 | 0,56 | 1,20 |
Уровень значимости .
Задание 3.
С помощью разностного метода, примененного к краевой задаче для дифференциального уравнения , получены значения функции в 11 равноотстоящих узлах.
Y | X |
0 | 1 |
-0,28 | 1,1 |
-0,45 | 1,2 |
-0,52 | 1,3 |
-0,48 | 1,4 |
-0,35 | 1,5 |
-0,1 | 1,6 |
0,25 | 1,7 |
0,71 | 1,8 |
1,3 | 1,9 |
2 | 2 |
Известно, что решение может быть представлено в виде
Решение.
Н0: r = 0
Н1: r ≠ 0
→
нулевая гипотеза
отвергается.
Ответ: коэффициент
корреляции значим на 5% уровне.
→
Ответ: уравнение
регрессии значимо на 5% уровне.
Y | Yx | e2 |
9,4 | 8,727 | 0,453 |
9,9 | 7,053 | 8,106 |
9,1 | 8,688 | 0,170 |
5,5 | 6,155 | 0,429 |
6,6 | 4,747 | 3,433 |
4,3 | 5,894 | 2,541 |
7,4 | 6,647 | 0,567 |
6,6 | 7,301 | 0,491 |
5,5 | 5,599 | 0,010 |
9,4 | 9,598 | 0,039 |
5,7 | 6,598 | 0,807 |
5,2 | 7,202 | 4,008 |
10 | 9,332 | 0,446 |
6,7 | 7,747 | 1,095 |
9,4 | 9,412 | 0,00014 |
→
гипотеза о значимости
уравнения регрессии принимается.
→
нулевая гипотеза отвергается.
→
нулевая гипотеза
принимается.
Ответ: можно говорить
о значимости коэффициента а1
и незначимости коэффициента а2
полученного уравнения регрессии.
→
уравнение регрессии
значимо.
Корни уравнения:
Ответ: полученная функция
удовлетворяет исходному уравнению по
двум значениям из 11, т.е. примерно на 18%.
Заключение.
Математическая
статистика является частью общей прикладной
математической дисциплины «Теория
вероятностей и математическая статистика»,
однако задачи, решаемые ею, носят специфический
характер. Если теория вероятностей исследует
явления, полностью заданные их моделью,
то в математической статистике вероятностная
модель определена с точностью до
неизвестных параметров. Отсутствие
сведений о параметрах компенсируется
«пробными» испытаниями, на основе которых
и восстанавливается
Первая задача математической статистики заключается в указании методов сбора и группировки статистических сведений, которые получены в результате экспериментов или наблюдений. Вторая задача – это разработка методов анализа статистических данных: оценки неизвестной вероятности события, а также функций и параметров распределения; оценка зависимости случайной величины от других случайных величин; проверка статистических гипотез о виде и величинах параметров неизвестного распределения.
На основе математической статистики особенно интенсивно разрабатываются статистические методы исследования и контроля массового производства, статистические методы в области физики, биологии, страхования, медицины, маркетинга и т.д. С начала XX века математические методы, основанные на теории вероятностей, нашли применение в социально-экономических исследованиях, в изучении уровня жизни населения, покупательского спроса, качества продукции и т.д.