Математическая статистика

Автор работы: Пользователь скрыл имя, 09 Декабря 2010 в 12:58, курсовая работа

Описание работы

Основные определения, решение задач

Содержание работы

Введение
Вариационные ряды, их графическое изображение
Эмпирическая функция распределения
Полигон и гистограмма
Средние величины
Мода и медиана6
Показатели вариации
Начальные и центральные характеристики вариационного ряда. Квантили
Основы математической теории выборочного метода
Статистические оценки параметров распределения
Понятие о точечной оценке числовой характеристики
Метод моментов
Метод наибольшего правдоподобия
Интервальная оценка параметров нормального распределения
Контрольная работа по теме: "Выборочный метод"
Контрольная работа по теме: «Интервальные оценки»
Проверка статистических гипотез
Типы статистических критериев проверки гипотез. Проверка гипотез на их основе
Критерий согласия Пирсона
Проверка гипотезы о нормальном распределении генеральной совокупности по критерию Пирсона
Проверка гипотезы о распределении генеральной совокупности по биноминальному закону
Проверка гипотезы о равномерном распределении генеральной совокупности
Проверка гипотезы о распределении генеральной совокупности по закону Пуассона
Проверка гипотезы о равенстве двух дисперсий
Проверка гипотезы о равенстве средних двух совокупностей
T-критерий для независимых выборок
Исключение грубых ошибок наблюдения
T-критерий для зависимых выборок
Проверка гипотезы о равенстве долей признака в двух совокупностях
Сравнение долей признака нескольких совокупностей
Проверка гипотез о числовых значениях параметров нормального закона распределения
Сравнение выборочной средней с гипотетической средней нормальной совокупности
Сравнение исправленной выборочной дисперсии с гипотетической генеральной дисперсией нормальной яхсовокупности………………………………………………………………
Контрольная работа на тему: «Статистическая проверка гипотез»
Корреляционный анализ
Понятие о статической и корреляционной связи
Коэффициент корреляции
Проверка значимости выборочного коэффициента корреляции
Значимость уравнения регрессии
Нелинейная регрессия
Множественная регрессия
Контрольная работа на тему: «Корреляционный анализ»
Заключение
Использованная литература

Файлы: 1 файл

Курсовая работа.docx

— 221.77 Кб (Скачать файл)
 

    В повседневной жизни мы часто употребляем  термины «в среднем», «средняя». Например, средняя цена товара, средний расход продуктов, средняя заработная плата, средняя выработка и т.д.

    Средняя величина есть обобщающая количественная характеристика однородных явлений по какому-либо варьирующему признаку. Применение средних величин позволяет охарактеризовать определенный признак совокупности одним числом, несмотря на количественные различия единиц по данному признаку внутри совокупности. Средняя величина – величина абстрактная, а не конкретная, т.к. в ней сглаживаются отдельные значения единиц совокупности, имеющие отклонения в ту или другую сторону.

    Средней арифметической вариационного  ряда называется сумма произведений всех вариант на соответствующие частоты, деленная на сумму частот: 
 
 

    xiварианты дискретного ряда или середины интервалов непрерывного вариационного ряда,

    niсоответствующие частоты,

    ωi – соответствующие частости,

    n – объем выборки (сумма частот).  

    Основные  свойства средней  арифметической:

  1. постоянной равна самой постоянной;
  2.    или  
  3.   или
  4. Среднее арифметическое отклонение вариант от их средней арифметической равна:

    или   ;

  1. ;
  2. Если ряд состоит из нескольких групп, общая средняя равна средней арифметической групповых средних, причем весами являются объемы групп:
 
 
 

      – общая средняя;

      – групповая средняя i-й группы, объем которой ni;

    l – число групп. 
     
     

    Мода  и медиана. 

    Медианой  вариационного ряда называется значение признака, приходящегося на середину ранжированного ряда наблюдений.

    Для дискретного вариационного ряда с нечетным числом членов медиана  равна серединной варианте, а для  ряда с четным числом членов – полусумме  двух серединных вариант.

    Если  вариационный ряд составлен по интервалам, то медиана вычисляется по следующей  приближенной формуле: 
 

    x0 интервал, в котором находится серединная варианта;

    h – длина медианного интервала;

    n – объем выборки;

    Ti-1 – сумма частот интервалов, предшествующих медианному;

    ni частота медианного интервала.  

    Для дискретного вариационного ряда мода – значение, имеющее наибольшую частоту. Если же вариационный ряд составлен интервалами, то: 
 

      – начало модального интервала, т.е. интервала, имеющего максимальную частоту;

    h –длина модального интервала;

    niчастота модального интервала;

    ni-1 – частота  интервала, предшествующего модальному;

    ni+1 – частота интервала, последующего за модельным. 

Показатели  вариации.

 

    При изучении совокупности явления нельзя ограничиваться только нахождением средней величины.

    Средние величины дают обобщенную характеристику варьирующего признака, показывают типичные характеристики для изучаемой совокупности. Однако в средней величине не проявляется  степень колеблемости отдельных  значений признаков (вариант) вокруг среднего уровня. В зависимости от однородности в совокупности колеблемость признаков  может быть большой или, наоборот, малой. Поэтому возникает необходимость  в измерении вариации отдельных  вариантов по отношению к средней  величине.

     Простейшим показателем является вариационный размах: 
 
 

    Средним линейным отклонением вариационного ряда называется средняя арифметическая абсолютных величин отклонений вариант от их средней арифметической: 
 
 

     Дисперсией вариационного  ряда называется средняя арифметическая квадратов отклонений вариант от их средней арифметической: 
 
 

     - среднее квадратичное отклонение, которое составляет так называемое абсолютное отклонение от средней величины. 

    Основные  свойства дисперсии:

  1. Если все варианты уменьшить (увеличить) в k раз, то D уменьшится (увеличится) в k2 раз:
 
 
 
  1. Если все  варианты увеличиваются (уменьшаются) на одно и то же число, то дисперсия  не изменится:
 
 
  1. Дисперсия равна  разности между средней арифметической квадратов вариант и квадратом  средней арифметической:
 
 
 
  1. Если ряд  состоит из нескольких групп наблюдений, то общая дисперсия равна сумме  средней арифметической групповых  дисперсий и межгрупповой дисперсии:
 
 
 
 
 
 
 

    

-

общая средняя;

    

-

групповая средняя  j-й группы;

    

l – число групп;

    

- дисперсия 

j-й группы.

    

Коэффициент вариации 

. Если 

v признака, принимающего только положительные значения, высок (например, > 100%), то это свидетельствует о неоднородности значения признака. При расчете коэффициента вариации можно судить о том, насколько велико квадратическое отклонение. 
 
 

Начальные и центральные  характеристики вариационного  ряда. Квантили. 

    

Начальным моментом порядка k случайной величины Х называют математическое ожидание величины Хk:

    

. 

    

Центральным моментом порядка k случайной величины Х называют математическое ожидание величины [X-M(X)]k: 

    В частности: 
     
     
     

    

На основе центрального момента третьего порядка можно построить показатель, характеризующий степень асимметричности распределения. Коэффициентом асимметрии вариационного ряда называется число 

    

Если As = 0, то распределение имеет симметричную форму;

    

As > 0 – правосторонняя асимметрия;

    

As < 0 – левосторонняя асимметрия. 

    

Эксцессом вариационного ряда называется число: 
 

    

 

> 0 – крутая вершина полигона по сравнению с нормальной кривой;

    

 

< 0 – пологая вершина полигона по сравнению с нормальной кривой. 

    

Квантилем уровня q (q-квантилем) называют такое значение варианты xi, при котором империческая функция распределения принимает значение, равное q: 
 

    

Квантиль уровня 0,5 – Ме.

    

x0,25 и x0,75 – нижний и верхний квантили. 
 
 
 

Основы  математической теории выборочного метода.

 

    Вся подлежащая изучению совокупность объектов наблюдений называется генеральной совокупностью. В практике статистических наблюдений различают 2 вида наблюдений: сплошное (все объекты совокупности), выборочное (отдельные объекты, их часть). На практике сплошное наблюдение проводят крайне редко. К тому же, если эта совокупность содержит большое число объектов или исследование объекта требует нарушения функционального стандарта, то сплошное исследование нереально. В таких случаях из всей совокупности отбирают ограниченное число объектов и подвергают их исследованию. Выборочной совокупностью (выборкой) называется совокупность случайно отобранных объектов из генеральной совокупности. Число объектов в совокупности называется ее объемом.

    Преимущества  выборочного метода наблюдения:

  • экономия затрат ресурсов;
  • возможен в случае бесконечной генеральной совокупности, или когда исследование связано с уничтожением наблюдаемых объектов;
  • при тех же затратах ресурсов дает возможность углубленного исследования за счет расширения программы исследования.

    Недостаток  выборочного метода:

  • ошибки исследования – ошибки репрезентативности.

    Выборка называется репрезентативной (представительной), если по ее данным можно достаточно уверенно судить об интересующем нас признаке генеральной совокупности.

    Используют  2 способа образования выборки:

  1. повторный отбор – попавшая в выборку единица подвергается обследованию, регистрируется, возвращается в генеральную совокупность и наравне с другими единицами участвует в дальнейшей процедуре отбора;
  2. бесповторный отбор – попавшая в выборку единица подвергается обследованию и в дальнейшей процедуре не участвует.

    При дальнейшем рассмотрении выборочного  наблюдения будем использовать следующие  общепринятые условные обозначения:

    xi – значение признака случайной величины Х.

    N и n – объемы генеральной и выборочной совокупностей.

    Ni и ni – число элементов генеральной и выборочной совокупностей со значением признака xi.

    M и m – число элементов генеральной и выборочной совокупностей, обладающих данным признаком.

    Важнейшей задачей выборочного метода является оценка параметров (характеристик) генеральной  совокупности по данным выборки. 

Статистические  оценки параметров распределения.

 

    Понятие о точечной оценке числовой характеристики случайной величины. 

    Выборочная  характеристика, используемая в качестве приближенного значения неизвестной  генеральной характеристики, называется ее точечной статистической оценкой.

    q - генеральная характеристика; ее числовое значение неизвестно, но предложена некоторая формула вычисления этой характеристики по результатам Х1, Х2, …, Хn наблюдений случайной величины Х ”

qn = f (Х1, Х2, …, Хn) 
 

    Заменим Х1, Х2, …, Хn на результаты наблюдений ” , , …, и получим число

    , которое принимается за приближенное значение неизвестной генеральной характеристики.

    Свойства, которыми должна обладать оценка qn , чтобы ее можно было считать хорошим приближением к неизвестной генеральной характеристике q:

  1. состоятельность: оценка qn состоятельна, если для любого x > 0 выполняется равенство
 
 
 
  1. несмещенность: оценка qn генеральной характеристики q называется несмещенной, если для любого фиксированного числа наблюдений n выполняется равенство
 
 
 
  1. эффективность: несмещенная оценка qn генеральной характеристики q называется несмещенной эффективной, если она среди всех прочих несмещенных оценок той же характеристики обладает наименьшей дисперсией.
 

    Теорема 1. Пусть результаты Х1, Х2, …, Хn наблюдения случайной величины Х независимы и , а дисперсии конечны, тогда – состоятельная и несмещенная оценка.

    Теорема 2. Пусть выполняются условия теоремы 1 и случайная величина Х имеет нормальное распределение, тогда - несмещенная, эффективная оценка .

    Теорема 3. Пусть результаты Х1, Х2, …, Хn наблюдения случайной величины Х независимы и удовлетворяют условиям и , а центральные моменты второго и четвертого порядка конечны, тогда для любого x > 0 выполняется равенство

    , т.е.  - состоятельная оценка, а - несмещенная оценка.

  1. Исправленная дисперсия s2состоятельная и несмещенная оценка Dг. 
  2. Можно доказать, что для нормального распределения s2 – неэффективная оценка.
  3. Несмещенная, эффективная и состоятельная оценка Dг. случайной величины Х Î N(a;σ) имеет вид:
 

    Теорема 4. Пусть m – число наступления события А в n независимых испытаниях, и p – вероятность наступления события А в каждом из испытаний, тогда – доля или состоятельная, несмещенная и эффективная оценка вероятности p. 
 

Метод моментов. 

    Метод моментов точечной оценки неизвестных параметров заданного распределения состоит в приравнивании теоретических моментов соответствующим эмпирическим моментам того же порядка.

    Если  распределение определяется одним  параметром, то для его отыскания  приравнивают один теоретический момент одному эмпирическому моменту того же порядка. Например, можно приравнять начальный теоретический момент первого порядка начальному эмпирическому  моменту первого порядка: . Учитывая, что , получим: 
 
 

    Математическое  ожидание является функцией от неизвестного параметра заданного распределения, поэтому, решив вышерасположенное  уравнение относительно неизвестного параметра, тем самым получим  его точечную оценку.

    Если  распределение определяется двумя  параметрами, то приравнивают два теоретических  момента двум соответствующим эмпирическим моментам того же порядка. Например, можно  приравнять начальные теоретические  моменты первого и второго  порядка к эмпирическим моментам первого и второго порядка соответственно.

Метод наибольшего правдоподобия. 

    Метод наибольшего правдоподобия точечной оценки неизвестных параметров заданного  распределения  сводится к отысканию максимума функции одного или нескольких оцениваемых параметров.

    Дискретные  случайные величины. Пусть Х – дискретная случайная величина, которая в результате n опытов приняла возможные значения х1, х2, …, хn. Допустим, что вид закона распределения величины Х задан, но неизвестен параметр q, которым определяется этот закон; требуется найти его точечную оценку qn = qn 1, х2, …, хn).

    Обозначим вероятность того, что в результате испытания величина Х примет значение xi через p (xi ; q).

    Функцией  правдоподобия дискретной случайной  величины Х называют функцию аргумента q:

qqqq. 

    Оценкой наибольшего правдоподобия параметра q называют такое его значение qn, при котором функция правдоподобия достигает максимума.

    Функции L и ln L достигают максимума при одном и том же значении q, поэтому вместо отыскания максимума функции L ищут, что удобнее, максимум функции ln L.

    Логарифмической функцией правдоподобия называют функцию  ln L.

    Точку максимума функции ln L аргумента q можно искать, например, так:

  1. Найти производную q.
  2. Приравнять производную  нулю и найти критическую точку qn – корень полученного уравнения ( его называют уравнением правдоподобия).
  3. Найти вторую производную qq ; если вторая производная при q = qn отрицательна, то qn – точка максимума.

    Найденную точку максимума qn принимают в качестве оценки наибольшего правдоподобия параметра q. 

    Непрерывные случайные величины. Пусть Х – непрерывная случайная величина, которая в результате n опытов приняла возможные значения х1, х2, …, хn. Допустим, что вид плотности распределения – функции f (x) – задан, но неизвестен параметр q, которым определяется эта функция.

    Функцией  правдоподобия непрерывной случайной  величины Х называют функцию аргумента q:

qqqq 

    Оценку  наибольшего правдоподобия неизвестного параметра распределения непрерывной  случайной величины ищут так же, как в случае дискретной случайной  величины.

    Если  плотность распределения f (x)непрерывной случайной величины определяется двумя неизвестными параметрами qq, то функция правдоподобия есть функция двух независимых аргументов qq:

qqqqqq 

    Затем находят логарифмическую функцию  правдоподобия и для отыскания  ее максимума составляют и решают систему

qq 

Интервальные  оценки параметров нормального  распределения. 

    При малых объемах выборки точечная оценка выборки может приводить  к большим ошибкам и значительно  отличаться от оцениваемого параметра. Более широкое применение получил  метод доверительных интервалов, разработанный американским статистиком  Ю.Нейманом.

    Интервальной называют оценку, которая определяется двумя числами – концами интервала, покрывающего оцениваемый параметр. Интервальные оценки помогают установить точность и надежность оценок.

    Для выборки небольшого объема важен  вопрос о точности оценок. Точность - x, тогда .

    Любую точность можно получить с определенной вероятностью:

      – надежность, доверительная вероятность. 
     
     

    Условие (1) обозначает, что интервал покрывает значение параметра q с доверительной вероятностью g.

    Длина g равна 2x. Доверительная вероятность g задается значениями, близкими к 1: 0,95; 0,98; 0,999 и т.д. 

  1. Доверительный интервал для среднего значения а нормального распределения при известном σ.
 

    . По условию: xiÎ N(a;σ) ” ” ”

    Алгоритм  решения задач:

g   →  g   →      →     

  1. Доверительный интервал для среднего значения а нормального распределения при неизвестном σ.
 

    Известно, что случайная величина (s – исправленное среднеквадратичное отклонение, несмещенная оценка стандартного отклонения генеральной совокупности) имеет распределение Стьюдента с числом степеней свободы n-1; тогда при получении генеральной оценки потребуем, чтобы выполнялось условие:  
 
 

    Величина  определяется по таблицам распределения Стьюдента, где α = 1 - g для односторонней критической области, α = (1 - g)/2 для двусторонней критической области.

    Алгоритм  решения задач: 

       →     →     →    

    Определим, какой объем должна иметь выборка, чтобы можно было получить результаты с нужной точностью. Будем исходить из формул: 
 
 

  1. Интервальная  оценка среднего квадратичного  отклонения и дисперсии  нормального распределения.
 

    Предположим, что генеральная совокупность имеет  распределение , тогда случайная величина имеет χ2-распределение с n-1 степенями свободы. 

    По  таблице χ2-распределения можем найти xα, что:

    , найти u1 и u2, что: 
     

    ” 
     
     

    Замечание:

    При k > 30 можно считать, что случайная величина   имеет нормальное распределение. И для определения u1 и u2: 

    , где 
     
     
     

  1. Интервальная  оценка вероятности  событий (генеральной  доли) для небольших  выборок (десятки  наблюдений).
 

    Зададим g и определим p1 и p2, чтобы Интервал (p1;  p2) является интервальной оценкой вероятности Р, отвечающей надежностью g.

    Пусть А – случайное событие, p – вероятность появления этого события в одном испытании . Пусть событие А появилось m раз в n испытаниях, тогда по локальной теореме Муавра-Лапласа: при больших n и малых p m Î ”

    Для g найдем ug:

    ”

    ”

    ”

    ”

    ” 
     
     

    Замечание:

    При . 
 
 
 
 
 
 
 

    Контрольная работа по теме: «Выборочный  метод». 

    Необходимо  изучить данные о  яйценоскости 100 кур-несушек, всего 100 значений:

200 210 223 217 201 220 215 220 213 232 211 203
222 218 238 215 229 205 224 216 223 207 193 195
205 230 170 185 207 209 221 214 198 227 210 213
225 224 237 204 187 192 211 184 197 214 203 208
216 199 217 222 209 221 219 190 205 192 215 183
208 209 194 211 197 201 195 214 213 224 212 208
235 195 207 211 193 202 201 238 215 227 207 218
210 194 205 188 195 204 198 203 199 213 198 225
250 195 212 226

Вычислить:

  1. Составить интервальный статистический ряд распределения частот (относительных  частот) и построить гистограмму или полигон частот (относительных частот).
  2. Найти эмпирическую функцию распределения и построить ее график и график кумуляты.
  3. Вычислить точечные оценки для математического ожидания, среднего линейного отклонения, дисперсии, среднеквадратического отклонения, исправленного среднеквадратического отклонения, коэффициента вариации, коэффициентов асимметрии и эксцесса, моды, медианы, а также верхней и нижней квартилей.

Полученные  результаты занести в таблицу.

  1. Исходя из общих представлений о механизме образования СВХ, а также по виду гистограммы и полигона относительных частот и вычисленным числовым характеристикам, выдвинуть гипотезу о виде распределения СВХ, записать плотность распределения вероятностей и функцию распределения для выдвинутого гипотетического закона, заменяя параметры закона вычисленными для них оценками.
  2. По критерию согласия Пирсона проверить соответствие выборочного распределения гипотетическому закону для уровня значимости 0,05.
  3. Вычислить интервальные оценки для математического ожидания и среднеквадратического отклонения, соответствующие доверительным вероятностям 0,95 и 0,99.
 

Решение.

n = 100, xmin=170, xmax=250. 

  ” построим таблицу: 

(Xi-1;Xi] частота

ni

частость ωi накопленная частота niнак. накопленная частость ωiнак.
165-175 1 0,01 1 0,01
175-185 3 0,03 4 0,04
185-195 14 0,14 18 0,18
195-205 21 0,21 39 0,39
205-215 30 0,3 69 0,69
215-225 20 0,2 89 0,89
225-235 7 0,07 96 0,96
235-245 3 0,03 99 0,99
245-255 1 0,01 100 1
 
 
 
 
 

 
 

  1. Строим график кумуляты:

 

 
 
 
 
 
 
 
 
 
 
 

  несгруппированные данные сгруппированные данные
n 100 100
min 170 170
X0,25 199,75 198,333
Me 210 208,667
X0,75 218,25 218
max 250 250
Xср.в. 209,63 208,5
d 10,897 11,23
Mo 195 209,737
D 189,633 208,75
σ 13,771 14,448
s 13,84 14,521
v% 6,57% 6,93%
As 0,0865 0,1236
Ex 0,255 0,142
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
  1. Гипотеза о  нормальном распределении генеральной  совокупности.
 
интервал ni   Pk ni’=n* Pk   (ni - ni’)2/ ni
165 175 1   0,00885 0,885    
175 185 3   0,0414 4,14    
185 195 14 18 0,1246 12,46 17,485 0,0152
195 205 21 21 0,229 22,9 22,9 0,1576
205 215 30 30 0,2684 26,84 26,84 0,3720
215 225 20 20 0,1993 19,93 19,93 0,0002
225 235 7 11 0,0935 9,35 12,641 0,2130
235 245 3   0,0279 2,79    
245 255 1   0,00501 0,501    
 
 
 
 
  1. Гипотеза о  равномерном распределении генеральной  совокупности.
 
интервал ni   ni’=n*p   (ni - ni’)2/ ni
165 175 1   0    
175 185 3   0    
185 195 14 18 20 20 0,02
195 205 21 21 20 20 0,05
205 215 30 30 20 20 5
215 225 20 20 20 20 0
225 235 7 11 20 20 4,05
235 245 3   0    
245 255 1   0    
 
 
 

  гипотезу о равномерном  распределении генеральной  совокупности отвергаем. 
 

      Для несгруппированных данных Для сгруппированных данных
      x Хср. - x Хср. + x x Хср. - x Хср. + x
    g = 0,95 2,699 206,931 212,329 2,832 205,668 211,332
    g = 0,99 3,547 206,083 213,177 3,713 204,787 212,213
 
 
 

Контрольная работа по теме: «Интервальные  оценки». 

Задачи:

  1. Среднее время, проведенное покупателем в очереди к кассиру универсама, составляет 12 минут со средним квадратическим отклонением 3 минуты. Если Вы отобрали случайным образом 5 покупателей, то чему равна вероятность того, что их среднее времяпровождение в очереди составит по крайней мере 10 минут? Чему равно среднее выборочное время нахождения в очереди? Чему равно среднее квадратическое отклонение выборочной средней?
  2. Бюро по найму рабочих желает оценить средние ставки рабочих вакансий в определенной отрасли промышленности. Случайная выборка 61 вакансии дала `X = 42,539 рублей и σвыб = 11,690 рублей. Постройте 90%-ный доверительный интервал для средних ставок по вакансиям в данной отрасли промышленности.
  3. Авиакомпания, открывшая новый авиамаршрут, желает оценить долю пассажиров, путешествующих по служебным делам в этом направлении. Случайная выборка 347 пассажиров, летающих по этому маршруту, определила, что 201 из них – бизнесмены. Постройте 99%доверительный интервал доли пассажиров, путешествующих по делам службы.
  4. Кабельный телевизионный канал хотел бы иметь оценку доли зрителей, желающих приобретать еженедельную программу передач канала. Постройте 95%-ный доверительный интервал для оценки этой доли с предельной ошибкой оценки выборки ±0,05. Из опыта других регионов известно, что 30% зрителей будут покупать программу. Какой объем выборки необходим компании для проведения опроса потенциальных потребителей еженедельной программы передач?

Решение: 

  1. Дано:
   n = 5

   xср.ген. = 12 мин.

   σген. = 3 мин.

   
Решение: 
 
 
 
 
   p (xср. > 10) - ?
 
 
 
 
 
 
  1. Дано:
   n = 61

   xср. = 42539 руб.

   σв. = 11690 руб.

   g = 0,9

    α = 0,1

Решение:

   →  →      
 

  

   ?  < a < ?
 
 
 
  1. Дано:
   n = 347

   m = 201

   g = 0,99

Решение: 
 
 
   ?  < p < ?
 
 
 
  1. Дано:
   wв. = 0,3

    = 0,05

   g = 0,95

Решение: 
 
 
 
 
   ?  < p < ?

   n - ?

Проверка  статистических гипотез.

 

    Обычно  в практических задачах не встречаются  случайные величины, распределения которых точно соответствовали бы теоретическим распределениям. Последние являются математическими моделями реальных распределений. Подбор таких моделей и анализ их адекватности моделируемым случайным величинам, что является одной из основных задач математической статистики, которая, в свою очередь, сводится к проверке предположений (гипотез) о виде распределения и о его параметрах.

    Статистической называется гипотеза о виде неизвестного распределения, о параметрах известных распределений, об отношениях между случайными величинами и т.д.

    Виды  статистических гипотез:

  1. Нулевой (основной) гипотезой называется выдвинутая гипотеза Н0, которая подлежит проверке.
  2. Конкурирующей (альтернативной) гипотезой называется гипотеза Н1, которая противоречит нулевой гипотезе Н0.
 

    Общая схема проверки статистических гипотез.

    Статистическим  критерием (или просто критерием) называют случайную величину Т, которая служит для проверки статистических гипотез.

    Основные  моменты проверки статистических гипотез.

  1. Для основной гипотезы Н0 формулируется альтернативная гипотеза Н1.
  2. Выбирается малое положительное α – уровень значимости проверки. Обычно α колеблется в пределах от 0,01 до 0,05.
  3. Рассматриваются теоретические выборки значений случайных величин, о которых сформулирована гипотеза Н0, и выбирается (формируется) случайная величина Т. Значения и распределение Т полностью определяются по выборкам при предложении о верности гипотезы Н0. Величина Т называется статистикой или тестом критерия.
  4. На числовой оси задают интервал D такой, что вероятность попадания Т в этот интервал равна :
 
 

    Интервал  D называется областью принятия гипотезы Н0, а оставшаяся область числовой оси – критической областью. В ряде случаев за область D принимают один из интервалов: , где число - критическое значение теста проверки. Соответственно этим промежуткам критерий проверки называется правосторонним, двусторонним или левосторонним.

  1. По реализациям анализируемых теоретических выборок вычисляется конкретное (наблюдаемое) значение теста Т и проверяется выполнение условия  
    * : если оно выполняется, то гипотеза
    Н0 принимается в том смысле, что она не противоречит опытным данным; если не выполняется – полагается, что гипотеза Н0 неверна и вероятность этого события определена неверно.

    Принимая  или отвергая гипотезу Н0, можно допустить ошибки двух видов:

  • ошибка первого рода – отвергнуть гипотезу Н0 при ее правильности, вероятность этой ошибки равна α.
  • ошибка второго рода – принятие гипотезы Н0 при правильности альтернативной гипотезы Н1.

    Пусть вероятность ошибки второго рода равна β, тогда число 1 – β называют мощностью критерия. Чем больше мощность критерия, тем меньше вероятность ошибки второго рода. При выбранном уровне значимости критическую область следует строить так, чтобы мощность критерия была максимальной. 

    Замечания:

  • ошибки первого и второго рода являются конкурирующими, т.е. при построении выборки n,  если α уменьшать, β увеличивается; если β уменьшать, то α увеличивается.
  • Для одновременного уменьшения α и β необходимо увеличить длину выборки n.

Типы  статистических критериев  проверки гипотез. Проверка гипотез на их основе.

 

Критерий  согласия Пирсона (критерий χ2). 

    x1, x2, …, xnвыборка случайной величины Х. Н0: проверяется утверждение, что Х имеет распределение F(x).

    Алгоритм:

  1. по выборке наблюдений находят оценки неизвестных параметров xср., s или λ и т.д.;
  2. область возможных значений случайной величины Х разбивается на r-множеств: Δ1, Δ2, …, Δr;

    r –число интервалов, если случайная величина Х непрерывна, r – число групп, если случайная величина Х дискретная;

    nk – число элементов, принадлежащим множеству Δk, k=1, 2, …,r. 

  1. используя предполагаемый закон распределения случайной  величины Х находим 

    Очевидно, что 

  1. полученный результат можно представить в виде таблицы:
 
      Δ1 Δ2 Δr всего
    наблюдаемая n1 n2 nr n
    ожидаемая np1 np2 npr n
 
  1. выборочное  значение статистики критерия вычисляется  по следующей формуле:
 
 
 
  1. гипотеза Н0 согласуется с результатами наблюдений на уровне значимости α, если:
 
 

    число неизвестных параметров распределения, оцениваемых по выборке. 

    Замечание:

    Критерий  использует тот факт, что случайные величины   имеют распределения, близкие к нормальным. Чтобы это утверждение было верным, необходимо, чтобы для всех интервалов выполнялось условие . Если для некоторых интервалов это условие не выполняется, то их следует объединить с соседними. 
 

    Проверка  гипотезы о нормальном распределении генеральной  совокупности по критерию Пирсона. 

    Эмпирическое  распределение задано в виде последовательности равноотстоящих вариант  и соответствующих  им частот. Пусть эмпирическое распределение задано в виде последовательности равноотстоящих вариант и соответствующих им частот: 
 
 

    Требуется, используя критерий Пирсона, проверить  гипотезу о том, что совокупность Х распределена нормально.

    Правило 1. Для того чтобы при заданном уровне значимости α проверить гипотезу о нормальном распределении генеральной совокупности, надо:

  1. Вычислить непосредственно (при малом числе наблюдений) или упрощенным методом (при большом числе наблюдений), например методом произведений или сумм, выборочную среднюю xср.в. и выборочное среднее квадратическое отклонение σв..
  2. Вычислить теоретические частоты:
 

где n – объем выборки, h – шаг, 
 

  1. Сравнить  эмпирические и теоретические частоты с  помощью критерия согласия Пирсона. Для этого:

а) составляют расчетную таблицу, по которой находят  наблюдаемое значение критерия 
 
 

i ni ni ni - ni (ni - ni)2 (ni - ni)2/ ni
1

2

         
Σ          
 

б) по таблице  распределения критических точек χ2, по заданному уровню значимости α и числу степеней свободы k = s – 3 (s – число групп выборки) находят критическую точку χ2кр.(α; k) правосторонней критической области.

    Если  - нет оснований отвергнуть гипотезу о нормальном распределении генеральной совокупности. Другими словами, эмпирические и теоретические частоты различаются незначимо (случайно). В противном случае гипотезу отвергают. 

    Замечание. Малочисленные частоты (ni < 5) следует объединить; в этом случае и соответствующие им теоретические частоты также надо сложить. Если производилось объединение частот, то при определении числа степеней свободы по формуле k = s – 3 следует в качестве s принять число групп выборки, оставшихся после объединения частот. 
 
 

    Эмпирическое  распределение задано в виде последовательности интервалов одинаковой длины и соответствующих  им частот.  
 

    Правило 2. Для того чтобы при уровне значимости α проверить гипотезу о нормальном распределении генеральной совокупности, надо:

  1. Вычислить выборочную среднюю xср.в. и выборочное среднее квадратическое отклонение σв., причем в качестве вариант xi* принимают среднее арифметическое концов интервала.
  2. Пронормировать Х, т.е. перейти к случайной величине и вычислить концы интервалов: причем наименьшее значение Z, т.е. z1, полагают равным  - ¥, а наибольшее, т.е. zi+1 полагают равным ¥.
  3. Вычислить теоретические частоты:
 
 

где n – объем выборки, вероятности попадания Х в интервалы i; хi+1), Ф(Z) – функция Лапласа.

  1. Сравнить эмпирические и теоретические частоты с помощью критерия Пирсона. Для этого можно воспользоваться методом сравнения, указанного выше.
 
 
 

    Графическая проверка гипотезы о  нормальном распределении  генеральной совокупности. Метод спрямленных  диаграмм. 

    Сгруппированные данные. Пусть эмпирическое распределение выборки из генеральной совокупности Х задано в виде последовательности интервалов 0; х1) , (х1; х2), …, (хk-1; хk) и соответствующих им частот ni (ni – число вариант, попавших в i-й интервал). Требуется графически проверить гипотезу о нормальном распределении Х.

    Предварительно  введем определение p-квантили случайной величины Х. Если задана вероятность p, то p-квантилью Х называют такое значение аргумента up функции распределения F(x), для которого вероятность события Х < up равна заданному значению p.

    Заметим, что поскольку функции распределения  общего и нормированного нормальных распределений связаны равенством , и, следовательно, .

    Правило 1. Для того чтобы графически проверить гипотезу о нормальном распределении генеральной совокупности Х по эмпирическому распределению, заданному в виде последовательности интервалов и соответствующих им частот, надо: 

  1. Составить расчетную таблицу (квантили находят по специальным таблицам):
 
Номер интервала Правый конец  интервала Частота Накопленная частота Относительная накопленная  частота Относительная накопленная  частота, % Квантили
i xi ni        
             
 
 
  1. Построить в  прямоугольной системе координат  (x; u) точки (x1; u1), (x2; u2), … Если эти точки лежат вблизи некоторой прямой, то нет оснований отвергнуть гипотезу о нормальном распределении Х; если же построенные точки удалены от прямой, то гипотезу отвергают.
 
 

    Замечание 1. Следует иметь в виду, что «начальные» и «конечные» точки (xi; ui) могут заметно отклоняться от прямой .

    Замечание 2. Если построенные точки оказались вблизи прямой, то легко графически оценить параметры α и σ нормального распределения. В качестве оценки математического ожидания α можно принять абсциссу точки L (xL; 0) пересечения построенной прямой с осью 0x. В качестве оценки среднего квадратического отклонения σ можно принять разность абсцисс точки L(xL; 0) и точки N(xN; -1) пересечения построенной линии с прямой u = -1: σ* = xL - xN. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

    Замечание 3. При наличии вероятностной бумаги надобность в отыскании квантилей отпадает: на соответствующей оси откладывают накопленные относительные частоты. 

    Несгруппированные по интервалам данные. Пусть эмпирическое распределение выборки из генеральной совокупности Х задано в виде последовательности вариант xi, расположенных в возрастающем порядке, т.е. в виде вариационного ряда, и соответствующих им частот ni. Требуется графически проверить гипотезу о нормальном распределении Х.

    Правило 2. Для того чтобы по несгруппированной по интервалам выборке объема n проверить гипотезу о нормальном распределении генеральной совокупности Х, из которой извлечена выборка, надо:

  1. Построить расчетную таблицу:
 
Номер варианты Варианта Частота Накопленная частота Относительная накопленная  частота Относительная накопленная  частота, % Квантили
i xi ni        
             
 
  1. Построить в  прямоугольной системе координат  (x; u) точки (x1; u1), (x2; u2), … Если эти точки лежат вблизи некоторой прямой, то нет оснований отвергнуть гипотезу о нормальном распределении Х; если же построенные точки удалены от прямой, то гипотезу отвергают.
 

    Замечание 4. Замечания 1 – 3, приведенные выше для сгруппированной по интервалам выборки, остаются в силе. 
 
 
 

    Проверка  гипотезы о показательном  распределении генеральной совокупности. 

    Задано  эмпирическое распределение непрерывной  случайной величины Х в виде последовательности интервалов xi – xi+1 и соответствующим им частот ni, причем (объем выборки). Требуется, используя критерий Пирсона, проверить гипотезу о том, что случайная величина Х имеет показательное распределение.

    Правило. Для того чтобы при уровне значимости α проверить гипотезу о том, что непрерывная случайная величина распределена по показательному закону, надо:

  1. Найти по заданному эмпирическому распределению выборочную среднюю xср.в.. для этого, приняв в качестве «представителя» i-го интервала его середину, составляют последовательность равноотстоящих вариант и соответствующих им частот.
  2. Принять в качестве оценки параметра λ показательного распределения величину, обратную выборочной средней:
 
 
  1. Найти вероятности  попадания Х в частичные интервалы xi – xi+1 по формуле

. 

  1. Вычислить теоретические  частоты:
 
 
  1. Сравнить эмпирические и теоретические частоты с  помощью критерия Пирсона, приняв число  степеней свободы k = s – 2, где s – число первоначальных интервалов выборки; если же было произведено объединение малочисленных частот, следовательно, и самих интервалов, то s – число интервалов, оставшихся после объединения.
 
 

Проверка  гипотезы о распределении  генеральной совокупности по биноминальному закону. 

    Произведено n испытаний. Каждый опыт состоит из N независимых испытаний, в каждом из которых вероятность появления события А одна и та же. Регистрируется число появления события А в каждом опыте. В итоге получено следующее распределение дискретной случайной величины Х – числа появлений события А (в первой строке указано число xi появлений события А в одном опыте; во второй строке – частота ni, т.е. число опытов, в которых зарегистрировано xi появлений события А): 
 

    Требуется, используя критерий Пирсона, проверить  гипотезу о распределении дискретной случайной величины Х по биноминальному закону. 

    Правило. Для того чтобы при уровне значимости α проверить гипотезу о том, что дискретная случайная величина Х (число появлений события А) распределена по биноминальному закону, надо:

  1. Найти по формуле Бернулли вероятности Pi появления ровно i событий А в N испытаниях:
 
 
 
  1. Найти теоретические  частоты:
 

где n – число опытов.

  1. Сравнить эмпирические и теоретические частоты по критерию Пирсона, приняв число степеней свободы k = s – 1 (s – максимальное число наблюдавшихся появлений события А в одном опыте; при этом предполагается, что вероятность p появления события А задана, т.е. не оценивалось по выборке и не производилось объединение малочисленных частот).

    Если  же вероятность p была оценена по выборке, то k = s – 2. Если, кроме того, было произведено объединение малочисленных частот, то s – число групп выборки, оставшихся после объединения частот. 
 

    Проверка  гипотезы о равномерном  распределении генеральной  совокупности. 

    Задано  эмпирическое распределение непрерывной  случайной величины Х в виде последовательности интервалов xi – xi+1 и соответствующим им частот ni, причем (объем выборки). Требуется, используя критерий Пирсона, проверить гипотезу о том, что случайная величина Х распределена равномерно. 

    Правило. Для того чтобы проверить гипотезу о равномерном распределении Х , т.е. по закону 

надо:

  1. Оценить параметры a и b – концы интервала, в котором наблюдались возможные значения Х, по формулам (через a* и b*означены оценки параметров):
 
 
 
  1. Найти плотность  вероятности предполагаемого распределения:
 
  1. Найти теоретические  частоты:
 
 
 
 
  1. Сравнить эмпирические и теоретические частоты с  помощью критерия Пирсона, приняв число  степеней свободы k = s – 3, где s – число интервалов, на которые разбита выборка.
 
 

    Проверка  гипотезы о распределении  генеральной совокупности по закону Пуассона. 

    Для того, чтобы при уровне значимости α проверить гипотезу о том, что случайная величина Х распределена по закону Пуассона, необходимо:

  1. найти по заданному эмпирическому распределению выборочную среднюю хср.в.;
  2. принять в качестве оценки параметра λ распределения Пуассона выборочную среднюю .
  3. Найти по формуле Пуассона (или по готовым таблицам) вероятности Pi появления равно i событий в n испытаниях (i = 0, 1, 2, …, r, где r – максимальное число наблюдавшихся событий, n – объем выборки):
 
 
  1. Найти теоретические  частоты по формуле .
  2. Сравнить эмпирические и теоретические частоты с помощью критерия Пирсона, приняв число степеней свободы k = s – 2, где s – число различных групп выборки (если производилось объединение малочисленных частот в одну группу, то s – число оставшихся групп выборки после объединения частот).
 
 
 

    Проверка  гипотез о равенстве  двух дисперсий. 

    Гипотезы  о равенстве дисперсий возникают  довольно часто и характеризуют  такие показатели, как точность машин, приборов; риски, связанные с отклонением активов от ожидаемого уровня и т.д.

    Алгоритм:

    Для проверки Н0: при конкурирующих гипотезах Н1,2: , берутся две независимые выборки объемом n1 и n2. Для оценки и используем . Пусть и образуем 

    Fнабл. имеет F-распределение Фишера-Снедекора с степенями свободы.

    Рассмотрим  конкурирующую гипотезу H1: : 
 

    Рассмотрим  конкурирующую гипотезу H2: :

        

    В противном  случае Н0 отвергается в пользу Н2. 
     
     
     
     

Проверка  гипотез о равенстве  средних двух совокупностей. 

    Часто происходят случаи, когда средний  результат серии экспериментов  отличается от среднего результата другой серии. Возникает вопрос, можно ли объяснить обнаруженное расхождение  средних неизбежными случайными ошибками эксперимента или оно вызвано  некоторыми закономерностями. Контроль качества изделий, изготовленных на разных установках; при составлении  уровня доходности различных активов.

    Проверка  гипотезы о равенстве  двух средних с  неизвестными дисперсиями  для больших независимых  выборок.

    Пусть имеется две совокупности, характеризуемые  генеральными средними и известными  генеральными дисперсиями. Необходимо проверить гипотезу о равенстве  генеральных средних. Для проверки гипотезы взяты выборки объемом  n1 и n2, для которых и выборочные дисперсии .

    Из  закона больших чисел следует, что  при достаточно больших объемах  выборки выборочные средние имеют  примерно нормальный закон распределения:  
 
 
 
 
 
 
 
 

  1. Рассмотрим конкурирующую гипотезу Н1:   Для этого найдем
 
 
 

и Uкр , зависящее от вероятности α.

    Если , то гипотеза о равенстве средних двух совокупностей принимается. В противном случае – отвергается в пользу Н1.

  1. Рассмотрим конкурирующую гипотезу Н2:   Для этого найдем
 
 
 

    Если , то гипотеза о равенстве средних двух совокупностей принимается. В противном случае – отвергается в пользу Н2.

  1. Рассмотрим конкурирующую гипотезу Н3:   Для этого найдем
 
 
 

    Если , то гипотеза о равенстве средних двух совокупностей принимается. В противном случае – отвергается в пользу Н3. 
 

Т-критерий для независимых  выборок. 

    Теоретически  t-критерий может применяться, если размер выборок небольшой (например, 10) и если переменные нормально распределены, а дисперсии наблюдений в группах не слишком различны.

    Алгоритм  решения:

    Если  две генеральные дисперсии неизвестны, но равны, то в качестве неизвестной  оценки дисперсии можно взять  ее оценку: 
 
 

    Оценка  дисперсионной разности независимых  выборочных средних:  
 
 

    Число степеней свободы k = n1 + n2 – 2 на 2 меньше общего числа наблюдаемых n1 + n2, т.к. две степени свободы «теряются» при определении по выборочным данным  
 
 

    Статистика  имеет t-распределение Стьюдента с k = n1 + n2 – 2 степенями свободы. Т.к. 
 
 
 

    tкр. находят по специальной таблице t-распределения Стьюдента.

  1. Рассмотрим конкурирующую гипотезу Н1:

    Если 

  1. Рассмотрим конкурирующую гипотезу Н2:

    Если 

  1. Рассмотрим конкурирующую гипотезу Н3:

    Если  

    Замечание. Если генеральные дисперсии неизвестны и не равны, то статистика   имеет распределение Стьюдента, но число степеней свободы определяется примерно и более сложным способом. 
 
 
 
 

    Исключение  грубых ошибок наблюдения. 

    Рассмотренные критерии могут применяться для  исключения грубых ошибок наблюдения, которые могут возникать из-за ошибок показаний измерительных приборов, регистрации, случайного сдвига запятой и т.д.

    Пусть x*, x1, x2, …, xn –совокупность имеющихся наблюдений, причем x* резко выделяется. Необходимо решить вопрос о принадлежности x* к остальным наблюдениям.

    Для x1, x2, …, xn находим xср.в. и s и рассматривает гипотезу Н0: xср.ген. = x* (гипотезу о принадлежности x* к остальным наблюдениям).

    Статистика  имеет t-распределение Стьюдента с k = n - 1 степенью свободы.

    Рассмотрим  конкурирующие гипотезы Н1: и Н2: .

    Если  
 

Т-критерий для зависимых  выборок. 

    Этот  критерий применяется к экспериментам, в которых две сравниваемые группы наблюдений по одной и той же выборке наблюдений, которые тестировались дважды (например, пациенты «до» и «после» лечения). Он дает преимущества в том случае, когда важный источник внутри групповой вариации может быть исключен из анализа.

      В сравнении с t-критерием для независимых выборок такой подход дает всегда лучший результат, т.к. критерий становится более чувствительным.

    Пусть генеральные совокупности X и Y имеют нормальное распределение, и их дисперсии известны. 
 

    Находим , (средняя разности с одинаковыми номерами), sd (исправленная средняя квадратного отклонения).

    Рассмотрим  гипотезы Н0: и Н1:  
 

    Статистика  имеет t-распределение Стьюдента с k = n – 1 степенью свободы. Находим tкр.двустор.

    Если , гипотеза Н0 принимается. 
 

Проверка  гипотезы о равенстве долей признака в двух совокупностях. 

    Известны  генеральные доли двух совокупностей: p1 и p2. Рассмотрим гипотезу о равенстве долей признака.

    Из  совокупностей взяты две выборки  n1 и n2 с выборочными долями признака и , где m1 и m2 – число элементов первой и второй выборок, обладающих данным признаком.

    При больших n1 и n2 выборочные доли имеют приближенно нормальный закон распределения с математическими ожиданиями p1 и p2 и дисперсиями: 
 
 

    При справедливости гипотезы Н0: p1 = p2 = p разность приближенно имеет нормальный закон распределения: 
 

    Поэтому статистика имеет стандартное нормальное распределение, где . 

  1. Рассмотрим  конкурирующую гипотезу Н1: .
 
 
 

    Если , то гипотеза о равенстве долей признака двух совокупностей принимается. В противном случае – отвергается в пользу Н1.

  1. Рассмотрим конкурирующую гипотезу Н2:.
 
 
 

    Если , то гипотеза о равенстве долей признака двух совокупностей принимается. В противном случае – отвергается в пользу Н2.

  1. Рассмотрим конкурирующую гипотезу Н3: .
 
 
 

    Если , то гипотеза о равенстве долей признака двух совокупностей принимается. В противном случае – отвергается в пользу Н3. 
 

    Сравнение долей признака нескольких совокупностей. 

    Известны  генеральные доли l совокупностей p1, p2, …,pl. Рассмотрим гипотезу о равенстве долей признака нескольких совокупностей Н0: p1 = p2 = … =pl. Из совокупностей отобраны выборки объемами n1, n2, …, nl с выборочными долями .

    При справедливости гипотезы Н0 и при n ¥ статистика 

 имеет χ2-распределение с k = l – 1 степенями свободы. 
 
 

    Для проверки гипотезы Н0 обычно берут правостороннюю критическую область (при использовании таблиц). Н0 принимается, если: 
 
 

Проверка  гипотез о числовых значениях параметров нормального закона распределения.

 

Сравнение выборочной средней  с гипотетической средней нормальной совокупности. 

    Дисперсия генеральной совокупности известна.

    Правило 1. Для того чтобы при заданном уровне значимости α проверить нулевую гипотезу Н0: a = a0 о равенстве генеральной средней a нормальной совокупности с известной дисперсией σ2 гипотетическому (предполагаемому) значению a0 при конкурирующей гипотезе Н1: а а0, надо вычислить наблюдаемое значение критерия 
 
 

и по таблице  функции Лапласа найти критическую  точку Uкр. Двусторонней критической области из равенства 
 
 

    Если  то гипотеза Н0 принимается. В противном случае – отвергается в пользу Н1.

    Правило 2. При конкурирующей гипотезе Н1: a > a0 критическую точку правосторонней критической области находят из равенства: 
 
 

    Если , то гипотеза Н0 принимается. В противном случае – отвергается в пользу Н1.

    Правило 3. При конкурирующей гипотезе Н1: a < a0 сначала находят вспомогательную критическую точку по правилу 2, а затем полагают границу левосторонней критической области 
 

    Если , то гипотеза Н0 принимается. В противном случае – отвергается в пользу Н1. 

    Дисперсия генеральной совокупности неизвестна. Если дисперсия генеральной совокупности неизвестна (например, в случае малых выборок), то в качестве критерия проверки нулевой гипотезы принимают случайную величину 
 

где - исправленное среднее квадратическое отклонение. Величина Т имеет распределение Стьюдента с k = n – 1 степенями свободы.

    Правило 1. Для того чтобы при заданном уровне значимости α проверить нулевую гипотезу Н0: a = a0 о равенстве неизвестной генеральной средней a нормальной совокупности с неизвестной дисперсией гипотетическому (предполагаемому) значению a0 при конкурирующей гипотезе Н1: а а0, надо вычислить наблюдаемое значение критерия Т и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α (для двусторонней критической области) и числу степеней свободы k = n – 1 найти критическую точку.

    Если , гипотеза Н0 принимается. В противном случае – нулевую гипотезу отвергают.

    Правило 2. При конкурирующей гипотезе Н1: a > a0 по уровню значимости α (для односторонней критической области) и числу степеней свободы k = n – 1 найти критическую точку правосторонней критической области.

    Еслито нет оснований отвергнуть нулевую гипотезу.

    Правило 3. При конкурирующей гипотезе Н1: a < a0 сначала находят вспомогательную критическую точку (по правилу 2) и полагают границу левосторонней критической области

    Еслито нет оснований отвергнуть нулевую гипотезу. 
 

Сравнение исправленной выборочной дисперсии с гипотетической генеральной дисперсией нормальной совокупности. 

    Обозначим через n объем выборки, по которой найдена исправленная дисперсия s2.

    Правило 1. Для того чтобы при заданном уровне значимости α проверить нулевую гипотезу Н0: о равенстве неизвестной генеральной дисперсии гипотетическому (предполагаемому) значению при конкурирующей гипотезе Н1: , надо вычислить наблюдаемое значение критерия 

и по таблице  критических точек распределения χ2, по заданному уровню значимости и числу степеней свободы k = n – 1 найти критическую точку .

    Если  - нет оснований отвергнуть нулевую гипотезу. В противном случае нулевую гипотезу отвергают в пользу гипотезы Н1.

    Правило 2. При конкурирующей гипотезе Н1: находят левую и правую критические точки.

    Если  - нет оснований отвергнуть нулевую гипотезу.

    Правило 3. При конкурирующей гипотезе Н1: находят критическую точку        .

    Если  - нет оснований отвергнуть нулевую гипотезу. В противном случае нулевую гипотезу отвергают в пользу гипотезы Н1. 

    Замечание. Если число степеней свободы k > 30, то критическую точку можно найти из равенства Уилсона – Гильферти: 
 

где находят, используя функцию Лапласа, из равенства: 
 
 
 
 
 
 

Сравнение наблюдаемой относительной  частоты с гипотетической вероятностью появления  события. 

    По  достаточно большому числу n независимых испытаний, в каждом из которых вероятность p появления события постоянна, но неизвестна, найдена относительная частота . Требуется при заданном уровне значимости α проверить нулевую гипотезу, состоящую в том, что неизвестная вероятность p равна гипотетической вероятности p0.

    Правило 1. Для того чтобы при заданном уровне значимости α проверить нулевую гипотезу Н0: p = p0 при конкурирующей гипотезе Н1: p p0, надо вычислить наблюдаемое значение критерия 

и по таблице  Лапласа найти критическую точку  из равенства 
 
 

    Если , то гипотеза о равенстве неизвестной вероятности гипотетической принимается. В противном случае – отвергается в пользу Н1.

    Правило 2. При конкурирующей гипотезе Н1: находят критическую точку правосторонней критической области из равенства: 
 
 

    Если , то гипотеза о равенстве неизвестной вероятности гипотетической принимается. В противном случае – отвергается в пользу Н1.

    Правило 3. При конкурирующей гипотезе Н1: находят сначала «вспомогательную» критическую точку по правилу 2, а затем полагают границу левосторонней критической области

    Если - нет основания отвергать нулевую гипотезу. 

    Замечание. Удовлетворительные результаты обеспечивает выполнение неравенства . 
 

    Контрольная работа на тему: «Статистическая  проверка гипотез». 

Задачи:

1. Производители нового вида аспирина утверждают, что он снимает головную боль за 30 минут. Случайная выборка 121 человека, страдающих головными болями, показала, что новый тип аспирина снимает головную боль за 28,6 минут при среднем квадратическом отклонении 4,2 минуты. Проверьте на уровне значимости a = 0,05 справедливость утверждения производителей аспирина о том, что это лекарство излечивает головную боль за 30 минут.

2. Отдел маркетинга автотранспортного предприятия, занимающегося междугородными перевозками, провел обследование стоимости топлива на бензоколонках по трассе между городами А и В. Результаты показали, что средняя цена одного литра топлива на 52 заправках фирмы Тор-ойл – 1076 рублей со стандартными отклонениями 0,085 руб., а на 58 заправках других фирм средняя цена одного литра - 1054 руб. со стандартным отклонением 0,075 руб. Проверьте на 0,05 уровне значимости гипотезу о том, что средняя цена одного литра топлива на заправках Тор-ойл существенно выше цены этого же топлива на заправках других фирм.

3. Производитель некоторого вида продукции утверждает, что 95% выпускаемой продукции не имеют дефектов. Случайная выборка 100 изделий показала, что 92 из них свободны от дефектов. Проверьте справедливость утверждения производителя продукции на уровне значимости 0,05.

4. При исследовании влияния 2-х типов покрытия на удельную проводимость телевизионных трубок получены следующие результаты (в условных единицах): 

№ трубки
    1
    2
    3
4
    5
    6
1-й  тип
    6
    5
12
    9
10 -
2-й  тип 14 11 0
    5
    6
    8

Можно ли считать, что тип покрытия влияет на удельную проводимость трубок? Принять = 0,10.

(Проверить  гипотезу о равенстве дисперсий  двух генеральных совокупностей.  Если гипотеза о равенстве  дисперсий принимается, то проверить  гипотезу о равенстве средних  на уровне значимости a.) 

5. В таблице приведены данные о месячном доходе 100 жителей региона (в тыс. руб.)

Интервалы Частоты mi
8-10

10-12

12-14

14-16

16-18

18-20

6

16

54

14

8

2

Сумма n = ∑ =100

     Проверьте, используя критерий согласия χ2, гипотезу о том, что данные о месячном доходе жителей подчиняются нормальному закону распределения.

Решение: 

  1. Дано:
   n. = 121

   xср. = 28,6

   σв. = 4,2

   α = 0,05

   а0 = 30

Решение:

Конкурирующая  гипотеза Н1: а < а0. 
 

 → нулевая гипотеза отвергается. 

Ответ: аспирин излечивает головную боль меньше, чем за 30 минут.

Проверить гипотезу:

Н0: а = а0

 
 
 
 
  1. Дано:
   n1 = 52

   xср. = 1076 руб.

   σ1. = 0,085 руб.

   n2 = 58

   yср. = 1054 руб.

   σ1. = 0,075 руб.

   α = 0,05

   
Решение:

Конкурирующая  гипотеза Н1:. 
 
 
 

    нулевая гипотеза принимается. 

Конкурирующая  гипотеза Н1: а > а0. 
 

  → нулевая гипотеза отвергается. 

Ответ: средняя цена одного литра топлива на заправках Тор-ойл существенно выше цены этого же топлива на заправках других фирм.

Проверить гипотезы:

Н0:

Н0: а = а0

 
 
 
 
  1. Дано:
   n = 100

   m = 92

   α = 0,05

   p0 = 0,95

Решение:

Конкурирующая  гипотеза Н1: pген. < p0. 
 
 

    → нулевая гипотеза принимается. 

Ответ: 95% выпускаемой  продукции не имеют дефектов.

Проверить гипотезу:

Н0: pген. = p0

 
 
 
 
  1. Дано:
   α = 0, 1
x тип
    6
    5
12
    9
10 -
y тип 14 11 0
    5
    6
    8
 
   
Решение:

Конкурирующая  гипотеза Н1: :. 
 
 
 
 
 
 
 

    нулевая гипотеза принимается. 
 
 
 
 
 

  → нулевая гипотеза принимается. 

Ответ: тип покрытия не влияет на удельную проводимость трубок.

Проверить гипотезы:

Н0:

Н0:

 
 
 
 
 
 
 
 
 
 
интервал ni   j (ui) ni’=n*h*j (ui)/σв.   (ni - ni’)2/ ni
8 10 6   0,0492 4,8396    
10 12 16 22 0,2269 22,3196 27,1592 0,9800
12 14 54 54 0,3977 39,1191 39,1191 5,6607
14 16 14 14 0,2649 26,0564 26,0564 5,5786
16 18 8 10 0,0670 6,5958 7,2303 1,0610
18 20 2   0,0065 0,6345    
 
 
 
 
 

Ответ: данные о месячном доходе жителей не подчиняются нормальному закону распределения. 
 
 
 
 
 
 
 

Корреляционный  анализ.

 

    Понятие о статистической и корреляционной связи. 

    Современная наука исходит из взаимосвязей всех явлений природы и общества. Объем  продукции предприятия связан с  численностью работников, мощностью  двигателей, стоимостью непроизводственных фондов и еще многими признаками. Невозможно управлять явлениями, предсказывать  их развитие без изучения характера, силы и других особенностей связи. Поэтому  методы исследования, измерения связей составляют чрезвычайно важную часть  методологии научного исследования, в том числе и статистического.

    Различают два типа связей между различными явлениями и их признаками: функциональную, или жестко детерминированную, с  одной стороны, и статистическую, или стохастически детерминированную, - с другой.

    Если  с изменением значения одной из переменных, вторая изменяется строго определенным образом, т.е. значению одной переменной обязательно соответствует одно или несколько точно заданных значений другой переменной, связь  между ними является функциональной.

    Стохастически детерминированная связь не имеет  ограничений и условий, присущих функциональной связи. Если с изменением значения одной из переменных вторая может в определенных пределах принимать  любые значения с некоторыми вероятностями, но ее среднее значение или иные статистические (массовые) характеристики изменяются по определенному закону, связь является статистической. Иными словами, при статистической связи разным значениям одной переменной соответствуют разные распределения значений другой переменной.

    Корреляционной  связью называют важнейший частный случай статистической связи, состоящий в том, что разным значениям одной переменной соответствуют различные средние значения другой. С изменением значения признака x закономерным образом изменяется среднее значение признака y, в то время как в каждом отдельном случае значение признака y (с различными вероятностями) может принимать множество различных значений.

    Если  же с изменением значения признака x среднее значение признака y не изменяется закономерным образом, но закономерно изменяется другая статистическая характеристика (показатели вариации, асимметрии, эксцесса и т.д.), то связь не является корреляционной, но статистической.

    Корреляционная  связь между признаками может  возникать разными путями. Первый (важнейший) путь – причинная зависимость результативного признака (его вариации) от вариации факторного признака. Например, признак x – балл оценки плодородия почв, y – урожайность сельскохозяйственной культуры. Здесь совершенно ясно, что x выступает как независимая переменная (фактор), у – как зависимая переменная (результат).

    Второй  путь – сопряженность, возникающая при наличии общей причины. Известен классический пример, приведенный крупнейшим статистиком России начала 20 века А.А.Чупровым: если в качестве признака x взять число пожарных команд в городе, а за признак y – сумму убытков за год в городе от пожаров, то между признаками x и y в совокупности городов России существовала прямая корреляция; в среднем, чем больше пожарников в городе, тем больше и убытков от пожаров. Уж не занимались ли пожарники поджигательством из боязни потерять работу? Но дело в другом. Данную корреляцию нельзя интерпретировать как связь причины и следствия; оба признака-следствия общей причины – размера города. Вполне логично, что в крупных городах больше пожарных частей, но больше и пожаров, и убытков за них за год, чем в малых городах.

    Третий  путь возникновения  корреляции – взаимосвязь признаков, каждый из которых и причина, и следствие. Такова, например, корреляция между уровнями производительности труда рабочих и уровнем оплаты 1 ч труда (тарифной ставкой). С одной стороны, уровень зарплаты – следствие производительности труда: чем она выше, тем выше и оплата. Но, с другой стороны, установленные тарифные ставки и расценки играют стимулирующую роль: при правильной системе оплаты они выступают в качестве фактора, от которого зависит производительности труда. В такой системе признаков допустимы обе постановки задачи; каждый признак может выступать в роли независимой переменной x и в качестве зависимой переменой y.

    Корреляционная  зависимость выражается модельными уравнениями регрессии: 
 
 

    функции регрессии. Их графики – модельные линии регрессии. Для построения необходимо знать распределение двухмерной случайной величины (X; Y). На практике располагают лишь выборкой пар значений X, Y ограниченного объема.

    Простейшей  системой корреляционной связи является линейная связь между двумя признаками – парная линейная корреляция. Практическое ее значение в том, что есть системы, в которых среди факторов, влияющих на результативный признак, выделяется один важнейший фактор, который в основном определяет вариацию результативного признака. Измерение парных корреляций составляет необходимый этап в изучении сложных, многофакторных связей.

    Уравнение парной линейной корреляционной связи  называется уравнением парной регрессии  и имеет вид: 
 

где – среднее значение признака y при определенном значении признака x; – свободный член уравнения; - коэффициент регрессии, измеряющий среднее отношение отклонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу измерения, - вариация y, приходящаяся на единицу вариации x.

    Параметры уравнения рассчитываются методом наименьших квадратов (МНК) по данным о значениях признаков x и y в изучаемой совокупности, состоящей из n единиц.

    МНК, разработанный К. Ф. Гауссом (1777 – 1855), состоит в минимизации суммы  квадратов отклонений фактически измеренных значений зависимой переменной y от ее значений, вычисленных по уравнению связи с факторным признаком, одним или несколькими, x.

    Исходное  условие МНК для прямой линии  имеет вид: 
 
 

    Для отыскания значений параметров k и b, при которых принимает минимальное значение, частные производные функции приравниваем нулю и преобразуем полученные уравнения, которые называются нормальными уравнениями МНК для прямой: 
 
 

    Отсюда  система нормальных уравнений имеет  вид: 
 
 
 
 
 
 

      – коэффициент регрессии.

     - выборочный корреляционный  момент. 
 
 
 
 
 
 
 
 
 

    Коэффициент корреляции. 

    При линейной форме уравнения  применяется  еще один показатель тесноты связи  – коэффициент корреляции Этот показатель представляет собой стандартизированный коэффициент регрессии, т.е. коэффициент, выраженный не в абсолютных единицах измерения признаков, а в долях среднего квадратического отклонения результативного признака: 
 
 

    Свойства  коэффициента корреляции:

  1. .

    - прямая корреляционная  связь между X и Y,

    - обратная корреляционная  связь между X и Y.

   При прямой (обратной) связи увеличение одной переменной ведет к увеличению (уменьшению) условной средней переменной.

  1. Если все значения переменных увеличить (уменьшить) на одно и то же число или в одно и то же число раз, то коэффициент корреляции не изменится.
  2. В зависимости от того, насколько по модулю приближается к 1 различают связь:
  • Сильная (тесная) –
  • Средняя –
  • Умеренная –
  • Слабая –
  • Очень слабая –
  1. - корреляционная связь представляет собой линейную функциональную зависимость. Линии регрессии Y по X и X по Y совпадают и все наблюдаемые значения располагаются на общей прямой.
  1. – линейная корреляционная связь отсутствует. Групповые средние переменные совпадают с их общими средними, а линии регрессии Y по X и X по Y параллельны осям координат. Это равенство говорит об отсутствии линейной корреляционной зависимости (о некоррелированности переменных), но не об отсутствии корреляции, а тем более, статистической зависимости.
 
 

Проверка  значимости выборочного коэффициента корреляции. 

    Предположим, что  отлично от нуля. Т.к. выборка случайна, то нельзя исключить, что отличен от нуля.

    Проверим  гипотезу о значимости выборочного  коэффициента корреляции или о равенстве  нулю. Н0: ρ = 0.

    Если  нулевая гипотеза отвергается, то значим, а X и Y коррелированны. Если нулевая гипотеза принимается, то коэффициент незначим, а X и Y некоррелированны.

    Н0: ρ = 0

    Н1: ρ 0

    Гипотеза  о незначимости коэффициента рассматривается  по t-распределению Стьюдента с k = n – 2 степенями свободы. Находим  
 

    Если  , нулевая гипотеза отвергается, т.е. следует говорить о значимости выборочного коэффициента корреляции. 
 

    Значимость  уравнения регрессии. 

    Проверить значимость уравнения регрессии  – соответствует ли математическая модель, выражающая зависимость между  переменными, экспериментальным данным. И достаточно ли включенных в уравнение  объясняющих переменных (одной или  нескольких) для описания зависимости  переменных.

    Проверка  значимости уравнения регрессии  производится на основе дисперсионного анализа. 
 
 
 
 

где  – общая сумма квадратов отклонений зависимой переменной от средней ;

      – сумма квадратов,  обусловленная регрессией;

    - сумма квадратов ошибок; характеризует влияние неучтенных фактов. 

    Для проверки значимости уравнения регрессии  построим сводную таблицу: 

    Компоненты  дисперсии Сумма квадратов Число степеней свободы Исправленные квадраты отклонений
    Регрессия   m – 1  
    Остаточная (ошибки)   n –m  
    Общая   n – 1  
 

    Находим и , где m – количество параметров в уравнении.

    Если  , то уравнение регрессии значимо. 
 

    Для оценки качества подбора уравнения  регрессии вводят коэффициент детерминации I2 (индекс корреляций, теоретическое корреляционное отношение). 
 
 

    I2 зависит от величины ошибок и D(Y), характеризует рассеяние точек корреляции относительно yx. 

    И чем ближе  к 1, тем большую часть колебаний y объясняют уравнения регрессии.

    Значимость  коэффициента детерминации: 
 
 
 

    Уравнение регрессии значимо, если  
 
 

    Нелинейная  регрессия. 

    Линейные  связи являются основными. Однако встречаются  и нелинейные связи, хорошо описываемые  параболой, гиперболой и т.д. 

  1. Параболическая  регрессия.
 

    Уравнение регрессии в форме параболы 2-го порядка имеет следующий вид: 
 
 

    Если  при линейной связи среднее изменение  результативного признака на единицу  фактора постоянно по всей области  вариации фактора, то при параболической корреляции изменение признака x на единицу признака y меняется равномерно с изменением величины фактора. В результате связь может даже поменять знак на противоположный, из примой превратиться в обратную, из обратной в прямую. Такой характер связи объективно присущ многим системам. Например, с увеличением дозы удобрений урожайности сельскохозяйственных культур сначала повышается, но если превысить оптимальную величину дозы, то при дальнейшем росте дозы удобрений растения угнетаются и урожайность снижается.

    Нормальные  уравнения при использовании  МНК для нахождения параметров уравнения  параболы 2-го порядка таковы: 
 
 

    Решая эту систему, получаем значения параметров a, b, c. Показателем тесноты параболической корреляции является корреляционной отношение I2. 

  1. Нелинейная  регрессия по параметрам.
 

    Уравнение регрессии по параметрам имеет следующий  вид: 
 
 

    МНК в данном случае не работает. Применим метод логарифмов: 
 
 

    А теперь можно применить МНК: 
 
 

    Для отыскания значений параметров a и b, при которых принимает минимальное значение, частные производные функции приравниваем нулю и преобразуем полученные уравнения, которые называются нормальными уравнениями МНК для прямой: 
 
 

    Отсюда  система нормальных уравнений имеет  вид: 
 
 

    Решая эту систему, получаем значения параметров a, b. Проверка значимости уравнения регрессии по параметрам производится в том же порядке, что и при линейной регрессии. 
 

  1. Гиперболическая регрессия.
 

    Уравнение регрессии в форме гиперболы  имеет следующий вид: 
 
 

    Если  величина b положительна, то при увеличении значения факторного признака x значения результативного признака уменьшаются, причем это уменьшение все время замедляется, и при x ¥ средняя величина признака y будет равна а. если же параметр b отрицателен, то значения результативного признака с ростом фактора возрастают, причем их рост замедляется, и при x ¥ средняя величина признака y будет равна а. Таким образом, гиперболические зависимости характерны для связей, в которых результативный признак не может варьировать неограниченно, его вариация имеет односторонний предел. Например, при освоении нового оборудования его производительность возрастает, но рост замедлится по мере приближения к конструктивно-технологическому пределу производственной мощности агрегата.

    Нормальные  уравнения МНК для гиперболы  таковы: 
 
 

    Решая эту систему, получаем значения параметров a, b. Проверка значимости уравнения гиперболической регрессии производится в том же порядке, что и при линейной регрессии. 
 

    Множественная регрессия. 

    В экономических задачах часто  не хватает одного данного для  полного описания результирующей переменной y. В этом случае в уравнение регрессии вводится несколько объемных факторов: x1, x2, …, xm.

    Пусть (Y; X1…; Xm) – многомерный случайный вектор, тогда функция - это вероятность многомерной регрессии Y по X1, …, Xm, т.е. дает среднее значение Y  при условии, что X1, …, Xm принимает значения x1, …, xm.

    В некоторых случаях проверяют  существование линейной регрессии: 
 
 

    Теорема. Если случайной вектор имеет многомерное нормальное распределение, то функция регрессии линейна по x1, …, xm, т.е. имеет вид (1).

    МНК для определения коэффициентов  множественной линейной регрессии. Пусть имеется выборка объемом  n: 
 
 

    Исходное условие МНК для множественной линейной регрессии имеет вид: 
 
 

    Получаем  матричное уравнение вида: 
 
 
 
 
 
 
 

    Оценка  качества подбора уравнения регрессии: 

где

    Критерий  значимости уравнения множественной  регрессии имеет вид: 
 
 
 

    Проверка  значимости коэффициента регрессии.

    В практических задачах переменная Y может оказаться независящей от 1 или нескольких объясняющих переменных xi. Для проверки значимости параметров, которые отличны от нуля проверяем гипотезу Н0: ai = 0.

    В случае принятия этой гипотезы соответствующие  переменные исключают из равновесия. 
 

где диагональный элемент матрицы , соответствующий . 

    Замечание. В случае наличия незначимых коэффициентов регрессии переменная с наименьшим удаляется из таблицы исходных данных, а уравнение регрессии пересчитывается заново. Эта процедура повторяется, пока все коэффициенты не станут значимыми. 
 
 

    Контрольная работа по теме: «Корреляционный  анализ». 

     Задание 1. 

  1. По заданному варианту данных построить корреляционное поле (xi,yi)  и по визуальной оценке расположения точек на нем выдвинуть гипотезу о виде зависимости y от x.
 
Y  \  X 15 20 25 30 35 40
5 4 2        
10   6 4      
15     6 45 2  
20     2 8 6  
25       4 7 4
 
 
  
  1. Найти выборочное уравнение регрессии прямой регрессии  Y на X по данной корреляционной таблице.
  2. Проверить гипотезу о незначимости выборочного коэффициента корреляции rв при уровне значимости a = 0,05.
  3. Проверить значимость уравнения линейной регрессии при a = 0,05.
 

    Задание 2.

  1. По заданной выборке, используя метод наименьших квадратов, найти уравнение множественной регрессии вида

y = a+ a1x+ a2x2

Y X1 X2
9,4 0,40 1,35
9,9 0,19 1,39
9,1 0,44 1,27
5,5 0,25 1,10
6,6 0,02 1,23
4,3 0,06 1,39
7,4 0,15 1,38
6,6 0,24 1,35
5,5 0,11 1,24
9,4 0,47 1,40
5,7 0,20 1,28
5,2 0,24 1,33
10 0,54 1,22
6,7 0,29 1,35
9,4 0,56 1,20
 
 
     
  1. Найти сумму  квадратов ошибок и коэффициенты детерминации I2.
  2. Проверить значимость уравнения множественной регрессии. Проверить гипотезу о незначимости коэффициентов а1 и а2 полученного уравнения при уровне значимости a

     Уровень значимости .

    Задание 3.

     С помощью  разностного метода, примененного к  краевой задаче для дифференциального  уравнения  , получены значения функции в 11 равноотстоящих узлах.

Y X
0 1
-0,28 1,1
-0,45 1,2
-0,52 1,3
-0,48 1,4
-0,35 1,5
-0,1 1,6
0,25 1,7
0,71 1,8
1,3 1,9
2 2
 

    Известно, что решение  может быть представлено в виде

    .

  1. С помощью метода наименьших квадратов найти коэффициенты a и b.
  2. Сделать вывод о качестве полученного уравнения, вычислив коэффициент детерминации и проверив значимость уравнения нелинейной регрессии при a = 0,05.
  3. При помощи непосредственной подстановки проверить, насколько полученная функция удовлетворяет исходному уравнению.
 
 

Решение.

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

    

Н0: r = 0

    

Н1: r ≠ 0 
 

 

  нулевая гипотеза отвергается. 

Ответ: коэффициент  корреляции значим на 5% уровне. 
 
 
 
 
 
 

 

 

  

Ответ: уравнение  регрессии значимо на 5% уровне. 
 
 

 
 
 
 
 
 
Y Yx e2
9,4 8,727 0,453
9,9 7,053 8,106
9,1 8,688 0,170
5,5 6,155 0,429
6,6 4,747 3,433
4,3 5,894 2,541
7,4 6,647 0,567
6,6 7,301 0,491
5,5 5,599 0,010
9,4 9,598 0,039
5,7 6,598 0,807
5,2 7,202 4,008
10 9,332 0,446
6,7 7,747 1,095
9,4 9,412 0,00014
 
 
 
 
 
 

 

 гипотеза о значимости уравнения регрессии принимается. 
 
 
 
 
 
 
 

 

  нулевая гипотеза  отвергается.

 

  нулевая гипотеза  принимается. 

Ответ: можно говорить о значимости коэффициента а1 и незначимости коэффициента а2 полученного уравнения регрессии. 
 
 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

 

  уравнение регрессии значимо. 
 
 
 
 
 
 

Корни уравнения: 
 

Ответ: полученная функция удовлетворяет исходному уравнению по двум значениям из 11, т.е. примерно на 18%. 
 

 

Заключение.

 
 

    Математическая  статистика является частью общей прикладной математической дисциплины «Теория  вероятностей и математическая статистика», однако задачи, решаемые ею, носят специфический  характер. Если теория вероятностей исследует  явления, полностью заданные их моделью, то в математической статистике вероятностная  модель определена с точностью до неизвестных параметров. Отсутствие сведений о параметрах компенсируется «пробными» испытаниями, на основе которых  и восстанавливается недостающая  информация. Цель математической статистики состоит в создании методов сбора  и обработки статистических данных для получения научных и практических выводов.

    Первая  задача математической статистики заключается  в указании методов сбора и  группировки статистических сведений, которые получены в результате экспериментов  или наблюдений. Вторая задача –  это разработка методов анализа  статистических данных: оценки неизвестной  вероятности события, а также  функций и параметров распределения; оценка зависимости случайной величины от других случайных величин; проверка статистических гипотез о виде и  величинах параметров неизвестного распределения.

    На  основе математической статистики особенно интенсивно разрабатываются статистические методы исследования и контроля массового  производства, статистические методы в области физики, биологии, страхования, медицины, маркетинга и т.д. С начала XX века математические методы, основанные на теории вероятностей, нашли применение в социально-экономических исследованиях, в изучении уровня жизни населения, покупательского спроса, качества продукции и т.д.

 

Список  использованной литературы.

 
  1. В.Е. Гмурман. Теория вероятностей и математическая статистика. – М.: Высшая школа, 1977.
  2. В.Е. Гмурман. Руководство к решению задач по теории вероятностей и математической статистике. – М.: Высшая школа, 1979.
  3. И.И Елисеева, М.М. Юзбашев. Общая теория статистики. – М.: Финансы и статистика, 2006.
  4. А.М. Годин. Статистика: учебник. – М.: Дашков и Ко, 2006.
  5. И.М. Виноградов. Математическая энциклопедия. – М.: Советская энциклопедия, 1982.

Информация о работе Математическая статистика