Автор работы: Пользователь скрыл имя, 05 Сентября 2013 в 12:54, реферат
Исследование статистической совокупности с помощью выборочного метода предполагает получение ее характеристик не по всем единицам наблюдения, а по некоторой их части, сформированной в случайном порядке.
Источником информации для выборочного исследования является выборочное наблюдение, которое является одной из разновидностей несплошного наблюдения.
Целесообразность проведения выборочных исследований диктуется целым рядом обстоятельств.
Во-первых, оно существенно сокращает трудоемкость исследовательской работы как на получения исходной информации, так и на всех этапах последующей обработки.
.
Эта оценка также является смещенной. Поэтому в необходимых случаях целесообразно сделать поправку:
Полученные варианты точечных оценок имеют один общий недостаток. При их применении невозможно даже приблизительно представить ту ошибку, которая возникает при выборочном исследовании. Выборочные характеристики как правило близки к генеральным, но не исключено, что в конкретной однократной выборке ошибка может оказаться достаточно большой.
Существует методический прием, позволяющий резко снизить вероятность появления грубых ошибок. Он заключается в проведении контрольной (повторной) выборки обычно меньшего объема. Если характеристики, рассчитанные по контрольной выборке, не имеют существенных расхождений с первоначальными, то полученные выборочные характеристики можно с достаточной уверенностью использовать в роли точечных оценок генеральных характеристик.
Тем не менее, на практике чаще пользуются интервальными оценками, для получения которых помимо выборочных характеристик необходимо знать величину ошибки выборки.
Рассмотрим более подробно понятие ошибки выборки. Причина ее возникновения связана с тем, что отобранная для обследования статистическая совокупность может иметь по исследуемому признаку иную структуру, чем генеральная совокупность. Поэтому характеристики выборки в некоторой степени отличаются от генеральных. Следовательно, их использование в качестве оценок порождает определенную ошибку, которую принято называть ошибкой репрезентативности. Различают систематические и случайные ошибки репрезентативности.
Систематические ошибки возникают при нарушении принципа случайности отбора единиц, то есть из-за его тенденциозности. Устранение этих ошибок возможно только на основе только на основе строго соблюдения правил случайного отбора.
Случайные ошибки репрезентативности сохраняются даже при правильно организованном отборе. Избежать этих ошибок невозможно, однако их величину можно определить и учесть в процессе оценки генеральных характеристик по выборочным.
Ошибка конкретной выборки представляет собой абсолютную величину разности между соответствующими выборочной и генеральной характеристиками:
– для средней
– для доли
Эти выражения нельзя непосредственно применить для расчета ошибки, так как при использовании выборочного метода истинные значения генеральных характеристик так и остаются неизвестными. Если же эти характеристики устанавливаются на основе сбора и обработки данных по всей генеральной совокупности, то сама идея выборочного метода становится бесполезной.
Можно попытаться изучить поведение этой ошибки экспериментальным путем. Если последовательно сформировать целую серию выборок и в каждой из них рассчитать значение определенной выборочной характеристики, то появится база для исследования изменения этого значения. Поскольку величина выборочной характеристики в каждой из выборок будет отлична от других, то в целом по серии она становится переменной, имеющей случайный характер. Соответственно, и ошибка выборки окажется в этой ситуации переменной случайной величиной, для которой по наблюдаемым значениям можно построить ряд распределения, рассчитать его параметры и на этой основе решить задачу расчета ошибки с заданной доверительной вероятностью.
Вместе с тем, такой чисто практический метод решения проблемы окажется довольно сложным и мало выиграет в трудоемкости по сравнению с прямым установлением характеристики по всей генеральной совокупности.
Существует более простой способ выявления характера распределения выборочной характеристики и ее ошибки. С помощью теорем математической статистики можно доказать, что любая выборочная характеристика при достаточно большом объеме выборки имеет нормальное (Гаусово) распределение независимо от исходной формы распределения признака в генеральной совокупности. На практике полагают, что выборка оказывается достаточно большого объема, если она насчитывает от 30 и более единиц наблюдения.
Зная теперь закон распределения выборочных характеристик, можно получить аналитические выражения для вычисления средней квадратической ошибки выборки ( ), которая по своей сути соответствует среднему квадратическому отклонению выборочной характеристики от генеральной.
Средняя квадратическая ошибка выборочной характеристики зависит от объема выборки и степени вариации признака в генеральной совокупности.
В случае формирования выборки собственно случайным повторным методом величина среднеквадратической ошибки выборочной средней определяется следующим выражением:
где
– дисперсия признака в генеральной совокупности,
– объем выборочной совокупности.
В ряде случаев удобно использовать другую формулу:
,
где
– среднеквадратическое отклонение признака в генеральной совокупности,
Следовательно, чем шире варьирует признак в генеральной совокупности, тем больше ошибка его выборочной средней. Чем больше единиц наблюдения включено в выборку, тем меньше величина ошибки выборочной характеристики.
Конечно же значение рассчитанной таким образом ошибки является средним для всего множества возможных выборок. В конкретной выборке ошибка может оказаться либо больше, либо меньше своего среднего значения. Обозначим ошибку выборочной средней в конкретной выборке через и в соответствии с законом нормального ее распределения определим вероятность того, что она не превзойдет некоторой величины кратной . Используя для этого функцию Лапласа, можно записать:
Поскольку ошибки выборки могут быть как положительные, так и отрицательные, то вероятность появления их абсолютных значений должна быть удвоена:
Для практического определения этой вероятности используется специальная таблица, публикуемая в статистических справочниках.
Если доверительная вероятность задана, то величина предельно возможной ошибки выборочной средней для конкретной выборки может быть установлена с помощью следующего равенства:
где выполняет роль коэффициента кратности, величина которого зависит только от принятой доверительной вероятности. Поэтому его обычно называют коэффициентом доверия.
Принципиально коэффициент доверия может принимать любые положительные значения. Однако в практических расчетах величину ограничивают довольно узкими пределами. По таблице функции Лапласа легко показать, что вероятность появления ошибки выборочной средней:
– в пределах составляет 0,683
– в пределах составляет 0,954
– в пределах составляет 0,997
– в пределах составляет 0,9999
Следовательно, существует крайне малая вероятность того, что ошибка выборочной средней по абсолютной величине окажется больше, чем или .
Расчет ошибки выборочной доли выполняется по тем же принципам с использованием дисперсии альтернативного признака, которая вычисляется по формуле:
где
– доля единиц в генеральной совокупности, обладающих данным свойством, или имеющих определенное значение признака (генеральная доля),
– доля единиц в генеральной совокупности, не обладающих данным свойством, или имеющих другое значение признака (величина, дополняющая генеральную долю до единицы).
Тогда, средняя ошибка выборочной доли при собственно случайном повторном отборе может быть рассчитана с помощью следующего выражения:
Вероятность того, что выборочная доля отклонится от генеральной доли в ту или иную сторону больше, чем на (или ) крайне мала.
В рассмотренных теоретических формулах расчета ошибок выборочных характеристик используется генеральная дисперсия (или генеральное среднеквадратическое отклонение). Однако при выборочном исследовании их истинные значения неизвестны. Поэтому для практических вычислений приходится прибегать к приближенным формулам, в которых генеральные характеристики заменены выборочными. Очевидно, для этой замены целесообразно использовать несмещенные (исправленные) выборочные характеристики. Покажем связь генеральной и выборочной дисперсии, полагая, что расчеты их величин выполняются по несгруппированным данным.
Исходное выражение математического ожидания выборочной дисперсии имеет вид:
Выполним алгебраические преобразования.
Каждое из трех слагаемых полученного выражения имеет свое содержание:
– первое слагаемое
– генеральная дисперсия
– второе слагаемое
– минус удвоенный квадрат среднеквадратической ошибки выборки.
– третье слагаемое
– квадрат среднеквадратической ошибки выборки.
Тогда можно записать:
Поскольку , то:
Таким образом, математическое ожидание выборочной дисперсии меньше генеральной дисперсии на величину . Отсюда можно определить поправку к выборочной дисперсии для получения несмещенной оценки генеральной:
если
То есть, несмещенная оценка генеральной дисперсии равны выборочной дисперсии, домноженной на соотношение .
Теперь несложно получить расчетные формулы для практического вычисления среднеквадратических ошибок выборки:
– среднеквадратическая ошибка выборочной средней
– среднеквадратическая ошибка выборочной доли:
Полученные формулы справедливы для выборочного исследования, проводимого на основе собственно случайного повторного отбора. Для других методов отбора единиц следует сделать некоторые уточнения.
Формулы расчета среднеквадратических ошибок выборки, используемые при различных методах формирования выборочной совокупности целесообразно представить в сводной таблице.
Расчетные формулы для определения среднеквадратических ошибок выборки
Методы |
Выборочные характеристики | |
отбора единиц |
выборочная средняя |
выборочная доля |
Без разделения генеральной совокупности
повторный отбор |
|
|
бесповторный отбор |
– объем генеральной совокупности |
|
С разделением генеральной совокупности
механический отбор |
– шаг отбора |
|
районированный отбор |
– средняя внутригрупповая выборочная дисперсия |
– средняя внутригрупповая дисперсия доли |
серийный отбор (с равновеликими сериями) |
– межгрупповая (межсерийная) дисперсия – число серий в выборке – число серий в генеральной совокупности |
– межгрупповая (межсерийная) дисперсия доли |
При многоступенчатом отборе единиц общая среднеквадратическая ошибка выборочной характеристики определяется с учетом ошибок, установленных для каждой ступени формирования выборочной совокупности:
где
– число ступеней отбора.
Формулы, указанные для расчета среднеквадратических ошибок выборочных характеристик позволяют при различных методах отбора единиц обосновать решение трех основных задач выборочного исследования:
1. Получать с заданной степенью надежности интервальные оценки генеральных характеристик.
известны:
объем генеральной совокупности
объем выборочной совокупности
доверительные вероятности и
искомые значения:
интервальная оценка генеральной средней