Обработка статистических данных средствами пакета Statgraphics

Автор работы: Пользователь скрыл имя, 05 Декабря 2011 в 17:00, курсовая работа

Описание работы

Основная цель данной курсовой работы – решение некоторых экономических задач с помощью статистического пакета StatGraphics.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Изучить и систематизировать литературу по статистическим методам обработки информации.
2. Изучить пакет StatGraphics.

Файлы: 1 файл

Курсовая по информатике Statgraphics .doc

— 1.23 Мб (Скачать файл)

  Основная  задача статистической обработки выборочной совокупности данных состоит в получении обобщенных характеристик для всей генеральной совокупности, в первую очередь параметров положения, рассеяния и формы.

  Общее и существенное, свойственное выборочной совокупности, скрыто и затушевано колебаниями конкретных проявлений случайной величины. Для того, чтобы узнать это общее, рассматриваются не отдельные, единичные проявления, а вся совокупность. Поэтому ее статистическая обработка состоит в ее усредняющих процедурах, которые подавляют индивидуальные особенности (отклонение от общей закономерности)  и выявляют типичные коллективные свойства экономического объекта или явления в целом.

  Определяемые  при статистической обработке параметры, тем не менее, сохраняют частично подавленные  и случайно пороявляющиеся индивидуальные особенности исходных данных. Иными словами, оценки параметров случайны и, как правило, не совпадают с истинными. Следует различать эти неизвестные истинные параметры генеральной совокупности и их оценки, то есть выборочные параметры, найденные при обработке ограниченной выборке данных.

  1.4. Описательная статистика и ее показатели.

  Описательная  статистика является начальным разделом

  математической  статистики, в которой дается численная и графическая характеристика выборки анализируемых данных.

  Задачи  описательной статистики заключаются  в оценке однородности выборки, закона распределения и его выборочных параметров. 
 

  Параметры положения.

  Параметры положения состоят из характеристики центра распределения: математического  ожидания (среднего арифметического) случайной величины, середины упорядочной совокупности (медианы) и значения, наиболее часто встречающегося в совокупности (моды).

  Выборочное  среднее арифметическое (математическое ожидание) является самым известным и употребляемым параметром положения центра совокупности из случайных вариант x :

   = , где N – объем выборки. Если варианты систематизированы в n интервалов со средними значениями и числом вариант , то среднее арифметическое рассчитывается как среднее взвешенное:

   ,  где N=

  Среднее взвешенное является начальным моментом первого порядка, обычно обозначаем как m. Для непрерывных случайных величин начальный момент первого порядка, математическое ожидание определяются интегралами: .

  Для дискретных случайных величин интегралы  заменяются суммами.

  Медиана случайной величины – это такое ее значение, которое делит совокупность на две равные части: большие и меньшие медианы.

  Мода распределения случайной величины является ее значением, встречающимся наиболее часто.

  Параметры рассеяния.

  Параметры рассеяния показывают разброс случайной величины. Дисперсия определяется как математическое ожидание квадрата отклонения вариант от их математического ожидания, то есть является средним квадратом отклонений случайной величины от ее среднего.

  Дисперсия D – это центральный момент второго порядка и D = . Дисперсия непрерывной случайной величины определяется интегралом:

  D =

.

  Для выборки объемом N оценка дисперсии подсчитывается по формуле:

  D = , где s- число степеней свободы.

  Параметры формы распределения.

  Форма распределения случайной величины характеризуется ассиметрией и эксцессом.

  Ассиметрия (скошенность) обычно обозначается A и определяется как относительная величина центрального момента третьего порядка:

  A =

.

  Эксцесс (крутость или островершинность) E определяется с помощью относительной величины центрального момента четвертого порядка как:

  E =

.

  У нормального закона Е=0, при Е>0 кривая плотности вероятностей приплюснута, ее вершина раздавлена, при Е>0 кривая имеет «острую» вершину. Статистически значимое отклонение Е от 0 доказывает несогласие именно с нормальным законом. 

  1.5. Элементы статистического  анализа одномерной  выборки.

  Параметры эмпирического распределения и его модель, рассматриваемые в описательной статистике, являются предметом анализа и использования для решения прикладных задач экономики.

  Оценка  согласия теоретического и эмпирического  распределения.

  Статистическая  модель эмпирического распределения  должна, как указывалось, прежде всего отвечать сущности ьоделируемого явления. Академик Зельдович Я.Б. и профессор Мышкис А.Д. в курсе прикладной математики по этому поводу  остроумно заметили, что модель тем, чем меньще в ней эмпирического и чем больше в нее вложено теоретического.

  Что касается формальной близости эмпирического  и адекватного ему теоретического распределения (модели), то они не могут  в точности совпадать в силу ограниченности выборки, пораждающей случайные  отклонения частот и параметров. Более того, очень малое расхождение между эмпирическим и теоретическим распределением указывает, как это не парадоксально, на их несогласие, поскольку по закону больших чисел эмпирические частоты сходятся к вероятностям только при неограниченном увеличении объема выборки. Ограниченная по объему выборка должна иметь с моделью расхождение, которое допускает альтернативную интерпретацию:

  • несовпадения эмпирического и теоретического распределений носят случайный характер в рамках допустимых колебаний, не противоречат друг другу, и  гипотезу о согласии с теоретической моделью можно принять;
  • различия эмпирического и теоретического распределений не объясняются случайными колебаниями, статистически значимы, и гипотеза о согласии с теоретической моделью отвергается.

  Правила, по которым устанавливается непротиворечие с теоретической моделью или она отвергается, называются критериями согласия. Обычно оценивается вероятность ошибки при отклонении гипотезы о согласии.

  1.6. Элементы теории  статистически малых  выборок.

  Малые выборки встречаются чаще: в экономической практике, анализируемые в совокупности обычно насчитывают менее 20-30 вариант. К объёму совокупности особенно чувствительна дисперсия. Поскольку вероятность больших отклонений мала, то они при небольшом количестве вариант не попадают в выборку, и дисперсия оказывается систематически заниженной, т. е. смещенной.

  1.6.1 Параметры t-распределения Стьюдента.

  В t-распределении, разработанном Стьюдентом, вместо варианты хi для малых выборок объёмом n (n<30) рассматривается величина

  t=

Формула 1

     

  Здесь - выборочное среднее малой выборки, которая подсчитывается по формуле 1; m – неизвестное математическое ожидание генеральной совокупности; sx – оценка среднеквадратичного отклонения вариант в выборке.

  Иными словами, в t- распределении Стьюдента рассматривается нормированная разность выборочной средней c неизвестным математическим ожиданием генеральной совокупности m. Единица нормирования – среднеквадратичное отклонение среднего.

  Распределение Стьюдента зависит от числа степеней свободы, подсчитываемого как n-1, и при n>20 сходится к нормальному закону. При n<20 – позволяет корректно описать поведение случайных величин по выборочным оценкам математического ожидания и стандартного отклонения.  
 
 
 

  1.6.2. Условие корректного  применения t- распределения.

  Корректная  статистическая обработка малых  выборок и решение задач с  использованием t – распределения Стьюдента предполагает согласие с нормальным законом.

  Непосредственно по малой выборке трудно составить  представление о поинтервальном распределении частостей вариант. Малое количество вариант и потеря больших отклонений ведут к систематическим  и случайным отклонениям выборочных параметров от их значений в генеральной совокупности, что снижает их достоверность как критериев при тестировании типа распределения.

  Распределение подобных сумм случайных слабосвязанных величин в соответствии с центральной  предельной теоремой теории вероятностей сходится к нормальному закону с ростом числа слагаемых. Тип распределения каждого слагаемого в сумме может быть произвольным, но с конечными значениями математического ожидания и дисперсии. 

  1.6.3.Задача о значимости различий  между средними малых выборок.

  Оценка  значимости средних в малых выборках является одной из задач их статистической обработки. Пусть, например, требуется оценить значимость (вероятность) различий ежедневных выручек за рассматривавшийся (1-я выборка) и другой (2-я вборка) периоды, представленные в таблице 1.

  

Таблица 1 

  Достоверность различий ежедневных выручек в обеих  выборках можно оценить как вероятность  отличия от 0 разности между выборочными  средними и . Предполагается, что варианты в обеих выборках имеют одинаковое среднее квадратическое отклонение sx.

  Если  генеральные совокупности  распределены по нормальному закону, то нормированная  разность выборочных средних является случайной величиной, которая подчиняется t – распределению Стьюдента с математическим  ожиданием и n1+n2 – 2 числом степени свободы:

  

Формула 2 

  Средне  квадратичное отклонение s такой случайной величины t по правилу сложения ошибок состоит из рассеяний (дисперсий) выборочных средних и в обеих выборках:

  

Формула 3

                                                                             

    Выборочное средне квадратичное отклонение sx складывается из отклонений вариант в обеих выборках относительно своих средних и делится на общее число степеней свободы.

  Для компьютерной реализации формул удобнее  выразить через выборочные оценки дисперсии  D1 и D2:

  

Формула 4

                            

    Найденное среднее квадратичное отклонение sx позволяет определить:

  • по формуле 3 – средне квадратичное отклонение s разности средних;
  • по формуле 2 – перейти к случайной величине t, отвечающей разности средних и подчиненной t – распределению Стьюдент;
  • вероятность отклонения разности средних от 0, а исходя из  t – распределению Стьюдента.

  Чем больше t, тем больше вероятность отклонения разности средних от 0 и меньше вероятность ошибки принятия гипотезы о значимости различий средних. 

1.7. Понятие приближения стахостической зависимости.

  1.7.1. Понятие стахостической парной зависимости.

  Влияние контролируемого фактора на изучаемое  явление, выраженное в некоторых  количественных показателях, устанавливается дисперсионным анализом. Но если влияние есть и уровни контролируемого фактора допускают численное измерение, то возможно более полное, количественное, изучение этого влияния с построением зависимости показателей явления,  например y(x) от значений контролируемого фактора x.

  Как и в дисперсионном анализе, сложность заключается в учете влияния контролируемого фактора, то есть эмпирической зависимости от него, на фоне множества неучитываемых случайных воздействий.

  Подобные  зависимости относятся к стахостическим. В них каждое допустимое значение аргумента x обуславливает не определенную величину зависимой переменной y(x), а ее стахостическое распределение с параметрами.

Информация о работе Обработка статистических данных средствами пакета Statgraphics