Обработка статистических данных средствами пакета Statgraphics

Автор работы: Пользователь скрыл имя, 05 Декабря 2011 в 17:00, курсовая работа

Описание работы

Основная цель данной курсовой работы – решение некоторых экономических задач с помощью статистического пакета StatGraphics.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Изучить и систематизировать литературу по статистическим методам обработки информации.
2. Изучить пакет StatGraphics.

Файлы: 1 файл

Курсовая по информатике Statgraphics .doc

— 1.23 Мб (Скачать файл)

  По  умолчанию вводимые данные относятся  к числовому типу. Поэтому для  первой колонки с данными строкового типа его следует явно определить:

  1. Выделить колонку, щелкнув мышью по ее названию Col_1.
  2. Вызвать контекстное меню, щелкнув правой кнопкой мыши.
  3. В контекстном меню выбрать команду Modify Column.
  4. В одноименном диалоговом окне установить флажок Character.

  После этого заполняются колонки Col_1 и Col_2, как показано на рисунке 2.

  

  Рисунок 2. Рабочее окно STATGRAPHICS  с результатом обработки данных 

  Введенные в колонку Col_2 данные числового типа допускают обработку

  с помощью стандартных статистических процедур или вручную с использованием окна General Data.

  Для обработки вручную, например пересчета стоимостей, указанных в колонке Col_2, при увеличении цен на 20%, то есть умножения на 1,2 каждого значения, выделяется колонка Col_3, планируемая для вывода результатов обработки, вызывается контекстное меню и в нем выбирается команда General Data (Преобразование данных). При этом плоявляется диалоговое окно (рис.3).

  Оно включает:

  • вверху – поле Expression: для формирования вычислительного выражения (ввода числовых значений, задания операторов и встроенных функций);
  • слева – список Variable: с именами выделенных и заполненных колонок;
  • посредине – клавиатуру для ввода цифр и арифметических операторов;
  • справа – список Operators: с именами встроенных функций.

  

  Рисунок 3. Диалоговое окно General Data 

  Для ввода формулы в поле Expression необходимо:

  1. Дважды щелкнуть по названию переменной Col_2 в списке Variable.
  2. Когда в поле Expression появится имя переменной , на клавиатуре диалогового окна нажать кнопку *, то есть ввести операцию умножения.
  3. На клавиатуре диалогового окна набрать множитель 1,2.

  Таким образом в поле Expression отображается необходимая формула, и после нажатия кнопки ОК на клавиатуре диалогового окна в колонке Col_3 появятся результаты, показанные на рисунке 2.

  Аналогичным образом в колонке Col_5 отображается характеристика исходных данных, например их наибольшее значение:

  1. Для колонки Col_5 вызывается окно General Data.
  2. В списке Operators двойным щелчком выбирается функция MAX(?).
  3. Двойным щелчком по названию переменной Col_5 в списке Variable выводится окончательное выражение MAX(Col_2) в поле Expression.

  Нажатие в диалоговом окне  кнопки ОК возвращается в колонку Col_4 наибольшее значение показано на рисунке 2.

  2.4. Краткий обзор  встроенных статистических  процедур.

  STATGRAPHICS включает около 250 встроенных статистических процедур, используемых в экономике, науке, технике и производстве для численной и графической характеристики данных.

  Процедуры систематизированы в группы – каждая со своим меню (рисунок 1):

  • Describe – одномерная и многомерная статистическая обработка (описательная статистика);
  • Compare – методы сравнения выборок, одно – и многофакторный дисперсионные анализы;
  • Relate – корреляционный и регрессивный одно – и многомерные анализы;
  • Special – модули дополнительных статистических исследований для контроля качества, планирования эксперимента, анализа временных рядов, многомерных методов кластерного, факторного, дискриминантного, канонического корреляционного и расширенного регрессивного анализов.
 
 
 
 
 
 
 
 
 

3. Выполнение описательной статистики в STATGRAPHICS. 

  3.1. Характеристика исходных  данных.

  Выборка исходных данных  для компьютерной обработки (описательной статистики) состоит из перечисленных в таблице 1 значений погонных метров фактической месячной проходке штреков (горизонтальных горных выработок). Данные относятся к близким условиям горных работ по категории пород, сечениям, проходческой технике, составу бригад и т. п.

  

  Таблица 2 

  Выработка, как видно из таблицы 1, колеблется в широких пределах, то есть ведет  себя как случайная величина. Выборка данных насчитывает 168 вариант и является репрезентативной. 

  3.2.Основные  задачи обработки  данных.

  При компьютерной обработки выборки  решаются задачи:

  • освоения операций описательной статистики в стандартных программных средствах по подбору статистической модели, выводов параметров и оценке их значимости;
  • интерпритации результатов компьютерной обработки для оценки фактической выработки, доверительных интервалов и статистических оснований с целью пересмотра существующей нормы выработки (130 погонных м/месяц).
 

3.3. Быстрый вывод  гистограммы и  их общих сведений.

  Гистограмма в STATGRAPHICS выводится щелчком на общей панели по пиктограмме Histogram.

  Появляющееся диалоговое окно Frequency Histogram (рис.4) содержит список столбцов с переменными, в том числе столбца Col_1 с обрабатываемыми данными. После выделения названия и двойного щелчка по нему мышью имя окажется в строке Data.

  На  этом завершается указание данных и  нажимается кнопка ОК для вывода окна Frequency Histogram  - Col_1 с гистограммой и значениями Analysis Summary.

  

Рисунок 4 Вывод гистограммы 

  Гистограмма появляется  с автоматически выбираемым числом равных интервалов, но его модно  изменить с помощью контекстного меню. Для его вызова делается щелчок правой кнопкой мыши в области  гистограммы, в появившемся меню выбирается команда Pane Option, которая выводит диалоговое окно с полем вывода числа интервалов. В окне Frequency Histogram  - Col_1 имеется своя панель с пиктограммами: Tabular options-  для вывода и сворачивания таблицы; Graphics options- для вывода и сворачивания гистограммы. Под панелью находится поле для визуализации гистограммы и таблицы или одной из них. Данные таблицы Analysis Summary содержат сведения об объеме выборки, минимальном и максимальном значениях. В тексте под заголовком StatAdvisor (Консультант экспертной системы) сообщается (в переводе с английского), что выведена гистограмма для одного столбца, но можно получить другие графики и статистики посредством команд меню Describe Numeric Data One- Variable Analysis.

  Галерея STATGRAPHICS (специальное окно) дает возможность накапливать графику и другую информацию для последующего анализа, составления отчета и печати. Для этого щелчком правой кнопки мыши по гистограмме вызывается контекстное меню, из которого дается команда копировать в StatGallery. Там с помощью контекстного меню можно изменять компоновку помещенных объектов, убирать и дополнять их.

  Для усвоения этих операций предлагается увеличить число интервалов гистограммы  на 1- 2 и поместить в StatGallery. 

  3.4. Полная описательная статистика одномерной выборки.

  Описательная  статистика в STATGRAPHICS полностью (со своими выборочными характеристиками и графикой) выводится для одномкрной выборки с помощью команд меню Describe Numeric Data One- Variable Analysis.

  Эти команды используются  для вызова  диалогового окна One- Variable Analysis…, в котором указывается столбец Col_1 с данными так же, как для гистограммы (рис.4), и щелчок по кнопке OK выводит окно для описательной статистики One- Variable Analysis- Col_1. Оно похоже на рассмотренное для гистограммы (рис.5), но обеспечивает вывод всех данных описательной статистики и графики.

  Опции вывода описательной статистики.

  Виды  описательной статистики в STATGRAPHICS задаются в окне One- Variable Analysis- Col_1 щелчком по пиктограмме Tabular options. При этом появляется одноименное диалоговое окно со  списком опций. После вывода имеет ограниченные размеры, и виды (формы) описательной статистики удобнее вызвать поочередно.

  Форма Analysis Summary содержит общую информацию (как при выводе гистограммы) и не предусматривает ее расширение.

  Форма Summary Statistica (в левой части рис.5) по умолчанию выводит параметры: Count (Количество), Average (Средне), Variance (Дисперсия), Standart deviation (Среднеквадратическое отклонение), Minimum, Maximum, Stand. skewness (Нормированная в своем среднеквадратическом отклонении коэффицент асимметрии), Stand. kurtosis (Нормированная в своем среднеквадратическом отклонении величина эксцесса) и Sum (сумма). Список выводимых параметров можно изменить посредством контекстного меню. В меню командой  Pane Option… выводится диалоговое окно с списком всех статистик. Их выбор осуществляется при установке флажков.

  

Рисунок 5 Рабочее окно Statgraphics с формой Summary Statistical 

  Форма Frequency Tabulation Выводит таблицу систематизированных данных  со значениями интервалов группирования, частостями для них случайных  величин, суммами накоплений (кумулятами) статистиками. Группирование выполняется с автоматически выбираемым числом равных интервалов, но его можно изменить с помощью контекстного меню.

  Форма Stem- and- Leaf Display (Ствол с ветвями и листьями) в теории и практике отечественной обработки данных не встречается. Экзотическое название и оригинально представление   результатов (рис.6) может произвести впечатление высокого уровня обработки данных.

  

Рисунок 6 Рабочее окно Statgraphics с формой Stem- and Leaf Display 

  В этой форме (рис.6)  выборка в целом  понимается как ствол дерева; интервалы  группирования- как ветви; случайные  величины в интервалах – как листья.

  Весь  размах значений случайной величины разделен на пять интервалов -  ветвей: 1) от50 до 100; 2) от 100 до 150; 3) от 150 до 200; 4) от 200 до 250; 5) от 250 до 290. Каждому интервалу – ветви – соответствует строка.

  Случайные величины, то есть листья, закодированы цифрами (единица кода равна 10 единицам случайной величины).

  Восемь  кодовых цифр 5 в первой строке отвечают восьми значениям случайной величины от 50 до 60 и т. д.

  Вторая  строка начинается с цифры 0, отвечающей здесь значениям случайной величины от 100 до 110. Далее кодовая цифра 1 соответствует значениям случайной величины от 110 до 120 и т.д. Строка оборвана после кодовых цифр 3. Это медиана и модальный интервал.

  Третья  строка начинается с кодовой цифры 5, которая отвечает здесь значениям  случайной величины от 150 до 160. Кодовая  цифра 6 соответствует значениям случайной величины от 160 до 170 и т. д.

  Четвертая строка  начинается с кодовой  цифры 0, отвечающей здесь значениям  случайной величины от 200 до 210.

    Пятая строка состоит из одной  кодовой цифры 5, которая соответствует  значениям случайной величины 250.

    Следующие значения встречаются  редко  и перечисляются ниже  отдельно в натуральных значениях  случайной величины.

  Каждая  из пяти строк с кодовыми цифрами  слева отделена вертикальной черточкой  от числа сотен значений  случайной величины, к которым добавляется число десятков в соответствии с кодом листка (рис.6):

  • в первой строке число сотен равно 0 и кодовым цифрам  отвечают случайные значения: 0 – 100 + 5 – 10 =50; 0 – 100 + 6 – 10 =60 и т. д. ;
  • во второй строке число сотен равно 1 и с кодовыми цифрами получаются  случайные значения: 1 – 100 + 0 – 10 = 100; 1 – 100 + 1 – 10 = 110 и .т. д.;
  • в третьей строке десятки также добавляются к 1 – 100 ;
  • в четвертой и пятой строках – к 2 – 100.

   Количество  цифр – кодов в строке, правее вертикальной линии, равно числу случайных величин в интервале, поэтому размеры  отражают распределение частот. Строки воспринимаются как гистограмма, повернутая на бок.

Информация о работе Обработка статистических данных средствами пакета Statgraphics