Обработка статистических данных средствами пакета Statgraphics

Автор работы: Пользователь скрыл имя, 05 Декабря 2011 в 17:00, курсовая работа

Описание работы

Основная цель данной курсовой работы – решение некоторых экономических задач с помощью статистического пакета StatGraphics.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Изучить и систематизировать литературу по статистическим методам обработки информации.
2. Изучить пакет StatGraphics.

Скачать архив (923.41 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

Курсовая по информатике Statgraphics .doc

— 1.23 Мб (Скачать файл)

По умолчанию вводимые данные относятся к числовому типу. Поэтому для первой колонки с данными строкового типа его следует явно определить:

Выделить колонку, щелкнув мышью по ее названию Col_1.
Вызвать контекстное меню, щелкнув правой кнопкой мыши.
В контекстном меню выбрать команду Modify Column.
В одноименном диалоговом окне установить флажок Character.

После этого заполняются колонки Col_1 и Col_2, как показано на рисунке 2.

Рисунок 2. Рабочее окно STATGRAPHICS с результатом обработки данных

Введенные в колонку Col_2 данные числового типа допускают обработку

с помощью стандартных статистических процедур или вручную с использованием окна General Data.

Для обработки вручную, например пересчета стоимостей, указанных в колонке Col_2, при увеличении цен на 20%, то есть умножения на 1,2 каждого значения, выделяется колонка Col_3, планируемая для вывода результатов обработки, вызывается контекстное меню и в нем выбирается команда General Data (Преобразование данных). При этом плоявляется диалоговое окно (рис.3).

Оно включает:

вверху – поле Expression: для формирования вычислительного выражения (ввода числовых значений, задания операторов и встроенных функций);
слева – список Variable: с именами выделенных и заполненных колонок;
посредине – клавиатуру для ввода цифр и арифметических операторов;
справа – список Operators: с именами встроенных функций.

Рисунок 3. Диалоговое окно General Data

Для ввода формулы в поле Expression необходимо:

Дважды щелкнуть по названию переменной Col_2 в списке Variable.
Когда в поле Expression появится имя переменной , на клавиатуре диалогового окна нажать кнопку *, то есть ввести операцию умножения.
На клавиатуре диалогового окна набрать множитель 1,2.

Таким образом в поле Expression отображается необходимая формула, и после нажатия кнопки ОК на клавиатуре диалогового окна в колонке Col_3 появятся результаты, показанные на рисунке 2.

Аналогичным образом в колонке Col_5 отображается характеристика исходных данных, например их наибольшее значение:

Для колонки Col_5 вызывается окно General Data.
В списке Operators двойным щелчком выбирается функция MAX(?).
Двойным щелчком по названию переменной Col_5 в списке Variable выводится окончательное выражение MAX(Col_2) в поле Expression.

Нажатие в диалоговом окне кнопки ОК возвращается в колонку Col_4 наибольшее значение показано на рисунке 2.

2.4. Краткий обзор встроенных статистических процедур.

STATGRAPHICS включает около 250 встроенных статистических процедур, используемых в экономике, науке, технике и производстве для численной и графической характеристики данных.

Процедуры систематизированы в группы – каждая со своим меню (рисунок 1):

Describe – одномерная и многомерная статистическая обработка (описательная статистика);
Compare – методы сравнения выборок, одно – и многофакторный дисперсионные анализы;
Relate – корреляционный и регрессивный одно – и многомерные анализы;
Special – модули дополнительных статистических исследований для контроля качества, планирования эксперимента, анализа временных рядов, многомерных методов кластерного, факторного, дискриминантного, канонического корреляционного и расширенного регрессивного анализов.

3. Выполнение описательной статистики в STATGRAPHICS.

3.1. Характеристика исходных данных.

Выборка исходных данных для компьютерной обработки (описательной статистики) состоит из перечисленных в таблице 1 значений погонных метров фактической месячной проходке штреков (горизонтальных горных выработок). Данные относятся к близким условиям горных работ по категории пород, сечениям, проходческой технике, составу бригад и т. п.

Таблица 2

Выработка, как видно из таблицы 1, колеблется в широких пределах, то есть ведет себя как случайная величина. Выборка данных насчитывает 168 вариант и является репрезентативной.

3.2.Основные задачи обработки данных.

При компьютерной обработки выборки решаются задачи:

освоения операций описательной статистики в стандартных программных средствах по подбору статистической модели, выводов параметров и оценке их значимости;
интерпритации результатов компьютерной обработки для оценки фактической выработки, доверительных интервалов и статистических оснований с целью пересмотра существующей нормы выработки (130 погонных м/месяц).

3.3. Быстрый вывод гистограммы и их общих сведений.

Гистограмма в STATGRAPHICS выводится щелчком на общей панели по пиктограмме Histogram.

Появляющееся диалоговое окно Frequency Histogram (рис.4) содержит список столбцов с переменными, в том числе столбца Col_1 с обрабатываемыми данными. После выделения названия и двойного щелчка по нему мышью имя окажется в строке Data.

На этом завершается указание данных и нажимается кнопка ОК для вывода окна Frequency Histogram - Col_1 с гистограммой и значениями Analysis Summary.

Рисунок 4 Вывод гистограммы

Гистограмма появляется с автоматически выбираемым числом равных интервалов, но его модно изменить с помощью контекстного меню. Для его вызова делается щелчок правой кнопкой мыши в области гистограммы, в появившемся меню выбирается команда Pane Option, которая выводит диалоговое окно с полем вывода числа интервалов. В окне Frequency Histogram - Col_1 имеется своя панель с пиктограммами: Tabular options- для вывода и сворачивания таблицы; Graphics options- для вывода и сворачивания гистограммы. Под панелью находится поле для визуализации гистограммы и таблицы или одной из них. Данные таблицы Analysis Summary содержат сведения об объеме выборки, минимальном и максимальном значениях. В тексте под заголовком StatAdvisor (Консультант экспертной системы) сообщается (в переводе с английского), что выведена гистограмма для одного столбца, но можно получить другие графики и статистики посредством команд меню Describe Numeric Data One- Variable Analysis.

Галерея STATGRAPHICS (специальное окно) дает возможность накапливать графику и другую информацию для последующего анализа, составления отчета и печати. Для этого щелчком правой кнопки мыши по гистограмме вызывается контекстное меню, из которого дается команда копировать в StatGallery. Там с помощью контекстного меню можно изменять компоновку помещенных объектов, убирать и дополнять их.

Для усвоения этих операций предлагается увеличить число интервалов гистограммы на 1- 2 и поместить в StatGallery.

3.4. Полная описательная статистика одномерной выборки.

Описательная статистика в STATGRAPHICS полностью (со своими выборочными характеристиками и графикой) выводится для одномкрной выборки с помощью команд меню Describe Numeric Data One- Variable Analysis.

Эти команды используются для вызова диалогового окна One- Variable Analysis…, в котором указывается столбец Col_1 с данными так же, как для гистограммы (рис.4), и щелчок по кнопке OK выводит окно для описательной статистики One- Variable Analysis- Col_1. Оно похоже на рассмотренное для гистограммы (рис.5), но обеспечивает вывод всех данных описательной статистики и графики.

Опции вывода описательной статистики.

Виды описательной статистики в STATGRAPHICS задаются в окне One- Variable Analysis- Col_1 щелчком по пиктограмме Tabular options. При этом появляется одноименное диалоговое окно со списком опций. После вывода имеет ограниченные размеры, и виды (формы) описательной статистики удобнее вызвать поочередно.

Форма Analysis Summary содержит общую информацию (как при выводе гистограммы) и не предусматривает ее расширение.

Форма Summary Statistica (в левой части рис.5) по умолчанию выводит параметры: Count (Количество), Average (Средне), Variance (Дисперсия), Standart deviation (Среднеквадратическое отклонение), Minimum, Maximum, Stand. skewness (Нормированная в своем среднеквадратическом отклонении коэффицент асимметрии), Stand. kurtosis (Нормированная в своем среднеквадратическом отклонении величина эксцесса) и Sum (сумма). Список выводимых параметров можно изменить посредством контекстного меню. В меню командой Pane Option… выводится диалоговое окно с списком всех статистик. Их выбор осуществляется при установке флажков.

Рисунок 5 Рабочее окно Statgraphics с формой Summary Statistical

Форма Frequency Tabulation Выводит таблицу систематизированных данных со значениями интервалов группирования, частостями для них случайных величин, суммами накоплений (кумулятами) статистиками. Группирование выполняется с автоматически выбираемым числом равных интервалов, но его можно изменить с помощью контекстного меню.

Форма Stem- and- Leaf Display (Ствол с ветвями и листьями) в теории и практике отечественной обработки данных не встречается. Экзотическое название и оригинально представление результатов (рис.6) может произвести впечатление высокого уровня обработки данных.

Рисунок 6 Рабочее окно Statgraphics с формой Stem- and Leaf Display

В этой форме (рис.6) выборка в целом понимается как ствол дерева; интервалы группирования- как ветви; случайные величины в интервалах – как листья.

Весь размах значений случайной величины разделен на пять интервалов - ветвей: 1) от50 до 100; 2) от 100 до 150; 3) от 150 до 200; 4) от 200 до 250; 5) от 250 до 290. Каждому интервалу – ветви – соответствует строка.

Случайные величины, то есть листья, закодированы цифрами (единица кода равна 10 единицам случайной величины).

Восемь кодовых цифр 5 в первой строке отвечают восьми значениям случайной величины от 50 до 60 и т. д.

Вторая строка начинается с цифры 0, отвечающей здесь значениям случайной величины от 100 до 110. Далее кодовая цифра 1 соответствует значениям случайной величины от 110 до 120 и т.д. Строка оборвана после кодовых цифр 3. Это медиана и модальный интервал.

Третья строка начинается с кодовой цифры 5, которая отвечает здесь значениям случайной величины от 150 до 160. Кодовая цифра 6 соответствует значениям случайной величины от 160 до 170 и т. д.

Четвертая строка начинается с кодовой цифры 0, отвечающей здесь значениям случайной величины от 200 до 210.

Пятая строка состоит из одной кодовой цифры 5, которая соответствует значениям случайной величины 250.

Следующие значения встречаются редко и перечисляются ниже отдельно в натуральных значениях случайной величины.

Каждая из пяти строк с кодовыми цифрами слева отделена вертикальной черточкой от числа сотен значений случайной величины, к которым добавляется число десятков в соответствии с кодом листка (рис.6):

в первой строке число сотен равно 0 и кодовым цифрам отвечают случайные значения: 0 – 100 + 5 – 10 =50; 0 – 100 + 6 – 10 =60 и т. д. ;
во второй строке число сотен равно 1 и с кодовыми цифрами получаются случайные значения: 1 – 100 + 0 – 10 = 100; 1 – 100 + 1 – 10 = 110 и .т. д.;
в третьей строке десятки также добавляются к 1 – 100 ;
в четвертой и пятой строках – к 2 – 100.

Количество цифр – кодов в строке, правее вертикальной линии, равно числу случайных величин в интервале, поэтому размеры отражают распределение частот. Строки воспринимаются как гистограмма, повернутая на бок.

Информация о работе Обработка статистических данных средствами пакета Statgraphics