Обработка статистических данных средствами пакета Statgraphics

Автор работы: Пользователь скрыл имя, 05 Декабря 2011 в 17:00, курсовая работа

Описание работы

Основная цель данной курсовой работы – решение некоторых экономических задач с помощью статистического пакета StatGraphics.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Изучить и систематизировать литературу по статистическим методам обработки информации.
2. Изучить пакет StatGraphics.

Скачать архив (923.41 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

Курсовая по информатике Statgraphics .doc

— 1.23 Мб (Скачать файл)

Стандарт погрешности зависимой переменной (Standard Error of Est.) составляет 325,1 и позволяет получить доверительные интервалы предсказании зависимой переменной по задаваемым значениям независимых переменных.

Средняя абсолютная ошибка (Mean absolute error) прогноза зависимой переменной составляет 226,9.

Тест Durbin- Watson для остатков не выявил значимой автокорреляции (ее вероятность менее 0,05), то есть остатки могут полагаться случайными. На: это же указывает коэффициент автокорреляции с лагом 1 и графики остатков,

В построенной модели нулевая оценка регрессионного коэффициента при независимой переменной Р имеет самую высокую t-вероятность (0,87), тогда как малозначимыми считаются регрессионные коэффициенты с вероятностями нулевых оценок, большими или равными 0,10.

Исходя из этого, независимую переменную Р предлагается не включать в модель, хотя критический уровень (0,10) t-вероятности превышает также оценка регрессионного коэффициента при независимой переменной W. Этим выводом приходится дополнять в целом достаточно полезную консультацию StatAdvisor.

Исключение из модели незначимых независимых переменных позволяет построить второе приближение многомерной зависимости, что можно сделать двумя способами:

явно - вручную;
с использованием специальной процедуры.

Задание второго приближения многомерной модели

Для того чтобы убрать из модели незначимые независимые, переменны явным образом, не выходя из окна Multiple Regression, щелчком по пиктограмме Input dialog, обозначенной на рис.19, вызывается диалоговое окно, показанное на рис.18. В его поле Independent Variables: выделяется и затем удаляются независимые переменные P и W .

Кнопка ОК закрывает диалоговое окно ввода данных и возвращает в основное
окно Multiple Regression. При выполнении команды Analysis Summary из cписка
Tabular options для второго приближения модели выводятся результаты.
Таким образом, качество модели при удалении малозначимых независимых пе
ременных по показателям, которые учитывают число степеней свободы, улучшилось

уменьшилась необъясненная дисперсия (Residual) и существенно увеличи
лось F-отношение (F-Ratio);
R-squared (adjusted for d.f.) - коэффициент детерминации - увеличился бо
лее чем на 0,5%. ;

Оценки регрессионных коэффициентов при оставшихся пёременных существен-
но отличаются от нуля и позволяют представить многомерную линейную модель
в следующем виде: S = -3238,44 + 0,6659*S1 + 4,2544*А + 15,2499* А1 + 0,5082*Т.

Автоматизированный отбор релевантных переменных.

Пакет STATGRAPHICS, созданный до системы STATISTICA, имеет оригинальный встроенный алгоритм автоматизированного отбора независимых переменных. Для запуска алгоритма, если после анализа первого приближения выяснилась необходимость уточнения, достаточно щелкнуть правой кнопкой по результирующей таблице (рис.19) и в контекстном меню выбыть команду
Analysis Options. В появляющемся диалоговом окне (рис.20) устанавливается флажок Forward Selection, который позволяет удалить все частные регрессии и затем пошагово добавить каждую, удовлетворяющую принятым критериям.

Рисунок 20 Рабочее окно STATGRAPHICS в режиме Multiple Regression с диалоговым окном Multiple Regression Options.

Щелчок по кнопке ОК в диалоговом окне Multiple Regression Optiois (рис.21)
возвращает в режим Multiple Regression. I

После выполнения команды Analysis Summary из списка Tabular options вызываемого щелчком по одноименной пиктограмме, выводятся результаты. Следовательно, алгоритм автоматически удаляет две указанные
малозначимые независимые переменные.

Ниже выводятся пошаговые результаты добавления тех независимых переменных, которые увеличивают коэффициент детерминации и уменьшают дисперсию
остатков. При выборе команды Conditional Sums of Squares из списка Tabular options выводится таблица с вкладами каждой из отобранных независимых переменных в общее объясненное рассеяние. Приведены F-отношения этих частных дисперсий к дисперсии остатков модели и близкие к нулю вероятности ошибок отклонений гипотез о незначимом вкладе переменных в объясненное моделью рассеяние. Иными словами, каждая из отобранных независимых переменных значимо влияет на общее объясненное рассеяние (в модели).

Команда Component Effects Plot из списка Graphical Options, который вызывается щелчком по одноименной пиктограмме, выводит для выбранной независимой переменной график соответствующей ей части, то есть компоненты зависимой переменной. Выбор независимой переменной возможен из списка, вызываемого при выборе в контекстном меню команды Pane Options.

Для вывода диаграммы рассеяния фактических значений зависимой переменной относительно предсказываемых моделью выбирается команда
Observed versus Predicted Plot из списка Graphical Options, вызываемого щелчком по одноименной пиктограмме.

Команды Residuals versus X Plot и Residual versus Row Number Plot из списка Graphical Options используются для вывода графиков, на которых для выбранной независимой переменной отображаются распределения остатков модели (в драхмах и t-отклонениях). Выбор независимой переменной возможен в списке, вызываемом при выборе в контекстном меню команды Pane Options, графики позволяют проследить, насколько случайно распределение остатков, cooтветствуют ли они отсутствию значимой автокорреляции, то есть случайной, последовательности. В противном случае линейная зависимость с независимой переменной является недостаточной.

Рисунок 21 иллюстрирует распределение остатков зависимой беременной при выборе в списке Graphical Options графика Residuals Versus Predicated. Распределение остатков носит случайный характер без признаков автокореляции.

Рисунок 21 Диаграмма рассеяния остатков зависимой переменной.

7. Дескриптивный анализ временных рядов в системе STATGRAPHICS.

В пакете STATGRAPHICS Plus for Windows 2.1, как и в предыдущих версиях, имеется специальный модуль анализа временных рядов Time-Series Analysis. Который вызывается одноименной командой из меню Special.

В 5-ой версии модуль Time-Series Analysis дополнен блоком, атоматизирующим выбор модели. Все блоки доступны из меню, которое появляется при вызове модуля:

Descriptive Methods - описательное методы, обеспечивающие вывод графиков временного ряда, автокорреляции, периодограммы, выполнение тестов рандомизации и кросс – корреляции;
Smoothing - сглаживание различными методами скользящего среднего (простого, Спенсера, взвешенного Хендерсона, экспоненциально взвешенного);
Seasonal Decomposition - сезонная декомпозиция мулътиплкативного и аддитивного типа;
Forecasting - прогнозирование методами ARIMA Бокса-Дженкинса, случайного поиска, среднего, тренда (линейного, квадратичного), экспоненциального сглаживания (простого, линейного Хольта, квадратичного, Винтера);
Automatic Forecasting - прогноз с автоматическим выбором наиболее подходящей модели.

Начальные операции в блоке Descriptive Methods

Дескриптивный анализ рассматривается применительно к динамике складских запасов сгущенного молока (см. табл.4).

Таблица 5

Таблица 5 состоит из ежемесячных складских запасов с января 1985 по декабрь 1990 года, что отвечает так называемому месячному формату представления временного ряда в STATGRAPHICS.

Запуск пакета STATGRAPHICS и ввод данных

При запуске STATGRAPHICS открывается окно помощника статистической обработки StatWizard, где определяется режим работы - устанавливается флажок Analyze Existing Data or Enter New Data... (Анализ имеющихся данных или ввод новых данных). Затем появляется следующее окно StatWizard - Data I location (Помощник статистической обработки, уточняющий местоположение данных), в котором устанавливается последний флажок I Want to-Enter New Data (Я хочу ввести новые данные). После этого выводится предложение указать имена создаваемых переменных (столбцов), их типы и перейти в электронную таблицу.

При нажатии кнопки ОК отображается диалоговое окно Modify Column для данных в первом столбце (Col_1): в поле Name (Имя) применительно к обсуждавшимся данным можно ввести Date (Дата) и для определения Туре (Тип данных) установить флажок Months (Данные типа, месячных дат). После заполнения окна по умолчанию выводится следующее для данных во втором столбце (Col_2): в поле Name (Имя) применительно к обсуждавшимся данным, можно ввести Quantity (Количество) и для определения Туре (Тип данных) установить флажок Numeric (Численный тип данных). Поскольку столбец (Со1_3) не используется, то в диалоговом окне нажимается кнопка Cancel и происходит переход к электронной таблице.

Данные (табл. 4) можно представить в двух первых столбцах электронной
таблицы STATGRAPHICS с соблюдением последовательности дат. При этом стол
бец с датами будет относиться к символьному типу, поскольку формат вводимых
дат не соответствует допустимому в программе. Но даты можно, вообще не зано
сить, так как система позволяет выводить их автоматически при указании месяч
ного формата и начального периода.

Инициализация блока Descriptive Methods

Блок запускается с помощью команд Special Time-Series Analysis Descriptive Methods. После этого появляется диалоговое окно Descriptive Methods (рис. 22).

Рисунок 22 Рабочее окно STATGRAPHICS с диалоговым окном Descriptive Methods.

В этом окне выполняются показанные на рисунке 22 установки (необязательные приведены в диалоговом окне в скобках):

в списке переменных - (столбцов), расположенном слева, переменная Quantity с уровнями временного ряда обозначается как Data (Данные) - двойным щел-чком по имени переменной заносится в поле Data;
области Sampling Interval (Выбираемый период) поле Once Every (Размер каждого периода) остается со значением 1 (по умолчанию), устанавливается флажок Month(s) (Месяц), в поле Starting At (Начальный период) вводится значение 1.81, поле Seasonality (Сезонная компонента) не заполняется;
поле Trading Days Adjustment (Учитываемые в периоде дни, буквально-торговые дни) предназначено для ввода имени переменной с числом учитываемых в каждом периоде дней, если периоды (месяцы) в этом отношении существенно различаются- в данномслучае поле не заполняется;
поле Select (Выбор, выделение части рада) позволяет ввести число учитываемых периодов, считая от начального — в данном случае поле не заполняется;
нажимается кнопка ОК, после чего появляется окно Descriptive Methods- Quantity для исследования переменной Quantity дескриптривными(описательными) методами.

Вывод графика временного ряда

В полях окна Descriptive Methods по умолчанию слева отображаются
таблицы, справа - графики, в том числе Time Series Plot.

Это окно имеет свою панель е пиктограммами, названия которых всплывают при установке на них указателя мыши: первая Input dialog - выводит диалоговое окно для перезадания столбца данных; вторая Tabulir options - выводит список таблиц; третья Graphical Option – выводит список графиков и диаграмм. Используя пиктограммы Tabulir options и Graphical Option, из окна предлагается убрать таблицы и оставить один график Horizontal Time Sequence Plot.

Рисунок 23 Рабочее окно STATGRAPHICS с диалоговым окном Descriptive Methods и графиком Horizontal Time Sequence Plot.

Ввод и интерпритация коэффициентов автокорреляции.

Регулярность временного ряда храктеризуется его внутренней структурой - связью уровней, что оценивается коэффициентом корреляции между уровнями и двинутыми относительно их уровнями.

Такая корреляция между сдвинутыми уровнями одного и того же временного ряда иногда называется серийной корреляцией, а в пакете STATGRAPHICS используется более распространенный термин автокорреляция. она характеризует тесноту связи между сдвинутыми уровнями. Если временной ряд содержит регулярную составляющую, то уровни изменяются не совсем случайно, между ними существует связь.

Информация о работе Обработка статистических данных средствами пакета Statgraphics