Обработка статистических данных средствами пакета Statgraphics

Автор работы: Пользователь скрыл имя, 05 Декабря 2011 в 17:00, курсовая работа

Описание работы

Основная цель данной курсовой работы – решение некоторых экономических задач с помощью статистического пакета StatGraphics.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Изучить и систематизировать литературу по статистическим методам обработки информации.
2. Изучить пакет StatGraphics.

Файлы: 1 файл

Курсовая по информатике Statgraphics .doc

— 1.23 Мб (Скачать файл)

   5.2. Выполнение корреляционного  анализа.

   После создания или открытия файла данных для корреляционного анализа выполняются команды меню Describe Numeric Data  Multiple- Variable Analysis (Описание Числовые данные Многомерный анализ). Они служат для вызова диалогового окна Multiple- Variable Analysis, в которое заносятся анализируемые переменные- названия столбцов YEAR  и COST$.

   После нажатия кнопки ОК окно ввода данных закрывается и выводится основное окно для анализа Multiple- Variable Analysis.

   Результаты  корреляционного анализа выводится  в таблице Correlations, выбираемой в списке, которые вызывается щелчком по пиктограмме Tabular options.

   В первой строке таблицы Correlations (рис. 12) выводится коэффициент корреляции (число 0,9614), ниже в скобках- количество анализируемых пар данных (число 14) под ним – вероятность ошибки (0,0000) отклонения нулевой гипотезы об отсутствий линейной связи.

   

Рисунок 12 Рабочее окно STATGRAPHICS с диологовым окном Multiple- Variable Analysis. 

   Графики выбираются из списка, который вызывается пиктограммой  Graphical options. Выведенный на рисунке график отображается при выборе в списке пункта Scatterplot Matrix (матрица рассеивания). Слева в качестве абсцисс взяты годы, ординаты- цены. Справа- зависимость переменной YEAR, которая отложена по оси ординат, от переменной   COST$, откладываемой по оси абсцисс. 

   5.3. Процедуры регрессионного  анализа.

 Для регрессионного анализа в основном окне STATGRAPHICS  выполняются команды меню Relate Simple Regression. При этом вызывается диалоговое окно Simple Regression (рис.13).

 

Рисунок 13 Рабочее окно STATGRAPHICS с диалоговым окном Simple Regression для указания переменных. 

 В полеY: окна вводится  название столбца COST$, в поле X: - YEAR   (название столбца в списке диалогового окна выделяется, и нажимается кнопка     ► соответствующего поля). В отличие от корреляционного анализа, при вызове регрессионной процедуры необходимо определить зависимую переменную и аргумент.

 После нажатия кнопки ОК диалоговое окно ввода данных закрывается и выводится диалоговое окно для регрессионного анализа. Оно устроено так же, как обсуждавшееся диалоговое окно для корреляционного анализа, и имеет свою панель с пиктограммами.

 Ниже  панели находятся поля, куда вызываются:

    • пиктограммой Tabular options - таблицы;
    • пиктограммой Graphical options - графики. 

  В поля можно вызывать таблицы и  графику, которые в данном случае отображены с помощью средств прокручивания для фрагментарного просмотра, или  в оба поля – что- то одно.

Вывод численных результатов регрессионного анализа

  Численные результаты регрессионного анализа вызываются из списка, инициализируемого щелчком по пиктограмме Tabular options. На рис.14

  

Рисунок 14 Рабочее окно STATGRAPHICS с таблицами и показателями Analysis Summary. 

  показаны основные результаты анализа- таблицы и показатели Analysis Summary.  

  Таблицы и показатели Analysis Summary включают следующую информацию.

  Regression Analysis - модель (уравнение) линейной регрессии и значения параметров: свободного члена Intercept и углового коэффициента Slope со cреднеквадратичными погрешностями оценок, t-значения и доверительные вероятности случайных отклонений от нуля. Результаты, естественно, совпадают с обсуждавшимися для других программных средств. 
     Ниже находится таблица Analysis of Variance (рис.14) с результатами анализа оценок дисперсий: суммой квадратов отклонений и дисперсиями зависимой переменной, объясняемых моделью (Model), и остатков (Residual), их F-отношением и Р - вероятностью ошибки при отклонении нулевой гипотезы о равенстве дисперсий.

Под таблицей выведены:

  • коэффициент корреляции (Correlation Coefficient); ,
  • квадрат корреляционного отношения R-squared и его исправленная величина R-squared (adjusted for d.f.) в процентах;
  • стандарт остатков (среднеквадратичное отклонение исходных величин зависимой переменной от линии регрессии) - Standard Error of Est.;
  • среднее арифметическое абсолютных отклонений исходных величин зависимой переменной от линии регрессия (Mean absolute error);
  • статистика Дарбина-Уотсона, которая при величине  
    отвечает полной независимости и отсутствию корреляции соседних значений остатков (чем ближе статистика к 2, тем более случаен характер остатков);
  • коэффициент автокорреляции соседних значений остатков, отражающий их случайность при близости к 0

  Прогностические возможности линейной модели представлены в таблице Predicted Values (рис. 15). Она вызывается при выборе пункта Forecasts в списке, инициализируемом щелчком по пиктограмме Tabular options.                     В таблице на рис. 15 для наименьшей (12) и наибольшей (82) величина      независимой переменной X приведены: '

  • значения прогнозируемой зависимой переменной (Predicted Y);
  • нижние (Lower) и верхние (Upper) границы (Prediction Limits)

    для оценок прогноза с вероятностью 95%;

с такой  же вероятностью 95% - доверительные границы интервалов (Confidence Limits) так называемого среднего отклика.

 При вызове контекстного меню и выборе в нем команды Раnе Оptions появляется диалоговое окно Forecasts Options, в котором можно установи тъ:

  • другие доверительные вероятности в поле Confidence Level;
  • в поле Forecast at X - значения независимой переменной Х, которые выводятся в таблицу (рис.15) с результатами прогноза зависимой переменной.

Рисунок 15 Рабочее окно STATGRAPHICS с таблицей Predicted Values и диалоговом окне Simple Regression. 

 Выбор пункта Unusual Residuals в списке, вызываемого щелчком по пиктограмме Tabular options, выводит таблицу с наблюдениями, которые отклоняются от линии регрессии на удвоенный стандарт остатков и более, то есть являются выскоками (не удовлетворяют линейной зависимости).

 При выборе пункта Influential Points в списке, вызываемом щелчком  по пиктограмме Tabular options, выводятся наблюдения, влиянние которых на угловой коэффициент линии регрессии превышает, установленный уровень расстояния Кука (разность угловых коэффициентов при всех наблюдениях и исключений текущего наблюдения).

Вывод графиков регрессионного анализа

  Графики выбираются из списка, который появляется после щелчка по  пиктограмме Graphical options (рис.16).  

 

Рисунок 16 График Plot of Fitted Model. 

   На  рис.16 показана выбираемая в указанном списке диаграммa Plot of Fitted Model, выводящая: 

  • маркерами (окружностями) — исходные значения;
  • утолщенной линией - график линейной регрессии;
  • короткими штрихами - доверительные Residuals (с вероятностью 95%) границы среднего отклика, очерчивающие область, обычно называемую доверительной трубкой;
  • тонкой линией — также доверительные (с вероятностью 95%) границы (доверительная трубка) для прогнозирования зависимой переменной по значениям независимой переменной.

   На  рис. 17 изображена диаграмма Residual Versus X, для отображения которой:

    • ее название выбирается в списке, вызываемом щелчком по пиктограмме Graphical options;
    • щелчком правой кнопкой мыши по графику вызывается контекстное меню, и в нем выбирается команда Раnе Оptions…, выводящая одноименное диалоговое окно, где устанавливается опция Residual, отвечающая ненормализованным остаткам.

Рисунок 17 График Residuals versus X. 

   Ненормализованные остатки, хотя и колеблются около ненулевых значений (горизонтального графика), образуют временную последовательность, не похожую на реализацию стационарного стохастического процесса. Остатки могут, рассматриваться как случайные отклонения относительно мысленно представляемой кривой параболического типа, отвечающей нелинейной компоненте в зависимости.

Дополнительные  возможности регрессионного анализа

  Меню  Special позволяет инициализировать дополнительные модули, расширяющие обычно используемые возможности STATGRAPHICS. Командой этого меню Advanced Regression можно вызвать одноименный модуль для расширенного регрессионного анализа с различными процедурами сравнения при выборе подходящих многомерных линейных и нелинейных моделей.

  Для парной линейной зависимости можно  ограничиться рассмотренными процедурами  доступными при выполнении команд меню Relate Simple Regression. 
 

  6. Приближение и оценка многомерной связи в пакете STATGRAPHICS.

  Порядок обработки многомерной выборки  и анализа множественных связей в пакете STATGRAPHICS рассматривается для обсуждавшихся фактических данных по связи объема продаж пива с контролирующими факторами ша рынке Греции (см. табл.3). 

                                                              

Таблица 3

    

     Таблицу с исходными данными, имеющимися в других программах, проще всего скопировать и вставить в окно <untitled> при нахождении курсора в первой строке первого столбца. Для присвоения имени переменной столбец с ней, например первый, выделяется, в меню Edit (или контекстном) выбирается команда Modify Сolumn, в появййшемся диалоговом окне вводится имя S и устанавливается необходимая ширина. Аналогичные установки производятся для всех  переменных.

  Для построения многомерной модели зависимости  в меню Relate выполняется команда Multiple Regression. 

Вывод и оценка первого  приближения многомерной модели.

  Команда Multiple Regression выводит одноименное диалоговое окно, в котором указываются имена столбцов с зависимой (Dependent Variable) и со всеми независимыми (Independent Variables) переменными (рис. 18).

 После щелчка по кнопке ОК окно ввода данных закрывается и появляется основное окно Multiple Regression для многомерного

 

Рисунок 18 Рабочее окно STATGRAPHICS с диалоговым окном Multiple Regression для указания переменных. 

регрессионного  и корреляционного анализов (рис.19). Окно имеет свою панель с пиктограммами. Ниже панели находятся поля:

  • Tabular options - для выбора таблиц;     
  • Graphical options - для выбора графикой.

Рисунок 19 Рабоче окно STATGRAPHICS в режиме Multiple Regression с первой таблицей Analysis Summary. 

 На рисунке 19 в окне Multiple Regression выведена первая из таблиц Analysis  Summary, указанная в списке Tabular options

 Остальные таблицы визуализируются при прокрутке информации в поле и приведены в табл.3.

 

Таблица 4

 Вывод итогов завершается текстом StatAdvisor (Советник по- статистике), автоматически объясняющим результаты многомерного анализа. Консультации в переводе и с дополнительными пояснениями сводятся к следующему.     

  Получены  результаты моделирования многомерной  линейной регрессии зависимой переменной S и шесть независимых переменных: S1, А, А1, Т, W и Р. Модель описывается, уравнением S =-3315,44 + 0,663*S1 + 4,222*А + 15,184*А1+ 0,45 *T + 7,616*W+ 1,096*P.

 По  результатам дисперсионного анализа (в таблице Analysis of Variance) объясненная дисперсия (Model) значимо больше необъясненной дисперсии (Residual): F - отношение (F - Ratio) превышает 64, и вероятность ошибки отклонения гипотезы о том, что объясненная дисперсия больше, чем необъясненная, близка к нулю. Поэтому неслучайность зависимости можно принять с доверительной вероятностью более 99%. 

 Квадрат коэффициента корреляции (R-Squared) говорит об адекватности модели, как объясняющей 95,8% рассеяния зависимой переменной S. Это подтверждается коэффициентом детерминации - R-squared (adjusted for d.f.), равным 94,3% при учете числа степеней свободы для данных переменных. 

Информация о работе Обработка статистических данных средствами пакета Statgraphics