Автор работы: Пользователь скрыл имя, 04 Марта 2010 в 19:15, Не определен
теория статистики, выбока и ее представления. формулы статистики
Определение выборочных характеристик
Определим выборочные среднее, дисперсию, cтандартное отклонение, медиану (сравним их с теоретическими значениями), минимальное и максимальное значения выборки, размах:
F.1 - Summary Statistics - Data rectors: x — в окне Statistics оставляем те буквы — коды, которым соответствуют нужные нам статистики A, B, E, F, H, I, J - F6.
Наблюдаем таблицу выборочных значений. Выписываем ее и сравниваем с теоретическими значениями.
Проверка гипотезы о типе распределения
Проверим выборку с помощью критерия Колмогорова - Смирнова .
H.1. - Distribution Fitting Data vector: x, вводим код распределения в окно Distribution number - F6 — ââîäèì вместо оценок теоретические значения параметров - F6 — Histogram - ENTER — поправляем параметры графика: No of classes 200, Cumulative: Yes - F6.
Наблюдаем функции эмпирического и теоретического распределений; определим по графику значение статистики
— ìåðû различия между этими функциями. Величина Dn, конечно же, определяется пакетом:
Esc - Esc — вместо опции Histogram выбираем K-S Test - ENTER. Сообщается значение статистики « ...statistic DN = ....» и «...significance level = ...» т.е. уровень значимости
Если
эта вероятность мала (сотые доли
или меньше), гипотезу о соответствии
наблюдений теоретическому распределению
следует отклонить. В противном случае
признают, что наблюдения не противоречат
гипотезе.
Описание двумерных выборок
Пример. В табл.2 приведены результаты химического анализа 32 образцов сланцевых пород на содержание двуокиси кремния (SiO2 – x) и двуокиси алюминия (Al2O3 – y).
Построим
диаграмму рассеяния для этой
выборки, определим выборочные характеристики:
среднее, дисперсии, коэффициент корреляции
и построим диаграмму рассеяния и двумерную
гистограмму.
Таблица 2
¹ | X | Y | ¹ | X | Y | ¹ | X | Y | ¹ | X | Y |
1 | 57.8 | 17.2 | 9 | 53.9 | 16.1 | 17 | 53.8 | 16.3 | 25 | 50.9 | 14.7 |
2 | 54.6 | 17.9 | 10 | 60 | 14.8 | 18 | 53.1 | 17.2 | 26 | 49.6 | 16.1 |
3 | 54.8 | 18.8 | 11 | 56.2 | 17 | 19 | 51.5 | 15.8 | 27 | 52.2 | 19.5 |
4 | 51.7 | 19.9 | 12 | 55.2 | 17.8 | 20 | 54 | 15 | 28 | 50.5 | 15.6 |
5 | 61.1 | 16 | 13 | 53.3 | 19.9 | 21 | 50.4 | 14.4 | 29 | 51.1 | 18.1 |
6 | 62.3 | 17.8 | 14 | 57.9 | 17.1 | 22 | 53 | 15.3 | 30 | 52.2 | 19,5 |
7 | 52.2 | 18.8 | 15 | 54 | 15.5 | 23 | 53.3 | 16.6 | 31 | 49.2 | 15.7 |
8 | 49.2 | 19.3 | 16 | 52.6 | 17.6 | 24 | 51.6 | 14.9 | 32 | 49.3 | 13.2 |
а) Ввод данных:
А.2.File Operations — file name: WORK, Desired operation: С (операция Edit (редактирование) в списке Operations) - F6 - F6 - В окне Add additional column (добавить дополнительные столбцы) вводим имена новых переменных: Name: x1, Type: N (тип вещественный), Width: 13 (или меньше; - число десятичных разрядов) - F6 - Name: y1 - F6 - ESC - вводим данные в колонки x1 и y1. - F6 - Save and Exit (запомнить и выйти) - ENTER (появляется описание созданных переменных).
Замечание. При вводе удобнее вводить числа без десятичной точки, а затем операцией J и опцией A (ASSIGNMENT - назначение) разделить на 10.
б) Представление выборки диаграммой рассеяния:
E.1.X-Y Line and Scatterplots - вносим в строку x: x1, в строку у: y1 - F6. Появляется диаграмма рассеяния, которую можно отредактировать (F5): изменять надписи, диапазоны величин по осям, частоту делений и т.д. Диаграмму выводим на печать (F4).
в) Определение выборочных характеристик:
F.1.Summary Statistics - Data vectors: x1, во второй строке: y1, Statistics: A, B, F, H, I, - F6. Появляется таблица выборочных характеристик для двух переменных x1 и x2.
Определение выборочной ковариационной матрицы: Q.2.Covariance Analysis (анализ ковариаций) - Data vectors: x1, во второй строке: y1 - F6. Появляется матрица ковариаций (в данном случае, 2´2).
выборочная корреляционная матрица определяется процедурой Q.1.Correlation Analysis.
г) Построение двумерной гистограммы:
F.7.Three - Dimensional Histogram - Sample 1: x1, Sample 2: y1 - F6 - Поправляем, если необходимо, параметры графика - F6.
Появляется трехмерный график. Выводим его на печать или сохраняем.
Генерация выборки
Сгенерируем, например, выборку объема n =50 с показательным распределением со средним значением 5.
Создадим новый файл:
File - New Data - укажем имя файла в окне File Name : descript (например) - OK. На экране сетка-таблица; в ее заголовке указаны название и размеры : 10v * 10c - ( 10 переменных ( variables ) - столбцов по 10 наблюдений ( cases ) - строк.
Преобразуем таблицу к размерам 1´50:
кнопка Vars (на экране) - Delete; окно Delete Variables: укажем какие переменные- столбцы убрать : From variable : var 2, To variable : var 10 - OK - Кнопка Cases - Add ( добавление ) - окно Add Cases: укажем, сколько строк добавить и куда : Number of Cases to Add : 40, Insert after Case : 1 ( например ) - OK.
Сгенерируем выборку:
выделим столбец - переменную Var1 ( щелчком мыши по ее заглавию) - нажмем правую клавишу - в открывшемся меню выберем Variable specs ( спецификации переменной ) - в появившемся окне Variable 1 введем Name x ( например ) , в нижнем поле Long name вводится выражение, определяющее переменную. Ввод можно сделать набором на клавиатуре или с помощью клавиши Functions, выбирая в меню Kategory и Name требуемую функцию и вставляя клавишей Insert. Для задания закона распределения следует ввести, например,
=rnd(2)
=Vnormal(rnd(1); 2; 0.5 ) для N(2, s2=0.52),
=VExpon(rnd(1); 0.2 ) для E(5) со средним 1/0.2=5; (для нашего примера вместо значения параметра l=0.2 можно набрать выражение 1/5).
Такая форма задания определяется способом генерации: с помощью функции, обратной (буква V) к функции распределения и генератора случайных чисел R[0, 1] ( rnd(1)).
Распечатаем выборку командой Print меню File.
Посмотрим выборку графически:
Graphs
- Custom Graphs (настраиваемые графики)
- 2D graphs - в открывшемся окне все можно
оставить по умолчанию - .OK. Наблюдаемый
график (рис.2) распечатаем.
Рис.
2. Наблюдения, распределенные
по показательному закону
со средним 5 (n = 50).
Построение вариационного ряда
Первый способ:
выделим требуемую переменную (столбец) - нажмем правую клавишу мыши - выберем Quiq Stats Graphs (быстрые статистики и графики) - Values / Stats of Vars (значения и статистики ) - наблюдаем вариационный ряд и выборочное среднее (mean) и стандартное отклонение ( SD ).
Второй способ:
войдем
в модуль Data Menagement (двойной щелчек
левой клавишей мыши на чистом поле и выбор
модуля в окне Module Switcher; если модуль
уже загружен, то Alt+Tab
до появления модуля) - Analysis Sort
- устанавливаем имя переменной, тип сортировки:
Ascen (по возрастанию ) или Desc ( по убыванию)
- OK.
Функция эмпирического распределения
Первый способ:
Graphs - Stats 2D Graphs - Histogram - в появившемся окне установим: Graph Type : Regular, Cumulative Counts (накопленные частоты), Fit Type (подбираемый тип) : Exponential (для нашего примера) или off (без подбора), Variablles: x, Categories (число интервалов группирования) : 250 - OK.
Наблюдаем
график функции эмпирического
Рис.3.
Функция эмпирического
распределения
Второй способ:
упорядочим по возрастанию нашу выборку (см. Построение вариационного ряда);
образуем новую переменную F для значений функции:
клавиша Var - Add - ... ( см. Генерация выборки) - выделим новую переменную NEWVAR - правая клавиша мыши - Variable Specs ... - Name: F - Long name:
= V0/50
(оператор V0 создает массив целых чисел) ; построим график:
Graphs - Custom Graphs - 2D Graph - в новом окне установим: в поле X: x, в поле Y: F, Step Plot (ступеньки, но не Line Plot - линии) - OK.
Наблюдаем
функцию эмпирического
Группирование данных
Analysis Frequency Tables - в окне Frequency Tables зададим No of exact intervals: 10 (10 интервалов группирования; или Step size: 2, starting at: 0), в поле Display options отметим Cumulative frequences ( накопленные частоты ), Percentages (проценты - относительные частоты), Cumulative Percentages (накопленные частоты ) - OK.
Наблюдаем
таблицу группированных данных. Выведем
ее на печать или сохраним.
Построение гистограммы частот
Graphs - Stats 2D Graphs - Histograms - в появившемся окне устанавливаем: имя переменной, Graph Type: Regular, Fit Type; off ( без подбора ) или нужный тип, число интервалов группирования Categories: или Auto (автоматический выбор числа интервалов) - OK.
Наблюдаем гистограмму (рис. 4). Отредактируем
график, если необходимо. Выведем на
печать или сохраним.
Рис.
4. Гистограмма.
Выборочные характеристики
первый способ: на заголовке столбца с выборкой щелкнем правой клавишей мыши - Quick Basic Stats... - Descriptives of var - получаем таблицу с характеристиками: mean (среднее), Confid 95% ( доверительные границы нижняя и верхняя с уровнем доверия 0.95 ), Sum ( сумма ), Minimum, Maximum, Range ( размах ), Variance ( дисперсия ), Std. Dev. ( стандартное отклонение ) и др. Сравним выборочное среднее, медиану и стандартное отклонение с соответствующими теоретическими значениями. Это же можно сделать через меню: Anflisis - Quick Basic Stats ...
Второй
способ: на заголовке столбца с
выборкой щелкнем правой клавишей мыши
- Block Stats / Columns (блок статистик по колонкам
) - выделим необходимое или All.