Интервальная группировка

Автор работы: Пользователь скрыл имя, 13 Февраля 2011 в 14:00, реферат

Описание работы

Практически каждый исследовательский проект начинается с построения таблиц частот. Например, в социологических опросах ответы, измеренные в определенной шкале (в номинальной шкале, в порядковой шкале, в количественной шкале) можно свести в таблицу частот, например результаты голосования за кандидатов той или иной партии в зависимости от социального положения и среднедушевого дохода. В медицинских исследованиях табулируют пациентов с определенными симптомами. В маркетинговых исследованиях - покупательский спрос на товары разного типа у разных категорий населения.

Файлы: 1 файл

лабраб2.doc

— 542.00 Кб (Скачать файл)

   Целые значения – Если опция выбрана, то границами интервалов категоризации в таблицах частот (и гистограммах) будут целые числа, а размер шага равен наименьшему целому значению. Все нецелые значения переменных будут проигнорированы программой в процедурах Таблицы частот - Гистограммы и Описательные статистики. Если выбрана опция с текст. значениями, тогда категории при выборе таблиц частот и гистограмм будут помечены текстовыми значениями (например, мужчины, женщины) а не целыми значениями (например, 1, 2), которые доступны в текущем файле данных границами интервалов группировки будут целые значения, а размер шага будет равен наименьшему целому значению. Все нецелые значения переменных будут игнорированы программой.

   Заданные группирующие коды (значения) – таблицы частот и гистограммы будут построены с помощью целых кодов, определенных пользователем и задаваемых с помощью отдельной группирующей переменной (см рис.2.5). Все нецелые значения переменных будут проигнорированы программой

   Определенные  пользователем категории – позволяет определить до 16 логических условий, позволяющих отнести наблюдения к определенной категории в таблице частот.

    При нажатии кнопки Определенные пользователем категории вызовается диалоговое окно Определить категории рис.3.3. Диалоговое окно позволяет вам задать до 16 условий выбора наблюдений для использования их в вычислениях таблиц частот (разбиения наблюдений на категории). Заданные здесь условия выбора будут проверены последовательно; т.е. наблюдение попадет в первую категорию, к которой он "подходит".

   Заметим, что в файле данных вы так же можете создать новую (группирующую) переменную и задать в ней необходимые  значения. Например, это бывает удобным, когда вам требуется перекодировать данные так, что значения целевой переменной не фиксированы, а рассчитываются по специальному закону (например как среднее набора других значений). Для этого воспользуйтесь формулами в таблице исходных данных, или для более сложных вычислений, средой разработки STATISTICA Visual Basic.

   Пример. Этот набор (двух) условий выбора приведет к образованию двух групп в таблице частот. Первая группа будет содержать все наблюдения со значениями переменной 1, которые больше нуля или равны нулю, вторая группа будет содержать все наблюдения со значениями переменной 1, которые меньше нуля.

   Категория 1: Включ., если: v1>=0

   Категория 2: Включ., если: v1<0

   Задание категорий в полях Категория 1, 2, 3, …. Прокручивая этот список, можно определить до 252 категорий, разбивающих наблюдения на подгруппы. Заданные здесь условия выбора будут проверены последовательно; т.е. наблюдение попадет в первую категорию, к которой он "подходит"

  • Включить/Исключить, если: Если выбрана команда Включ., если то значения выделенной переменной для наблюдений, которые удовлетворяют условию, будут помещены в соответствующую группу. Если выбрана команда Искл., если то значения выделенной переменной для наблюдений, которые удовлетворяет заданному условию, будут исключены из группы.
  • Условия выбора наблюдений задаются в полях ввода Категория 1, 2, 3, … согласно стандартным Условиям выбора наблюдений системы STATISTICA.
  • Операторы. При задании условия используются операторы: =, <>, <, >, <=, >=, NOT, AND, OR
  • Имена переменных. В условиях необходимо указать имена переменных (например, v1, v2, v3, . . . ) или их имена (например, Пол, Дата, Время, . . .).
  • Номер наблюдения. Обозначение v0 задает номера наблюдений

      Примеры: v1=0 OR v2>=0;

   (v1<1 OR v9='YES' ) AND v4<>0

   Замечание: При использовании текстовых значений нужно заключать их в апострофы, например, 'Yes'.

   Кнопка Откр/Сохр используется для открытия файла системы STATISTICA со стандартными Условиями выбора наблюдений (которые могут использоваться в программе для выбора или фильтрации наблюдений для всех видов анализа), а также для сохранения текущего условия для каждой Категории. При нажатии кнопки Откр/Сохр открывается диалоговое окно Условия выбора наблюдений, в котором можно отредактировать, сохранить или открыть условия выбора наблюдений (это те же самые условия, которые используются для обработки подгрупп наблюдений во всей программе). Условия выбора наблюдений из этого диалогового окна сохраняются в файле с расширением *.sel. При нажатии кнопки OK в диалоговом окне Условия выбора наблюдений, введенные условия будут использованы для разбиения на подгруппы.

   Кнопка Просмотр переменных открывает диалоговое окно Выбрать переменную, в котором можно посмотреть переменные текущего файла данных.

   Кнопка Открыть ... открывает диалоговое окно Открыть условия, в котором можно выбрать файл (содержащий все условия выбора подгрупп), который нужно открыть в диалоговом окне Определить категории. В этом диалоговом окне открываются стандартные текстовые файлы с расширением *.txt.

   Кнопка Сохранить ... открывает диалоговое окно Сохранить условия, где можно указать имя файла, в котором будут сохранены все условия выбора. Это файл будет сохранен в текстовом виде с расширением *.txt. 

   Вкладка Опции 

   Установки опций этой вкладки определяют способы  отображения результатов и то, как будут удаляться пропущенные данные рис.3.4.

   Группа Опции отображения в таблицах частот определяет статистики, которые вычисляются для каждой категории в Таблицах частот. В зависимости от выбора в поле Удаление ПД STATISTICA включает ПД в обработку, или исключает их из нее.

    Кумулятивные частоты – Опция вычисляет кумулятивные или накопленные частоты. Это сумма частот по последовательным интервалам группировки.

   Проценты (относительные частоты)) – вычисляются относительные частоты.

   Кумулятивные  проценты - вычисляются кумулятивные или накопленные проценты.

   100% минус кумулятивные  проценты – вычисляются 100 минус кумулятивные проценты.

   Логит преобразования частот – для частот каждого интервала производится преобразование логит. В частности, логиты для категории i вычисляются из соответствующей кумулятивной пропорции pi как:

   

.

   Пробит  преобразования частот – для кумулятивных частот каждого интервала производится преобразование пробит – вычисляются z-значения, связанные с вероятностью в соответствующей ячейке.

   Ожидаемые нормальные частот – вычисляется нормальное приближение для наблюдаемых частот.

   

  • В нижней части окна указаны опции, назначение которых опций следующее:
  •    Считать пропущенные данные (ПД) – Опция вычисляет группу специально для пропущенных данных. Проценты и кумулятивные (накопленные) проценты также вычисляются для пропущенных данных.

       Считать ПД и невыбранные  переменные – опция вычисляет дополнительно группы невыбранных (и не пропущенных) наблюдений в таблице частот. Вычисляются проценты и кумулятивные проценты относительно общего числа наблюдений.

       Вкладка Описательные

       Опции этой вкладки рис.3.5 служат для просмотра  набора статистик и графиков распределений для каждой из выбранных переменных.

        Описательные  статистики. Опция строит таблицы с описательными статистиками для выбранных переменных аналогично одноименной опции во вкладке Быстрые.

       Имеется несколько кнопок для графического представления результатов наблюдений:

       Диаграмма размаха для всех переменных. Процедура строит каскад диаграмм размаха для зависимых переменных; один график для каждой переменной. Каждая группа представлена одним графиком, который состоит из трех компонент:

       1. Центральная точка, показывающая главную тенденцию или положение;

       2. Прямоугольник, показывающий разброс значений относительно главной тенденции;

       3. Отрезки вокруг прямоугольника, показывающие диапазон значений переменной.

        При нажатии  этой кнопки появляется диалоговое окно Диаграмма размаха рис.3.6 , в котором необходимо выбрать тип диаграммы для построения.

       Нормальные  вероятностные графики. Процедура строит последовательность нормальных вероятностных графиков - один график для каждой выбранной переменной.

       Полунормальные  вероятностные графики. Процедура строит последовательность полунормальных вероятностных графиков - один график для каждой выбранной переменной.

       Нормальные  вероятностные графики  без тренда. Процедура строит последовательность нормальных вероятностных графиков без тренда - один график для каждой выбранной переменной.

       Правила построения вероятностных графиков описаны в гл. 2.

       3М  гистограммы. Эта опция строит каскад 3М гистограмм для выбранных переменных, по одному на каждую выбранную переменную. После нажатия этой кнопки программа попросит пользователя выбрать два набора переменных (из выбранных ранее с помощью кнопки Переменные). 3М гистограммы будут построены для каждой пары переменных, включающей переменные из разных списков.

       Вкладка Нормальность

        Вкладку Нормальность обеспечивает доступ к представленным опциям рис.3.7. Эти опции служат для проверки нормальности выбранных переменных. Если выбрана любая из представленных здесь опций, то при построении таблицы частот (посредством кнопки ОК) для выбранной переменной, будет построена еще одна таблица, содержащая результаты выбранных критериев нормальности (одна таблица на критерий).

       Критерии  нормальности. Кнопка выведет таблицы результатов с запрошенными критериями нормальности для выбранных переменных.

       Критерий  Колмогорова-Смирнова, ср./ст.откл. известны. Опция вычисляет одновыборочный критерий Кoлмогорова-Смирнова. Если D статистика значима, то гипотеза нормальности распределения значений переменной отвергается. Вычисляются два значения вероятности для каждого критерия: первое, табулировано Massey (1951), относится к случаю, когда параметры распределения - среднее и стандартное отклонение известны заранее и не оцениваются. Однако обычно эти параметры не известны и оцениваются по наблюдениям. Тогда проверяется сложная гипотеза (с неизвестными заранее параметрами распределения и вычисляются вероятности Лиллиефорса.

       Критерий  Лиллиефорса, ср./ст.откл. неизвестны. Если эта опция выбрана, то программа вычислит одновыборочную D статистику Колмогорова-Смирнова, а также вероятности Лиллиефорса (см. предыдущий абзац).

    Информация о работе Интервальная группировка