Автор работы: Пользователь скрыл имя, 28 Сентября 2011 в 18:24, курсовая работа
Кластерный анализ (англ. Data clustering) — задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя. Кластерный анализ — это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры)(Q-кластеризация, или Q-техника, собственно кластерный анализ). Кластер — группа элементов, характеризуемых общим свойством, главная цель кластерного анализа — нахождение групп схожих объектов в выборке
Введение……………………………………………………………………………………………..4
Глава 1. Кластерный анализ……………………………………......5
1.1. Алгоритм кластерного анализа k-средних (k-means)……………………..5
1.1.1.Описание алгоритма………………………………………………...6
1.1.2. Проверка качества кластеризации……………………………....7
1.2. Алгоритм PAM ( partitioning around Medoids)…………………………………8
1.3. Сложности, возникающие при кластерном анализе………………………..9
1.4. Сравнительный анализ иерархических и неиерархических методов кластеризации……………………………………………………………………………10
Глава 2. Алгоритмы кластерного анализа…………….11
2.1. Алгоритм BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)…………………………………………………………………………………11
2.2. Алгоритм WaveCluster…………………………………………………………11
2.3. Алгоритмы кластерного анализа Clarans, CURE, DBScan……………...12
2.4. Алгоритм CLARA (Clustering LARge Applications)………………………...12
2.5. Итеративная кластеризация в SPSS……………………………………...13
2.6. Кластеризация в Data Mining…………………………………………………16
Глава 3. Опрос, посвященный психологическому состоянию личности…………………………………………………….19
3.1. Факторный анализ……………………………………………………………...19
3.2. Быстрый кластерный анализ………………………………………………..21
Приложение………………………………………………………………………24
1. Анкета, с помощью которой я смогу провести факторный анализ…..24
2. Матрица, которая получилась после набивки анкеты…………………...26
Заключение……………………………………………………………………….27
Список используемых источников………………………….28
Государственное образовательное учреждение
высшего
профессионального
образования
ВОЛГО-ВЯТСКАЯ
АКАДЕМИЯ ГОСУДАРСТВЕННОЙ
СЛУЖБЫ
Дзержинский филиал
Кафедра «Математических и естественнонаучных дисциплин»
Курсовой проект
по
дисциплине «Методологические
основы информационного
обеспечения управления»
Особенности
метода кластерный анализ
при большом количестве
наблюдений (кластерный
анализ метод К-средних)
в социологических
исследованиях
Специальность:
«Государственное и муниципальное управление» Выполнила: студентка гр. 07 - ГОД - 1 Танаева А. В. Научный руководитель: КПН, доцент Поляков Е. А. |
Дзержинск
2011 г.
РЕЦЕНЗИЯ
На курсовой проект
студента ____ курса, группа №_______
______________________________
(фамилия, имя, отчество)
Вопросы оценки:
(соответствует, не соответствует)1
4.Правильность
выбора основной цели работы
и соответствие задач,
5 Научная
новизна_______________________
8 Правильность
оформления работы в соответствии с методическими
указаниями руководителя__________________
9 Своевременность представления работы руководителю: _____________________
Общая
оценка за работу - ______________________________
Научный
руководитель работы ______________________________
«___»______________200__г.
Примечания:
1 критерии оценки соответствия:
- не соответствует – неудовлетворительно - работа возвращается для устранения
недостатков – более 25% работы содержит материал, не имеющий к ней отношения (определяется от общего количества параграфов)
- соответствует - т.е. менее 25% работы содержит материал, не имеющий к ней отношения (определяется от общего количества параграфов)
Данный пункт на суммарную оценку не влияет, если недостаток устранен студентом до сдачи работы в указанный срок.
2 при обосновании актуальности курсовой работы оценка определяется по следующим критериям:
тема актуальна – если студентом дана:
Оглавление
Введение…………………………………………………………
1.1.1.Описание
алгоритма………………………………………………...
1.1.2. Проверка
качества кластеризации……………………
Глава 3.
Опрос, посвященный
психологическому состоянию
личности…………………………………………………….
3.1.
Факторный анализ…………………………………………………………….
3.2.
Быстрый кластерный
анализ………………………………………………..21
Приложение……………………………………………………
1. Анкета, с помощью которой я смогу провести факторный анализ…..24
2.
Матрица, которая получилась
после набивки анкеты…………………...26
Заключение……………………………………………………
Список
используемых источников………………………….28
Введение
Кластерный анализ (англ. Data clustering) — задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя. Кластерный анализ — это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры)(Q-кластеризация, или Q-техника, собственно кластерный анализ). Кластер — группа элементов, характеризуемых общим свойством, главная цель кластерного анализа — нахождение групп схожих объектов в выборке [9. с-3].
Кластерный анализ применяют в различных областях человеческой деятельности: медицина, химия, психология, управление и во многом другом. Поэтому я считаю, что тема моего курсового проекта актуальна.
В своей работе я ставлю ряд задач:
1. Рассмотреть метод кластерный анализ как объект исследования
2. Понять, как помогает этот метод в социологических исследованиях
3.
Научиться анализировать
Кластерный анализ выполняет следующие основные задачи:
Разработка
типологии или классификации; исследование
полезных концептуальных схем группирования
объектов; порождение гипотез на основе
исследования данных, проверка гипотез
или исследования для определения, действительно
ли типы (группы), выделенные тем или иным
способом, присутствуют в имеющихся данных.
Глава 1. Кластерный анализ
Термин кластерный анализ, впервые введенный Трионом (Tryon) в 1939 году, включает в себя более 100 различных алгоритмов.
В отличие от задач классификации, кластерный анализ не требует априорных предположений о наборе данных, не накладывает ограничения на представление исследуемых объектов, позволяет анализировать показатели различных типов данных (интервальным данным, частотам, бинарным данным). При этом необходимо помнить, что переменные должны измеряться в сравнимых шкалах. [1. с-4]
Работа
кластерного анализа опирается на
два предположения. Первое предположение
- рассматриваемые признаки объекта в
принципе допускают желательное разбиение
пула (совокупности) объектов на кластеры.
Второе предположение - правильность выбора
масштаба или единиц измерения признаков.
Методы кластерного анализа можно разделить
на две группы:
Каждая
из групп включает множество подходов
и алгоритмов.
Используя различные методы кластерного
анализа, аналитик может получить различные
решения для одних и тех же данных. Это
считается нормальным явлением.
Рассмотрим иерархические и неиерархические
методы подробно.
Наиболее
распространен среди
Алгоритм k-средних строит k кластеров, расположенных на возможно больших расстояниях друг от друга. Основной тип задач, которые решает алгоритм k-средних, - наличие предположений (гипотез) относительно числа кластеров, при этом они должны быть различны настолько, насколько это возможно. Выбор числа k может базироваться на результатах предшествующих исследований, теоретических соображениях или интуиции.
Общая
идея алгоритма: заданное фиксированное
число k кластеров наблюдения сопоставляются
кластерам так, что средние в кластере
(для всех переменных) максимально возможно
отличаются друг от друга. [5. с-68-73]