Особенности метода кластерный анализ при большом количестве наблюдений (кластерный анализ метод К-средних) в социологических исследовани

Автор работы: Пользователь скрыл имя, 28 Сентября 2011 в 18:24, курсовая работа

Описание работы

Кластерный анализ (англ. Data clustering) — задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя. Кластерный анализ — это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры)(Q-кластеризация, или Q-техника, собственно кластерный анализ). Кластер — группа элементов, характеризуемых общим свойством, главная цель кластерного анализа — нахождение групп схожих объектов в выборке

Содержание работы

Введение……………………………………………………………………………………………..4
Глава 1. Кластерный анализ……………………………………......5
1.1. Алгоритм кластерного анализа k-средних (k-means)……………………..5
1.1.1.Описание алгоритма………………………………………………...6
1.1.2. Проверка качества кластеризации……………………………....7
1.2. Алгоритм PAM ( partitioning around Medoids)…………………………………8
1.3. Сложности, возникающие при кластерном анализе………………………..9
1.4. Сравнительный анализ иерархических и неиерархических методов кластеризации……………………………………………………………………………10
Глава 2. Алгоритмы кластерного анализа…………….11
2.1. Алгоритм BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)…………………………………………………………………………………11
2.2. Алгоритм WaveCluster…………………………………………………………11
2.3. Алгоритмы кластерного анализа Clarans, CURE, DBScan……………...12
2.4. Алгоритм CLARA (Clustering LARge Applications)………………………...12
2.5. Итеративная кластеризация в SPSS……………………………………...13
2.6. Кластеризация в Data Mining…………………………………………………16
Глава 3. Опрос, посвященный психологическому состоянию личности…………………………………………………….19
3.1. Факторный анализ……………………………………………………………...19
3.2. Быстрый кластерный анализ………………………………………………..21
Приложение………………………………………………………………………24
1. Анкета, с помощью которой я смогу провести факторный анализ…..24
2. Матрица, которая получилась после набивки анкеты…………………...26
Заключение……………………………………………………………………….27
Список используемых источников………………………….28

Файлы: 1 файл

Курсовой проект, переделанный с сылками. Танаева.doc

— 569.00 Кб (Скачать файл)

1.1.1.Описание  алгоритма

    1. Первоначальное распределение объектов по кластерам.

    Выбирается  число, именуемое k, и эти точки считаются "центрами" кластеров. Каждому кластеру соответствует один центр.

    Выбор начальных центров осуществляется следующим образом:

    1. выбор k-наблюдений для максимизации начального расстояния;

    2. случайный выбор k-наблюдений;

    3. выбор первых k-наблюдений.

    2. Итеративный процесс

    Вычисляются центры кластеров, которыми затем считаются  покоординатные средние кластеров. Объекты перераспределяются.

    Процесс вычисления центров и перераспределения  объектов продолжается до тех пор, пока не выполнено одно из условий:

1. кластерные центры стабилизировались, т.е. все наблюдения принадлежат кластеру, которому принадлежали до текущей итерации;

2. число итераций равно максимальному числу итераций.

    На рис. 1 приведен пример работы алгоритма k-средних для k, равного двум.

    

    Рис. 1.  Пример работы алгоритма k-средних (k=2) [5. с-68-73]

1.1.2. Проверка качества  кластеризации

    После получений результатов кластерного анализа методом k-средних следует проверить правильность кластеризации (т.е. оценить, насколько кластеры отличаются друг от друга). Для этого рассчитываются средние значения для каждого кластера. При хорошей кластеризации должны быть получены сильно отличающиеся средние для всех измерений или хотя бы большей их части.

    Достоинства алгоритма k-средних:

    1. простота использования;

    2. быстрота использования;

    3. понятность и прозрачность алгоритма.

    Недостатки  алгоритма k-средних:

    1. алгоритм слишком чувствителен к выбросам, которые могут искажать среднее. Возможным решением этой проблемы является использование модификации алгоритма - алгоритм k-медианы;

    2. алгоритм может медленно работать на больших базах данных.

    Возможным решением данной проблемы является использование выборки данных. [8. с-6]

    1. Алгоритм PAM (partitioning around Medoids)

    PAM является модификацией алгоритма k-средних, алгоритмом k-медианы (k-medoids). Алгоритм менее чувствителен к шумам и выбросам данных, чем алгоритм k-means, поскольку медиана меньше подвержена влияниям выбросов. PAM эффективен для небольших баз данных, но его не следует использовать для больших наборов данных.

    1. Сложности, возникающие при кластерном анализе

    Как и любые другие методы, методы кластерного  анализа имеют определенные слабые стороны, т.е. некоторые сложности, проблемы и ограничения.

    При проведении кластерного анализа  следует учитывать, что результаты кластеризации зависят от критериев  разбиения совокупности исходных данных. При понижении размерности данных могут возникнуть определенные искажения, за счет обобщений могут потеряться некоторые индивидуальные характеристики объектов.

    Существует  ряд сложностей, которые следует  продумать перед проведением кластеризации.

    1. Сложность выбора характеристик, на основе которых проводится кластеризация. Необдуманный выбор приводит к неадекватному разбиению на кластеры и, как следствие, - к неверному решению задачи.

    2. Сложность выбора метода кластеризации. Этот выбор требует неплохого знания методов и предпосылок их использования. Чтобы проверить эффективность конкретного метода в определенной предметной области, целесообразно применить следующую процедуру: рассматривают несколько априори различных между собой групп и перемешивают их представителей между собой случайным образом. Далее проводится кластеризация для восстановления исходного разбиения на кластеры. Доля совпадений объектов в выявленных и исходных группах является показателем эффективности работы метода.

    3. Проблема выбора числа кластеров. Если нет никаких сведений относительно возможного числа кластеров, необходимо провести ряд экспериментов и, в результате перебора различного числа кластеров, выбрать оптимальное их число.

    4. Проблема интерпретации результатов кластеризации. Форма кластеров в большинстве случаев определяется выбором метода объединения. Однако следует учитывать, что конкретные методы стремятся создавать кластеры определенных форм, даже если в исследуемом наборе данных кластеров на самом деле нет. [5. с-68-73]

1.4. Сравнительный анализ  иерархических и  неиерархических  методов кластеризации

 

    Неиерархические методы выявляют более высокую устойчивость по отношению к шумам и выбросам, некорректному выбору метрики, включению незначимых переменных в набор, участвующий в кластеризации. Ценой, которую приходится платить за эти достоинства метода, является слово "априори". Аналитик должен заранее определить количество кластеров, количество итераций или правило остановки, а также некоторые другие параметры кластеризации. Это сложно начинающим специалистам.

    Если  нет предположений относительно числа кластеров, рекомендуют использовать иерархические алгоритмы кластерного анализа. Однако если объем выборки не позволяет это сделать, возможный путь - проведение ряда экспериментов с различным количеством кластеров, например, начать разбиение совокупности данных с двух групп и, постепенно увеличивая их количество, сравнивать результаты. За счет такого "варьирования" результатов достигается достаточно большая гибкость кластеризации.

    Иерархические методы, в отличие от неиерархических, отказываются от определения числа кластеров, а строят полное дерево вложенных кластеров. Сложности иерархических методов кластеризации: ограничение объема набора данных; выбор меры близости; негибкость полученных классификаций. Преимущество этой группы методов в сравнении с неиерархическими методами - их наглядность и возможность получить детальное представление о структуре данных.

Глава 2. Алгоритмы кластерного анализа

 

    В последнее время ведутся активные разработки новых алгоритмов кластеризации, способных обрабатывать сверхбольшие базы данных. В них основное внимание уделяется масштабируемости. К таким алгоритмам относятся обобщенное представление кластеров (summarized cluster representation), а также выборка и использование структур данных, поддерживаемых нижележащими СУБД. Разработаны алгоритмы кластерного анализа, в которых методы иерархической кластеризации интегрированы с другими методами. К таким алгоритмам относятся: BIRCH, CURE, CHAMELEON, ROCK. [5. с-68-73]

2.1. Алгоритм BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)

 

    Алгоритм  предложен Тьян Зангом и его коллегами. Благодаря обобщенным представлениям кластеров, скорость кластеризации увеличивается, алгоритм при этом обладает большим масштабированием. В этом алгоритме реализован двухэтапный процесс кластеризации.

    В ходе первого этапа формируется  предварительный набор кластеров. На втором этапе к выявленным кластерам  применяются другие алгоритмы кластерного анализа - пригодные для работы в оперативной памяти.

    Если  каждый элемент данных представить  себе как бусину, лежащую на поверхности  стола, то кластеры бусин можно "заменить" теннисными шариками и перейти к  более детальному изучению кластеров  теннисных шариков. Число бусин  может оказаться достаточно велико, однако диаметр теннисных шариков можно подобрать таким образом, чтобы на втором этапе можно было, применив традиционные алгоритмы кластерного анализа, определить действительную сложную форму кластеров.

2.2. Алгоритм WaveCluster

 

    WaveCluster представляет собой алгоритм кластеризации на основе волновых преобразований. В начале работы алгоритма данные обобщаются путем наложения на пространство данных многомерной решетки. На дальнейших шагах алгоритма анализируются не отдельные точки, а обобщенные характеристики точек, попавших в одну ячейку решетки. В результате такого обобщения необходимая информация умещается в оперативной памяти. На последующих шагах для определения кластеров алгоритм применяет волновое преобразование к обобщенным данным.

    Особенности WaveCluster:

    сложность реализации

    алгоритм  может обнаруживать кластеры произвольных форм

    алгоритм  не чувствителен к шумам 

    алгоритм  применим только к данным низкой размерности

2.3. Алгоритмы кластерного анализа Clarans, CURE, DBScan

    Алгоритм Clarans (Clustering Large Applications based upon RANdomized Search) формулирует задачу кластеризации как случайный поиск в графе. В результате работы этого алгоритма совокупность узлов графа представляет собой разбиение множества данных на число кластеров, определенное пользователем. "Качество" полученных кластеров определяется при помощи критериальной функции. Алгоритм Clarans сортирует все возможные разбиения множества данных в поисках приемлемого решения. Поиск решения останавливается в том узле, где достигается минимум среди предопределенного числа локальных минимумов.

2.4. Алгоритм CLARA (Clustering LARge Applications)

 

    Алгоритм CLARA был разработан Kaufmann и Rousseeuw в 1990 году для кластеризации данных в  больших базах данных. Данный алгоритм строится в статистических аналитических пакетах, например, таких как S+.

    Изложим кратко суть алгоритма. Алгоритм CLARA извлекает  множество образцов из базы данных. Кластеризация применяется к  каждому из образцов, на выходе алгоритма  предлагается лучшая кластеризация.

    Для больших баз данных этот алгоритм эффективнее, чем алгоритм PAM. Эффективность алгоритма зависит от выбранного в качестве образца набора данных. Хорошая кластеризация на выбранном наборе может не дать хорошую кластеризацию на всем множестве данных. [9. с-3].

2.5. Итеративная кластеризация в SPSS

 

    Обычно  в статистических пакетах реализован широкий арсенал методов, что  позволяет сначала провести сокращение размерности набора данных (например, при помощи факторного анализа), а затем уже собственно кластеризацию (например, методом быстрого кластерного анализа). Рассмотрим этот вариант проведения кластеризации в пакете SPSS.

    Выбираем в меню: Analyze (Анализ) / Data Reduction (Преобразование данных) / Factor (Факторный анализ). При помощи кпопки Extraction (Отбор) следует выбрать метод отбора. Мы оставим выбранный по умолчанию анализ главных компонентов, который упоминался выше. Таже следует выбрать метод вращения - выберем один из наиболее популярных - метод варимакса. Для сохранения значений факторов в виде переменных в закладке "Значения" необходимо поставить отметку "Save as variables" (Сохранить как переменные).

    В результате этой процедуры пользователь получает отчет "Объясненная суммарная  дисперсия", по которой видно число отобранных факторов - это те компоненты, собственные значения которых превосходят единицу.

    Полученные  значения факторов, которым обычно присваиваются названия fact1_1, fact1_2 и  т.д., используем для проведения кластерного  анализа методом k-средних. Для проведения быстрого кластерного анализа выберем в меню Analyze (Анализ) / Classify (Классифицировать) / K-Means Cluster: (Кластерный анализ методом k-средних).

    В диалоговом окне K Means Cluster Analysis (Кластерный анализ методом k-средних) необходимо поместить факторные переменные fact1_1, fact1_2 и т.д. в поле тестируемых переменных. Здесь же необходимо указать количество кластеров и количество итераций.

    В результате этой процедуры получаем отчет с выводом значений центров  сформированных кластеров, количестве наблюдений в каждом кластере, а также с дополнительной информацией, заданной пользователем.

    Алгоритм k-средних делит совокупность исходных данных на заданное количество кластеров. Для возможности визуализации полученных результатов следует воспользоваться одним из графиков, например, диаграммой рассеивания. Традиционная визуализация возможна для ограниченного количества измерений, ибо, как известно, человек может воспринимать только трехмерное пространство. Если мы анализируем более трех переменных, следует использовать специальные многомерные методы представления информации, о них будет рассказано в одной из последующих лекций курса.

Информация о работе Особенности метода кластерный анализ при большом количестве наблюдений (кластерный анализ метод К-средних) в социологических исследовани