Особенности метода кластерный анализ при большом количестве наблюдений (кластерный анализ метод К-средних) в социологических исследовани

Курсовая работа, 28 Сентября 2011, автор: пользователь скрыл имя

Описание работы

Кластерный анализ (англ. Data clustering) — задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя. Кластерный анализ — это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры)(Q-кластеризация, или Q-техника, собственно кластерный анализ). Кластер — группа элементов, характеризуемых общим свойством, главная цель кластерного анализа — нахождение групп схожих объектов в выборке

Содержание работы

Введение……………………………………………………………………………………………..4
Глава 1. Кластерный анализ……………………………………......5
1.1. Алгоритм кластерного анализа k-средних (k-means)……………………..5
1.1.1.Описание алгоритма………………………………………………...6
1.1.2. Проверка качества кластеризации……………………………....7
1.2. Алгоритм PAM ( partitioning around Medoids)…………………………………8
1.3. Сложности, возникающие при кластерном анализе………………………..9
1.4. Сравнительный анализ иерархических и неиерархических методов кластеризации……………………………………………………………………………10
Глава 2. Алгоритмы кластерного анализа…………….11
2.1. Алгоритм BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)…………………………………………………………………………………11
2.2. Алгоритм WaveCluster…………………………………………………………11
2.3. Алгоритмы кластерного анализа Clarans, CURE, DBScan……………...12
2.4. Алгоритм CLARA (Clustering LARge Applications)………………………...12
2.5. Итеративная кластеризация в SPSS……………………………………...13
2.6. Кластеризация в Data Mining…………………………………………………16
Глава 3. Опрос, посвященный психологическому состоянию личности…………………………………………………….19
3.1. Факторный анализ……………………………………………………………...19
3.2. Быстрый кластерный анализ………………………………………………..21
Приложение………………………………………………………………………24
1. Анкета, с помощью которой я смогу провести факторный анализ…..24
2. Матрица, которая получилась после набивки анкеты…………………...26
Заключение……………………………………………………………………….27
Список используемых источников………………………….28

Скачать архив (142.25 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

Курсовой проект, переделанный с сылками. Танаева.doc

— 569.00 Кб (Скачать файл)

Итеративные методы кластеризации различаются выбором параметров:

1. начальной точки

2. правилом формирования новых кластеров

3. правилом остановки

В пакете SPSS, например, при необходимости работы как с количественными (например, доход), так и с категориальными (например, семейное положение) переменными, а также если объем данных достаточно велик, используется метод Двухэтапного кластерного анализа, который представляет собой масштабируемую процедуру кластерного анализа, позволяющую работать с данными различных типов.

На первом этапе работы записи предварительно кластеризуются в большое количество суб-кластеров. На втором этапе полученные суб-кластеры группируются в необходимое количество. Если это количество неизвестно, процедура сама автоматически определяет его. [5. с-75-77]

В общем случае все этапы кластерного анализа взаимосвязаны, и решения, принятые на одном из них, определяют действия на последующих этапах.

Аналитику следует решить, использовать ли все наблюдения либо же исключить некоторые данные или выборки из набора данных.

По мнению многих специалистов, выбор метода кластеризации является решающим при определении формы и специфики кластеров.

Анализ результатов кластеризации. Этот этап подразумевает решение таких вопросов: не является ли полученное разбиение на кластеры случайным; является ли разбиение надежным и стабильным на под выборках данных; существует ли взаимосвязь между результатами кластеризации и переменными, которые не участвовали в процессе кластеризации; можно ли интерпретировать полученные результаты кластеризации.

Проверка результатов кластеризации. Результаты кластеризации также должны быть проверены формальными и неформальными методами. Формальные методы зависят от того метода, который использовался для кластеризации.

Неформально включают следующие процедуры проверки качества кластеризации:

1. анализ результатов кластеризации, полученных на определенных выборках набора данных

2. кросс-проверка

3. проведение кластеризации при изменении порядка наблюдений в наборе данных

4. проведение кластеризации при удалении некоторых наблюдений

5. проведение кластеризации на небольших выборках

Один из вариантов проверки качества кластеризации - использование нескольких методов и сравнение полученных результатов. Отсутствие подобия не будет означать некорректность результатов, но присутствие похожих групп считается признаком качественной кластеризации. [2. с-2-3].

2.6. Кластеризация в Data Mining

Кластеризация в Data Mining приобретает ценность тогда, когда она выступает одним из этапов анализа данных, построения законченного аналитического решения. Аналитику часто легче выделить группы схожих объектов, изучить их особенности и построить для каждой группы отдельную модель, чем создавать одну общую модель на всех данных. Таким приемом постоянно пользуются в маркетинге, выделяя группы клиентов, покупателей, товаров и разрабатывая для каждой их них отдельную стратегию.

Очень часто данные, с которыми сталкивается технология Data Mining, имеют следующие важные особенности:

1. высокая размерность (тысячи полей) и большой объем (сотни тысяч и миллионы записей) таблиц баз данных и хранилищ данных (сверхбольшие базы данных)

2. наборы данных содержат большое количество числовых и категорийных атрибутов

Все атрибуты, или признаки объектов делятся на числовые (numerical) и категорийные (categorical). Числовые атрибуты – это такие, которые могут быть упорядочены в пространстве, соответственно категорийные – которое не могут быть упорядочены. Например, атрибут "возраст" – числовой, а "цвет" – категорийный. Приписывание атрибутам значений происходит во время измерений выбранным типом шкалы, а это, вообще говоря, представляет собой отдельную задачу.

Большинство алгоритмов кластеризации предполагают сравнение объектов между собой на основе некоторой меры близости (сходства). Мерой близости называется величина, имеющая предел и возрастающая с увеличением близости объектов. Меры сходства "изобретаются" по специальным правилам, а выбор конкретных мер зависит от задачи, а также от шкалы измерений. В качестве меры близости для числовых атрибутов очень часто используется евклидово расстояние, вычисляемое по формуле

Для категорийных атрибутов распространена мера сходства Чекановского-Серенсена и Жаккара. Потребность в обработке больших массивов данных в Data Mining привела к формулированию требований, которым должен удовлетворять алгоритм кластеризации:

Минимально возможное количество проходов по базе данных
Работа в ограниченном объеме оперативной памяти компьютера
Работу алгоритма можно прервать с сохранением промежуточных результатов, чтобы продолжить вычисления позже
Алгоритм должен работать, когда объекты из базы данных могут извлекаться только в режиме однонаправленного курсора

Алгоритм, удовлетворяющий данным требованиям (особенно второму), будем называть масштабируемым (scalable). Масштабируемость – важнейшее свойство алгоритма, зависящее от его вычислительной сложности и программной реализации. Алгоритм называют масштабируемым, если при неизменной емкости оперативной памяти с увеличением числа записей в базе данных время его работы растет линейно. На заре становления теории кластерного анализа вопросам масштабируемости алгоритмов внимания практически не уделялось. Предполагалось, что все обрабатываемые данные будут умещаться в оперативной памяти, главный упор всегда делался на улучшение качества кластеризации. Трудно соблюсти баланс между высоким качеством кластеризации и масштабируемостью. Поэтому в идеале в арсенале Data Mining должны присутствовать как эффективные алгоритмы кластеризации микромассивов (microarrays), так и масштабируемые для обработки сверхбольших баз данных (large databases). [10. с-7].

Глава 3. Опрос, посвященный психологическому состоянию личности

Я попросила ответить на предложенные вопросы 40 человек в возрасте от 18 до 60 лет.

Загружаем полученные данные в программу SPSS.

3.1. Факторный анализ

Мера адекватности и критерий Бартлетта
Мера выборочной адекватности Кайзера-Мейера-Олкина.		,448
Критерий сферичности Бартлетта	Прибл. хи-квадрат	539,764
	ст.св.	190
	Знч.	,000

Матрица повернутых компонент^a
	Компонента
	1	2	3	4	5	6	7
VAR00007	,918
VAR00005	,726
VAR00008	,706
VAR00004	,698
VAR00017		,930
VAR00016		,792
VAR00011		-,527
VAR00014			,813
VAR00013			,781
VAR00012			,687
VAR00015			,638
VAR00020				,928
VAR00019				,901
VAR00018		,585		,652
VAR00009					,811
VAR00010					,749
VAR00002						,876
VAR00003						,779
VAR00001							-,757
VAR00006							,702
Метод выделения: Анализ методом главных компонент. Метод вращения: Варимакс с нормализацией Кайзера.
a. Вращение сошлось за 9 итераций.

Из матрицы компонент видно, что вопросы под номерами 11, 10, 9, 18, 19, 17, 16, 20 сочетаются и, когда их обработать, вырисовывается определенная картина моей анкеты. Тоже самое можно сказать про вопросы под номерами 5, 7, 8, 4, 13, 12, 6, 14. Эти группы вопросов ясно вырисовывают нам психологический портрет интервьюера.

Проведенные мною исследования показали, что психологическое состояние личности на прямую зависит от потребностей и привязанностей данной личности.

Люди, выбирающие агрессивные виды спорта, настаивающие только на своем мнении в споре, те, кто не уступает место на дороге и в жизни ведут себя агрессивно и не уступают оппоненту.

Личности же с мягким характером, наоборот выбирают танцы, музыку, готовы уступать оппоненту и прощать обидчиков, пропускать все автомобили, находящиеся вместе с ним на дороге.

Выявился интересный факт: интервьюеры, не удовлетворенные своим социальным положением хотели бы жить вдалеке от людей, и наоборот, люди, находящиеся на вершине успеха, как можно больше времени хотят проводить в обществе.

3.2. Быстрый кластерный анализ

Начальные центры кластеров
	Кластер
	1	2
VAR00001	1,00	2,00
VAR00002	3,00	2,00
VAR00003	3,00	2,00
VAR00004	3,00	1,00
VAR00005	3,00	1,00
VAR00006	3,00	1,00
VAR00007	2,00	1,00
VAR00008	2,00	1,00
VAR00009	2,00	3,00
VAR00010	1,00	3,00
VAR00011	1,00	3,00
VAR00012	1,00	3,00
VAR00013	1,00	3,00
VAR00014	2,00	3,00
VAR00015	2,00	1,00
VAR00016	2,00	1,00
VAR00017	2,00	1,00
VAR00018	3,00	1,00
VAR00019	3,00	1,00
VAR00020	3,00	1,00

Информация о работе Особенности метода кластерный анализ при большом количестве наблюдений (кластерный анализ метод К-средних) в социологических исследовани

Особенности метода кластерный анализ при большом количестве наблюдений (кластерный анализ метод К-средних) в социологических исследовани

Описание работы

Содержание работы

Файлы: 1 файл

Курсовой проект, переделанный с сылками. Танаева.doc

2.6. Кластеризация в Data Mining

Информация о работе Особенности метода кластерный анализ при большом количестве наблюдений (кластерный анализ метод К-средних) в социологических исследовани

Связанные документы

Метод SWOT-анализа

Методы анализа swot

Методы анализа ртути

Методы анализа рисков

Особенности SWOT-анализа

Факторный метод анализа

Кластерный анализ данных

Методы финансового анализа

Метод компонентного анализа

Методы анализа внешней среды

Эвристические методы анализа

Методы анализа внешней среды

Похожие темы

Методы количественного анализа

Метод наблюдения

Метод анализа предприятия