Особенности метода кластерный анализ при большом количестве наблюдений (кластерный анализ метод К-средних) в социологических исследовани

Автор работы: Пользователь скрыл имя, 28 Сентября 2011 в 18:24, курсовая работа

Описание работы

Кластерный анализ (англ. Data clustering) — задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя. Кластерный анализ — это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры)(Q-кластеризация, или Q-техника, собственно кластерный анализ). Кластер — группа элементов, характеризуемых общим свойством, главная цель кластерного анализа — нахождение групп схожих объектов в выборке

Содержание работы

Введение……………………………………………………………………………………………..4
Глава 1. Кластерный анализ……………………………………......5
1.1. Алгоритм кластерного анализа k-средних (k-means)……………………..5
1.1.1.Описание алгоритма………………………………………………...6
1.1.2. Проверка качества кластеризации……………………………....7
1.2. Алгоритм PAM ( partitioning around Medoids)…………………………………8
1.3. Сложности, возникающие при кластерном анализе………………………..9
1.4. Сравнительный анализ иерархических и неиерархических методов кластеризации……………………………………………………………………………10
Глава 2. Алгоритмы кластерного анализа…………….11
2.1. Алгоритм BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)…………………………………………………………………………………11
2.2. Алгоритм WaveCluster…………………………………………………………11
2.3. Алгоритмы кластерного анализа Clarans, CURE, DBScan……………...12
2.4. Алгоритм CLARA (Clustering LARge Applications)………………………...12
2.5. Итеративная кластеризация в SPSS……………………………………...13
2.6. Кластеризация в Data Mining…………………………………………………16
Глава 3. Опрос, посвященный психологическому состоянию личности…………………………………………………….19
3.1. Факторный анализ……………………………………………………………...19
3.2. Быстрый кластерный анализ………………………………………………..21
Приложение………………………………………………………………………24
1. Анкета, с помощью которой я смогу провести факторный анализ…..24
2. Матрица, которая получилась после набивки анкеты…………………...26
Заключение……………………………………………………………………….27
Список используемых источников………………………….28

Файлы: 1 файл

Курсовой проект, переделанный с сылками. Танаева.doc

— 569.00 Кб (Скачать файл)
 
 
 
 
Конечные  центры кластеров
  Кластер
  1 2
VAR00001 1,95 1,45
VAR00002 2,11 2,05
VAR00003 2,32 1,82
VAR00004 2,42 1,82
VAR00005 2,32 2,00
VAR00006 2,26 2,14
VAR00007 2,26 1,91
VAR00008 2,11 2,32
VAR00009 1,68 2,41
VAR00010 1,74 2,41
VAR00011 1,42 2,59
VAR00012 1,32 2,27
VAR00013 1,37 2,00
VAR00014 1,74 2,09
VAR00015 2,26 1,91
VAR00016 2,47 1,55
VAR00017 2,42 1,32
VAR00018 2,16 1,36
VAR00019 2,21 1,50
VAR00020 2,16 1,59
     
     

    На  графике видно, что кластерный анализ дал такие же результаты как и  факторный. В результате проведенного анализа выделились две группы людей. Первая группа – спокойные, уравновешенные безконфликтные люди. Вторая – импульсивные и агрессивные личности. Такие же результаты показал и факторный анализ.

Число наблюдений в каждом кластере
Кластер 1 19,000
2 22,000
Валидные 41,000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Приложение

1. Анкета, с помощью  которой я смогу  провести факторный  анализ

1. Я бы предпочел жить в доме, который находится:

1) в  обжитом городе 2) нечто среднее  3) одиноко в глухих лесах 

2. Я бы вполне мог жить один, вдали от людей.

1) да 2) иногда 3) нет 

3. Когда я ложусь спать, я:

1) засыпаю  быстро 2) нечто среднее 2) засыпаю  с трудом

4.  Если бы я вел машину по дороге, где много других автомобилей, я предпочел бы:

1) пропустить  вперед большинство машин  2) не  знаю 3) обогнать все идущие впереди  машины

5. Я воздерживаюсь  от критики людей  и их высказываний:

1) да 2) иногда 3) нет 

6. При общении с людьми я:

1) с  готовностью вступаю в разговор 2) нечто среднее 3) предпочитаю  спокойно оставаться в стороне

7. Я говорю о своих чувствах:

1) только  если это необходимо 2) нечто среднее  3) охотно, когда представится возможность 

8. После того как  меня что-то сильно рассердит, я довольно быстро успокаиваюсь:

1) да 2) нечто среднее 3) нет. 

9. Мне трудно говорить  или декламировать  перед большой  группой людей:

1) да 2) нечто среднее 3) нет

10. Если кто-нибудь  рассердится на  меня, то я:

1) постараюсь его успокоить 2) нечто среднее 3) раздражаюсь

11. Встречаясь с несправедливостью,  я скорее склонен  забыть об этом, чем реагировать:

1) верно 2) не уверен 3) неверно

12. Бывают времена,  когда у меня  нет настроения  видеть кого бы  то ни было:

1) очень  редко 2) нечто среднее 3) довольно часто

13. Мне важно, чтобы  во всем, что меня  окружает, не было  беспорядка

1) верно 2) трудно сказать 3) неверно

14. Я бы скорее  занимался (лась):

1) фехтованием  и танцами 2) затрудняюсь сказать  3) борьбой и баскетболом 

15. Меня раздражают люди, которые не могут быстро принимать решения.

1) верно 2) не знаю 3) неверно

16. Мои друзья чаще:

1) советуются  со мной 2) дают мне советы 3) делают  то и другое поровну 

17. Мне бывает трудно  признать, что я  неправ.

1) да 2) иногда 3) нет

18. Худшее наказание  для меня:

1) тяжелая работа 2) не знаю 3) быть запертым в одиночестве

19. Я принимаю решения:

1) быстрее, чем многие люди 2) не знаю 3) медленнее большинства людей

20. На меня большее  впечатление производят:

1) мастерство и изящество 2) трудно сказать 3) сила и мощь  

    В этой таблице сведены все ответы интервьюеров, опрошенных мною.

2. Матрица, которая  получилась после  набивки анкеты

  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
1 1 2 3 2 1 3 1 3 2 1 3 1 2 3 1 2 3 1 1 1
2 2 1 3 4 2 1 3 2 1 2 3 1 1 2 3 2 1 2 2 2
3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
4 1 1 1 2 1 1 1 1 1 1 2 2 2 2 3 3 1 1 2 1
5 1 1 2 2 3 1 3 2 2 2 1 1 1 1 3 3 3 1 1 1
6 3 2 2 1 1 1 2 2 2 3 3 3 3 2 2 2 1 1 1 2
7 1 2 2 2 2 2 1 1 1 3 3 3 1 2 2 1 1 1 3 3
8 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 1 1 1 1
9 1 1 1 2 2 3 3 3 2 2 2 2 2 2 1 1 1 2 3 2
10 1 1 2 2 2 2 3 3 2 2 2 1 1 1 2 3 3 2 2 2
11 1 3 3 3 3 3 3 3 3 2 2 2 2 2 2 1 1 1 2 2
12 3 3 3 3 3 3 3 3 3 3 3 3 2 2 2 1 1 1 1 1
13 2 2 2 2 2 2 1 1 1 1 1 1 1 3 3 3 3 3 3 3
14 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 1 1 1 1 1
15 2 2 2 2 3 3 3 3 3 3 3 1 1 1 1 1 1 1 2 2
16 2 2 2 2 3 3 3 3 3 3 3 1 1 1 1 1 1 1 1 1
17 1 1 1 3 3 3 3 3 2 2 2 2 2 3 3 3 3 1 1 1
18 1 1 1 1 1 2 2 2 3 3 3 3 3 3 3 2 2 2 2 2
19 1 2 2 2 2 3 3 3 1 1 1 1 1 1 3 3 3 3 3 3
20 2 2 2 1 1 1 1 1 3 3 3 3 3 3 1 1 1 1 1 1
21 2 2 2 3 3 3 3 3 3 3 1 1 1 1 1 2 2 2 2 2
22 1 1 1 2 2 2 2 3 3 3 3 3 3 1 2 1 1 1 1 1
23 1 2 2 1 2 1 1 2 3 3 3 3 2 2 2 3 3 3 1 1
24 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2
25 3 3 3 3 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3
26 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2
27 3 3 3 3 3 3 3 3 1 1 1 1 1 2 2 2 2 1 1 1
28 1 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1
29 3 1 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3
30 1 1 1 1 1 3 2 2 3 3 1 1 1 2 1 3 3 2 1 2
31 2 3 1 2 3 1 2 3 2 2 2 2 1 2 1 1 1 1 1 2
32 3 3 3 2 2 2 2 1 1 1 1 2 2 2 3 3 3 3 3 3
33 1 3 1 3 1 3 1 2 2 2 2 2 2 3 3 3 1 1 2 2
34 1 3 2 1 2 3 1 2 3 3 3 2 2 2 1 1 1 2 2 2
35 1 3 3 3 3 3 2 2 2 1 1 1 1 2 2 2 2 3 3 3
36 1 2 3 3 3 3 3 3 2 2 2 1 1 1 1 1 1 2 2 2
37 3 3 3 2 2 1 1 1 1 1 1 2 2 2 2 3 3 2 2 1
38 2 3 1 2 3 1 2 3 1 2 2 2 2 2 2 1 1 1 1 2
39 3 3 2 2 2 2 2 2 1 1 1 1 1 1 2 2 2 2 2 1
40 2 3 3 3 3 3 2 2 2 2 1 1 1 1 2 2 2 2 3 3
 

Заключение 

    Наступивший XXI век стал этапным для проникновения новых информационных технологий и создаваемых на их основе высокопроизводительных компьютерных систем во все сферы человеческой деятельности - управление, производство, науку, образование и т.д.

    Кластерный  анализ параллельно развивался в  нескольких направлениях, таких как  биология, психология, др., поэтому у  большинства методов существует по два и более названий. Это  существенно затрудняет работу при  использовании кластерного анализа. Кластеризация служит для объединения больших объемов данных в группы (кластеры), которые характеризуются тем, что элементы внутри каждой группы имеют больше «сходства» между собой, чем между элементами соседних кластеров. В целом, все методы кластеризации можно подразделить на иерархические и неиерархические. Последние чаще всего используются при анализе больших объемов данных, т.к. они обладают большей скоростью. [12. http://www.intuit.ru/department/database/datamining/13/].1

    Кластерный  анализ не требует априорных предположений о наборе данных, не накладывает ограничения на представление исследуемых объектов, позволяет анализировать показатели различных типов данных (интервальным данным, частотам, бинарным данным). При этом нужно помнить, что переменные должны измеряться в сравнимых шкалах.

    В ходе курсового проекта я подробно рассмотрела метод кластерный анализ.

    Я доказала актуальность своей темы с  помощью проведенного анкетирования.

    В своем курсовом проекте я подробно рассмотрела алгоритм кластерного  анализа, его виды.

    Вначале своей работы я ставила ряд  задач, которые в ходе работы, по моему мнению, были выполнены.

    Кластерный  анализ – один из наиболее интересных и действенных способов обработки  информации. 
 

Список  используемых источников 

    1. Статья в Интернет. Пакет статистической обработки. Кластерный анализ при большом количестве наблюдений. http://www.sati.archaeology.nsc.ru/stat/methods_info.php  

    2. Итеративная кластеризация в SPSS. http://www.forekc.ru/nr2/index-iterativnaya_klasterizaciya_v_spss_2.htm 

    3. Методы кластерного анализа. http://www.intuit.ru/department/database/datamining/13/ 

    4.Статья из журнала http://www.springerlink.com/content/qj16212n7537n6p3/fulltext.pdf 

    5. Алгоритмы кластерного анализа. Статья в Интернет. «Анализ методов автоматического извлечения знаний из реляционных баз данных». Кошелева В. А. http://www.dea-analysis.ru/clustering-5.htm 
 

    6.www.allbect.ru

    7. Гаврилова Т.А.. Хорошевский В.Ф. - Базы знаний интеллектуальных систем (2000)

 

    8. http://www.learnspss.ru/handbooks.htm Учебник по работе с SPSS. Камалов Н. К. 

    9. http://ru.wikipedia.org/wiki/Inf.htm. Извлечение информации 

    10. http://www.basegroup.ru/library/analysis/clusterization/datamining/ Корчин А. П. Методы кластеризации

Информация о работе Особенности метода кластерный анализ при большом количестве наблюдений (кластерный анализ метод К-средних) в социологических исследовани