Автор работы: Пользователь скрыл имя, 25 Марта 2011 в 06:33, курсовая работа
Оглавление
Цель данной работы является изучение теоретических аспектов кластерного анализа, ознакомление с практическим применением кластерного анализа и исследование расстояния между объектами и кластерами.
Курсовая работа включает в себя теоретическую часть, в которой рассматриваются задачи курса многомерных статистических методов и производится излагание основной части работы - описание класстерного анализа, а также практичская часть работы.
Введение……..……………………………………….……..3
ГЛАВА 1. Многомерные статистические методы….…….4
1.1 Введение в кластерный анализ..……………..….…….4
1.2 Задача кластерного анализа…………...……….……...7
1.3 Методы кластерного анализа………………………...11
ГЛАВА 2. Расстояние между объектами. Расстояние между кластерами………………………………………………...13
2.1 Расстояние между объектами (клстерами) и мера близости…………………………………………………..13
2.2 Расстояние между кластерами……………………….18
ГЛАВА 3. Применение кластерного анализа………………..21
Заключение……………………………………………..28
Список использованной литературы…………………
ФАКУЛЬТЕТ
ЭКОНОМИКИ И УПРАВЛЕНИЯ
по дисциплине:
Многомерные статистические методы
на тему:
Научный
руководитель
КАЗАНЬ
2010
Оглавление
Введение……..………………………………………
ГЛАВА 1. Многомерные статистические методы….…….4
1.1 Введение в кластерный анализ..……………..….…….4
1.2 Задача кластерного анализа…………...……….……...7
1.3 Методы кластерного анализа………………………...11
ГЛАВА 2. Расстояние между объектами. Расстояние между кластерами………………………………………………..
.13
2.1 Расстояние между объектами (клстерами) и мера близости…………………………………………………..
13
2.2 Расстояние между кластерами……………………….18
ГЛАВА 3. Применение кластерного анализа………………..21
Заключение…………………………………
Список
использованной литературы…………………29
При анализе и прогнозировании социально-экономических явлений исследователь довольно часто сталкивается с многомерностью их описания. Это происходит при решении задачи сегментирования рынка, построении типологии стран по достаточно большому числу показателей, прогнозирования конъюнктуры рынка отдельных товаров, изучении и прогнозировании экономической депрессии и многих других проблем.
Методы
многомерного анализа - наиболее действенный
количественный инструмент исследования
социально-экономических
Цель данной работы является изучение теоретических аспектов кластерного анализа, ознакомление с практическим применением кластерного анализа и исследование расстояния между объектами и кластерами.
Курсовая работа включает в себя теоретическую часть, в которой рассматриваются задачи курса многомерных статистических методов и производится излагание основной части работы - описание класстерного анализа, а также практичская часть работы.
Таким
образом, кластерный анализ – объект
изучения в данной курсовой работе.
1. Многомерные статистические методы.
Многомерные
статистические методы изучает основные
теоритические положения
Классификация
методов статистического
1. Установление самого факта наличия (или отсутствия) статистически значимой связи между исследуемыми переменными
2.
Прогноз (восстановление) неизвестных
значений интересующих нас
3.
Выявление причинных связей между
объясняющими переменными и
1.1 Введение в кластерный анализ
Кластерный анализ наиболее ярко отражает черты многомерного анализа в классификации, факторный анализ – в исследовании связи.
Иногда подход кластерного анализа называют в литературе численной таксономией, численной классификацией, распознаванием с самообучением и т.д.
Первое применение кластерный анализ нашел в социологии. Название кластерный анализ происходит от английского слова cluster – гроздь, скопление. Впервые в 1939 был определен предмет кластерного анализа и сделано его описание исследователем Трионом. Главное назначение кластерного анализа – разбиение множества исследуемых объектов и признаков на однородные в соответствующем понимании группы или кластеры. Это означает, что решается задача классификации данных и выявления соответствующей структуры в ней. Методы кластерного анализа можно применять в самых различных случаях, даже в тех случаях, когда речь идет о простой группировке, в которой все сводится к образованию групп по количественному сходству.
Большое достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных данных практически произвольной природы. Это имеет большое значение, например, для прогнозирования конъюнктуры, когда показатели имеют разнообразный вид, затрудняющий применение традиционных эконометрических подходов.
Кластерный
анализ позволяет рассматривать
достаточно большой объем информации
и резко сокращать, сжимать большие
массивы социально-
Кластерный анализ позволяет сокращать размерность данных, делать ее наглядной.
Кластерный
анализ может применяться к
Кластерный анализ параллельно развивался в нескольких направлениях, таких как биология, психология, др., поэтому у большинства методов существует по два и более названий. Это существенно затрудняет работу при использовании кластерного анализа
Важное значение кластерный анализ имеет применительно к совокупностям временных рядов, характеризующих экономическое развитие (например, общехозяйственной и товарной конъюнктуры). Здесь можно выделять периоды, когда значения соответствующих показателей были достаточно близкими, а также определять группы временных рядов, динамика которых наиболее схожа.
Кластерный анализ можно использовать циклически. В этом случае исследование производится до тех пор, пока не будут достигнуты необходимые результаты. При этом каждый цикл здесь может давать информацию, которая способна сильно изменить направленность и подходы дальнейшего применения кластерного анализа. Этот процесс можно представить системой с обратной связью.
В задачах социально-экономического прогнозирования весьма перспективно сочетание кластерного анализа с другими количественными методами (например, с регрессионным анализом).
Как и любой другой метод, кластерный анализ имеет определенные недостатки и ограничения: В частности, состав и количество кластеров зависит от выбираемых критериев разбиения. При сведении исходного массива данных к более компактному виду могут возникать определенные искажения, а также могут теряться индивидуальные черты отдельных объектов за счет замены их характеристиками обобщенных значений параметров кластера. При проведении классификации объектов игнорируется очень часто возможность отсутствия в рассматриваемой совокупности каких-либо значений кластеров.
В кластерном анализе считается, что:
а) выбранные характеристики допускают в принципе желательное разбиение на кластеры;
б) единицы измерения (масштаб) выбраны правильно.
Выбор масштаба играет большую роль. Как правило, данные нормализуют вычитанием среднего и делением на стандартное отклоненение, так что дисперсия оказывается равной единице.
1.2. Задача кластерного анализа.
Задачи кластерного анализа можно объединить в следующие группы:
Как правило, при практическом использовании кластерного анализа одновременно решается несколько из указанных задач. Рассмотрим пример процедуры кластерного анализа. Допустим, мы имеем набор данных А, сос-тоящий из 14-ти примеров, у которых имеется по два признака X и Y. Данные по ним приведены в таблице 1.
Таблица 1. Набор данных А | ||
№ примера | признак X | признак Y |
1 | 27 | 19 |
2 | 11 | 46 |
3 | 25 | 15 |
4 | 36 | 27 |
5 | 35 | 25 |
6 | 10 | 43 |
7 | 11 | 44 |
8 | 36 | 24 |
9 | 26 | 14 |
10 | 26 | 14 |
11 | 9 | 45 |
12 | 33 | 23 |
13 | 27 | 16 |
14 | 10 | 47 |
Данные в табличной форме не носят информативный характер. Представим переменные X и Y в виде диаграммы рассеивания, изображенной на рис. 1.
Рис. 1. Диаграмма рассеивания переменных X и Y
На рисунке мы видим несколько групп "похожих" примеров. Примеры (объекты), которые по значениям X и Y "похожи" друг на друга, принадлежат к одной группе (кластеру); объекты из разных кластеров не похожи друг на друга.
Информация о работе Кластерный анализ. Расстояние между объектами. Расстояние между кластерами