Автор работы: Пользователь скрыл имя, 25 Марта 2011 в 06:33, курсовая работа
Оглавление
Цель данной работы является изучение теоретических аспектов кластерного анализа, ознакомление с практическим применением кластерного анализа и исследование расстояния между объектами и кластерами.
Курсовая работа включает в себя теоретическую часть, в которой рассматриваются задачи курса многомерных статистических методов и производится излагание основной части работы - описание класстерного анализа, а также практичская часть работы.
Введение……..……………………………………….……..3
ГЛАВА 1. Многомерные статистические методы….…….4
1.1 Введение в кластерный анализ..……………..….…….4
1.2 Задача кластерного анализа…………...……….……...7
1.3 Методы кластерного анализа………………………...11
ГЛАВА 2. Расстояние между объектами. Расстояние между кластерами………………………………………………...13
2.1 Расстояние между объектами (клстерами) и мера близости…………………………………………………..13
2.2 Расстояние между кластерами……………………….18
ГЛАВА 3. Применение кластерного анализа………………..21
Заключение……………………………………………..28
Список использованной литературы…………………
скандинавские;
германоязычные;
англоязычные;
романские европейские;
латиноамериканские;
дальневосточные.
3. Разработка прогноза конъюнктуры рынка цинка.
Кластерный
анализ играет важную роль на этапе
редукции экономико-математической модели
товарной конъюнктуры, способствуя
облегчению и упрощению вычислительных
процедур, обеспечению большей
Кластерный
анализ широко используется для моделирования
рыночной конъюнктуры. Практически
основное большинство задач
Например, задача разработки прогноза конъюнктуры рынка цинка.
Первоначально было отобрано 30 основных показателей мирового рынка цинка:
Х1 - время
Показатели производства:
Х2 - в мире
Х3 - США
Х4 - Европе
Х5 - Канаде
Х6 - Японии
Х7 - Австралии
Показатели потребления:
Х8 - в мире
Х9 - США
Х10 - Европе
Х11 - Канаде
Х12 - Японии
Х13 - Австралии
Запасы цинка у производителей:
Х14 - в мире
Х15 - США
Х16 - Европе
Х17 - других странах
Запасы цинка у потребителей:
Х18 - в США
Х19 - в Англии
Х10 - в Японии
Импорт цинковых руд и концентратов (тыс. тонн)
Х21 - в США
Х22 - в Японии
Х23 - в ФРГ
Экспорт цинковых руд и концентратов (тыс. тонн)
Х24 - из Канады
Х25 - из Австралии
Импорт цинка (тыс. тонн)
Х26 - в США
Х27 - в Англию
Х28 - в ФРГ
Экспорт цинка (тыс. Тонн)
Х29 - из Канады
Х30 - из Австралии
Для
определения конкретных зависимостей
был использован аппарат
а) отсутствие полных статистических данных по всем переменным;
б) резкое усложнение вычислительных процедур при введении в модель большого числа переменных;
в)
оптимальное использование
г) стремление к использованию в модели статистически независимых переменных и пр.
Проводить такой анализ непосредственно на сравнительно громоздкой матрице коэффициентов корреляции весьма затруднительно. С помощью кластерного анализа всю совокупность конъюнктурных переменных можно разбить на группы таким образом, чтобы элементы каждого кластера сильно коррелировали между собой, а представители разных групп характеризовались слабой коррелированностью.
Для решения этой задачи был применен один из агломеративных иерархических алгоритмов кластерного анализа. На каждом шаге число кластеров уменьшается на один за счет оптимального, в определенном смысле, объединения двух групп. Критерием объединения является изменение соответствующей функции. В качестве функции такой были использованы значения сумм квадратов отклонений вычисляемые по следующим формулам:
(j = 1, 2, …, m),
где j - номер кластера, n - число элементов в кластере.
rij - коэффициент парной корреляции.
Таким
образом, процессу группировки должно
соответствовать
На
первом этапе первоначальный массив
данных представляется в виде множества,
состоящего из кластеров, включающих в
себя по одному элементу. Процесс группировки
начинается с объединения такой пары кластеров,
которое приводит к минимальному возрастанию
суммы квадратов отклонений. Это требует
оценки значений суммы квадратов отклонений
для каждого из возможных
объединений кластеров. На следующем
этапе рассматриваются значения сумм
квадратов отклонений уже для
кластеров и т.д. Этот процесс будет остановлен
на некотором шаге. Для этого нужно следить
за величиной суммы квадратов отклонений.
Рассматривая последовательность возрастающих
величин, можно уловить скачок (один или
несколько) в ее динамике, который можно
интерпретировать как характеристику
числа групп «объективно» существующих
в исследуемой совокупности. В приведенном
примере скачки имели место при числе
кластеров равном 7 и 5. Далее снижать число
групп не следует, т.к. это приводит к снижению
качества модели. После получения кластеров
происходит выбор переменных наиболее
важных в экономическом смысле и наиболее
тесно связанных с выбранным критерием
конъюнктуры - в данном случае с котировками
Лондонской биржи металлов на цинк. Этот
подход позволяет сохранить значительную
часть информации, содержащейся в первоначальном
наборе исходных показателей конъюнктуры.
Таким образом, кластерный анализ – один из методов многомерного анализа, предназначенный для группировки (кластеризации) совокупности элементов, которые характеризуются многими факторами, и получения однородных групп (кластеров). Разбиение на кластеры происходит с помощью некоторой метрики, например, евклидова расстояния. Задача кластерного анализа состоит в представлении исходной информации об элементах в сжатом виде без ее существенной потери.
В
результате изучения кластерного анализа
были изучены его задачи, достоинства
и недостатки, сферы их применения и опыт
использования анализа. В ходе выполнения
работы ознакомились с ходом проведения
кластерного анализа при классификации
стран по признакам. Итогом работы стала
группировка стран по кластерам, критерием
которой стала сравнение значений показателей
между объектами.
Список литературы
2. Многомерные статистические методы. Часть IV. Кластерный анализ: Учебно-методическое пособие/ Составители: Н.И.Гришакина, В.С.Дмитриева, Н.В.Манова, С.В.Мельникова, О.Д.Притула, Е.А.Антонова, А.В.Кякинен; НовГУ им. Ярослава Мудрого. – Великий Новгород, 2005. – 54 с.
3.. Многомерные статистические методы. Часть V. Дискриминантный анализ: Учебно-методическое пособие/ Составители: Н.И.Гришакина, В.С.Дмитриева, Н.В.Манова, С.В.Мельникова; НовГУ им. Ярослава Мудрого. – Великий Новгород, 2005. – 56 с.
4. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы. Учебник. – М.- Финансы и статистика, 2008г.
5. Многомерный статистический анализ в экономике: Учеб. Пособие для ВУЗов/ под ред. Проф. В.Н. Тамашевича., 2009.
6. Многомерный статистический анализ, Дронов С.В., 2005г, 213с.
7.
Эконометрика, В.С.Мхиторян, М.Ю.Архипова,
В.П.Сиротин, 2008г, 144с
Информация о работе Кластерный анализ. Расстояние между объектами. Расстояние между кластерами