Автор работы: Пользователь скрыл имя, 02 Декабря 2010 в 21:45, Не определен
Модель - это такой материальный или мысленно представляемый объект, который в процессе изучения замещает объект-оригинал, сохраняя некоторые важные для данного исследования типичные его черты.
42. Измерение характеристик объектов и их представление в задачах кластеризации
В прикладных
задачах кластеризации
Числовые
характеристики первой группы, как
правило, соответствуют аксиоматике
Евклида. Для субъективных показателей
возникает задача выбора приемлемой
метрики, а в дальнейшем - сопоставимости
показателей обеих групп. Для
этого существуют различные искусственные
методы включающие нормирование показателей,
т. е. представление чисел в
Несмотря на «всеядность» кластерного анализа относительно исходной информации, в предварительно обработанном виде эмпирические данные должны отвечать следующим требованиям:
-содержательной репрезентативности, т. е. информация должна отражать существенные для исследования свойства объектов классификации;
-полноте объема информации, достаточной для объяснения явлений;
-достоверности;
-существованию формальных правил, по которым можно объективно интерпретировать данные, упорядоченные матрицы и т. п. Если это невозможно сделать в автоматическом режиме, то должны существовать эксперты, способные по приведенной информации дать оценку явлениям;
релевантности
(степень соответствия
запроса и найденного,
то есть уместность
результата или адекватность) экспертных
оценок.
43. Целевые функции кластеризации
В качестве
критерия правильности классификации
методами кластерного анализа можно
использовать такие функции, которые
содержат в себе содержательную логику
основных задач, понимание постановщиком
исследования того, как должно выглядеть
разделенное множество
Но чаще
всего постановщик задачи не знает,
какие могут быть результаты классификации,
и тем более не может априори
определить, какое разбиение следует
признать оптимальным. В этом случае
на помощь приходят целевые функции,
сформулированные на основе изучения
кластерной матрицы или промежуточных
результатов кластеризации. Как
правило, эти целевые функции
корреспондируют с основными
содержательными
Использование
целевых функций позволяет
Сформулируем
некоторые целевые функции, способные
оценить качество классификации
и выбрать оптимальные
А. Минимум объектов, не попавших ни в один кластер (потери классификации)
Несмотря на то, что потери объектов при классификации - процесс неизбежный, постановщик задачи, желающий сделать исследование репрезентативным, старается свести эти потери к минимуму:
где: - объект, который после окончания расчетов не попал ни в один кластер.
Причины
потерь объектов классификации могут
состоять как в объективной
Если количество объектов, не вошедших ни в один кластер после завершения всех вариантов классификации, достаточно велико, разумно провести специальное исследование причин подобных результатов.
В.Максимально возможная компактность каждого кластера
Компактность кластера можно определить следующим образом:
• разделить исходное множество на кластеры;
• у каждого кластера вычислить условный «центр массы».
С. Максимальное суммарное расстояние между границами (оболочками) кластеров
Этот критерий оценивает расстояние между образами (кластерами), что, в свою очередь, характеризует степень их отличия друг от друга и то, насколько методически объективно разделены объекты изучения.
D. Максимальное совпадение признаков (однородность) в каждом кластере
Соединение объектов в кластеры может происходить не только за счет однородности характеристик, но и в результате искусственных манипуляций: произвольного изменения масштаба расстояний, исключения из рассмотрения отдельных характеристик, субъективизма в постановке задач и многих других действий.
Поэтому
важно найти объективную
Вообще целевая функция однородности может быть сформулирована скорее в неформальном виде, чем задана алгоритмически. Учитывая неопределенность задачи выбора наиболее информативных характеристик, эффективнее эту процедуру поручить экспертам, причем не останавливаться на одном варианте показателей, а провести расчеты с несколькими вариантами. Сравнение результатов поможет оценить уровень доверия к экспертам.
Е. Максимальное приближение реального числа кластеров к теоретически идеальному.
F. Максимальная концентрация объектов в каждом кластере около расчетного ядра.
G. Максимальное приближение расположения объектов в кластерах к теоретически обоснованным законам распределения случайных величин.
H. Максимальное
приближение дискриминантных линий,
ограничивающих кластеры, к заранее заданным
идеальным функциям.
44. Методы кластеризации
-K-средних (K-means)
-Графовые алгоритмы кластеризации
-Статистические алгоритмы кластеризации
-Алгоритм ФОРЕЛЬ
-Иерархическая кластеризация или таксономия
-Нейронная сеть Кохонена
-Ансамбль
кластеризаторов
45. Кластеризация полным перебором объектов
Методически этот способ кластеризации наиболее прост, но довольно трудоемок. Применяется при небольшом числе объектов и обычно дает до 5-6 кластеров.
При полном
переборе непреодолимые сложности
составляют не только большой объем
вычислений, но и невозможность интерпретации
огромного количества вариантов
кластеризации, многие из которых не
имеют практического смысла, совпадают
друг с другом или не удовлетворяют
каким-либо формальным критериям кластеризации.
Поэтому полный перебор должен сопровождаться
алгоритмом исключения ненужных вычислительных
процедур, изъятия из рассмотрения
большого числа вариантов группировки,
не удовлетворяющих целям
Для использования
метода полного перебора и сокращения
вычислений используются алгоритмы
динамического программирования
46. Алгоритм «форель»
Существует
последовательность действий, характерная
для большинства известных
1. Случайно-интуитивным
способом выбирается точка (
2. Вычисляются
расстояния от выбранной точки
до всех остальных объектов. Затем
эти расстояния заносятся в
матрицу в упорядоченном виде.
Полученная матрица нужна
3. Радиус
сферы выбирается произвольно.
При выборе радиуса удобно
придерживаться принципа
4. Все
объекты, попавшие в
5. Для
выбора координат нового
6. Вновь
построенная сфера включает в
себя как объекты из первой
сферы, так и новые. Старые
объекты исключаются из
7. Кластером
в этом алгоритме будут
В алгоритме «Форель» качество классификации во многом зависит от рациональности выбора объектов - центров сфер и радиуса поиска. Если фазовое пространство метрики имеет три, два или одно измерение, то оценить исходные данные алгоритма можно визуально, а в случае неудачи изменить их. В многомерном пространстве исходные параметры выбираются вслепую, и при неудачах приходится рассматривать все новые и новые варианты, количество которых может быть весьма значительно.
Исследователь может менять параметры алгоритма «Форель». В зависимости от правильности выбора начальной точки - центра сферы конфигурация кластера и число кластеров существенно меняются. Поэтому имеет смысл провести кластеризацию несколько раз, меняя начальную точку и сравнивая полученные варианты. В том случае, если исследователя не удовлетворяет количество объектов, вошедших в кластер, или число сфер, то для измерения этих параметров можно варьировать значения радиуса сферы. Очевидно, увеличение радиуса приведет к расширению состава кластера, и наоборот.
Алгоритм «Форель» имеет существенные недостатки:
-отсутствуют автоматические критерии качества кластеризации
-границы между кластерами могут не иметь явно выраженных функций «водораздела».
-нет возможностей
изменения правил выбора граничных значений
кластеров, как следствие - ограниченные
возможности для практического использования.
Информация о работе Характеристика моделирования, понятия модели