Автор работы: Пользователь скрыл имя, 02 Декабря 2010 в 21:45, Не определен
Модель - это такой материальный или мысленно представляемый объект, который в процессе изучения замещает объект-оригинал, сохраняя некоторые важные для данного исследования типичные его черты.
Каждая
единица совокупности в кластерном
анализе рассматривается как
точка в заданном признаковом
пространстве. Значение каждого из
признаков у данной единицы служит
ее координатой в этом пространстве
по аналогии с координатами точки
в нашем реальном трехмерном пространстве.
Таким образом, признаковое пространство
– это область варьирования всех
признаков совокупности изучаемых
явлений.
38. Функции расстояния (различия, несходства)
Если
уподобить признаковое
Наиболее
распространенной функцией расстояния
между двумя объектами по некоторому
признаку является расстояние в метрике
Евклида или евклидово
Метрика Евклида позволяет не учитывать знаковые различия, пропорционально увеличивает расстояние между объектами в случае разных абсолютных значений показателей. В результате увеличивается размерность кластерного поля, объекты искусственно отдаляются друг от друга, в результате чего границы между кластерами становятся более четкими и точными.
Второй по значимости функцией расстояния принято считать метрику несхожести Хемминга.
Метрика
Хемминга может использоваться в
тех случаях, когда знаковые различия
характеристик объектов имеют принципиальное
значение. За счет нивелирования знаковых
различий показателей объекты
Так же существуют следующие функции расстояния:
Независимые переменные в уравнении регрессии можно представлять точками в многомерном пространстве (каждое наблюдение изображается точкой). В этом пространстве можно построить точку центра. Эта "средняя точка" в многомерном пространстве называется центроидом, т.е. центром тяжести. Расстояние Махаланобиса определяется как расстояние от наблюдаемой точки до центра тяжести в многомерном пространстве, определяемом коррелированными (неортогональными) независимыми переменными (если независимые переменные некоррелированы, расстояние Махаланобиса совпадает с обычным евклидовым расстоянием). Эта мера позволяет, в частности, определить является ли данное наблюдение выбросом по отношению к остальным значениям независимых переменных.
39. Дистанционный коэффициент (Эвклидово расстояние)
Оно попросту является геометрическим расстоянием в многомерном пространстве и вычисляется следующим образом:
расстояние(x,y) = {∑i (xi - yi)2 }1/2
Заметим,
что евклидово расстояние (и его квадрат)
вычисляется по исходным, а не по стандартизованным
данным. Это обычный способ его вычисления,
который имеет определенные преимущества
(например, расстояние между двумя объектами
не изменяется при введении в анализ нового
объекта, который может оказаться выбросом).
Тем не менее, на расстояния могут сильно
влиять различия между осями, по координатам
которых вычисляются эти расстояния. К
примеру, если одна из осей измерена в
сантиметрах, а вы потом переведете ее
в миллиметры (умножая значения на 10), то
окончательное евклидово расстояние (или
квадрат евклидова расстояния), вычисляемое
по координатам, сильно изменится,
40. Информационные признаки, используемые при кластеризации
Особенностью
информационного сопровождения
задач, решаемых методами кластеризации,
является возможность использования
практически любой информации об
объектах исследования: формализованной
и записанной в произвольной форме,
объективной и субъективной, непосредственно
измеренной или полученной косвенными
путями, систематизированной и
Выделяется три типа информации, используемой в кластерном анализе:
1многомерные данные - первичная информация.
2данные о близости (метрические и иные расстояния между объектами).
3данные о кластерах: координаты в признаковом пространстве, характеристики и свойства, границы кластеров.
Качество результатов обработки сложного множества, в первую очередь, зависит от обоснованности выбора признакового пространства. Эта задача состоит из двух взаимосвязанных подзадач: выбора наиболее информативных признаков и исключения взаимно корелируемых характеристик объектов. При этом определяется информативность признака, т. е. его «важность» для классификации. Признаки, имеющие максимальный «вес», используются в качестве описательных элементов (дескрипторов) при поиске нужных групп. Поскольку признаки являются главной характеристикой объектов, по которой определяется сходство или различие, их выбор и дает ту или иную систему разделения на однородные группы.
Существенную
сложность в выборе правил разделения
для классификации представляет
ранжирование признаков. Процедура
установления рангов изучаемых характеристик
требует определения «
Таким образом, классификация во многом зависит от количества и качества выбора информационных показателей.
С ростом количества признаков снижается устойчивость классификации, размываются границы между группами. При неограниченном росте количества признаков усложняется содержательная интерпретация изучаемых процессов из-за необходимости учета второстепенных деталей, не существенных с точки зрения основного содержания исследования, что, в свою очередь, приводит к расплывчатости в описании объектов. Однако излишнее сокращение количества признаков может привести к примитивному описанию объектов при интерпретации содержания кластеров и отсутствию познавательной ценности результатов классификации.
Признаковые пространства могут иметь природу двух типов. К первому типу относятся признаки, имеющие «непосредственное содержательное отношение к изучаемой проблеме». Эти признаки каким-либо способом фиксируются в ходе исследования или получаются с помощью расчетов исходных факторов. Второй тип признакового пространства получается в результате преобразования кластерной матрицы, в основном за счет трансформации строк, столбцов и самой системы координат.
Практика
разделения неоднородного множества
на некоторое количество однородных
подмножеств указывает на возможность
рационального подбора
Выбор признаков для классификации во многом зависит от целей исследования. Поэтому одно и то же множество может быть разделено на принципиально различные группы, отличающиеся не только количеством входящих в них элементов, но и их смешением в подгруппах. К примеру, классификация бригад по производственным признакам (производительность труда, фондовооруженность, трудовая дисциплина и т. п.), скорее всего, не совпадет с классификацией по обобщенным социально-демографическим признакам их членов (возраст, семейное положение, обеспеченность жильем и т. п.). Следовательно, нельзя классифицировать группу социально-экономических объектов один раз для любых случаев - процесс этот должен повторяться при изменении целей исследования или управления.
Теоретически
классифицировать методами кластерного
анализа можно неограниченное количество
объектов с любым набором признаков.
Однако практически существуют довольно
жесткие ограничения, связанные
со сложностью процедур, возможностями
быстродействия и объема памяти компьютера.
Поэтому в начале исследования определяется
желательная размерность
С увеличением количества распознанных объектов растет точность управления и достоверность знаний об их специфике, и было бы идеальным рассмотрение каждого элемента множества в отдельности (в этом случае и классификация не нужна). Но такая детальная группировка не воспринимается человеком, и поэтому в реальных классификациях количество групп, как правило, не превышает десяти. Размерность признакового пространства не является столь жестким условием и варьируется от одного показателя до пятидесяти, но может быть и больше. Если жё исследователи не ограничены вычислительными мощностями, то количество признаков может быть весьма значительным.
Дать формальный
ответ на вопрос о качестве выбора
размерности признакового пространства
классификации до окончания процедуры
кластеризации практически
41. Схемы использования информации, предназначенной для кластеризации
Сильной стороной
кластерного анализа можно
Тип информации и ее основные характеристики | Преобразования, необходимые для использования информации в кластерной модели |
Прямая числовая информация, полученная непосредственно от объектов | Можно использовать в виде абсолютных или относительных (проценты, приведенные затраты) чисел. Расстояния между объектами вычисляются в кластерной модели |
Косвенная числовая информация о признаках, влияющих на поведение объектов, вторичных признаках, аналогичных объектах, условиях среды и т.п. | Можно использовать с учетом коэффициентов корреляции зависимостей или подобия объектов |
Альтернативная числовая информация опросных листов или паспортных данных. Нечисловая информация легко кодируется и переводится в числовую | Возможно прямое использование в относительном виде. Каждый параметр требует разработки собственной шкалы |
Нечисловая информация типа «меню», полученная в результате анкетирования респондентов или опроса экспертов | Требует разработки
числовых аналогов текстовым характеристикам,
недопустимо использование |
Историческая, генетическая, этимологическая информация о предыдущем развитии объекта исследования | Может быть представлена в виде уравнений регрессии, коэффициентов эластичности, начальных координат, рядов динамики |
Априорная числовая и нечисловая информация | Формируется экспертами до проведения расчетов кластерной матрицы. С ее помощью определяются предварительные характеристики кластеров, граничные функции, содержание кластеров |
Теоретическая информация, являющаяся следствием каких либо закономерностей, теоретических положений | Преобразования этого типа информации зависят от ее содержания и формального представления |
Гипотетическая информация о возможных результатах классификации, мотивах деятельности, гипотезах развития и т.п. | то же |
Эвристическая информация, основанная на предыдущем опыте, творческих способностях, образовании, интуиции | то же |
Экспериментальная информация, полученная в результате проверки гипотез или эксперимента | то же |
Случайная информация, полученная в результате незапланированных мероприятий, неожиданных результатов поиска | то же |
Информация о работе Характеристика моделирования, понятия модели