Автор работы: Пользователь скрыл имя, 16 Февраля 2011 в 15:21, шпаргалка
Дискриминантный анализ для двух групп
Семьям, которые отдыхали на курорте в последние два года, присвоен код 1; тем же, которые не посетили курорт за указанный период времени, присвоен код 2. Обе выборки (как анализируемая, так и проверочная) сбалансированы с точки зрения посещаемости курорта. Как видно, анализируемая выборка содержит 15 семей каждой категории, а проверочная — по 6 семей каждой категории. Кроме того, получены данные о ежегодном доходе каждой семьи (доход), отношении к путешествию (путешествие оценивали по девятибалльной шкале), значении, придаваемом семейному отдыху (отдых оценивали по девятибалльной шкале), размеру семьи (размер семьи) и возрасту главы семьи (возраст).
Определение
коэффициентов дискриминантной
функции
После определения анализируемой выборки
мы можем вычислить коэффициенты дискриминантной
функции, используя два метода. Прямой
метод (direct method) — вычисление дискриминантной
функции при одновременном введении всех
предикторов.
Прямой метод (direct method). Метод дискриминантного анализа, в котором дискриминантную функцию вычисляют при одновременном введении всех предикторов.
В этом случае учитывается каждая независимая переменная. При этом ее дискриминирующая сила не принимается во внимание. Этот метод больше подходит к ситуации, когда аналитик, исходя из результатов предыдущего исследования или теоретической модели, хочет, чтобы в основе различения лежали все предикторы. Альтернативным методом будет пошаговый метод. При пошаговом дискриминантом анализе (stepwise discriminant analysis) предикторы вводят последовательно, в зависимости от их способности различить (дискриминировать) группы.
Пошаговый дискриминантный анализ (stepwise discriminant analysis)Дискриминантный анализ, при котором предикторы вводятся последовательно, в зависимости от их способности различить группы.
Этот метод
лучше применять в ситуации, когда
исследователь хочет отобрать подмножество
предикторов для включения их в дискриминатную
функцию. Коэффициент X (f-статистика) и f-критерий
для одномерной выборки с одной и 28 степенями
свободы.
|
Структурная
матрица
Объединенная корреляционная матрица
между дискриминирующими переменными
и каноническими дискриминантными функциями
(переменные расположены в соответствии
с размером корреляции внутри функции)
|
Ненормированные коэффициенты канонической
дискриминантной функции
|
Некоторые результаты можно получить, изучив групповые средние и стандартные отклонения. Маркетологи обнаружили, что в деление совокупности на две группы самый большой вклад внесла переменная «Доход». Кроме того, оказалось, что переменная «Значение, придаваемое семейному отдыху», важнее для различения групп, чем переменная «Отношение к путешествию». По возрасту главы семьи две группы различаются мало, а стандартное отклонение этой переменной большое.
Объединенная внутригрупповая корреляционная матрица указывает на низкие коэффициенты корреляции между предикторами. Маловероятно, что возникнет проблема мультиколлинеарности. Значимость одномерных f-статистик (отношений внутригрупповых сумм квадратов к общей сумме квадратов) указывает, что когда предикторы рассматриваются по отдельности, то только доход, а также значение, придаваемое семейному отдыху, и размер семьи значимо различаются между семьями, которые посетили курорт, и между теми, кто не отдыхал на курорте.
Поскольку имеется две группы, оценивается только одна дискриминантная функция. Собственное значение, соответствующее этой функции, равно 1,7862. Каноническая корреляция, соответствующая этой функции, равна 0,8007. Квадрат корреляции, равный (0,8007)2 = 0,64, показывает, что 64% дисперсии зависимой переменной (посещение курорта) объясняется этой моделью. Следующая стадия дискриминантного анализа включает определение значимости дискриминантной функции.
Определение
значимости дискриминантной
функции
Бессмысленно интерпретировать результаты
анализа, если определенные дис-криминантные
функции не будут статистически значимыми.
Поэтому следует выполнить статистическую
проверку нулевой гипотезы о равенстве
средних всех дискриминантных функций
во всех группах генеральной совокупности.
В программе SPSS эта проверка базируется
на коэффициенте X Уилкса. Если одновременно
проверяют несколько функций, как в случае
множественного дискриминантного анализа,
то коэффициент X является суммой одномерных
X для каждой функции. Уровень значимости
оценивают исходя из преобразования F-статистики
в статистику хи-квадрат (исходя из распределения
X-квадрат, которому подчиняется F-статистика).
При проверке значимости в примере с посещением
курорта можно отметить, что X, равная 0,3589,
преобразуется в хи-квадрат-статистику,
равную 26,13 с пятью степенями свободы. Она
значима при уровне, превышающем 0,05. В программе
SAS вычисляют приближенную F-статистику,
основанную на апроксимации к распределению
отношения правдоподобия. В программе
BMDP проверка нулевой гипотезы базируется
на преобразовании Х- статистики Уилкса
в F-статистику. В Minitab нельзя выполнить
проверку значимости. Если нулевую гипотезу
отклоняют, что указывает на значимую дискриминацию,
то можно приступать к интерпретации результатов.
Интерпретация
результатов
Интерпретация дискриминантных весов,
или коэффициентов, аналогична интерпретации
результатов множественного регрессионного
анализа. Значение коэффициента для конкретного
предиктора зависит от других предикторов,
включенных в дискриминантную функцию.
Знаки коэффициентов условны, но они указывают,
какие значения переменной приводят к большим
и маленьким значениям функции, и связывают
их с конкретными группами.
При наличии мультиколлинеарности между независимыми переменными не существует однозначной меры относительной важности предикторов для дискриминации между группами. Помня об этом предостережении, можно получить некоторое представление об относительной важности переменных, изучив абсолютные значения нормированных коэффициентов дискриминантной функции. Как правило, предикторы с относительно большими нормированными коэффициентами вносят больший вклад в дискриминирующую мощность функции по сравнению с предикторами, имеющими меньшие коэффициенты.
Некоторое представление
об относительной важности предикторов
можно также получить, изучив структурные
коэффициенты корреляции, которые также
называют каноническими, или дискриминантными,нагрузкам
Полезно исследовать нормированные коэффициенты дискриминантной функции в примере с отпуском на курорте. С данными низкими коэффициентами корреляции между предикторами можно использовать значения нормированных коэффициентов, чтобы предположить, что доход — наиболее важный предиктор при дискриминации между группами, а за ним следуют размер семьи и значение, придаваемое семейному отдыху. Аналогичное наблюдение получено из проверки структурных корреляций. Эти коэффициенты линейной корреляции между предикторами и дискриминантной функцией перечислены в порядке их убывания.
Также даны и ненормированные коэффициенты дискриминантной функции. Для классификации данных их можно применить к необработанным значениям переменных в проверочной выборке. Кроме того, показаны групповые центроиды, дающие значения дискриминантной функции, оцененные по групповым средним. Центроид группы 1 (семьи, отдыхающие на курорте) имеет положительное значение, а центроид группы 2 — равное ему, но отрицательное. Знаки коэффициентов соответствующих предикторов положительны. Это означает, что чем выше доход семьи, ее размер, значение, придаваемое семейному отдыху, а также отношение к путешествию и возраст, тем выше вероятность семейной поездки на курорт. Разумно создать профиль двух групп с точки зрения трех предикторов, которые кажутся наиболее важными: доход, размер семьи и значение, придаваемое семейному отдыху.
При интерпретации результатов дискриминантного анализа также может помочь разработкахарактеристической структуры (characteristic profile) для каждой группы с помощью описания каждой группы через групповые средние для предикторов.
Характеристическая структура (characteristic profile). Средство интерпретации результатов дискриминантного анализа описанием каждой группы через групповые средние для предикторов.
Если важные предикторы установлены, то сравнение групповых средних по этим переменным поможет понять межгрупповые различия. Однако прежде чем интерпретировать какие-либо факты, необходимо убедиться в достоверности результатов.
Оценка
достоверности дискриминантного
анализа
Как уже говорилось, данные разбивают
случайным образом на две подвыборки. Анализируемую
часть выборки используют для вычисления
дискриминантной функции, а проверочную —
для построения классификационной матрицы.
Дискриминантные веса, определенные анализируемой
выборкой, умножают на значения независимых
переменных в проверочной выборке, чтобы
получить дискриминантные показатели
для случаев в этой выборке. Затем случаи
распределяют по группам исходя из дискриминантных
показателей и соответствующего правила
принятия решения. Например, при дискриминантном
анализе двух групп случай может быть
отнесен к группе с самым близким по значению
центроидом. Затем, сложив элементы, лежащие
на диагонали матрицы, и разделив полученную
сумму на общее количество случаев, можно
определить коэффициент
результативности (hit ratio), или процент
верно классифицированных случаев.
Коэффициент результативности (hit ratio). Процент случаев, верно классифицированных с помощью дискриминантного анализа. Полезно сравнить процент случаев, верно классифицированных с помощью дискриминантного анализа, с процентом случаев, который можно получить случайным образом. Для равных по размеру групп процент случайной классификации равен частному от деления единицы на количество групп. Превысит ли и на сколько количество верно классифицированных случаев их случайное количество? Здесь нет общепринятого подхода, хотя некоторые считают, что точность классификации, достигнутая с помощью дискриминантного анализа, должна быть, по крайней мере, на 25% выше, чем точность, которую можно достичь случайным образом.
Многие программы для выполнения дискриминантного анализа также определяют классификационную матрицу исходя из анализируемой выборки. Поскольку программы учитывают даже случайные вариации в данных, полученные результаты всегда точнее, чем классификация данных на основе проверочной выборки.
Коэффициент
результативности, или процент верно
классифицированных случаев, равен (12 +
15)/30 = = 0,90, или 90%. Могут возникнуть сомнения,
что этот коэффициент результативности
искусственно завышен, поскольку данные,
использованные для вычисления, использовались
и для проверки. Выполнение классификационного
анализа по независимому набору данных
приводит к классификационной матрице
с немного меньшим коэффициентом результативности
(4 + 6)/12 = 0,833, или 83,3%. Задав случайным образом
две группы равного размера, можно ожидать,
что коэффициент результативности равен
1/2 = 0,50, или 50%. Однако превышение точности
классификации над случайной классификацией
составляет свыше 25%, и поэтому достоверность
дискриминантного анализа оценивают как
удовлетворительную.