Дискриминантный анализ

Автор работы: Пользователь скрыл имя, 16 Февраля 2011 в 15:21, шпаргалка

Описание работы

Дискриминантный анализ для двух групп

Файлы: 1 файл

Дискриминантный анализ.docx

— 50.15 Кб (Скачать файл)

Дискриминантный анализ

 
 

Дискриминантный анализ для двух групп

В маркетинговом  исследовании «Выбор универмага» маркетологи использовали дискриминантный анализ для двух групп, чтобы выяснить, отличаются ли значения, которые присваивают восьми факторам выбора универмага респонденты, которым известны универмаги, от тех значений, которые выставляют респонденты, которым универмаги не известны.

Зависимой переменной были две группы респондентов — владеющие и не владеющие информацией об универмагах, а независимыми переменными — важность (значение) восьми факторов критерия выбора. Общая дискриминантная функция была значимой, что указывало на существенное различие между двумя группами. Результаты показали, что по сравнению с респондентами, ничего не знающими о данных универмагах, респонденты, хорошо осведомленные о них, придавали большее относительное значение качеству товаров, условиям возврата товаров, услугам продавцов, а также условиям кредитования и расчета с покупателями.

В указанном  примере с универмагом фигурируют две группы респондентов (знакомые и не знакомые с универмагом), в то время как в примере с предрасположенностью к покупкам товаров со скидками проверяли три группы (лица, не являющиеся покупателями товаров со скидкой; редкие покупатели и частые). В данных исследованиях обнаружены существенные межгрупповые различия при использовании многих предикторов (независимых переменных). Исследование различий между группами — основа концепции дискриминантного анализа.

Дискриминантный анализ (discriminant analysis) используется для анализа данных втом случае, когда зависимая переменная категориальная, а предикторы (независимые переменные) интервальные.

Дискриминантный анализ (discriminant analysis) 
Метод для анализа данных маркетинговых исследований в том случае, когда зависимая переменная категориальная, а предикторы (независимые переменные) интервальные.

Например, зависимая  переменная может быть выбором торговой марки персонального компьютера (торговые марки А, В или С), а независимыми переменными могут быть рейтинги свойств персональных компьютеров, измеренные по семибалльной шкале Лайкерта. Дискриминантный анализ преследует такие цели.

  • Определение дискриминантных функций (discriminant functions) или линейных комбинаций независимых переменных, которые наилучшим образом различают (дискриминируют) категории (группы) зависимой переменной.
  • Проверка существования между группами значимых различий с точки зрения независимых переменных.
  • Определение предикторов, вносящих наибольший вклад в межгрупповые различия.
  • Отнесение случаев к одной из групп (классификация) исходя из значений предикторов.
  • Оценка точности классификации данных на группы.

Дискриминантная функция (discriminant functions)Выведенная с помощью дискриминантного анализа линейная комбинация независимых переменных, с помощью которой можно наилучшим образом различить (дискриминировать) категории зависимой переменной.

Метод дискриминантного анализа описывается количеством категорий, имеющихся у зависимой переменной. Если она имеет две категории, то метод называют дискриминант ным анализом для двух групп (two-group discriminant analsysis).

Дискриминантный анализ для двух групп (two-group discriminant analysis)Метод дискриминантного анализа, когда зависимая переменная имеет две категории. Если анализируют три или больше категорий, то метод называют множественным дискриминантным анализом (multiple descriminant analysis).

Множественный дискриминантный анализ (multiple descriminant analysis) 
Метод дискриминантного анализа, когда у зависимой переменной есть три или больше категорий.

Главное отличие  между ними заключается в том, что при наличии двух групп можно вывести только одну дискриминантную функцию. Используя множественный дискриминантный анализ, можно вычислить несколько функций.

В маркетинговых  исследованиях можно привести массу  примеров применения дискриминантного анализа. Так, с помощью этого метода можно получить ответы на следующие вопросы.

  • Чем, с точки зрения демографических характеристик, отличаются приверженцы данного магазина от тех, у кого эта приверженность отсутствует?
  • Отличаются ли в потреблении замороженных продуктов покупатели, которые пьют безалкогольные напитки мало, умеренно и много?
  • Какие психографические характеристики помогают провести различия между восприимчивыми и не восприимчивыми к цене покупателями бакалейных товаров?
  • Различаются ли между собой различные сегменты рынка по своим предпочтениям к средствам массовой информации?
  • Какие существуют различия между постоянными покупателями местных универсальных магазинов и постоянными покупателями общенациональных сетей универмагов с точки зрения стиля жизни?
  • Какими отличительными характеристиками обладают потребители, реагирующие на прямую почтовую рекламу
 

Модель  дискриминантного анализа (discriminant analysis model) имеет следующий вид: 
 
D = b0 + blXl + b2×2+b3Xi+...+bkXk, 
 
где D — дискриминантный показатель (дискриминант), b — дискриминантный коэффициент, или вес, X- предиктор, или независимая переменная.

Модель  дискриминантного анализа (discriminant analysis mode). Статистическая модель, лежащая в основе дискриминантного анализа. Коэффициенты, или веса (D), определяют таким образом, чтобы группы максимально отличались значениями дискриминантной функции. Это происходит тогда, когда отношение межгрупповой суммы квадратов к внутригрупповой сумме квадратов для дискриминантных показателей максимально. Любая другая линейная комбинация предикторов приводит к меньшему значению этого отношения. С дискриминантным анализом связан ряд статистик.

Статистики, связанные  с дискриминантным анализом

Каноническая  корреляция (canonical correlation). Измеряет степень связи между дискриминантными показателями и группами. Это мера связи между единственной дискриминирующей функцией и набором фиктивных переменных, которые определяют принадлежность к данной группе.

Центроид (средняя точка) (centroid). Центроид — это средние значения для дискриминантных показателей конкретной группы. Центроидов столько, сколько групп, т.е. один центроид для каждой группы. Средние группы для всех функций — это групповые центроиды.

Классификационная матрица (classification matrix). Иногда ее называют смешанной матрицей, или матрицей предсказания. Классификационная матрица содержит ряд правильно классифицированных и ошибочно классифицированных случаев. Верно классифицированные случаи лежат на диагонали матрицы, поскольку предсказанные и фактические группы одни и те же. Элементы, не лежащие на диагонали матрицы, представляют случаи, классифицированные ошибочно. Сумма элементов, лежащих на диагонали, разделенная на общее количество случаев, дает коэффициент результативности.

Коэффициенты дискриминантной функции (discriminant function coefficients). Коэффициенты дискриминантной функции (ненормированные) — это коэффициенты переменных, когда они измерены в первоначальных единицах.

Дискриминантные показатели (discriminant scores). Сумма произведений ненормированных коэффициентов дискриминантной функции на значения переменных, добавленная к постоянному члену.

Собственное (характеристическое) значение (eigenvalue). Для каждойдискриминант-ной функции собственное значение — это отношение межгрупповой суммы квадратов к внутригрупповой сумме квадратов. Большие собственные значения указывают на функции более высокого порядка.

F-статистика  и ее значимость (F values and their significance). Значения f-статис-тики вычисляют с помощью однофакторного дисперсионного анализа, используя разбивку на группы независимой переменной. Каждый предиктор, в свою очередь, служит в ANOVA метрической зависимой переменной.

Средние группы и групповые стандартные отклонения (group means and group standard deviations). Эти показатели вычисляют для каждого предиктора каждой группы.

Объединенная  межгрупповая корреляционная матрица (pooled within-group correlation matrix). Объединенную межгрупповую корреляционную матрицу вычисляют усреднением отдельных ковариационных матриц для всех групп.

Нормированные коэффициенты дискриминантных функций (standardized discriminant function coefficients). Коэффициенты дискриминантных функций используют как множители для нормированных переменных, т.е. переменных с нулевым средним и дисперсией, равной 1.

Структурные коэффициенты корреляции (structure correlations). Также известны как дискриминантные нагрузки, представляют собой линейные коэффициенты корреляции между предикторами и дискриминантной функцией.

Общая корреляционная матрица (total correlation matrix). Если при вычислении корреляций наблюдения обрабатывают так, как будто они взяты из одной выборки, то в результате получают общую корреляционную матрицу.

Коэффициент «лямбда» Уилкса (Wilks’s). Иногда называемый статистикой, коэффициент Уилкса для каждого предиктора — это отношение внутригрупповой суммы квадратов к общей сумме квадратов. Его значение варьируется от 0 до 1. Большое значение (около 1) указывает на то, что средние групп не должны различаться. Малые значения (около 0) указывают на то, что средние групп различаются.

В дискриминантном анализе существуют такие допущения: каждая группа является выборкой из многомерной нормально распределенной совокупности; все совокупности имеют одну и ту же ковариационную матрицу. Чтобы лучше понять роль допущений и описанных выше статистик, следует изучить методы выполнения дискриминантного анализа.

Выполнение  дискриминантного анализа
 
 

Выполнение  дискриминантного анализа включает следующие стадии: формулирование проблемы, вычисление коэффициентов дискриминантной функции, определение значимости, интерпретация и проверка достоверности (рис. 1). Эти стадии обсуждаются и иллюстрируются для дискриминантного анализа двух групп.

Рис. 1. Выполнение дискриминантного анализа.

Формулирование  проблемы 
Первый шаг дискриминантного анализа — формулирование проблемы с помощью определения целей, зависимой переменой и независимых переменных. Зависимая переменная должна состоять из двух или больше взаимоисключающих и взаимно исчерпывающих категорий. Если зависимая переменная измерена с помощью интервальной или относительной шкалы, то ее следует в первую очередь перевести в статус категориальной. Например, отношение к торговой марке, измеренное по семибалльной шкале, можно категоризировать как неблагоприятное (1, 2, 3), нейтральное (4) и благоприятное (5, 6, 7). Можно поступить иначе. Для этого следует построить график распределения значений зависимой переменной и сформировать группы равного размера с помощью точек отсечения. Предикторы следует выбирать исходя из теоретической модели или уже проведенного исследования, или, в случае поискового исследования, из интуиции и опыта исследователя.

Следующий шаг — разделение выборки на две части. Одна из них — анализируемая выборка (analysis sample) — используется для вычисления дискриминантной функции.

Анализируемая выборка (analysis sample)Часть общей выборки, которую используют для вычисления дискриминантной функции.

Другая  часть — проверочная выборка (validation sample) — предназначена для проверки дискриминантной функции.

Проверочная выборка (validation sample)Часть общей выборки, которую используют для проверки результатов расчета на основании анализируемой выборки.

Когда выборка  достаточно велика, ее можно разбить на две равные части. Одна служит анализируемой выборкой, а другую используют для проверки. Затем роль этих половинок взаимно меняют и повторяют анализ. Это называется двойной перекрестной проверкой, и она аналогична методу, рассмотренному в регрессионном анализе.

Часто распределение  количества случаев в анализируемой и проверочной выборках следует из распределения в общей выборке. Например, если общая выборка содержит 50% лояльно и 50% нелояльно настроенных покупателей, то анализируемая и проверочная выборки должны содержать каждая по 50% лояльных и 50% нелояльных покупателей. В другом случае, если выборка содержит 25% лояльных и 75% нелояльных покупателей, следует выбрать анализируемую и проверочную выборки таким образом, чтобы их распределения отражали аналогичную картину (25% против 75%).

И наконец, проверку достоверности дискриминантной функции предлагают выполнять неоднократно. Каждый раз выборку следует разбивать на две части — для анализа и проверки. Вычисляют дискриминантную функцию и выполняют анализ достоверности модели. Таким образом, оценка достоверности основана на ряде испытаний. Предлагаются также более точные методы.

Чтобы лучше  проиллюстрировать дискриминантный анализ для двух групп, обратимся к примеру. Предположим, что мы хотим определить главные характеристики семей, которые отдыхали на курорте в последние два года. Данные получены на основании выборки, включающей 42 семьи. Из них 30 включены в анализируемую выборку, а оставшиеся 12 тали частью проверочной выборки.

№п.п Посещение курорта Ежегодный доход семьи (тыс. долл.) Отношение к путешествию Значение, придаваемое  семейному отдыху Размер семьи Возраст главы  семьи Сумма, потраченная  семьей на отдых
1 1 50,2 5 8 3 43 С (2)
2 1 70,3 6 7 4 61 Б(3)
3 1 62,9 7 5 6 52 Б(3)
4 1 48,5 7 5 5 36 М(1)
5 1 52,7 6 6 4 55 Б(3)
6 1 75,0 8 7 5 68 Б(3)
7 1 46,2 5 3 3 62 С (2)
8 1 57,0 2 4 6 51 С (2)
9 1 64,1 7 5 4 57 Б(3)
10 1 68,1 7 6 5 45 Б(3)
11 1 73,4 6 7 5 44 Б(3)
12 1 71,9 5 8 4 64 Б(3)
13 1 56,2 1 8 6 54 С (2)
14 1 49,3 4 2 3 56 Б(3)
15 1 62,0 5 6 2 58 Б(3)
16 2 32,1 5 4 3 58 М(1)
17 2 36,2 4 3 2 55 М(1)
18 2 43,2 2 5 2 57 С (2)
19 2 50,4 5 2 4 37 С (2)
20 2 44,1 6 6 3 42 С (2)
21 2 38,3 6 6 2 45 М(1)
22 2 55,0 1 2 2 57 С (2)
23 2 46,1 3 5 3 51 М(1)
24 2 35,0 6 4 5 64 М(1)
25 2 37,3 2 7 4 54 М(1)
26 2 41,8 5 1 3 56 С (2)
27 2 57,0 8 3 2 36 С (2)
28 2 33,4 6 8 2 50 М(1)
29 2 37,5 6 2 3 48 М(1)
30 2 41.3 3 3 2 42 М(1)

Информация о работе Дискриминантный анализ