Автор работы: Пользователь скрыл имя, 05 Декабря 2010 в 23:43, Не определен
В первой главе «Понятие об игровых моделях» раскрываются основные понятия теории игр.
Во второй главе «Платёжная матрица. Нижняя и верхняя цена игры» описано как при помощи платёжной матрицы можно найти нижнюю и верхнюю цену игры.
В третьей главе «Решение игр в смешанных стратегиях» рассмотрено решение задачи.
В последней, четвёртой главе, «Приведение матричной игры к задаче линейного программирования» показано как платёжную матрицу можно решить при помощи линейного программирования.
?i
А1
-1
1
-1
А2
1
-1
-1
?j
1
1
?=1 ?=-1
В задаче 1, рассмотренной
выше, верхняя и нижняя цены игры
различны ? ? ?.
Если верхняя
и нижняя цены игры совпадают, то общее
значение верхней и нижней цены игры ?
= ? = v называется чистой ценой игры, или
ценой игры. Минимаксные стратегии, соответствующие
цене игры, являются оптимальными стратегиями,
а их совокупность - оптимальным решением,
или решением игры. В этом случае игрок
А получает максимальный гарантированный
(не зависящий от поведения игрока В) выигрыш
v, а игрок В добивается минимального гарантированного
(вне зависимости от поведения игрока
А) проигрыша v. Говорят, что решение игры
обладает устойчивостью, т.е. если один
из игроков придерживается своей оптимальной
стратегии, то для другого не может быть
выгодным отклонятся от своей оптимальной
стратегии.
Пара чистых
стратегий Аj и Bi даёт оптимальное
решение игры тогда и только тогда,
когда соответствующий элемент aij
является одновременно наибольшим в своём
столбце и наименьшим в своей строке. Такая
ситуация, если оан существует, называется
седловой точкой (по аналогии с поверхностью
седла, которая искривляется вверх в одном
направлении и вниз - в другом).
Обозначим А* и B*
- пару чистых стратегий, на которых достигается
решение игры в задаче с седловой точкой.
Введём функцию выигрыша первого игрока
на каждой паре стратегий: Р(Аi , Bj) = aij. Тогда
из условия оптимальности в седловой точке
выполняется двойное неравенство: Р(Аi
, B*) ? Р(А*, B* ) ? Р(А*, Bj), которое справедливо
для всех i = 1, …, m; j = 1, …, n . действительно,
выбор стратегии А* первым игроком при
оптимальной стратегии B* второго игрока
максимизирует минимальный возможный
выигрыш: Р(А*, B* ) ? Р(А*, B).
2. определить
нижнюю и верхнюю цену игры,
заданной платёжной матрицей
0,5 0,6 0,8
Р = 0,9 0,7 0,8
0,7 0,6 0,6
Таблица 3.
Аi Bj
B1
B2
B3
?i
А1
0,5
0,6
0,8
0,5
А2
0,9
0,7
0,8
0,7
А3
0,7
0,6
0,6
0,6
?j
0,9
0,7
0,8
? = ? = 0,7
Имеет ли игра седловую
точку?
Решение. Все
расчёты удобно проводить в таблице,
к которой, кроме матрицы Р, введены
столбец ?i и строка ?j (табл. 3). Анализируя
строки матрицы (стратегии игрока А),
заполняем столбец ?i : ?1 = 0,5, ?2 = 0,7, ?3 =
0,6 - минимальные числа в строках 1, 2, 3. Аналогично
?1 = 0,9, ?2 = 0,7, ?3 = 0,8 - максимальные числа в
столбцах 1, 2, 3 соответственно.
Нижняя цена
игры ? = ?i = max (0,5; 0,7; 0,6) = 0,7 (наибольшее число
в столбце ?i) и верхняя цена игры
? = ?j = min(0,9; 0,7; 0,8) = 0,7 (наименьшее число в
строке ?j). Эти значения равны, т.е. ? = ?,
и достигаются на одной и той же паре стратегий
(А2, В2). Следовательно, игра имеет седловую
точку (А2, В2) и цена игры = 0,7.
3. Решение игр
в смешанных стратегиях
Если игра не
имеет седловой точки, то применение чистых
стратегий не даёт оптимального решения
игры. Так, в задаче 1 ? ? ?, седловая точка
отсутствует. В таком случае можно получить
оптимальное решение, случайным образом
чередуя чистые стратегии.
Смешанной стратегией
SA игрока А называется применение чистых
стратегий А1, А2, …,Аi, …, Аm с вероятностями
р1, р2, …,рi, …, рm, причём сумма вероятностей
равна 1: рi = 1. Смешанные стратегии игрока
А записываются в виде матрицы
SA = А1 А2 …
Аi … Аm
р1 р2 … рi …
рm
или в виде строки
SA = (р1, р2, …, рi, …, рm). Аналогично смешанные
стратегии игрока В обозначаются:
SВ = В1 В2
… Вi … Вn , или SВ = (q1, q2, …,
qj, qn),
р1 р2 … рj …
рn
где сумма вероятностей
появления стратегий равна 1: qj = 1.
Чистые стратегии
можно считать частным случаем смешанных
и задавать строкой, в которой 1 соответствует
чистой стратегии. На основании принципа
минимакса определяется оптимальное решение
(или решение) игры: это пара оптимальных
стратегий S* A, S* В в общем случае смешанных,
обладающих следующим свойством: если
один из игроков придерживается своей
оптимальной стратегии, то другому не
может быть выгодно отступать от своей.
Выигрыш, соответствующий оптимальному
решению, называется ценой игры v. Цена
игры удовлетворяет неравенству:
? ? v ? ?, (1.5)
где ? и ? - нижняя
и верхняя цены игры.
Справедлива следующая
основная теорема теории игр - теорема
Неймана ( 1903-1957гг., американский математик).
Каждая конечная игра имеет, по крайней
мере одно оптимальное решение, возможно,
среди смешанных стратегий.
Пусть S* A = (р1*, р2*,
…, рm) и S* В = (q1*, q2*, …, qn*) - пара оптимальных
стратегий. Если чистая стратегия входит
в оптимальную смешанную
Справедлива теорема
об активных стратегиях: если один из игроков
придерживается своей смешанной стратегии,
то выигрыш остаётся неизменным и равным
цене игры , если второй игрок не выходит
за пределы своих активных стратегий.
Эта теорема
имеет большое практическое значение
- она даёт конкретные модели нахождения
оптимальных стратегий при отсутствии
седловой точки.
Рассмотрим игру
размера 2 2, которая является простейшим
случаем конечной игры. Если такая
игра имеет седловую точку, то оптимальное
решение - это пара чистых стратегий,
соответствующих этой точке.
Игра, в которой
отсутствует седловая точка, в соответствии
с основной теоремой теории игр оптимальное
решение существует и определяется парой
смешанных стратегий S* A = (р1*, р2*) и S* В =
(q1*, q2*).
Для того чтобы
их найти, воспользуемся теоремой об
активных стратегиях. Если игрок А
придерживается своей оптимальной
стратегии S* A, то его средний выигрыш будет
равен цене игры , какой бы активной стратегией
ни пользовался игрок В. Для игры 2 2 любая
чистая стратегия противника является
активной, если отсутствует седловая точка.
Выигрыш игрока А (проигрыш игрока В) -
случайная величина, математическое ожидание
(среднее значение) которой является ценой
игры. Поэтому средний выигрыш игрока
А (оптимальная стратегия) будет равен
и для 1-ой, и для 2-ой стратегии противника.
Пусть игра задана
платёжной матрицей
P = a11 a12
a21 a22
Средний выигрыш
игрока А, если он использует оптимальную
смешанную стратегию S* A = ( ), а игрок
В - чистую стратегию В1 (это соответствует
1-му столбцу платёжной матрицы P),
равен цене игры :
a11 р1* + a21 р2* =.
Тот же средний
выигрыш получает игрок А, если 2-ой
игрок применяет стратегию В2, т.е. a12 р1*
+ a22 р2* = . Учитывая, что р1* + р2* = 1, получаем
систему уравнений для определения оптимальной
стратегии S* A и цены :
a11 р1* + a21 р2* =,
a12 р1* + a22 р2* =,
р1* + р2* = 1. (1.6)
Решая эту систему,
получим оптимальную стратегию
p1* =,
р2*= . (1.7)
и цену игры
= . (1.8)
Применяя теорему
об активных стратегиях при отыскании
S* B - оптимальной стратегии игрока
В, получаем, что при любой чистой
стратегии игрока А (А1 или А2) средний
проигрыш игрока В равен цене игры , т.е.
a11 q1* + a12 q2* =,
a21 q1* + a22 q2* =,
q1* + q2*=1. (1.9)
Тогда оптимальная
стратегия S* B (q1*, q2*) определяется формулами:
q1* = ,
q2* = . (1.10)
Применим полученные
результаты для отыскания оптимальных
стратегий для игры, рассмотренной в задаче
1.
3. Найти оптимальные
стратегии игры, приведённой в
задаче 1.
Решение. Игра поиск
задана платёжной матрицей без Седловой
точки:
Р = ( ), ? = -1, ? = 1.
Поэтому ищем решение
в смешанных стратегиях; для игрока
А средний выигрыш равен цене игры (при
В1 и В2); для игрока В средний проигрыш
равен цене игры (при А1 и А2). Системы уравнений
(1.6) и (1.9) в данном случае имеют вид:
(-1) р1* + 1 р2*= , (-1)
q1* + 1q2* = ,
1р1* - 1р2*=, 1q1* - 1 q2*
= ,
р1* + p2*=1, q1*+ q2* = 1,
Решая эти системы,
получаем р1* = р2* = q1* = q2* = , = 0.
Это означает, что
оптимальная стратегия каждого
игрока состоит в том, чтобы чередовать
свои чистые стратегии случайным
образом, выбирая каждое из убежищ с
вероятностью , при этом средний выигрыш
равен 0.
4. Приведение
матричной игры к задаче
Игра m n в общем
случае не имеет наглядной геометрической
интерпретации. Её решение достаточно
трудоёмко при больших m n, однако
принципиальных трудностей не имеет, поскольку
может быть сведено к решению задачи линейного
программирования. Покажем это. Пусть
игра m n задана платёжной матрицей p = (aij),
i = 1, 2, …, m; j = 1, 2, …, n. Игрок А обладает стратегиями
А1, А2, …, Аm, игрок В - стратегиями В1, В2,
…, Вn. Необходимо определить оптимальные
стратегии S* A = (р1*, р2*, …, рm*) и S* B = (q1*, q2*,
…, qn*), где рi*, qj* - вероятности применения
соответствующих чистых стратегий Аi,
Вj,
р1*+ р2*+…+ рm*=1, q1*+q2*+…+
qn*=1.
Оптимальная стратегия
S* A удовлетворяет следующему требованию.
Она обеспечивает игроку А средний выигрыш,
не меньший, чем цена игры , при любой стратегии
игрока В и выигрыш, равный цене игры ,
при оптимальной стратегии игрока В. Без
ограничения общности полагаем 0; этого
можно добиться, сделав все элементы aij
0. если игрок А применяет смешанную стратегию
S* A = (р1*, р2*, …, рm*) против любой чистой
стратегии Вj игрока В, то он получает средний
выигрыш, или математическое ожидание
выигрыша ai = a1j р1+ a2j р2+…+ amj рm, j = 1, 2, …,
n (т.е. элементы j-го столбца платёжной
матрицы почленно умножаются на соответствующие
вероятности стратегий А1, А2, …, Аm и результаты
складываются).
Для оптимальной
стратегии S* A все средние выигрыши
не меньше цены игры , поэтому получаем
систему неравенств:
a11 р1 + a21 р2 +…+ am1
рm,
a12 р1 + a22 р2 +…+ am2
рm, (1.11)
a1n р1 + a2n р2 +…+amn
рm.
Каждое из неравенств
можно разделить на число 0. Введём
новые переменные:
x1 = p1, x2 = р2, …, xm
= рm. (1.12)
Тогда система (1.11)
примет вид:
a11 x1 + a21 x2 +…+ am1 xm
1,
a12 x1 + a22 x2 +…+ am2 xm
1, (1.13)
a1n x1 + a2n x2 +…+ amn xm
1.
Цель игрока
А - максимизировать свой гарантированный
выигрыш, т.е. цену игры .
Разделив на
0 равенство р1 + р2 +…+ рm = 1, получаем,
что переменные xi (i = 1, 2, …, m) удовлетворяют
условию: x1 + x2 +…+ xm = 1 . Максимизация цены
игры эквивалентна минимизации величины
1 , поэтому задача может быть сформулирована
следующим образом: определить значения
переменных xi 0, i = 1, 2, …, m, так, чтобы они
удовлетворяли линейным ограничениям
(1.13) и при этом линейная функция
Z = x1 + x2 +…+ xm (1.14)
Обращалась в
минимум. Это задача линейного программирования.
Решая задачу (1.13) - (1.14), получаем оптимальное
решение р1*, р2*, …, рm и оптимальную
стратегию S* A.
Для определения
оптимальной стратегии S* B = (q1*, q2*, …, qn*)
следует учесть, что игрок В стремится
минимизировать гарантированный выигрыш,
т.е. найти max . Переменные q1, q2, …, qn удовлетворяют
неравенствам
a11 q1 + a12 q2 +…+ an1 qn
,
a21 q1 + a22 q2 +…+ a2n qn
, (1.15)
am1 q1 + am2 q2 +…+ amn qn
.
которые следуют
из того что средний проигрыш игрока
В не превосходит цены игры, какую
бы чистую стратегию не применял игрок
А.