Промышленный лизинг Промышленный лизинг  Методички 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 [ 53 ] 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92

Проиллюстрируем итерационный метод Брауна-Робинсон на при мере игры, заданной матрицей

(здесь maxmin =0, minmax =2, следовательно, седловой точки нет).

Опишем правила выбора ходов игроками, предположив, для определенности, что начинает игрок А.

1-й шаг.

Ход игрока А - стратегия Ах

2-й шаг.

Игрок В выбирает свою стратегию так, чтобы выигрыш игрока А был минимален (отмечен выше полужирным шрифтом). Ход игрока В - стратегия 2?2

с. 27).


(2 0 3).

Замечание. Выводя теорему о разрешимости любой матричной игры из теоремы двойственности линейного программирования, мы обращаем реальную историческую последовательность событий. Дело в том, что фон Нейман доказал свою теорему о минимаксе задолго до появления линейного программирования. Более того, первое доказательство теоремы двойственности, предложенное Гейлом, Куном и Таккером в 1951 году, опиралось на результаты фон Неймана ([3], с 403).

Итерационный метод решения матричных игр

Опишем метод отыскания решения матричной игры - значения игры и оптимальных смешанных стратегий, в известной степени верно отражающий некоторую реальную ситуацию накопления опыта постепенной выработки игроками хороших стратегий в результате многих повторений конфликтной ситуации. Основная идея этого метода заключается в том, чтобы мысленно смоделировать реальное практическое обучение игроков в ходе самой игры, когда каждый из них на опыте прощупывает способ поведения противника и старается отвечать на него наиболее выгодным для себя образом. Иными словами, всякий раз при возобновлении игры игрок выбирает наиболее выгодную для себя стратегию, опираясь на предыдущий выбор противника.

Метод был предложен Г. Брауном в 1949 году [4]. Позже, в 1950 году, Дж. Робинсон опубликовала доказательство его сходимости (см. [5],



Игрок Л выбирает свою стратегию так, чтобы его выигрыш при стратегии В2 игрока В был максимален (отмечен выше полужирным шрифтом).

Ход игрока А - стратегия А2

(1 3 -3).

Игрок В выбирает свою стратегию так, чтобы накопленный выигрыш игрока А при стратегиях Ах и А2,

(2 0 3) + (1 3 - 3) = (3 3 0),

был минимален. 3-й шаг.

Ход игрока В - стратегия В3

Игрок А выбирает свою стратегию так, чтобы его накопленный выигрыш при стратегиях Bi и В3 игрока В9

был максимален.

Ход игрока А - стратегия Ах

(2 0 3).

Игрок В выбирает свою стратегию так, чтобы накопленный выигрыш игрока А при стратегиях Аи А2 и Аи

(3 3 0) + (2 0 3) = (5 3 3),

был минимален.

Ход игрока В - стратегия J?2

и т.д.

Разобьем последовательные ходы игроков А и В на пары (ход игрока А, ход игрока В) и запишем результаты первых десяти шагов в таблице



v.(/i)

Л2 I Ля)

V(/I)

0.00

3.00

1.50

0.00

1.50

0.75

1.00

1.00

1.00

0.75

6 1.50

1.12

0.60

1.20

0.90

1.00

1.00

1.00

0.86

1.44

1.15

0.75

1.13 0.93

1.00

1.00

1.00

0.90

1.20

1.05

Описание таблицы.

1-й столбец - номер п шага (пары последовательных ходов игроков А п В),

2-й столбец - номер / стратегии, выбранной игроком А,

3-й столбец - накопленный суммарный выигрыш игрока А за первые п шагов при выборе игроком В стратегии Ви

4-й столбец - накопленный суммарный выигрыш игрока А за первые п шагов при выборе игроком В стратегии В2,

5-й столбец - накопленный суммарный выигрыш игрока А за первые п шагов при выборе игроком В стратегии В3 (минимальный из этих выигрышей выделяется полужирным шрифтом),

6-й столбец - минимальный средний выигрыш игрока А, равный минимальному накопленному им выигрышу за первые п шагов, деленному на число этих шагов,

7-й столбец - номер к стратегии, выбранной игроком Я,

8-й столбец - накопленный суммарный выигрыш игрока А за первые п шагов при выборе им стратегии Ai9

9-й столбец - накопленный суммарный выигрыш игрока А за первые п шагов при выборе им стратегии А2 (максимальный из этих выигрышей выделяется полужирным шрифтом),

10-й столбец - максимальный средний выигрыш игрока А, равный максимальному накопленному им выигрышу за первые п шагов, деленному на число этих шагов,

11-й столбец - среднее арифметическое минимального среднего выигрыша и максимального среднего выигрыша игрока А.

Значение игры определяется приближенно по окончании любого из шагов.



1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 [ 53 ] 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92