Промышленный лизинг Промышленный лизинг  Методички 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 [ 239 ] 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292

Каждой стационарной стратегии соответствуют свои матрицы переходных вероятностей и доходов, которые можно построить на основе матриц Р1, Р2, R1 и R2. Например, для стационарной стратегии, требующей применения удобрения только тогда, когда состояние почвы плохое (состояние 3), результирующие матрицы переходных вероятностей и доходов задаются следующими выражениями.

0,3

1 6 Зч

, R =

0 5 1

,0,05

0,55,

ч6 3 -2,

Эти матрицы отличаются от Р1 и R1 только третьей строкой, включенной в них из матриц Р2 и R2. Причина этого в том, что Р2 и R2 - матрицы, соответствующие ситуации, когда удобрения применяются при любом состоянии почвы.

УПРАЖНЕНИЯ 19.1

1. В задаче садовника определите матрицы Р и R, соответствующие стационарной стратегии, требующей использования удобрений при удовлетворительном и плохом состояниях почвы.

2. Определите все стационарные стратегии в примере с садовником.

19.2. МОДЕЛЬ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ С КОНЕЧНЫМ ЧИСЛОМ ЭТАПОВ

Предположим, что садовник планирует прекратить занятие садоводством через N лет. В этом случае необходимо определить стратегию поведения (удобрять или не удобрять почву) для каждого года планирования. Очевидно, что оптимальной стратегией будет такая, при которой садовник получит наибольший ожидаемый доход через N лет.

Пусть k = 1 или 2 обозначает две возможные (альтернативные) стратегии поведения садовника. Матрицы Рк и Rk, представляющие переходные вероятности и функцию дохода для альтернативы k, определены в разделе 19.1; здесь они приводятся для удобства.

6 зч

R=NII=

5 1

0 -1,

0,3

5 -Г

R2=lk2ll=

4 0

,0,05

0,55,

3 -2,

Р2 =

Задачу садовника можно представить как задачу динамического программирования (ДП) с конечным числом этапов следующим образом. Пусть число состояний для каждого этапа (года) равно т (3 в примере с садовником). Обозначим через fn(i) оптимальный ожидаемый доход, полученный на этапах от п до N включительно при условии, что система находится в начале этапа п в состоянии L

Обратное рекуррентное уравнение, связывающее fn и fn+1, можно записать в виде

/ (/) = maxjf>,;(у)]}, = 1,2, ...,N,

где fN+l(J) = 0 для всех j.



Приведенное уравнение основано на том, что накапливающийся доход rl + fn*iU) получается в результате перехода из состояния I на этапе п в состояние /

на этапе п + 1 с вероятностью / *. Введя обозначение

рекуррентное уравнение ДП можно записать следующим образом:

A(/) = max{vf},

/ (/) = maxvf+Xp*/ +l(y)J, = 1,2, ...,N-l.

Проиллюстрируем использование рекуррентного уравнения для вычисления величин v* в задаче садовника для ситуации, когда удобрения не применяются (k = 1).

у,1 =0,2x7 + 0,5x6 + 0,3x3 = 5,3,

v\ =0x0 + 0,5x5 + 0,5x1 = 3,

Ц=0х0 + 0х0 + 1х(-1) = -1.

Эти значения показывают, что если состояние почвы в начале года оказывается хорошим (состояние 1), то при одном переходе ожидаемый годовой доход составляет 5,3. Аналогично, если состояние почвы удовлетворительное, ожидаемый годовой доход составит 3, а в случае плохого будет равен -1.

Пример 19.2.1

В этом примере задача садовника решается при данных, заданных матрицами Р1, Р2, R1 и R2. Предполагается, что горизонт планирования включает 3 года (N= 3).

Так как значения v* многократно используются в вычислениях, для удобства они

сведены в таблицу. Напомним, что значение к = 1 соответствует решению не удобрять , к = 2 - удобрять .

2 V,

ЭтапЗ

Оптимальное решение

к= 1

к = 2



Этап

+Л,/зО) + Л*/з(2) + Р,(3)

Оптимальное решение

к = 1

к = 2

Hi) к

5,3 + 0,2 х 5,3 + 0,5 х 3,1 + 0,3 х 0,4 =

= 8,03

4,7 + 0,3 х 5,3 + 0,6 х 3,1 + 0,1 х 0,4

= 8,19

8,19 2

3 + 0 х 5,3 + 0,5 х 3,1 + 0,5 х 0,4 =

4,75

3,1 + 0,1 х 5,3 + 0,6 х 3,1 + 0,3 х 0,4

= 5,61

5,61 2

-1 + 0 х 5,3 + 0 х 3,1 + 1 х 0,4 = -0,6

0,4 + 0,05 х 5,3 + 0,4 х 3,1 + 0,55 х 0,4

= 2,13

2,13 2

Этап 1

*-+Р Ш + Р-гШ + Р Ш

Оптимальное решение

к= 1

к = 2

Щ *

5,3 + 0,2 х 8,19 + 0,5 х 5,61 + 0,3 х 2,13 =

= 10,38 4,7 + 0,3 x 8,19 + 0,6 x 5,61 +0,1 х2,13 =

10,74

10,74 2

3 + 0 х 8,19 + 0,5 х 5,61 + 0,5 х 2,13 =

6,87

3,1 + 0,1 х 8,19 + 0,6 х 5,61 + 0,3 х 2,13

= 7,92

7,92 2

-1 + 0 х 8,19 + 0 х 5,61 + 1 х 2,13 =

1,13

0,4 + 0,05 х 8,19 + 0,4 х 5,61 + 0,55 х 2,13 = = 4,23

4,23 2

Оптимальное решение показывает, что в 1-й и 2-й годы садовник должен применять удобрения (к = 2) независимо от состояния системы (состояния почвы по данным химического анализа). На 3-й год садовнику следует применять удобрения только тогда, когда система находится в состояниях 2 или 3 (т.е. при удовлетворительном или плохом состоянии почвы). Суммарный ожидаемый доход за три года составитyj(l) = 10,74 при хорошем состоянии системы в 1-й год,/,(2) = 7,92 - при удовлетворительном состоянии системы в 1-й год и/ДЗ) = 4,23 - при плохом состоянии.

Задача при конечном горизонте планирования (решенная выше задача садовника) может быть обобщена в двух направлениях. Во-первых, переходные вероятности и функции дохода не обязательно должны быть одинаковы для каждого года. Во-вторых, можно использовать коэффициент переоценки (дисконтирования) ожидаемых доходов для последовательных этапов, вследствие чего значения /,(/) будут представлять собой приведенные величины ожидаемых доходов по всем этапам.

В первом случае значения доходов и переходные вероятности />* должны

быть функциями этапа п. Здесь рекуррентное уравнение динамического программирования принимает вид

/A.(.-) = max{vf- },

Второе обобщение заключается в следующем. Пусть а(< 1) - годовой коэффициент переоценки (дисконтирования), тогда D долларов будущего года равны aD долларам настоящего года. При введении коэффициента переоценки исходное рекуррентное уравнение преобразуется в следующее:

/ (;) = max



1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 [ 239 ] 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292