pages bg right
Posted by papulia on Октябрь 17, 2008


Примеры задач управления

В разделе 1.2 было определено понятие управления в рамках
принятой в настоящей работе модели принятия решений, в разделе
1.3 описана технология управления организационными системами,
из содержания этапов которой видны роль и место теории игр. В
настоящем разделе приводится ряд примеров постановки задач
управления организационными системами (задача стиму-
лирования, задача экспертизы и задача распределенного контро-
ля), которые иллюстрируют использование теоретико-игрового
описания взаимодействия участников организационных систем.
Решения поставленных задач приводятся после изложения соот-
ветствующих (используемых в них) разделов теории игр.
Пример 1. [56] «Задача стимулирования».
Рассмотрим многоэлементную детерминированную двух-
уровневую ОС, состоящую из центра и n агентов. Стратегией ка-
ждого агента является выбор действия, стратегией центра – выбор
функции стимулирования, то есть зависимости вознаграждения
каждого агента от его действия и, быть может, действий других
агентов.
Обозначим yi Î Ai – действие i-го агента, i Î N =
{1, 2, …, n} – множество агентов, Õ
Î
= ¼ Î =
j N
y (y1,y2 , ,yn ) A’ Aj –
вектор действий агентов, Õ
¹
+ - = ¼ ¼ Î =
j i
y-i (y1,y2, ,yi-1,yi 1, ,yn ) A i Aj
– обстановка игры для i-го агента.
Предпочтения участников ОС – центра и агентов – выражены
их целевыми функциями. Целевая функция центра f0(s, y)
представляет собой разность между его доходом H(y) и суммар-
ным вознаграждением u(y), выплачиваемым агентам:
u(y) = å
Îi N
i(y) σ , где s
i (y) – стимулирование i-го агента,
s(y) = (s1(y), s2(y), …, sn(y)) – механизм стимулирования. Целе-
вая функция i-го агента fi(s
i, y) представляет собой разность между
стимулированием, получаемым от центра, и затратами ci(y), то
есть:
28
N i y c y y f i i i i Î - = ), ( ) ( ) , ( s s , å
Î
= -
i N
f0 ( , y) H(y) i (y) s s .
Отметим, что и индивидуальное вознаграждение, и индиви-
дуальные затраты i-го агента по выбору действия yi в общем слу-
чае зависят от действий всех агентов.
Примем следующий порядок функционирования ОС. Центру
и агентам на момент принятия решения о выбираемых стратегиях
(функциях стимулирования и действиях соответственно) известны
целевые функции и допустимые множества всех участников ОС.
Центр, обладая правом первого хода, выбирает функции стимули-
рования и сообщает их агентам, после чего агенты при известных
функциях стимулирования выбирают действия, максимизирующие
их целевые функции.
Обозначим M – множество допустимых систем стимулиро-
вания, P(s ) – множество равновесных при системе стимулиро-
вания s стратегий агентов – множество решений игры (тип рав-
новесия пока не оговаривается; пока предположим лишь, что
агенты выбирают свои стратегии одновременно и независимо друг
от друга, не имея возможности обмениваться дополнительной
информацией и полезностью).
Эффективностью стимулирования (эффективностью управ-
ления) является максимальное значение целевой функции центра
на соответствующем множестве решений игры:
( ) ma(x) 0 ( , )
K f y
y P
s s
Î s
= .
Задача синтеза оптимальной функции стимулирования за-
ключается в поиске допустимой системы стимулирования s*,
имеющей максимальную эффективность: s* Î Arg
M Î smax K(s). Ре-
шение этой задачи приводится в третьей главе. ·24
Пример 2 [10, 55, 64]. «Задача экспертизы».
В многоэлементных ОС план (желательное с точки зрения
центра состояние – действие или результат деятельности агента),
назначаемый i-му агенту, обозначим xi Î Xi , где Xi – множество
24 Символ «·» здесь и далее обозначает окончание примера, доказа-
тельства и т.д.
29
допустимых планов, сообщение i-го агента (его действие) обозна-
чим si ÎSi , iÎ N = {1, 2, …, n} – множество агентов. Будем счи-
тать, что центр определяет планы (на основании предоставляемой
агентами информации) по процедуре планирования p : S ® X , где
ÕÎ
=
i N
i S S , Õ
Î
=
i N
X Xi . Тогда план, назначаемый i-му агенту, будет
определяться выражением: xi i (s) =p , i Î N, s = (s1, s2, …, sn) Î S.
Совокупность S = (S, p(×)) множеств возможных сообщений аген-
тов и процедуры планирования называется механизмом планиро-
вания. Так как план каждого агента зависит в общем случае от со-
общений всех агентов, то возникает игра агентов, поэтому в каче-
стве моделей поведения агентов можно использовать ту или иную
концепцию равновесия (см. ниже).
Будем считать, что интересы центра задаются его целевой
функцией f0(x, r), где r = (r1, r2, …, rn) – неизвестный ему вектор
типов агентов, r Î W – множеству возможных типов,
x = (x1, x2, …, xn) – вектор планов. Тогда задачей центра является
выбор такой процедуры планирования, чтобы в точке равновесия
значение его целевой функции было максимально.
Обозначим множество равновесий при фиксированной про-
цедуре планирования Pp(r), r Î W. Отображение, ставящее в соот-
ветствие множеству равновесий Pp(r) конкретное равновесие
s*(r) Î Pp(r), называется соответствием отбора равновесий. Бу-
дем считать, что конкретный выбор агентов из этого множества
удовлетворяет гипотезе благожелательности, в соответствии с
которой, в том числе, при прочих равных, агенты предпочтут со-
общать достоверную информацию. Для фиксированного равнове-
сия s*(r) Î Pp(r), определяемого принятым соответствием отбора
равновесий, вычисляя, например, гарантированный результат по
множеству W, можно ввести гарантированную эффективность
K(S) механизма планирования S = (S, p ) :
K( ) min f0 ( (s (r)), r)
r
*
ÎW
S = p .
Механизм p : S ® X , в котором агенты сообщают оценки из
множеств {Si}, называется непрямым механизмом (содержатель-
но, в нем сообщение может нести косвенную информацию о типе
30
агента). При фиксированном соответствии отбора равновесий для
непрямого механизма p (×) можно построить соответствующий
ему прямой механизм25: h(~r ) =p (s*(~r )) , в котором агенты сооб-
щают непосредственно (прямо) оценки W Î r ~ своих типов (поэтому
этот механизм и называется прямым). Если в соответствующем
прямом механизме сообщение достоверной информации является
доминантной стратегией (см. раздел 3.7), то он называется эквива-
лентным прямым механизмом.
Очевидно, в механизмах с сообщением информации агенты
будут руководствоваться своей полезностью и не обязательно бу-
дут сообщать достоверную информацию. Явление сообщения
агентами недостоверной информации называется манипулирова-
нием информацией, а механизмы, в которых агентам выгодно со-
общение достоверной информации (оно является равновесием
игры агентов), называются неманипулируемыми.
Под задачей экспертизы понимают задачу оценки некоторой
величины группой экспертов – специалистов в определенной об-
ласти. Пусть ri – собственное мнение i-го агента-эксперта (его
тип), ri Î[d, D]ÌÂ1 , i Î N, - ¥ < d < D < +¥ , и пусть
r1 £ r2 £ ... £ rn , то есть ri упорядочены по возрастанию. Экспертам
известна процедура p :[d,D]n ®[d,D] принятия итогового
решения на основе сообщаемых оценок si [d, D], Î i Î N:
x =p (s).
Будем считать, что функции полезности агентов однопико-
вые26 с точками пика ri, i Î N, а процедура p (s) – механизм ак-
тивной экспертизы – удовлетворяет следующим свойствам:
25 В механизмах с сообщением информации обозначение « r~ » для век-
тора сообщений агентов в прямом механизме вводится для того, что-
бы подчеркнуть, что в общем случае сообщения о типах r могут от-
личаться от истинных, то есть может иметь место: $iÎI : ~ri ¹ ri .
26 То есть каждый из экспертов заинтересован в том, чтобы итоговое
решение было как можно ближе к его собственному мнению.
31
1. p (s) строго монотонна по всем переменным при
sÎ[d, D]n ;
2. p (s) непрерывна по всем переменным при s Î[d, D]n ;
3. если обозначить sa = (a, ..., a), aÎ[d, D] , то p (sa ) = a (ус-
ловие единогласия).
Примером механизма активной экспертизы является линейный
механизм экспертизы: å
Î
=
i N
x ai si , где > 0 i a , 1
N
= å
Î i
ai . Частным
случаем линейного механизма является вычисление среднего
арифметического мнений экспертов (a
i = 1/n, i Î N).
Задачей управления для рассматриваемой модели ОС является
синтез неманипулируемого механизма экспертизы. Решение этой
задачи приводится в четвертой главе. ·
Пример 3 [25, 57]. «Задача распределенного контроля».
Центр 1 Центр i Центр n
АГЕНТ
… …
s1(y) s
i(y) sn(y)
y* y* y*
Рис. 4. Модель ОС с несколькими центрами
Рассмотрим организационную систему со структурой, изо-
браженной на рисунке 4. Центры представляют собой менеджеров
проектов и руководителей функциональных подразделений
некоторой проектно-ориентированной организации, а агент – со-
трудника подразделения или подразделение в целом.
Предпочтения n центров описываются их функциями полез-
ности f0i ( y) = Hi ( y) - σi ( y) , iÎN = {1, 2, …, n} – множество цен-
тров, где Hi(y) – кусочно-непрерывная функция дохода i-го центра
от выбора агентом действия 1
yÎ A = Â+ , σi(y) – неотрицательная
32
функция стимулирования агента i-ым центром в зависимости от
выбираемого действия.
Предпочтения агента представлены функцией полезности
f ( y) ( y) c( y)
i N
i - =å
Î
s , где c(y) – положительная выпуклая возрас-
тающая по y Î A функция затрат агента в зависимости от выби-
раемого действия y, причем существует непрерывная третья про-
изводная функции затрат. Также предполагается, что
c(0) = c’(0) = 0 .
Все центры и агент имеют полную информацию о функциях
Hi(y) и c(y), а также о множестве A.
Порядок функционирования системы следующий:
- центры одновременно сообщают агенту функции стимули-
рования σi(y);
- если существует действие y , для которого f (y) ³ 0 , то агент
выбирает действие y* P( ) Arg max[ ( y) c( y)]
i N
y A i
- = Î å
Î Î
s s , где
i y i N Î s = (s ( )) – вектор функций стимулирования всех центров, и
несет затраты c(y*), иначе он отказывается от игры, и все ее
участники получают нулевые выигрыши;
- центры получают доходы Hi(y*) и выплачивают агенту сум-
мы σi(y*).
Для функций стимулирования центров должно выполняться
балансовое ограничение: i ( y*) Hi (y*) s £ , i Î N, то есть центры
должны иметь достаточно средств, чтобы оплатить агенту обе-
щанную сумму.
Должно также выполняться условие «обоснованности угроз»,
или «условие запрета блефа»: “yÎ A, “iÎN i ( y) Hi ( y) s £ , го-
ворящее о том, что обещания любого центра не превышают его
дохода.
Для завершения описания модели необходимо указать, какое
действие выберет агент, если множество P(s) состоит более чем из
одной точки, и агент должен выбрать одно действие из множества
равнозначных для него действий. Для описания процесса выбора
агентом действия из множества «оптимальных» действий P(s)
33
введем функцию Y(s ), известную всем центрам, которая каждому
вектору s функций стимулирования ставит в соответствие точку из
соответствующего множества P(s).
Будем считать, что для функции Y(s ) выполняется свойство
независимости от посторонних альтернатив: для любых век-
торов стратегий s 1,s 2 из Y(s 1)ÎP(s 2 ) Ì P(s 1) следует
Y(s 2 ) = Y(s 1) , то есть если агент выбрал действие Y(s 1) из
более широкого множества P(s 1) , то и из более узкого множества
P(s 2 ) он выберет действие Y(s 1) (если оно содержится в
P(s 2 ) ).
Задача управления, заключающаяся в анализе поведения
центров, предсказании их рациональных стратегий и исследовании
возможностей их совместных действий решается в пятой главе. ·
Решение сформулированных в примерах 1-3 задач управления
организационными системами дается ниже после описании соот-
ветствующих результатов теории игр.
Таким образом, в настоящей главе рассмотрены модели при-
нятия решений и управления, что позволяет перейти к системати-
ческому изложению результатов теории игр, необходимых для
постановки и решения задач управления организационными сис-
темами. Для этого, в первую очередь, необходимо рассмотреть
различные способы представления предпочтений участников ОС
(отношения предпочтения и функции полезности, а также связь
между ними – см. разделы 2.1 и 2.2) и провести классификацию
игровых моделей (см. раздел 2.3).

Нечто важное
FUEL ждет коллекционное  издание. FUEL ждет коллек... rating
Diablo III снова без LANa Diablo III снова бе... rating
Watchmen: The End is Nig 2 скоро увидит свет Watchmen: The End is Nig 2... rating
Негодование на полях Starcraft 2 Негодование н... rating
Случайное
Оставьте свой комментарий


Leave a Reply

You must be logged in to post a comment.