Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Лекція 12. Адаптивне управління.
12.1. Адаптивне управління
12.2. Адаптивне управління з механізмом наслідування
12.3. Гнучкість та цілеспрямованість колективної поведінки
12.4. Приклад МКП з адаптивним управлінням
12.5. Механізм спеціалізації
12.6. Співвідношення однорідності та неоднорідності колективу
12.1. Адаптивне управління
Адаптивное управление - это управление в системе с неполной априорной информацией об управляемом процессе, изменяющееся по мере накопления информации о процессе и применяемое с целью улучшения качества работы системы. Такое значение термина адаптация сложилось в теории управления под влиянием технических приложений и несколько отличается от содержания этого термина в биологии.
В дискретном времени i = t/t. где t - время, t интервал его квантования, возможно следующее представление процесса адаптивного управления. Предположим, что управляемый процесс х является марковским процессом и описывается некоторой характеристикой информации Р. Пусть в момент i заданы состояние процесса xi и состояние информации о процессе Pi, образующие точку (xi,Pi) в некотором фазовом пространстве. Переход в новое состояние происходит под воздействием управления ui и возмущения zi - случайной величины с вероятностным распределением dG(xi,Pi;ui,zi), которое может являться какой-то частью характеристики информации. Переход в новое состояние может быть определен случайными преобразованиями T1 и T2 так, что
xi+1 = Т1(хi, Рi, ui, zi) (1)
Pi+l = Т2(хi, Рi, ui, zi) (2)
Управление u, изменяя состояние процесса х, влияет и на характеристику информации Р. В частном случае, встречающемся в приложениях, в правых частях выражений (1) и (2) может не быть Рi и хi соответственно. Если преобразования Т1 и Т2 заданы, то управление в момент перехода следует выбирать в виде
ui = f(хi, Рi) (3)
Управление (3) обладает свойством адаптации в том смысле, что оно зависит от всей доступной в момент i информации Рi о процессе. Но обычно преобразования Т1 и, особенно, Т2 не заданы, и определение этих преобразований, как и самой характеристики информации, является частью задачи об адаптивном управлении. Действительно, для того, чтобы информация о процессе со временем накапливалась, необходимо специально выбирать Т2 так, чтобы описание процесса Рi+1 было более полным, чем Рi. Изменения в направлении улучшения характеристики ивформации составляют сущность адаптации. Если с состоянием хi+1, связать, например, некоторый показатель качества управления W(хi+1), то за счет большей «информированности» управления вследствие адаптации этот показатель может улучшаться. При этом последовательность преобразований {Т1,Т2}i, i=0,1,2,... дает процесс адаптивного управления.
В этом общем представлении процесса адаптивного управления как характеристика ивформации Р, так и механизм адаптации, определяемый преобразованием Т2, не имеют конкретного содержания. Развиваются теории адаптации, построенные на основе статистик случайных величин и случайных процессов, где в качестве характеристики информации используется функция распределения вероятностей, а в качестве преобразования Т2 иногда используется формула Байеса для апостериорных вероятностей. Одной из таких теорий является теория дуального управления, рассматривающая задачу об оптимальном адаптивном управлении на конечном интервале работы системы. Адаптивное управление реализуется, в частности, всяким оператором, обучающимся управлению тем или другим процессом или аппаратом. При обучении поведение оператора изменяется, совершенствуясь преимущественно благодаря накоплению опыта (или информации).
12.2. Адаптивне управління з механізмом наслідування
Адаптивне управління з механізмом наслідування можна розглядати як модель колективної поведінки для дослідження оптимального співвідношення однорідності та неоднорідності колективу. Разом з адаптивним виділяють наступні три основні способи управління:
Приклад схеми адаптивного управління: Адаптивне управління з механізмом наслідування.
-- Розглянемо N агентів, які розміщенні в середовищі E. В процесі ітераційної взаємодії з середовищем агенти одночасно в кожному такті взаємодії реалізують кожний по одній дії з набору D={d1,d2,…} усіх доступних для них дій, формуючи в такий спосіб колективну дію. Після цього кожний агент отримує відгук середовища ui,t ,i=1,…,N і повязує його з обраною в цьому такті дією dki,t > (dki,t, ui,t). При цьому значення {ui,t} можуть бути різними, наприклад, в залежності від місця розташування i-го агента в середовищі.
-- Модель інформаційної звязності > випадкова парна взаємодія: в кожному такті агенти випадковим чином розбиваються на пари, в яких відбувається обмін значеннями (dki,t, ui,t). Таким чином кожний агент в кожному такті взаємодії окрім інформації про свою дію та її успішність додатково отримує інформацію про дію та успішність цієї дії деякого іншого агента. Цільова функція агента φi,t(u)=(1/t)Σui,j (j=0,…,t), φi,t(u)->max (максимізувати свій середній виграш). Цільова функція колективу визначається у вигляді суми біжучих значень цільових функцій агентів, поділеної на їх кількість: Wt=(1/N)Σφi,t(u), i=1,…,N.
Кожний агент в своїй поведінці керується двома правилами:
- з ймовірністю p1 обрати наступну дію рівновипадково,
- з ймовірністю p2 повторити дію іншого агента.
або те саме в іншому вигляді:
- з ймовірністю p1 випадково обрати будь-яку дію з набору доступних дій D,
- з ймовірністю p2 повторити дію іншого агента dki,t+1 = dkj,t.
При цьому p1 + p2 = 1. Тобто кожний агент з ймовірністю p2 наслідує інших агентів, а з ймовірністю p1 діє "самостійно", обираючи свою дію рівновипадково. Т.ч. "успішні" агенти будуть зберігати свою дію на довший час, а "невдахи" будуть змінювати дії, наслідуючи "успішних" агентів. В такий спосіб відбувається пристосування (адаптація) колективу до середовища.
12.3. Гнучкість та цілеспрямованість колективної поведінки
Однорідність колективу можна розглядати як потенційну здатність кожного агента виконувати будь яку функцію (дію) з усіх можливих (доступних) в даному середовищі функцій (дій), а неоднорідність колективу як деякий розподіл агентів по різним функціям (діям).
МКП з адаптивним управлінням дозволяє кількісно та якісно дослідити динаміку співвідношення однорідності та неоднорідності колективу. При цьому однорідність відображається у гнучкість КП (або здатність до адаптації), а неоднорідність у цілеспрямованість КП (або здатність досягати високої ефективності).
Властивість |
Агент |
Колектив |
Дія |
|
p1 |
випадковість |
індивідуальна свобода дій (однорідність, універсальність, самостійність) |
гнучкість КП (здатність до адаптації) |
розширює діапазон пошуку ефективної КП |
p2 |
наслідування |
залежність від інших агентів (неоднорідність, спеціалізованість, колективізм) |
цілеспрямованість КП (здатність досягати високої ефективності) |
підвищує рівень ефективності КП |
Пошук ефективної КП (дослідження середовища) потребує деякого часу (це плата за нестачу інформації про середовище). Якщо p1 > p2 (випадковість переважає наслідування), то цей пошук займає мало часу, але і рівень ефективності знайденої КП буде невисоким. В протилежному випадку (p1 < p2) рівень досягнутої ефективності буде високим, але пошук відповідної КП займе багато часу.
Припустимо, що колектив досягнув деякого оптимального розподілу функцій між агентами, який забезпечує максимум ефективності КП (тобто досягнув граничного рівня спеціалізації для біжучих характеристик середовища). Але у випадку швидкої зміни характеристик середовища цілеспрямована зміна колективом досягнутого розподілу функцій може тривати неприпустимо довго. Тому таке "оптимальне" управління в деяких випадках є невигідним: колектив не встигає пристосуватись до нових змін у середовищі.
Зміни у середовищі викликають потребу виконувати новий пошук ефективної КП. Якщо середовище змінюється швидко, то довгий пошук (p1 < p2) є недоцільним. Якщо середовище змінюється повільно, то недоцільним буде швидкий пошук (p1 > p2), оскільки він не гарантує такого високого результату, який дає довгий пошук.
Висновок: існує деяке оптимальне співвідношення між індивідуальною свободою дій та залежністю від інших агентів (тобто між однорідністю і неоднорідністю колективу), яке може бути представлено кількісно як деяке співвідношення p1/p2.
12.4. Приклад МКП з адаптивним управлінням
Розглянемо модель колективної поведінки (МКП), в якій біжучий сумарний виграш агента дорівнює його "життєвій енергії". Тобто виграшні дії збільшують енергію агента, а програшні зменшують. При цьому зміна одної дії на іншу відбирає в агента деяку частку енергії (тобто зміна поведінки потребує витрат енергії). Якщо біжучий рівень енергії Si,t стає меншим за S1, то агент вмирає, а якщо рівень енергії стає більшим за S2, то агент розділяється на двох нових агентів з енергією Si,t/2.
if Si,t < S1 then Ai, i=1,…,N(t), t=1,…,T
if Si,t > S2 then Ai{Ai(Si,t/2),Aj(Si,t/2)}, ij, i,j=1,…,N(t), t=1,…,T
Тобто ефективність колективної поведінки відображається у вигляді чисельності колективу. При цьому вкрай низька ефективність колективної поведінки призводить до зникнення (загибелі) колективу.
Рис.12.1. [Дружинин,Конторов,стр.140] Залежність ефективності колективної поведінки від раптових змін середовища для випадку адаптивного управління з механізмом наслідування:
1,2,3 - моменти збільшення протидії середовища на 10, 30 та 70% відповідно;
а) спеціалізований колектив (p1 < p2)
б) менш спеціалізований колектив (p1 p2)
в) неспеціалізований колектив (p1 > p2)
Висновок 1. Спеціалізований колектив з великим часом адаптації (пошуку ефективної КП) легко впорався з невеликими по інтенсивності протидіями середовища (10%, 30%), однак загинув, коли протидія раптово і сильно зросла (70%). Менш спеціалізовані колективи за рахунок більших можливостей до адаптації впоралися з сильною протидією середовища.
Висновок 2. Якщо нас в першу чергу цікавить ефективність колективної поведінки і ймовірність раптових змін середовища невелика, то перевага на боці неоднорідних (спеціалізованих) колективів. Якщо ж нас в першу чергу цікавить надійність колективної поведінки і ймовірність раптових змін середовища досить велика, то перевага за однорідними (неспеціалізованими) колективами.
12.5. Механізм спеціалізації
-- Ускладнити модель колективної поведінки з адаптивним управлінням можна таким правилом: ті функції (дії), які агент виконує дуже рідко або взагалі не виконує, виключаються з множини всіх доступних для нього дій (тобто з часом агент втрачає здатність виконувати "невживані" ним дії) -> реалізується деяка залежність алфавіту (набору) дій агента від часу Di -> Di(t).
-- Таким чином можна реалізувати процес формування груп взаємодоповнюючих стратегій (функцій): разом з наслідуванням в процесі випадкового пошуку можуть знаходитись і закріплюватись не однакові, а доповнюючи одна одну різні дії, тобто такі дії, які підсилюють діяльність інших агентів і колективу в цілому (розподілення взаємодоповнюючих функцій -> функціональна емерджентність (У.Ешбі)).
-- Цей підхід можна застосувати при вирішенні задач в недоступному динамічному середовищі -> в такому середовищі можна розмістити однорідний колектив, який з часом самостійно знайде найкраще для цього середовища розбиття агентів по групам взаємодоповнюючих стратегій (функцій).
12.6. Співвідношення однорідності та неоднорідності колективу
-- В повністю однорідному колективі всі агенти мають однакову цільову функцію та однакові можливості по
-- Неоднорідність колективу можна розглядати на двох рівнях:
-- Однорідні та неоднорідні колективи володіють деякими протилежними системними властивостями. Порівняльний аналіз цих властивостей дає змогу визначити за яких обставин який колектив (однорідний чи неоднорідний) найбільш вигідно обрати для вирішення поставленої задачі.
-- Можна розглядати задачу самостійного вибору колективом агенту оптмального біжучого співвідношення однорідності та неоднорідності в залежності від поставленої перед колективом задачі та біжучого стану середовища. Процесс пошуку цього співвідношення може бути оцінений кількісно за допомогою правила самоорганізації фон Фьорстера.
Література
Цыпкин Я. 3. Адаптация и обучение в автоматических системах. М., 1968. (стр.347-381)
Беллман Р. Процессы регулирования с адаптацией. Пер. с англ. М., 1964.
Дружинин В.В., Конторов Д.С. Системотехника. М.: Радио и связь, 1985. (стр.134-156)
Варшавский В.И., Поспелов Д.А. Оркестр играет без дирижера. М.: Наука, 1984. (стр.94-100)
Варшавский В.И. Коллективное поведение автоматов. М.: Наука, 1973. (стр.256-271)
Jiming Liu, Jianbing Wu, Multiagent Robotic Systems, CRC Press, 2001. (pp.44-45)