30 ББК 32.973.202 я 73 Г 701 Городецкий А.Я. Информационные системы. Вероятностные модели и статистические решения. Учеб.пособие. СПб: Изд-во СПбГПУ, 2003. 326 c. I8BN 5-7422-0381-X Пособие соответствует дисциплинам государственного

Книги по разным темам Pages: | 1 | ... | 28 | 29 | 30 | 31 | 32 |

y В результате минимизации выражения (5.75) определяются опт оптимальное управление uk -l +1 = uk -l +1(xk -l +1) и значение функции будущих потерь Rk -l +1( x ), как функции вектора оценок k-l+ (достаточных статистик) x. Как следует из характера самой k-l+процедуры оптимальность достигается не только на избранном интервале (k-l+1)tt(k-l+2)t, но и на всем будущем интервале (k-l+1)tt(k+1)t Таким образом, функция будущих потерь k k Rk -l +1(xk -l +1) = min M (xk +1) + F (x,ui ) y1 -l +1 i = k - l +1, k, i {ui } i=k -l + определяет минимальное значение функционала (5.71), которое достигается на временном интервале (k-l+1)tt(k+1)t при условии k существования вектора измерения y1 -l +1.

В результате последовательного применения этой формулы опт можно найти вектор оптимального управления u0 для первого участка траектории и таким образом функцию будущих потерь R0(x0) равную минимуму функционала (5.71). В результате полностью определяют векторную последовательность оптимального управления uk,uk-1,...,u0.

Далее приступают к формированию оптимального управления траектории движения объекта. По результатам первого измерения y1 с опт учетом u0 определяют по известному вектору начального состояния x0 оценку x. Повторяя измерения и каждый раз используя опт ранее полученные значения un, определяют последовательность векторов оценок x, n=k-l+1, l=k,k-1,...,0.

n В общем случае метод динамического программирования, к сожалению, приводит к очень громоздким процедурам отыскания решений. Причем на каждом шаге работы алгоритма необходимо вычислить и запомнить скалярные функции Rk-l+1( x ) и k-l+ Rk-l+2( x ) многих переменных состояния объекта. Зависимости k-l+опт un =un( x ) довольно часто имеют не аналитический вид. Только в n простых случаях, один из которых рассмотрен ниже, можно получить результаты в аналитической форме. Основные методы расчета здесь являются численными. Несмотря на это метод динамического программирования позволяет свести задачу оптимизации сложной скалярной функции (функционала качества) многих векторных аргументов к минимизации последовательности скалярных функции от одного векторного аргумента.

Используем метод динамического программирования для определения в явном виде оптимального управляющего воздействия, как функции оценок координат (достаточных статистик) объекта.

Движение объекта характеризуется линейным векторно-матричным уравнением в дискретном времени (4.210) xn+1=nxn+Vnun+nn, x0=x(0). (5.76) Линейный измеритель описывается уравнением yn+1=Cn+1xn+1+n+1.

Апостериорное среднее показателя качества записывается в квадратичной форме k = M (xk +1) + (5.77) F (xn,un), y n n=T T T где F (xk +1) = xk +1Kk +1xk +1, n(xn,un) = xn Lnxn + unWnun.

Как и ранее полагаем Ln=tL(tn), Wn=tW(tn), Vn=tV(tn). Оценки вектора фазовых координат объекта определяются дискретным линейным алгоритмом фильтрации с помощью уравнений оценок (4.88) и дисперсии ошибок оценок (4.86).

Рассмотрение начнем с определения функции будущих потерь на последнем интервале управления ktt(k+1)t. Последнюю частичную сумму функционала качества (5.77) с учетом уравнения (5.76) запишем в виде k (xk,uk ) = M {[k (xk + (xk - xk )) +Vkuk + kk ]T y Kk +1[k (xk + (xk - xk )) +Vkuk + kk ] + T + (xk + (xk - xk ))T Lk (xk + (xk - xk )) + uk Wkuk} = (5.78) T TT TT T = xk k Kk +1k xk + 2xk k Kk +1Vkuk + uk Pkuk + xk Lk xk + T + Sp(Lk Dk ) + Sp(T Kk +1k Dk ) + Sp(k Kk +1k Dk ).

k где Sp() обозначает взятие следа матрицы, Pk=Wk+VT Kk+1Vk, k Dk=My{(xk- x )(xk- x )T}.

k k На основании принципа оптимальности необходимо получить минимальное значение частичной суммы Rk (xk ) = min k (xk,uk ).

uk Полагая матрицу Pk положительно определенной, а область управления открытой, приходим к оптимальному управлению на опт шаге k из уравнения ( x,uk)/uk=0. Отсюда uk =-Ak x, где k k k опт Ak = Pk-1VkT Kk +1k. Подставляя значение uk в выражение (5.78), получаем будущие потери на шаге k T Rk (xk ) = xk k xk + ck, (5.79) T где k = Lk + T Kk +1k - Ak Pk Ak, k T ck = Sp(Lk Dk ) + Sp(T Kk +1k Dk ) + Sp(k Kk +1k Dk ) k Как следует из полученного результата, оптимальное управление uk на интервале tkttk+1 зависит от вектора оценки x и k решает целевую задачу - минимизирует частичную сумму.

k На следующем интервале (k-1)tt(k+1)t частичная сумма апостериорного среднего функционала качества имеет вид T T k -1(xk -1,uk -1,uk ) = k (xk,uk ) + M {xk -1Lk -1xk -1 + uk -1Wk -1uk -1} = y T T = k (xk -1,uk -1,uk )M {xk -1Lk -1xk -1 + uk -1Wk -1uk -1}.

y Минимизация его по управлению uk-1 приводит к функции будущих потерь на шаге k- Rk -1(xk -1) = min k -1(xk -1,uk -1,uk ) = uk,uk-T T = min{Rk (xk -1,uk -1) + xk -1Lk -1xk -1 + uk -1Wk -1uk -1}+ (5.80) uk-+ Sp(lk -1Dk -1).

Для определения Rk() в выражении (5.80) в функцию будущих потерь (5.79) необходимо подставить уравнение линейной фильтрации, которое для рассматриваемой задачи имеет вид T -~ xk xk = xk + DkCk Qk (yk - Ck ~ ), ~ ~ ~ ~ T T Dk = Dk - DkCk [Ck DkCk + Qk ]-1Ck Dk, ~ T ~ где xk = k -1xk -1 +Vk -1uk -1, Dk = k -1Dk -1T + k -1Q,k -1k -1.

k -После минимизации, определения оптимального управления uопт и последующей его подстановки в (5.80) получаем следующие k -соотношения опт uk -1 = -Ak -1xk -1, (5.81) T Rk -1(xk -1) = xk -1k -1xk -1 + ck -1, где Ak -1 = Pk-11VkT kk -1, - -Pk -1 = Wk -1 +VkT kVk -1, -T k -1 = Lk -1 + T kk -1 - Ak -1Pk -1Ak -1. (5.82) k -Продолжая эту процедуру с помощью рекуррентной формулы (5.82), доходим до начального интервала 0ttk+1, для которого опт находим оптимальное управление u0. В результате определяем последовательность оптимальных управлений u0,u1,...,uk для всей траектории движения объекта. Полученный алгоритм оптимального управления подтверждает справедливость упомянутой ранее теоремы разделения, согласно которой в линейных дискретных системах с квадратичным функционалом качества при аддитивных гауссовских воздействиях оптимальное управление распадается на две последовательно решаемых задачи: определения оценок фазовых координат объекта и закона оптимального управления.

Наряду с рассмотренным разработаны методы динамического программирования для прямой последовательности (прямого хода), при произвольном задании интервала времени tk+1-t0, а также начальных и конечных состояний. Очевидно, задачи со свободным конечным состоянием и фиксированным начальным целесообразно решать прямым ходом, а с заданным конечным и свободным начальным состоянием - обратным ходом. Отметим, что рассмотренные алгоритмы определения оптимального управления являются рекуррентными и поэтому удобными для реализации на вычислительных машинах.

5.3.3.3. СТАТИСТИЧЕСКИЙ СИНТЕЗ УПРАВЛЕНИЯ НЕПРЕРЫВНЫХ СИСТЕМ. УРАВНЕНИЕ БЕЛЛМАНА.

Динамическое программирование при некоторых допущениях может использоваться для непрерывных систем. Пусть движение объекта описывается матрично-векторным уравнением (5.1) & x =ft(xt,t,ut), x(t0)=x(0).

t Управление объектом производится на заданном интервале времени (t0,t). Требуется выбрать вектор управления ut, принадлежащий области U и минимизирующий апостериорное среднее функционала качества, tk tk F F, = M (xtk ) + (x,u )d ytt = M (xtk ) + (x,u )d y t0 t где функция конечного состояния F(xtk ) задана.

В процессе управления измеряется вектор y(t), который связан с вектором состояния объекта управления (5.25).

Осуществим предельный переход в рекуррентной формуле (5.75), приняв момент времени tk-l+1 за t, а tk-l+2 за t+t. Учитывая, что оценка x, управление uk-l+1, а также измерение в момент времени k-l+tk-l+2 с точностью до величин высших порядков относительно t определяют оценку x, приходим к следующему выражению k-l+будущих потерь на интервале (t,tk) Rt (xt ) = min{Rt +t (xt +t ) + M {t (xt,ut )t}}, (5.83) y ut где Rt+t(xt+t) - будущие потери на интервале (t+t,tk).

Первый член выражения (5.83) разложим в ряд Тейлора по степеням t с точностью до линейного члена*) Rt (xt ) Rt +t (xt +t ) = Rt (xt ) + t + t (5.84) r Rt (xt ) + M { fit (xt,t,ut )}t.

xit y i= Учтем, что Rt( x ) и Rt( x )/t не содержат ut, так как по t t управлению произведена минимизация функции Rt(). Поэтому Rt( x ) t и Rt( x )/t можно вынести за знак min. После подстановки t ut соотношения (5.84) в формулу (5.83) приведения подобных, сокращения на t, устремляя t0, получаем нелинейное уравнение Беллмана *) Предположение, что функция Rt() непрерывна и имеет непрерывные частные производные по всем компонентам вектора xt, является основным допущением при применении метода динамического программирования к непрерывным системам.

Rt (xt ) - = t (5.85) r = min Rt (xt ) M { fit (xt,t,ut )} + M {t (xt,ut )}.

y ut i= xi y Если первое слагаемое в правой части уравнения (5.85) представить в виде скалярного произведения векторов, то это уравнение принимает форму Rt (xt ) Rt (xt ) - = min M { ft (xt,t,ut ) + M {t (xt,ut )} (5.86) y y ut t T xt при граничном условии Rtk (xtk )=My{F(x(tk))}.

Уравнение Беллмана дает необходимые условия оптимальности и служит для определения оптимального вектора управления путем минимизации правой части уравнения (5.86) в каждый текущий момент времени. Решение этого уравнения связано с техническими трудностями и, как правило, осуществляется численными методами.

Можно показать эквивалентность методов динамического программирования и принципа максимума. Введем непрерывный аналог функционала качества tk Jt (xt,ut ) = F (x(tk )) + (x,u )d t и функцию будущих потерь Rt (xt ) = min{M {Jt (xt,ut}}, t > t0. (5.87) y ut Так как Rt +t (xt +t ) = min{M {Jt +t (xt +t,ut +t}}, (5.88) y ut то соотношение (5.83) с учетом (5.87) и (5.88) можно представить в виде min{M {Jt +t (xt +t,ut +t ) +t (xt,ut )t - Jt (xt,ut )}} = 0. (5.89) y ut При условии существования производной функционала Jt по x и t запишем разложение по малому параметру t в линейном приближении Jt (xt,ut ) Jt +t (xt +t,ut +t ) = Jt (xt,ut ) + t + t (5.90) r Jt (xt,ut ) + fit (xt,t,ut )t.

xit i=Подставляя выражение (5.90) в соотношение (5.89) и сокращая на t, получаем Jt (xt,ut ) minM + y ut t (5.91) r Jt (xt,ut ) + fit (xt,t,ut ) + t (xt,ut ) = 0.

xit i= Введем вектор вспомогательных переменных с компонентами Jt (xt,ut ) Jt (xt,ut ) = -, = -, = -1, i = 1, r.

0 i r +t xit После подстановки этих компонент в соотношение (5.91) с учетом того, что его минимальное значение при изменении знака на обратный равно максимальному значению, получаем r r +maxM + fi + t (xt,ut ) = maxM i=0 fi = y 0 i r +1 y i ut ut i= (5.92) = max{M {H (xt,,ut,t)}} = y ut где f0=1, t(xt,ut)=fr+1, H - функция Гамильтона.

На основании полученного выражения (5.92) можно сделать вывод, что при оптимальном управлении u(t) максимизируется апостериорное среднее гамильтониана. При этом в любой точке оптимальной траектории объекта это максимальное значение равно нулю.

5.3.4. МЕТОДЫ ПРИБЛИЖЕННОГО СИНТЕЗА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 5.3.4.1. ПОСТАНОВКА ЗАДАЧИ Результаты теории оптимального синтеза управления приближенно распространяются на нелинейные уравнения состояния динамической системы (4.55) и наблюдаемого процесса (4.56).

Рассматриваемые в этом разделе приближенные решения задач оптимального синтеза достигаются применением статистической линеаризации векторных нелинейностей fn(xn) и Sn(xn) в дискретном времени (4.147) и (4.148). Представим многомерную нф и векторноматричное линеаризованное уравнение в конечных разностях в следующем виде * f0n(xn, Dn) fn(xn) = xn + f0n, * (5.93) xn xn+1 = nxn + tf0n +Vnun + nn, x0 = x(0), * f0n(x*, Dn) f0n(xn, Dn) * * где f0n = f0n(xn, Dn) - xn; n = I + t ; I - * * xn xn * f0n(xn, Dn) единичная матрица; - матрица Якоби, (ij) компонента * xn которой f0in/xjn (i - номер строки, j - номер столбца); Vn=tV(tn), n=t(tn).

Вектор измерения определяется из уравнения наблюдения yn=Sn(xn)+n.

Соответствующие функции, входящие в функционал качества квадратичной формы имеют вид (5.38) и (5.48). На вектор управления ограничения не накладываются.*) *) Приближенные методы синтеза управления также могут быть распространены на рассмотренный в разделе 4.10 наблюдаемый сигнал типа случайный точечный процесс, зависящий от фазовых координат объекта [79].

5.3.4.2. УПРАВЛЕНИЕ ПРИ ТЕРМИНАЛЬНОМ КРИТЕРИИ ОПТИМИЗАЦИИ Для рассматриваемой задачи апостериорное среднее k функционала качества равно (5.39) =M{xr+1,k+1| y1 }, где дополнительная координата xr+1 определяется из рекуррентного уравнения (5.37). Стохастический гамильтониан в дискретном виде имеет вид r +T H = fn(xn,un,n) = (5.94) fin, n+1 i,n+i=где вектор-функция fn(xn,un,n) состоит из компонент - правых частей уравнения состояния объекта (4.93) и функции (5.38).

На основании соотношений (5.93), (5.48), (5.94) стохастический гамильтониан с учетом программируемого вектора состояния пр пр xn+1 = nxn + tf0n принимает форму пр пр T H (xn,,un,ntn) = (xn - xn )T Ln(xn - xn ) + unWnun + n+пр пр пр T + 2[(xn - xn )T Kn(xn+1 - xn+1 - xn + xn )] + xn+1 +F (x0) = n+пр пр T пр = (xn - xn )T Ln(xn - xn ) + unWnun + 2(xn - xn )T Kn[nxn + (5.95) пр пр T +Vnun + nn - nxn - xn + xn ] + (nxn + tf0n + n++Vnun + nn) +F (x0).

Оптимальное управление отыскивается в открытой области из условия (5.46) H n T пр T M y1 = M {2Wnun + 2Vn+1Kn(xn - xn ) + Vn} = 0.

n+un y После операции усреднения относительно вектора измерения y получаем векторно-матричное уравнение, из которого определяют вектор оптимального управления опт T пр n+un = -Wn-1Vn Kn(xn - xn ) +. (5.96) Оценка вектора вспомогательной переменной определяется * * из выражения (5.45 ) с учетом n = I + tf0n(xn, Dn) / xn и вида стохастического гамильтониана (5.95) пр пр пр n = 2Ln(xn - xn ) + 2Kn(xn+1 - xn+1) - 2Kn(xn - xn ) + T (5.97) f0n T пр n+1 f0n n++ + t + 2t Kn(xn - xn ) + 01(t).

x* x* Сравнивая выражения (5.97) и (5.53) убеждаемся, что структурно они одинаковы и отличие их состоит в присутствии * * матрицы f0n(xn, Dn) / xn вместо F, а также в наборе параметров слагаемых с более высоким порядком малости относительно t.

Pages: | 1 | ... | 28 | 29 | 30 | 31 | 32 |

Книги по разным темам