1) В задаче требуется найти последовательность шаговых управлений и траекторию, которой соответствует максимальный из возможных полных выигрышей. По своему существу полный “выигрыш” – это мера качества управления процессом в целом.
2) Начальное состояние системы – «0» и множества её возможных последующих состояний – «1», «2», «3», а также возможные переходы из каждого возможного состояния в другие возможные состояния. Каждому переходу-шагу соответствует свой шаговый выигрыш, а в завершающем процесс третьем множестве – каждому из состояний системы придана его оценка, помещенная в прямоугольнике.
3) В результате последовательного перебора множеств, при прохождении всего их набора, определяется оптимальная последовательность преемственных шаговых управлений, максимально возможный полный выигрыш и соответствующая им траектория, выделенная утолщённой линией. Критерий оптимальности – сумма шаговых выигрышей.
4) Важно подчеркнуть, что метод динамического программирования работоспособен только, если определён вектор целей управления, т. е. если определено завершающее процесс состояние.
«Каково бы ни было состояние системы перед очередным шагом, надо выбирать управление на этом шаге так, чтобы выигрыш на данном шаге плюс оптимальный выигрыш на всех последующих шагах был максимальным» [13, 109].
Рис. 4.11. Матрица возможностей метода динамического программирования.
В самом очевидном варианте интерпретации соответствие ПФУ методу динамического программирования выглядит просто (рис. 4.12).
Рис. 4.12. Этапы ПФУ как варианты реализации матрицы возможностей
Определим фактор S, воздействующий на узел матрицы динамического программирования A матрицы переходов, или этап 1 ПФУ; варианты возможных стереотипных отработок фактора узлами, помеченными буквами B, С, D как шаг 1 или этап 2 ПФУ; варианты компилятивных решений (узлов комбинированных вариантов путей) буквами E, F, G как шаг 2 или этап 3 ПФУ и, наконец, конечные узлы состояний системы для всех возможных вариантов отработки фактора буквами H, I, J и К как шаг 3 или этап 4 ПФУ.
1-й этап ПФУ (Шаг 0): Для носящего однозначный (программный, конкретно распознанный в вершине А, характер воздействующего стимула S или отрабатывается сразу как реакция R (траектория S-1-А-7-R), или далее представляется как вариант выбора одного из готовых, стереотипных путей B, С, D отработки фактора на следующем шаге.
2-й этап ПФУ (Шаг 1): Если описываемая система обладает глубиной отслеживания ПСС в один шаг, то ей необходимо выбрать для отработки стимула S в виде реакции R один из возможных путей – B, C, D и затем возвратиться в точку А (траектория S-1–2-BCD-6–7-R). Для максимальной глубины прогностики в один шаг система выберет максимальный выигрыш 5, т. е. траекторию A-С.
Если система рассчитана на глубину отслеживания ПСС больше одного шага, то она перейдёт на следующий шаг расчётов.
3-й этап ПФУ (Шаг 2): Система начинает производить вариабельный расчёт различных путей попадания в узлы E, F, G. Здесь для определения максимального выигрыша необходимо просчитать все возможные сочетания путей А-В-Е, A-B-F, A-C-F … A-D-G. Это предикционный расчёт, в результате которого возникнет два варианта решения – пути A-C-G и A-D-G с выигрышем в 10 единиц. При максимальной глубине прогностики в два шага система выберет один из этих вариантов и вернётся в вершину А (траектория S-1–2-3-EFG-5–6-7-R) для отработки воздействующего фактора.
Если система рассчитана на глубину прогностики больше двух шагов, то она перейдёт на следующий шаг расчётов.