4. Выбор управления на любом из шагов не должен отрицать выбора управления на предъидущих шагах. Иными словами, оптимальный выбор управления в любом из возможных состояний должен определяться параметрами разсматриваемого состояния, а не параметрами процесса, в ходе которого система пришла в разсматриваемое состояние.
Чисто формально, если одному состоянию соответствуют разные предъистории его возникновения, влияющие на последующий выбор оптимального управления, то метод позволяет включить описания предъисторий в вектор состояния, что ведёт к увеличению размерности вектора состояния системы. После этой операции то, что до неё описывалось как одно состояние, становится множеством состояний, отличающихся одно от других компонентами вектора состояния, описывающими предъисторию процесса.
5. Критерий оптимального выбора последовательности шаговых управлений
Критерий
С индексом
Теперь обратимся к рис. 4 - рис. 6, повторяющим взаимно связанные рис. 40, 41, 42 из курса теории автоматического управления П. де Ла Барьера.
???? Рис. 4. К существу метода динамического программирования.
На рис. 4 показаны начальное состояние системы - «0» и множества её возможных последующих состояний - «1», «2», «3», а также возможные переходы из каждого возможного состояния в другие возможные состояния. Всё это вместе похоже на карту настольной детской игры, по которой перемещаются фишки: каждому переходу-шагу соответствует свой шаговый выигрыш, а в завершающем процесс третьем множестве - каждому из состояний системы придана его оценка, помещенная в прямоугольнике. Принципиальное отличие от игры в том, что гадание о выборе пути, употребляемое в детской игре, на основе бросания костей или вращения волчка и т.п., в реальном управлении недопустимо, поскольку это - передача целесообразного управления тем силам, которые способны управлять выпадением костей, вращением волчка и т.п., т.е. тем, для кого избранный в игре «генератор случайностей» - достаточно (по отношению к их целям) управляемое устройство.
Если выбирать оптимальное управление на первом шаге, то необходимо предвидеть все его последствия на последующих шагах. Поэтому описание алгоритма метода динамического программирования часто начинают с описания выбора управления на последнем шаге, ведущем в одно из завершающих процесс состояний. При этом ссылаются на «педагогическую практику», которая свидетельствует, что аргументация при описании алгоритма от завершающего состояния к начальному состоянию легче возпринимается, поскольку опирается на
???? Рис. 5. К существу метода динамического