Современные подходы к решению задачи управления шагающими роботами с вращательными звеньями представляют собой разрозненные алгоритмы, строящиеся либо на готовой локомоторной программе с дальнейшей ее адаптацией, либо на сложных кинематико-динамических моделях, нуждающихся в обширных знаниях о динамике системы и окружающей среды, что в прикладных задачах зачастую является невыполнимым. Так же, используемые подходы жестко связаны с конфигурацией шагающего робота, что делает невозможным применение метода в приложениях с иной конфигурацией (другим количеством и типом конечностей). В данной статье предлагается универсальный подход к управлению движением шагающих роботов, основанный на методологии обучения с подкреплением. Рассматривается математическая модель системы управления, основанная на конечных дискретных марковских процессах в контексте методов обучения с подкреплением. Ставится задача построения универсальной и адаптивной системы управления, способной осуществить поиск оптимальной стратегии для реализации локомоторной программы в заранее неизвестной среде, путем непрерывного взаимодействия. К результатам, отличающимся научной новизной, следует отнести математическую модель данной системы, позволяющей описать процесс ее функционирования с помощью марковских цепей. Отличием от существующих аналогов является унификация описания робота.