<?xml version="1.0" encoding="UTF-8"?>
<article article-type="research-article" dtd-version="1.3" xml:lang="ru" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="https://metafora.rcsi.science/xsd_files/journal3.xsd">
  <front>
    <journal-meta>
      <journal-id journal-id-type="publisher-id">moitvivt</journal-id>
      <journal-title-group>
        <journal-title xml:lang="ru">Моделирование, оптимизация и информационные технологии</journal-title>
        <trans-title-group xml:lang="en">
          <trans-title>Modeling, Optimization and Information Technology</trans-title>
        </trans-title-group>
      </journal-title-group>
      <issn pub-type="epub">2310-6018</issn>
      <publisher>
        <publisher-name>Издательство</publisher-name>
      </publisher>
    </journal-meta>
    <article-meta>
      <article-id pub-id-type="doi">10.26102/2310-6018/2024.44.1.025</article-id>
      <article-id pub-id-type="custom" custom-type="elpub">1520</article-id>
      <title-group>
        <article-title xml:lang="ru">Математическая модель универсальной системы управления шагающим роботом на основе методов обучения с подкреплением</article-title>
        <trans-title-group xml:lang="en">
          <trans-title>Mathematical model of a universal control system for a walking robot based on reinforcement learning methods</trans-title>
        </trans-title-group>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author" corresp="yes">
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Кашко</surname>
              <given-names>Василий Васильевич</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Kashko</surname>
              <given-names>Vasily Vasilievich</given-names>
            </name>
          </name-alternatives>
          <email>vasya.kashko@mail.ru</email>
          <xref ref-type="aff">aff-1</xref>
        </contrib>
        <contrib contrib-type="author" corresp="yes">
          <contrib-id contrib-id-type="orcid">0000-0002-0333-2313</contrib-id>
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Олейникова</surname>
              <given-names>Светлана Александровна</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Oleinikova</surname>
              <given-names>Svetlana Alexandrovna</given-names>
            </name>
          </name-alternatives>
          <email>s.a.oleynikova@gmail.com</email>
          <xref ref-type="aff">aff-2</xref>
        </contrib>
      </contrib-group>
      <aff-alternatives id="aff-1">
        <aff xml:lang="ru">Воронежский государственный технический университет</aff>
        <aff xml:lang="en">Voronezh State Technical University</aff>
      </aff-alternatives>
      <aff-alternatives id="aff-2">
        <aff xml:lang="ru">Воронежский государственный технический университет</aff>
        <aff xml:lang="en">Voronezh State Technical University</aff>
      </aff-alternatives>
      <pub-date pub-type="epub">
        <day>01</day>
        <month>01</month>
        <year>2026</year>
      </pub-date>
      <volume>1</volume>
      <issue>1</issue>
      <elocation-id>10.26102/2310-6018/2024.44.1.025</elocation-id>
      <permissions>
        <copyright-statement>Copyright © Авторы, 2026</copyright-statement>
        <copyright-year>2026</copyright-year>
        <license license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/">
          <license-p>This work is licensed under a Creative Commons Attribution 4.0 International License</license-p>
        </license>
      </permissions>
      <self-uri xlink:href="https://moitvivt.ru/ru/journal/article?id=1520"/>
      <abstract xml:lang="ru">
        <p>Современные подходы к решению задачи управления шагающими роботами с вращательными звеньями представляют собой разрозненные алгоритмы, строящиеся либо на готовой локомоторной программе с дальнейшей ее адаптацией, либо на сложных кинематико-динамических моделях, нуждающихся в обширных знаниях о динамике системы и окружающей среды, что в прикладных задачах зачастую является невыполнимым. Так же, используемые подходы жестко связаны с конфигурацией шагающего робота, что делает невозможным применение метода в приложениях с иной конфигурацией (другим количеством и типом конечностей). В данной статье предлагается универсальный подход к управлению движением шагающих роботов, основанный на методологии обучения с подкреплением. Рассматривается математическая модель системы управления, основанная на конечных дискретных марковских процессах в контексте методов обучения с подкреплением. Ставится задача построения универсальной и адаптивной системы управления, способной осуществить поиск оптимальной стратегии для реализации локомоторной программы в заранее неизвестной среде, путем непрерывного взаимодействия. К результатам, отличающимся научной новизной, следует отнести математическую модель данной системы, позволяющей описать процесс ее функционирования с помощью марковских цепей. Отличием от существующих аналогов является унификация описания робота.</p>
      </abstract>
      <trans-abstract xml:lang="en">
        <p>Modern approaches to solving the problem of controlling walking robots with rotary links are disparate algorithms built either on a ready-made locomotor program with its further adaptation or on complex kinematic-dynamic models that require extensive knowledge about the dynamics of the system and the environment, which is often unfeasible in applied problems. Also, the approaches used are strictly related to the configuration of the walking robot, which makes it impossible to use the method in applications with a different configuration (a different number and type of limbs). This article proposes a universal approach to controlling the motion of walking robots based on reinforcement learning methodology. A mathematical model of a control system based on finite discrete Markov processes in the context of reinforcement learning methods is considered. The task is set to build a universal and adaptive control system capable of searching for the optimal strategy for implementing a locomotor program in a previously unknown environment through continuous interaction. The results distinguished by scientific novelty include a mathematical model of this system, which makes it possible to describe the process of its functioning using Markov chains. The difference from existing analogues is the unification of the description of the robot.</p>
      </trans-abstract>
      <kwd-group xml:lang="ru">
        <kwd>система управления</kwd>
        <kwd>обучение с подкреплением</kwd>
        <kwd>марковские процессы принятия решений</kwd>
        <kwd>нейронные сети</kwd>
        <kwd>шагающий робот</kwd>
        <kwd>искусственный интеллект</kwd>
      </kwd-group>
      <kwd-group xml:lang="en">
        <kwd>control system</kwd>
        <kwd>reinforcement learning</kwd>
        <kwd>Markov decision processes</kwd>
        <kwd>neural networks</kwd>
        <kwd>walking robot</kwd>
        <kwd>artificial intelligence</kwd>
      </kwd-group>
      <funding-group>
        <funding-statement xml:lang="ru">Исследование выполнено без спонсорской поддержки.</funding-statement>
        <funding-statement xml:lang="en">The study was performed without external funding.</funding-statement>
      </funding-group>
    </article-meta>
  </front>
  <back>
    <ref-list>
      <title>References</title>
      <ref id="cit1">
        <label>1</label>
        <mixed-citation xml:lang="ru">Paulo J., Asdadi A., Peixoto P., Amorim P. Human gait pattern changes detection system: A multimodal vision-based and novelty detection learning approach. Biocybernetics and Biomedical Engineering. 2017;37(4):701–717.</mixed-citation>
      </ref>
      <ref id="cit2">
        <label>2</label>
        <mixed-citation xml:lang="ru">Shimmyo S., Sato T., Ohnishi K. Biped walking pattern generation by using preview control based on three-mass model. IEEE transactions on industrial electronics. 2012;60(11):5137–5147. DOI: 10.1109/TIE.2012.2221111.</mixed-citation>
      </ref>
      <ref id="cit3">
        <label>3</label>
        <mixed-citation xml:lang="ru">Smith L., Kew J., Li T., Luu L., Peng X., Ha S., Tan J., Levine S. Learning and Adapting Agile Locomotion Skills by Transferring Experience. Robotics: Science and Systems XIX. 2023. DOI: 10.15607/RSS.2023.XIX.051 (accessed on 11.02.2024).</mixed-citation>
      </ref>
      <ref id="cit4">
        <label>4</label>
        <mixed-citation xml:lang="ru">Braun D. J., Mitchell J. E., Goldfarb M. Actuated dynamic walking in a seven-link biped robot. IEEE/ASME Transactions on Mechatronics. 2010;17(1):147–156. DOI: 10.1109/TMECH.2010.2090891.</mixed-citation>
      </ref>
      <ref id="cit5">
        <label>5</label>
        <mixed-citation xml:lang="ru">Bebek O., Erbatur K. A gait adaptation scheme for biped walking robots. The 8th IEEE International Workshop on Advanced Motion Control. 2004;409–414. DOI: 10.1109/AMC.2004.1297904.</mixed-citation>
      </ref>
      <ref id="cit6">
        <label>6</label>
        <mixed-citation xml:lang="ru">Arakawa T., Fukuda T. Natural motion trajectory generation of biped locomotion robot using genetic algorithm through energy optimization. 1996 IEEE International Conference on Systems, Man and Cybernetics. Information Intelligence and Systems (Cat. No.96CH35929). 1996;2:1495–1500. DOI: 10.1109/ICSMC.1996.571368.</mixed-citation>
      </ref>
      <ref id="cit7">
        <label>7</label>
        <mixed-citation xml:lang="ru">Luu T.P., Lim H.B., Hoon K.H., Qu X., Low K. H. Subject-specific gait parameters prediction for robotic gait rehabilitation via generalized regression neural network. 2011 IEEE International Conference on Robotics and Biomimetics. 2011;914–919. DOI: 10.1109/ROBIO.2011.6181404.</mixed-citation>
      </ref>
      <ref id="cit8">
        <label>8</label>
        <mixed-citation xml:lang="ru">Ouyang W., Chi H., Pang J., Liang W., Ren Q. Adaptive Locomotion Control of a Hexapod Robot via Bio-Inspired Learning. Front Neurorobot. 2021;15:627157. DOI: 10.3389/fnbot.2021.627157.</mixed-citation>
      </ref>
      <ref id="cit9">
        <label>9</label>
        <mixed-citation xml:lang="ru">Hrdlicka I., Kutilek P. Reinforcement learning in control systems for walking hexapod robots. Cybernetic Letters. 2005;3:1–13.</mixed-citation>
      </ref>
      <ref id="cit10">
        <label>10</label>
        <mixed-citation xml:lang="ru">Fu H., Tang K., Li P., Zhang W., Wang X., Deng G., Wang T., Chen C. Deep Reinforcement Learning for Multi-contact Motion Planning of Hexapod Robots. Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence. 2021:2381–2388. DOI: 10.24963/ijcai.2021/328.</mixed-citation>
      </ref>
      <ref id="cit11">
        <label>11</label>
        <mixed-citation xml:lang="ru">Geng T., Porr B., Wörgötter F. Fast biped walking with a sensor-driven neuronal controller and real-time online learning. The International Journal of Robotics Research. 2006;25(3):243–259.</mixed-citation>
      </ref>
      <ref id="cit12">
        <label>12</label>
        <mixed-citation xml:lang="ru">Schilling M., Konen K., Ohl F.W., Korthals T. Decentralized Deep Reinforcement Learning for a Distributed and Adaptive Locomotion Controller of a Hexapod Robot. IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Las Vegas, NV, USA; 2020. p. 5335–5342. DOI: 10.1109/IROS45743.2020.9341754.</mixed-citation>
      </ref>
      <ref id="cit13">
        <label>13</label>
        <mixed-citation xml:lang="ru">Tien Y., Yang C., Hooman S. Reinforcement learning and convolutional neural network system for firefighting rescue robot. MATEC Web of Conferences. 2018;161. DOI:</mixed-citation>
      </ref>
      <ref id="cit14">
        <label>14</label>
        <mixed-citation xml:lang="ru">10.1051/matecconf/201816103028.</mixed-citation>
      </ref>
      <ref id="cit15">
        <label>15</label>
        <mixed-citation xml:lang="ru">Саттон Р. С., Барто Э. Дж. Обучение с подкреплением: Введение. 2-е изд.: Пер. с англ. М.: ДМК Пресс; 2020. 552 с.</mixed-citation>
      </ref>
    </ref-list>
    <fn-group>
      <fn fn-type="conflict">
        <p>The authors declare that there are no conflicts of interest present.</p>
      </fn>
    </fn-group>
  </back>
</article>