References

moitvivt

Моделирование, оптимизация и информационные технологии

Modeling, Optimization and Information Technology

2310-6018

Издательство

10.26102/2310-6018/2025.51.4.066

2142

Адаптивное риск-ориентированное управление эксплуатацией объектов розничной сети на основе кластеризации и обучения с подкреплением

Adaptive risk-based management of retail network facilities based on clusterization and training with reinforcements

Устимов

Максим Геннадьевич

Ustimov

Maxim Gennadievich

mgu1287@mail.ru aff-1

Прохорова

Ольга Константиновна

Prokhorova

Olga Konstantinovna

roza_pochta@list.ru aff-2

Заложных

Даниил Олегович

Zalozhnikh

Daniil Olegovich

daniil.olegovich957@yandex.ru aff-3

Воронежский институт высоких технологий Voronezh Institute of High Technologies

01 01 2026

1 1

10.26102/2310-6018/2025.51.4.066

2026

This work is licensed under a Creative Commons Attribution 4.0 International License

В условиях повышенных операционных и энергетических рисков, характерных для современных розничных сетей, предлагается инновационный двухуровневый подход к управлению эксплуатацией объектов. Исследование направлено на решение ключевой проблемы неоднородности риск-профилей объектов сети, требующей дифференцированных стратегий управления вместо унифицированных регламентов. На стратегическом уровне реализована интеллектуальная кластеризация объектов методом самоорганизующихся карт Кохонена (SOM) по комплексным факторам риска, включающим геопространственные параметры (удаленность от зон операционной напряженности), инфраструктурные показатели (близость к критической инфраструктуре, надежность энергосетей), операционные метрики (логистическая устойчивость, история инцидентов) и социально-экономические индикаторы. В результате кластерного анализа выявлены четыре четко дифференцированные категории объектов: критические, высокого риска, логистически уязвимые и стабильные. На тактическом уровне для каждого кластера разработаны специализированные модели обучения с подкреплением (Reinforcement Learning), адаптирующие эксплуатационные политики в реальном времени. Формализация задачи как марковского процесса принятия решений позволила оптимизировать управляющие воздействия (техническое обслуживание, энергоменеджмент, резервирование) с учетом специфических целей кластера. Ключевой особенностью методологии является кастомизация функций вознаграждения: для критических объектов приоритет отдается максимизации живучести, для стабильных – энергоэффективности, для промежуточных кластеров – сбалансированным стратегиям. Экспериментальная валидация проведена на синтезированном датасете из 100 объектов с использованием современных библиотек машинного обучения (Stable-Baselines3, Gymnasium, Scikit-learn) в контейнеризованной среде Docker WSL2.

In the context of increased operational and energy risks typical of modern retail chains, an innovative two-tier approach to facility operation management is proposed. The research is aimed at solving the key problem of heterogeneity of the risk profiles of network facilities, which requires differentiated management strategies instead of unified regulations. At the strategic level, intelligent clustering of objects using the Kohonen self-organizing maps (SOM) method has been implemented for complex risk factors, including geospatial parameters (distance from operational tension zones), infrastructural indicators (proximity to critical infrastructure, reliability of power grids), operational metrics (logistical stability, incident history) and socio-economic indicators. As a result of the cluster analysis, four clearly differentiated categories of objects were identified: critical, high-risk, logistically vulnerable and stable. At the tactical level, specialized Reinforcement Learning models have been developed for each cluster to adapt operational policies in real time. The formalization of the task as a Markov decision-making process made it possible to optimize control actions (maintenance, energy management, redundancy), taking into account the specific goals of the cluster. A key feature of the methodology is the customization of reward functions: priority is given to maximizing survivability for critical facilities, energy efficiency for stable ones, and balanced strategies for intermediate clusters. Experimental validation was performed on a synthesized dataset of 100 objects using modern machine learning libraries (Stable-Baselines3, Gymnasium, Scikit-learn) in a Docker WSL2 containerized environment.

управление эксплуатацией обучение с подкреплением риск-ориентированный подход кластеризация энергоэффективность живучесть объектов розничные сети цифровой двойник

operation management reinforcement learning risk-based approach clustering energy efficiency survivability of facilities retail chains digital twin

Исследование выполнено без спонсорской поддержки.

The study was performed without external funding.

References 1

Yu L., Qin Sh., Zhang M., Shen Ch., Jiang T., Guan X. A Review of Deep Reinforcement Learning for Smart Building Energy Management. IEEE Internet of Things Journal. 2021;8(15):12046–12063. https://doi.org/10.1109/JIOT.2021.3078462

Djenouri D., Laidi R., Djenouri Y., Balasingham I. Machine Learning for Smart Building Applications: Review and Taxonomy. ACM Computing Surveys. 2019;52(2). https://doi.org/10.1145/3311950

Pigott A., Crozier C., Baker K., Nagy Z. GridLearn: Multiagent Reinforcement Learning for Grid-Aware Building Energy Management. arXiv. URL: https://arxiv.org/pdf/2110.06396.pdf [Accessed 15th November 2025].

Mao R., Aggarwal V. NPSCS: Non-Preemptive Stochastic Coflow Scheduling with Time-Indexed LP Relaxation. IEEE Transactions on Network and Service Management. 2021;18(2):2377–2387. https://doi.org/10.1109/TNSM.2021.3051657

Al Sayed K., Boodi A., Broujeny R.S., Beddiar K. Reinforcement Learning for HVAC Control in Intelligent Buildings: A Technical and Conceptual Review. Journal of Building Engineering. 2024;95. https://doi.org/10.1016/j.jobe.2024.110085

Hillson D. Managing Risk in Projects. London: Routledge; 2016. 126 p.

Samunnisa K., Sunil Vijaya Kumar G., Madhavi K. Intrusion Detection System in Distributed Cloud Computing: Hybrid Clustering and Classification Methods. Measurement: Sensors. 2023;25. https://doi.org/10.1016/j.measen.2022.100612

Obasi I.Ch., Cheng P., Varianou-Mikellidou C., Dimopoulos Ch., Boustras G. Machine Learning for Occupational Accident Analysis: Applications, Challenges, and Future Directions. Journal of Safety Science and Resilience. 2026;7(1). https://doi.org/10.1016/j.jnlssr.2025.100250

Alhoniemi E., Hollmén J., Simula O., Vesanto J. Process Monitoring and Modeling Using the Self-Organizing Map. Integrated Computer Aided Engineering. 1998;6(1). https://doi.org/10.3233/ICA-1999-6102

Bouabdallaoui Y., Lafhaj Z., Yim P., Ducoulombier L., Bennadji B. Predictive Maintenance in Building Facilities: A Machine Learning-Based Approach. Sensors. 2021;21(4). https://doi.org/10.3390/s21041044

Schulman J., Wolski F., Dhariwal P., Radford A., Klimov O. Proximal Policy Optimization Algorithms. arXiv. URL: https://arxiv.org/abs/1707.06347 [Accessed 18th November 2025].

Mnih V., Kavukcuoglu K., Silver D., et al. Human-Level Control Through Deep Reinforcement Learning. Nature. 2015;518(7540):529–533. https://doi.org/10.1038/nature14236

Kohonen T. Self-Organizing Maps. Berlin, Heidelberg: Springer; 2001. 502 p. https://doi.org/10.1007/978-3-642-56927-2

The authors declare that there are no conflicts of interest present.