Latest issue Issue 2, 2026 Vol. 18

All issues

2026 Vol. 18
- Issue 2
- Issue 1
2025 Vol. 17
- Issue 6
- Issue 5
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2024 Vol. 16
- Issue 7 (special issue)
- Issue 6
- Issue 5
- Issue 4
- Issue 3
- Issue 2
- Issue 1 (special issue)
2023 Vol. 15
- Issue 6
- Issue 5
- Issue 4 (special issue)
- Issue 3
- Issue 2 (special issue)
- Issue 1
2022 Vol. 14
- Issue 6
- Issue 5
- Issue 4 (special issue)
- Issue 3
- Issue 2 (special issue)
- Issue 1
2021 Vol. 13
- Issue 6
- Issue 5
- Issue 4
- Issue 3
- Issue 2 (special issue)
- Issue 1
2020 Vol. 12
- Issue 6
- Issue 5
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2019 Vol. 11
- Issue 6
- Issue 5
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2018 Vol. 10
- Issue 6
- Issue 5 (special issue)
- Issue 4
- Issue 3 (special issue)
- Issue 2
- Issue 1
2017 Vol. 9
- Issue 6
- Issue 5
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2016 Vol. 8
- Issue 6
- Issue 5
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2015 Vol. 7
- Issue 6
- Issue 5
- Issue 4
- Issue 3 (special issue)
- Issue 2
- Issue 1
2014 Vol. 6
- Issue 6 (special issue)
- Issue 5
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2013 Vol. 5
- Issue 6 (special issue)
- Issue 5
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2012 Vol. 4
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2011 Vol. 3
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2010 Vol. 2
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2009 Vol. 1
- Issue 4
- Issue 3
- Issue 2
- Issue 1

Результаты поиска по 'оптимальные стратегии':

Найдено статей: 33

От редакции
Компьютерные исследования и моделирование, 2025, т. 17, № 6, с. 1033-1035

Editor’s note
Computer Research and Modeling, 2025, v. 17, no. 6, pp. 1033-1035
От редакции
Компьютерные исследования и моделирование, 2026, т. 18, № 1, с. 5-8

Editor’s note
Computer Research and Modeling, 2026, v. 18, no. 1, pp. 5-8
От редакции
Компьютерные исследования и моделирование, 2026, т. 18, № 2, с. 205-208

Editor’s note
Computer Research and Modeling, 2026, v. 18, no. 2, pp. 205-208
Холодов Я.А.
Разработка сетевых вычислительных моделей для исследования нелинейных волновых процессов на графах
Компьютерные исследования и моделирование, 2019, т. 11, № 5, с. 777-814

В различных приложениях возникают задачи, моделируемые уравнениями в частных производных на графах (сетях, деревьях). Для исследования данных проблем и возникающих различных экстремальных ситуаций, для задач проектирования и оптимизации сетей различных типов в данной работе построена вычислительная модель, основанная на решении соответствующих краевых задач для нелинейных уравнений в частных производных гиперболического типа на графах (сетях, деревьях). В качестве приложений были выбраны три различные задачи, решаемые в рамках общего подхода сетевых вычислительных моделей. Первая — это моделирование движения транспортных потоков. При решении данной задачи использовался макроскопический подход, при котором транспортный поток описывается нелинейной системой гиперболических уравнений второго порядка. Проведенные расчеты и полученные результаты показали, что разработанная в рамках предложенного подхода модель хорошо воспроизводит реальную ситуацию на различных участках транспортной сети г. Москвы на значительных временных интервалах, а также может быть использована для выбора наиболее оптимальной стратегии организации дорожного движения в городе. Вторая — моделирование потоков данных в компьютерных сетях. В этой задаче потоки данных различных соединений в пакетной сети передачи данных моделировались в виде несмешивающихся потоков сплошной среды. Предложены концептуальная и математическая модели сети. Проведено численное моделирование в сравнении с системой имитационного моделирования сети NS-2. Полученные результаты показали, что в сравнении с пакетной моделью NS-2 разработанная нами потоковая модель демонстрирует значительную экономию вычислительных ресурсов, обеспечивая при этом хорошую степень подобия, и позволяет моделировать поведение сложных глобально распределенных IP-сетей передачи данных. Третья — моделирование распространения газовых примесей в вентиляционных сетях. Была разработана вычислительная математическая модель распространения мелкодисперсных или газовых примесей в вентиляционных сетях с использованием уравнений газовой динамики путем численного сопряжения областей разной размерности. Проведенные расчеты показали, что модель с хорошей точностью позволяет определять распределение газодинамических параметров в трубопроводной сети и решать задачи динамического управления вентиляцией.

Ключевые слова: уравнения в частных производных, графы, вычислительные модели, уравнения гиперболического типа, численное моделирование, граничные условия.

Kholodov Y.A.
Development of network computational models for the study of nonlinear wave processes on graphs
Computer Research and Modeling, 2019, v. 11, no. 5, pp. 777-814

In various applications arise problems modeled by nonlinear partial differential equations on graphs (networks, trees). In order to study such problems and various extreme situations arose in the problems of designing and optimizing networks developed the computational model based on solving the corresponding boundary problems for partial differential equations of hyperbolic type on graphs (networks, trees). As applications, three different problems were chosen solved in the framework of the general approach of network computational models. The first was modeling of traffic flow. In solving this problem, a macroscopic approach was used in which the transport flow is described by a nonlinear system of second-order hyperbolic equations. The results of numerical simulations showed that the model developed as part of the proposed approach well reproduces the real situation various sections of the Moscow transport network on significant time intervals and can also be used to select the most optimal traffic management strategy in the city. The second was modeling of data flows in computer networks. In this problem data flows of various connections in packet data network were simulated as some continuous medium flows. Conceptual and mathematical network models are proposed. The numerical simulation was carried out in comparison with the NS-2 network simulation system. The results showed that in comparison with the NS-2 packet model the developed streaming model demonstrates significant savings in computing resources while ensuring a good level of similarity and allows us to simulate the behavior of complex globally distributed IP networks. The third was simulation of the distribution of gas impurities in ventilation networks. It was developed the computational mathematical model for the propagation of finely dispersed or gas impurities in ventilation networks using the gas dynamics equations by numerical linking of regions of different sizes. The calculations shown that the model with good accuracy allows to determine the distribution of gas-dynamic parameters in the pipeline network and solve the problems of dynamic ventilation management.

Keywords: partial differential equations, graphs, computational models, hyperbolic type equations, numerical simulation, boundary conditions.
Ильичев В.Г., Дашкевич Л.В.
Оптимальный промысел и эволюция путей миграции рыбных популяций
Компьютерные исследования и моделирование, 2019, т. 11, № 5, с. 879-893

Представлена новая дискретная эколого-эволюционная математическая модель, в которой реализованы механизмы поиска эволюционно устойчивых маршрутов миграции рыбных популяций. Предложенные адаптивные конструкции имеют малую размерность и поэтому обладают высоким быстродействием, что позволяет проводить компьютерные расчеты на длительный срок за приемлемое машинное время. При исследовании устойчивости использованы как геометрические подходы нелинейного анализа, так и компьютерные асимптотические методы. Динамика миграции рыбной популяции описывается некоторой марковской матрицей, которая может изменяться в процессе эволюции. В семействе марковских матриц (фиксированной размерности) выделены базисные матрицы, которые использованы для генерации маршрутов миграции мутантов. В результате конкуренции исходной популяции с мутантами выявляется перспективное направление эволюции пространственного поведения рыбы при заданном промысле и кормовой базе. Данная модель была применена к решению проблемы оптимального вылова на долгосрочную перспективу, при условии, что водоем разделен на две части, у каждой из которых свой собственник. При решении оптимизационных задач используется динамическое программирование, основанное на построении функции Беллмана. Обнаружена парадоксальная стратегия заманивания, когда один из участников промысла на своей акватории временно сокращает вылов. В этом случае мигрирующая рыба больше времени проводит в этом районе (при условии равной кормовой базы). Такой маршрут эволюционно закрепляется и не изменяется даже после возобновления промысла в этом районе. Второй участник промысла может восстановить статус-кво, применив заманивание на своей части акватории. Возникает бесконечная последовательность заманиваний — своеобразная игра в поддавки. Введено новое эффективное понятие — внутренняя цена рыбной популяции, зависящая от района водоема. По сути, эти цены представляют собой частные производные функции Беллмана и могут быть использованы в качестве налога на выловленную рыбу. В этом случае проблема многолетнего промысла сводится к решению задачи одногодичной оптимизации.

Ключевые слова: многолетний промысел, оптимизация, пространственная адаптация, стратегия заманивания, внутренние цены.

Il’ichev V.G., Dashkevich L.V.
Optimal fishing and evolution of fish migration routes
Computer Research and Modeling, 2019, v. 11, no. 5, pp. 879-893

A new discrete ecological-evolutionary mathematical model is presented, in which the search mechanisms for evolutionarily stable migration routes of fish populations are implemented. The proposed adaptive designs have a small dimension, and therefore have high speed. This allows carrying out calculations on long-term perspective for an acceptable machine time. Both geometric approaches of nonlinear analysis and computer “asymptotic” methods were used in the study of stability. The migration dynamics of the fish population is described by a certain Markov matrix, which can change during evolution. The “basis” matrices are selected in the family of Markov matrices (of fixed dimension), which are used to generate migration routes of mutant. A promising direction of the evolution of the spatial behavior of fish is revealed for a given fishery and food supply, as a result of competition of the initial population with mutants. This model was applied to solve the problem of optimal catch for the long term, provided that the reservoir is divided into two parts, each of which has its own owner. Dynamic programming is used, based on the construction of the Bellman function, when solving optimization problems. A paradoxical strategy of “luring” was discovered, when one of the participants in the fishery temporarily reduces the catch in its water area. In this case, the migrating fish spends more time in this area (on condition of equal food supply). This route is evolutionarily fixes and does not change even after the resumption of fishing in the area. The second participant in the fishery can restore the status quo by applying “luring” to its part of the water area. Endless sequence of “luring” arises as a kind of game “giveaway”. A new effective concept has been introduced — the internal price of the fish population, depending on the zone of the reservoir. In fact, these prices are Bellman's private derivatives, and can be used as a tax on caught fish. In this case, the problem of long-term fishing is reduced to solving the problem of one-year optimization.

Keywords: long-term fishing, optimization, spatial adaptation, strategy of luring, internal prices.
Терешко В.М.
Оптимальность для каждого индивидуума не гарантирует оптимальности всего сообщества: почему медоносные пчелы не анализируют танцы?
Компьютерные исследования и моделирование, 2025, т. 17, № 2, с. 261-275

Мы разработали модель кормодобывания колонии медоносных пчел на основе уравнений «реакция – диффузия». Работающие пчелы передают информацию о своих источниках пищи с помощью танца, а соискатели работы в улье могут выбрать любой понравившийся им танец и, таким образом, присоединиться к эксплуатации соответствующего источника. Мы рассматриваем две стратегии выбора танцев: целенаправленную, когда пчелы анализируют информацию на танцполе и выбирают самый энергичный и длительный танец, отвечающий самому прибыльному источнику, и просто случайный выбор первого попавшегося танца. Моделирование показало, что наибольшую прибыль (приток пищи в улей) обеспечивает именно случайный выбор танца, как бы это парадоксально на первый взгляд ни звучало. Оптимизация прибыли каждым агентом под себя (целенаправленный выбор танцев) является скорее недостатком для колонии, а «неоптимальность» в выборе танца может быть результатом полезной эволюционной адаптации.

Ключевые слова: колония медоносных пчел, кормодобывание, оптимальность.

Tereshko V.н.
Individual optimality does not guarantee community optimality: why don't honeybees analyze dances?
Computer Research and Modeling, 2025, v. 17, no. 2, pp. 261-275

We developed a model of honeybee colony foraging based on reaction – diffusion equations. Employed bees transmit information about their food sources using dance, and job seekers in the hive can choose any dance they like and thus join the exploitation of the corresponding source. We consider two strategies of dance selection: a targeted one, when bees analyze information on the dance floor and choose the most energetic and longest dance corresponding to the most profitable source, and a simple random choice of the first dance they encounter. Modelling showed that the greatest profit (food influx into the hive) is provided by the random choice of dance, as paradoxical as it may seem at first glance. Optimization of profit by each agent for itself (targeted choice of dances) is rather a disadvantage for the colony, and “non-optimality” in dance choice can be the result of useful evolutionary adaptation.

Keywords: honeybee colony, foraging, optimality.
Дидыч Я.О., Малинецкий Г.Г.
Анализ стратегий противников при игре в модифицированный «Морской бой»
Компьютерные исследования и моделирование, 2016, т. 8, № 5, с. 817-827

Врабо те рассматривается известная игра «Морской бой». Цель статьи — предложить модифицированную версию «Морского боя» и найти оптимальные стратегии действий игроков в новых правилах. Изменения коснулись как применяемых атакующих стратегий (добавлена новая возможность атаки, охватывающая четыре клетки за один выстрел), размера поля (использовались варианты игры для полей 10 × 10, 20 × 20, 30 × 30), так и правил расстановки кораблей в процессе боя (добавлена возможность перемещения корабля из зоны обстрела). Игра решалась с применением аппарата теории игр: составлены платежные матрицы для каждого варианта изменяемых правил, для них найдены оптимальные смешанные и чистые стратегии. При решении платежных матриц использовался итерационный метод. Симуляция состояла в применении пяти алгоритмов атаки и шести алгоритмов защиты с вариацией параметров при игре «каждого с каждым». Атакующие алгоритмы варьировались в разрезе 100 различных наборов значений, алгоритмы защиты — в разрезе 150 каждый. Важным результатом стало то, что в рамках этих ал- горитмов модифицированный «Морской бой» может быть решен, — то есть могут быть найдены устойчивые чистые или смешанные стратегии поведения, обеспечивающие сторонам оптимальный исход с точки зрения теории игр. Помимо этого, сделана оценка влияния изменений правил стандартного «Морского боя» на результат противостояния. Приведено сравнение с результатами, полученными авторами в предыдущей работе по данной тематике. На основе сопоставления полученных платежных матриц со статистическим анализом, проведенным ранее, отмечено, что стандартный «Морской бой» может быть представлен как частный случай рассмотренных в данной работе модификаций. Задача актуальна как с точки зрения ее применения в военном деле, так и в гражданских областях. Использование результатов статьи способно сохранить ресурсы при геологоразведке, обеспечить преимущество в военном противостоянии, сохранить детали, подвергающиеся разрушительному воздействию, и так далее.

Ключевые слова: морской бой, алгоритмы расстановки кораблей, алгоритмы атаки, теория игр, модификации морского боя, метод Монте-Карло.

Didych Y.O., Malinetsky G.G.
The analysis of player’s behaviour in modified “Sea battle” game
Computer Research and Modeling, 2016, v. 8, no. 5, pp. 817-827

The well-known “Sea battle” game is in the focus of the current job. The main goal of the article is to provide modified version of “Sea battle” game and to find optimal players’ strategies in the new rules. Changes were applied to attacking strategies (new option to attack hitting four cells in one shot was added) as well as to the size of the field (sizes of 10 × 10, 20 × 20, 30 × 30 were used) and to the rules of disposal algorithms during the game (new possibility to move the ship off the attacking zone). The game was solved with the use of game theory capabilities: payoff matrices were found for each version of altered rules, for which optimal pure and mixed strategies were discovered. For solving payoff matrices iterative method was used. The simulation was in applying five attacking algorithms and six disposal ones with parameters variation due to the game of players with each other. Attacking algorithms were varied in 100 sets of parameters, disposal algorithms — in 150 sets. Major result is that using such algorithms the modified “Sea battle” game can be solved — that implies the possibility of finding stable pure and mixed strategies of behaviour, which guarantee the sides gaining optimal results in game theory terms. Moreover, influence of modifying the rules of “Sea battle” game is estimated. Comparison with prior authors’ results on this topic was made. Based on matching the payoff matrices with the statistical analysis, completed earlier, it was found out that standard “Sea battle” game could be represented as a special case of game modifications, observed in this article. The job is important not only because of its applications in war area, but in civil areas as well. Use of article’s results could save resources in exploration, provide an advantage in war conflicts, defend devices under devastating impact.

Keywords: sea battle game, deploying ships algorithms, attacking algorithms, game theory, sea battle game modifications, Monte-Carlo method.
Views (last year): 18.
Малыгина Н.В., Сурков П.Г.
О моделировании преодоления водной преграды Rangifer tarandus L
Компьютерные исследования и моделирование, 2019, т. 11, № 5, с. 895-910

Видоспецифическими поведенческими признаками дикого северного оленя Rangifer tarandus L. традиционно признаны сезонные миграции и стадный инстинкт. В период миграций эти животные вынуждены преодолевать водные преграды. Особенности поведения рассматриваются как результат процесса селекции, когда среди множества стратегий выбрана единственно эволюционно-стабильная, определяющая репродукцию и биологическую выживаемость дикого северного оленя как вида. Ввиду эскалации промышленного освоения Арктики в настоящее время естественные процессы в популяциях диких северных оленей таймырской популяции происходят на фоне увеличения влияния негативных факторов, поэтому естественно возникла необходимость выявления этологических особенностей этих животных. В настоящей работе представлены результаты применения классических методов теории оптимального управления и дифференциальных игр к исследованию миграционных этограмм диких северных оленей при преодолении водных преград, в том числе крупных рек. На основе этологических особенностей этих животных и форм поведения стадо представляется в качестве управляемой динамической системы. Также оно делится на два класса особей: вожак и остальное стадо, для которых строятся свои модели, описывающие траектории их движения. В основу моделей закладываются гипотезы, представляющие собой математическую формализацию некоторых схем поведения животных. Данный подход позволил найти траекторию важенки с использованием методов теории оптимального управления, а при построении траекторий остальных особей — применить принцип управления с поводырем. Апробация полученных результатов, которые могут быть использованы в формировании общей «платформы» для систематического построения моделей адаптивного поведения и в качестве задела для фундаментальных разработок моделей когнитивной эволюции, проводится численно на модельном примере, использующем данные наблюдений на реке Верхняя Таймыра.

Ключевые слова: дикий северный олень, миграции, математическое моделирование, динамическая система, управление.

Malygina N.V., Surkov P.G.
On the modeling of water obstacles overcoming by Rangifer tarandus L
Computer Research and Modeling, 2019, v. 11, no. 5, pp. 895-910

Seasonal migrations and herd instinct are traditionally recognized as wild reindeer (Rangifer tarandus L.) species-specific behavioral signs. These animals are forced to overcome water obstacles during the migrations. Behaviour peculiarities are considered as the result of the selection process, which has chosen among the sets of strategies, as the only evolutionarily stable one, determining the reproduction and biological survival of wild reindeer as a species. Natural processes in the Taimyr population wild reindeer are currently occurring against the background of an increase in the influence of negative factors due to the escalation of the industrial development of the Arctic. That is why the need to identify the ethological features of these animals completely arose. This paper presents the results of applying the classical methods of the theory of optimal control and differential games to the wild reindeer study of the migration patterns in overcoming water barriers, including major rivers. Based on these animals’ ethological features and behavior forms, the herd is presented as a controlled dynamic system, which presents also two classes of individuals: the leader and the rest of the herd, for which their models, describing the trajectories of their movement, are constructed. The models are based on hypotheses, which are the mathematical formalization of some animal behavior patterns. This approach made it possible to find the trajectory of the important one using the methods of the optimal control theory, and in constructing the trajectories of other individuals, apply the principle of control with a guide. Approbation of the obtained results, which can be used in the formation of a common “platform” for the adaptive behavior models systematic construction and as a reserve for the cognitive evolution models fundamental development, is numerically carried out using a model example with observational data on the Werchnyaya Taimyra River.

Keywords: wild reindeer, migration, mathematical modeling, dynamical system, control.
Степин Ю.П., Леонов Д.Г., Папилина Т.М., Степанкина О.А.
Системное моделирование, оценка и оптимизация рисков функционирования распределенных компьютерных систем
Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1349-1359

В статье рассматривается проблема надежности эксплуатации открытой интеграционной платформы, обеспечивающей взаимодействие различных программных комплексов моделирования режимов транспорта газа, с учетом предоставления доступа к ним, в том числе через тонких клиентов, по принципу «программное обеспечение как услуга». Математически описаны функционирование, надежность хранения, передачи информации и реализуемость вычислительного процесса системы, что является необходимым для обеспечения работы автоматизированной системы диспетчерского управления транспортом нефти и газа. Представлено системное решение вопросов моделирования работы интеграционной платформы и тонких клиентов в условиях неопределенности и риска на базе метода динамики средних теории марковских случайных процессов. Рассматривается стадия стабильной работы — стационарный режим работы цепи Маркова с непрерывным временем и дискретными состояниями, которая описывается системами линейных алгебраический уравнений Колмогорова–Чепмена, записанных относительно средних численностей (математических ожиданий) состояний объектов исследования. Объектами исследования являются как элементы системы, присутствующие в большом количестве (тонкие клиенты и вычислительные модули), так и единичные (сервер, сетевой менеджер (брокер сообщений), менеджер технологических схем). В совокупности они представляют собой взаимодействующие Марковские случайные процессы, взаимодействие которых определяется тем, что интенсивности переходов в одной группе элементов зависят от средних численностей других групп элементов.

Через средние численности состояний объектов и интенсивностей их переходов из состояния в состояние предлагается многокритериальная дисперсионная модель оценки риска (как в широком, так и узком смысле, в соответствии со стандартом МЭК). Риск реализации каждого состояния параметров системы вычисляется как среднеквадратическое отклонение оцениваемого параметра системы объектов (в данном случае — средние численности и вероятности состояний элементов открытой интеграционной платформы и облака) от их среднего значения. На основании определенной дисперсионной модели риска функционирования элементов системы вводятся модели критериев оптимальности и рисков функционирования системы в целом. В частности, для тонкого клиента рассчитываются риск недополучения выгоды от подготовки и обработки запроса, суммарный риск потерь, связанный только с непроизводительными состояниями элемента, суммарный риск всех потерь от всех состояний системы. Для полученной многокритериальной задачи оценки рисков предлагаются модели (схемы компромисса) выбора оптимальной стратегии эксплуатации.

Ключевые слова: многокритериальная оценка, риск, стратегия эксплуатации, динамика средних, стационарный режим цепи Маркова, облачные технологии, открытая интеграционная платформа.

Stepin Y.P., Leonov D.G., Papilina T.M., Stepankina O.A.
System modeling, risks evaluation and optimization of a distributed computer system
Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1349-1359

The article deals with the problem of a distributed system operation reliability. The system core is an open integration platform that provides interaction of varied software for modeling gas transportation. Some of them provide an access through thin clients on the cloud technology “software as a service”. Mathematical models of operation, transmission and computing are to ensure the operation of an automated dispatching system for oil and gas transportation. The paper presents a system solution based on the theory of Markov random processes and considers the stable operation stage. The stationary operation mode of the Markov chain with continuous time and discrete states is described by a system of Chapman–Kolmogorov equations with respect to the average numbers (mathematical expectations) of the objects in certain states. The objects of research are both system elements that are present in a large number – thin clients and computing modules, and individual ones – a server, a network manager (message broker). Together, they are interacting Markov random processes. The interaction is determined by the fact that the transition probabilities in one group of elements depend on the average numbers of other elements groups.

The authors propose a multi-criteria dispersion model of risk assessment for such systems (both in the broad and narrow sense, in accordance with the IEC standard). The risk is the standard deviation of estimated object parameter from its average value. The dispersion risk model makes possible to define optimality criteria and whole system functioning risks. In particular, for a thin client, the following is calculated: the loss profit risk, the total risk of losses due to non-productive element states, and the total risk of all system states losses.

Finally the paper proposes compromise schemes for solving the multi-criteria problem of choosing the optimal operation strategy based on the selected set of compromise criteria.

Keywords: multicriteria assessment, risk, exploitation strategy, medium dynamics, Markov chain stationary mode, cloud technology, open integration platform.
Руденко В.Д., Юдин Н.Е., Васин А.А.
Обзор выпуклой оптимизации марковских процессов принятия решений
Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 329-353

В данной статье проведен обзор как исторических достижений, так и современных результатов в области марковских процессов принятия решений (Markov Decision Process, MDP) и выпуклой оптимизации. Данный обзор является первой попыткой освещения на русском языке области обучения с подкреплением в контексте выпуклой оптимизации. Рассматриваются фундаментальное уравнение Беллмана и построенные на его основе критерии оптимальности политики — стратегии, принимающие решение по известному состоянию среды на данный момент. Также рассмотрены основные итеративные алгоритмы оптимизации политики, построенные на решении уравнений Беллмана. Важным разделом данной статьи стало рассмотрение альтернативы к подходу $Q$-обучения — метода прямой максимизации средней награды агента для избранной стратегии от взаимодействия со средой. Таким образом, решение данной задачи выпуклой оптимизации представимо в виде задачи линейного программирования. В работе демонстрируется, как аппарат выпуклой оптимизации применяется для решения задачи обучения с подкреплением (Reinforcement Learning, RL). В частности, показано, как понятие сильной двойственности позволяет естественно модифицировать постановку задачи RL, показывая эквивалентность между максимизацией награды агента и поиском его оптимальной стратегии. В работе также рассматривается вопрос сложности оптимизации MDP относительно количества троек «состояние–действие–награда», получаемых в результате взаимодействия со средой. Представлены оптимальные границы сложности решения MDP в случае эргодического процесса с бесконечным горизонтом, а также в случае нестационарного процесса с конечным горизонтом, который можно перезапускать несколько раз подряд или сразу запускать параллельно в нескольких потоках. Также в обзоре рассмотрены последние результаты по уменьшению зазора нижней и верхней оценки сложности оптимизации MDP с усредненным вознаграждением (Averaged MDP, AMDP). В заключение рассматриваются вещественнозначная параметризация политики агента и класс градиентных методов оптимизации через максимизацию $Q$-функции ценности. В частности, представлен специальный класс MDP с ограничениями на ценность политики (Constrained Markov Decision Process, CMDP), для которых предложен общий прямодвойственный подход к оптимизации, обладающий сильной двойственностью.

Ключевые слова: MDP, выпуклая оптимизация, $Q$-обучение, линейное программирование, методы градиента политики.

Rudenko V.D., Yudin N.E., Vasin A.A.
Survey of convex optimization of Markov decision processes
Computer Research and Modeling, 2023, v. 15, no. 2, pp. 329-353

This article reviews both historical achievements and modern results in the field of Markov Decision Process (MDP) and convex optimization. This review is the first attempt to cover the field of reinforcement learning in Russian in the context of convex optimization. The fundamental Bellman equation and the criteria of optimality of policy — strategies based on it, which make decisions based on the known state of the environment at the moment, are considered. The main iterative algorithms of policy optimization based on the solution of the Bellman equations are also considered. An important section of this article was the consideration of an alternative to the $Q$-learning approach — the method of direct maximization of the agent’s average reward for the chosen strategy from interaction with the environment. Thus, the solution of this convex optimization problem can be represented as a linear programming problem. The paper demonstrates how the convex optimization apparatus is used to solve the problem of Reinforcement Learning (RL). In particular, it is shown how the concept of strong duality allows us to naturally modify the formulation of the RL problem, showing the equivalence between maximizing the agent’s reward and finding his optimal strategy. The paper also discusses the complexity of MDP optimization with respect to the number of state–action–reward triples obtained as a result of interaction with the environment. The optimal limits of the MDP solution complexity are presented in the case of an ergodic process with an infinite horizon, as well as in the case of a non-stationary process with a finite horizon, which can be restarted several times in a row or immediately run in parallel in several threads. The review also reviews the latest results on reducing the gap between the lower and upper estimates of the complexity of MDP optimization with average remuneration (Averaged MDP, AMDP). In conclusion, the real-valued parametrization of agent policy and a class of gradient optimization methods through maximizing the $Q$-function of value are considered. In particular, a special class of MDPs with restrictions on the value of policy (Constrained Markov Decision Process, CMDP) is presented, for which a general direct-dual approach to optimization with strong duality is proposed.

Keywords: MDP, convex optimization, $Q$-learning, linear programming, policy gradient methods.

Pages: previous next last »

Indexed in Scopus

Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU

The journal is included in the Russian Science Citation Index

The journal is included in the RSCI

International Interdisciplinary Conference "Mathematics. Computing. Education"