All issues
- 2025 Vol. 17
- 2024 Vol. 16
- 2023 Vol. 15
- 2022 Vol. 14
- 2021 Vol. 13
- 2020 Vol. 12
- 2019 Vol. 11
- 2018 Vol. 10
- 2017 Vol. 9
- 2016 Vol. 8
- 2015 Vol. 7
- 2014 Vol. 6
- 2013 Vol. 5
- 2012 Vol. 4
- 2011 Vol. 3
- 2010 Vol. 2
- 2009 Vol. 1
-
Модель формирования первичных поведенческих паттернов с адаптивным поведением на основе использования комбинации случайного поиска и опыта
Компьютерные исследования и моделирование, 2016, т. 8, № 6, с. 941-950В работе предложен адаптивный алгоритм, моделирующий процесс формирования начальных поведенческих навыков на примере системы «глаза–манипулятор» анимата. Ситуация формирования начальных поведенческих навыков возникает, например, когда ребенок осваивает управление своими руками на основе понимания связи между исходно неидентифицированными пятнами на сетчатке своих глаз и положением реального предмета. Поскольку навыки управления телом не «вшиты» исходно в головной и спинной мозг на уровне инстинктов, то человеческому ребенку, как и большинству детенышей других млекопитающих, приходится осваивать эти навыки в режиме поискового поведения. Поисковое поведение начинается с метода проб и ошибок в чистом виде, затем его вклад постепенно уменьшается по мере освоения своего тела и окружающей среды. Поскольку образцов правильного поведения на этом этапе развития организм не имеет, то единственным способом выделения правильных навыков является положительное подкрепление при достижении цели. Ключевой особенностью предлагаемого алгоритма является фиксация в режиме импринтинга только завершающих действий, которые привели к успеху, или, что очень важно, привели к уже знакомой запечатленной ситуации, однозначно приводящей к успеху. Со временем непрерывная цепочка правильных действий удлиняется — максимально используется предыдущий позитивный опыт, а негативный «забывается» и не используется. Тем самым наблюдается постепенная замена случайного поиска целенаправленными действиями, что наблюдается и у реальных детенышей.
Тем самым алгоритм способен устанавливать соответствие между закономерностями окружающего мира и «внутренними ощущениями», внутренним состоянием самого анимата. В предлагаемой модели анимата использовалось 2 типа нейросетей: 1) нейросеть NET1, на вход которой подавались текущие положения кисти руки и целевой точки, а на выходе — двигательные команды, направляющие «кисть» манипулятора анимата к целевой точке; 2) нейросеть NET2, которая на входе получала координаты цели и текущей координаты «кисти», а на выходе формировала значение вероятности того, что анимату уже «знакома» эта ситуация и он «знает», как на нее реагировать. Благодаря такой архитектуре у анимата есть возможность опираться на «опыт» нейросети в распознанных ситуациях, когда отклик от сети NET2 близок к 1, и, с другой стороны, запускать случайный поиск, когда опыта функционирования в этой области зрительного поля у анимата нет (отклик NET2 близок к 0).
Model of formation of primary behavioral patterns with adaptive behavior based on the combination of random search and experience
Computer Research and Modeling, 2016, v. 8, no. 6, pp. 941-950Views (last year): 6. Citations: 2 (RSCI).In this paper, we propose an adaptive algorithm that simulates the process of forming the initial behavioral skills on the example of the system ‘eye-arm’ animat. The situation is the formation of the initial behavioral skills occurs, for example, when a child masters the management of their hands by understanding the relationship between baseline unidentified spots on the retina of his eye and the position of the real object. Since the body control skills are not ‘hardcoded’ initially in the brain and the spinal cord at the level of instincts, the human child, like most young of other mammals, it is necessary to develop these skills in search behavior mode. Exploratory behavior begins with trial and error and then its contribution is gradually reduced as the development of the body and its environment. Since the correct behavior patterns at this stage of development of the organism does not exist for now, then the only way to select the right skills is a positive reinforcement to achieve the objective. A key feature of the proposed algorithm is to fix in the imprinting mode, only the final action that led to success, and that is very important, led to the familiar imprinted situation clearly leads to success. Over time, the continuous chain is lengthened right action — maximum use of previous positive experiences and negative ‘forgotten’ and not used.
Thus there is the gradual replacement of the random search purposeful actions that observed in the real young. Thus, the algorithm is able to establish a correspondence between the laws of the world and the ‘inner feelings’, the internal state of the animat. The proposed animat model was used 2 types of neural networks: 1) neural network NET1 to the input current which is fed to the position of the brush arms and the target point, and the output of motor commands, directing ‘brush’ manipulator animat to the target point; 2) neural network NET2 is received at the input of target coordinates and the current coordinates of the ‘brush’ and the output value is formed likelihood that the animat already ‘know’ this situation, and he ‘knows’ how to react to it. With this architecture at the animat has to rely on the ‘experience’ of neural networks to recognize situations where the response from NET2 network of close to 1, and on the other hand, run a random search, when the experience of functioning in this area of the visual field in animat not (response NET2 close to 0).
-
Численное моделирование горения этилена в сверхзвуковом потоке воздуха
Компьютерные исследования и моделирование, 2017, т. 9, № 1, с. 75-86В представленной работе обсуждается возможность упрощенного трехмерного нестационарного моделирования процесса плазменно-стимулированного горения газообразного топлива в сверхзвуковом потоке воздуха. Расчеты проводились в программном комплексе FlowVision. В работе выполнен анализ геометрии эксперимента и сделан вывод о ее существенной трехмерности, связанной как с дискретностью подачи топлива в поток, так и с наличием локализованных плазменных образований. Предложен вариант упрощения расчетной геометрии, основанный на симметрии аэродинамического канала и периодичности пространственных неоднородностей. Выполнено тестирование модифицированной $k–\varepsilon$ модели турбулентности FlowVision (KEFV) в условиях сверхзвукового потока. В этих расчетах в области источников тепла и инжекции топлива использовалась подробная сетка без пристеночных функций, а на удаленных от ключевой области поверхностях пристеночные функции были включены. Это позволило существенно уменьшить количество ячеек расчетной сетки. Сложная задача моделирования воспламенения углеводородного топлива при воздействии плазмы была существенно упрощена путем представления плазменных образований как источников тепла и использования одной брутто-реакции для описания горения топлива. На базе геометрии аэродинамического стенда ИАДТ-50 ОИВТ РАН с помощью моделирования в программном комплексе ПК FlowVision проведены калибровка и параметрическая оптимизация подачи газообразного топлива в сверхзвуковой поток. Продемонстрировано хорошее совпадение экспериментальной и синтетической теневой картины потока при инжекции топлива. Проведено моделирование потока для геометрии камеры сгорания Т131 ЦАГИ с инжекцией топлива и генерацией плазмы. В результате моделирования для заданного набора параметров продемонстрировано воспламенение топлива, что совпало с результатами эксперимента. Отмечена важность адаптации расчетной сетки с повышением пространственного разрешения в области объемных источников тепла, моделирующих зону электрического разряда. Достигнуто удовлетворительное качественное совпадение распределений давления, полученных в моделировании и эксперименте.
Ключевые слова: горение в сверхзвуковом потоке, компьютерное моделирование, разряд постоянного тока, плазменно-стимулированное горение.
Numerical simulation of ethylene combustion in supersonic air flow
Computer Research and Modeling, 2017, v. 9, no. 1, pp. 75-86Views (last year): 8. Citations: 3 (RSCI).In the present paper, we discuss the possibility of a simplified three-dimensional unsteady simulation of plasma-assisted combustion of gaseous fuel in a supersonic airflow. Simulation was performed by using FlowVision CFD software. Analysis of experimental geometry show that it has essentially 3D nature that conditioned by the discrete fuel injection into the flow as well as by the presence of the localized plasma filaments. Study proposes a variant of modeling geometry simplification based on symmetry of the aerodynamic duct and periodicity of the spatial inhomogeneities. Testing of modified FlowVision $k–\varepsilon$ turbulence model named «KEFV» was performed for supersonic flow conditions. Based on that detailed grid without wall functions was used the field of heat and near fuel injection area and surfaces remote from the key area was modeled with using of wall functions, that allowed us to significantly reduce the number of cells of the computational grid. Two steps significantly simplified a complex problem of the hydrocarbon fuel ignition by means of plasma generation. First, plasma formations were simulated by volumetric heat sources and secondly, fuel combustion is reduced to one brutto reaction. Calibration and parametric optimization of the fuel injection into the supersonic flow for IADT-50 JIHT RAS wind tunnel is made by means of simulation using FlowVision CFD software. Study demonstrates a rather good agreement between the experimental schlieren photo of the flow with fuel injection and synthetical one. Modeling of the flow with fuel injection and plasma generation for the facility T131 TSAGI combustion chamber geometry demonstrates a combustion mode for the set of experimental parameters. Study emphasizes the importance of the computational mesh adaptation and spatial resolution increasing for the volumetric heat sources that model electric discharge area. A reasonable qualitative agreement between experimental pressure distribution and modeling one confirms the possibility of limited application of such simplified modeling for the combustion in high-speed flow.
-
Синхронные компоненты финансовых временных рядов
Компьютерные исследования и моделирование, 2017, т. 9, № 4, с. 639-655В статье предлагается метод совместного анализа многомерных финансовых временных рядов, основанный на оценке набора свойств котировок акций в скользящем временном окне и последующем усреднении значений свойств по всем анализируемым компаниям. Основной целью анализа является построение мер совместного поведения временных рядов, реагирующих на возникновение синхронной или когерентной составляющей. Когерентность поведения характеристик сложной системы является важным признаком, позволяющим оценить приближение системы к резким изменениям своего состояния. Фундаментом для поиска предвестников резких изменений является общая идея увеличения корреляции случайных флуктуаций параметров системы по мере ее приближения к критическому состоянию. Приращения временных рядов стоимостей акций имеют выраженный хаотический характер и обладают большой амплитудой индивидуальных помех, на фоне которых слабый общий сигнал может быть выделен лишь на основе его коррелированности в разных скалярных компонентах многомерного временного ряда. Известно, что классические методы анализа, основанные на использовании корреляций между соседними отсчетами, являются малоэффективными при обработке финансовых временных рядов, поскольку с точки зрения корреляционной теории случайных процессов приращения стоимости акций формально имеют все признаки белого шума (в частности, «плоский спектр» и «дельта-образную» автокорреляционную функцию). В связи с этим предлагается перейти от анализа исходных сигналов к рассмотрению последовательностей их нелинейных свойств, вычисленных во временных фрагментах малой длины. В качестве таких свойств используются энтропия вейвлет-коэффициентов при разложении в базис Добеши, показатели мультифрактальности и авторегрессионная мера нестационарности сигнала. Построены меры син- хронного поведения свойств временных рядов в скользящем временном окне с использованием метода главных компонент, значений модулей всех попарных коэффициентов корреляции и множественной спектральной меры когерентности, являющейся обобщением квадратичного спектра когерентности между двумя сигналами. Исследованы акции 16 крупных российских компаний с начала 2010 по конец 2016 годов. С помощью предложенного метода идентифицированы два интервала времени синхронизации российского фондового рынка: с середины декабря 2013 г. по середину марта 2014 г. и с середины октября 2014 г. по середину января 2016 г.
Ключевые слова: финансовые временные ряды, вейвлеты, энтропия, мульти-фракталы, предсказуемость, синхронизация.
Synchronous components of financial time series
Computer Research and Modeling, 2017, v. 9, no. 4, pp. 639-655The article proposes a method of joint analysis of multidimensional financial time series based on the evaluation of the set of properties of stock quotes in a sliding time window and the subsequent averaging of property values for all analyzed companies. The main purpose of the analysis is to construct measures of joint behavior of time series reacting to the occurrence of a synchronous or coherent component. The coherence of the behavior of the characteristics of a complex system is an important feature that makes it possible to evaluate the approach of the system to sharp changes in its state. The basis for the search for precursors of sharp changes is the general idea of increasing the correlation of random fluctuations of the system parameters as it approaches the critical state. The increments in time series of stock values have a pronounced chaotic character and have a large amplitude of individual noises, against which a weak common signal can be detected only on the basis of its correlation in different scalar components of a multidimensional time series. It is known that classical methods of analysis based on the use of correlations between neighboring samples are ineffective in the processing of financial time series, since from the point of view of the correlation theory of random processes, increments in the value of shares formally have all the attributes of white noise (in particular, the “flat spectrum” and “delta-shaped” autocorrelation function). In connection with this, it is proposed to go from analyzing the initial signals to examining the sequences of their nonlinear properties calculated in time fragments of small length. As such properties, the entropy of the wavelet coefficients is used in the decomposition into the Daubechies basis, the multifractal parameters and the autoregressive measure of signal nonstationarity. Measures of synchronous behavior of time series properties in a sliding time window are constructed using the principal component method, moduli values of all pairwise correlation coefficients, and a multiple spectral coherence measure that is a generalization of the quadratic coherence spectrum between two signals. The shares of 16 large Russian companies from the beginning of 2010 to the end of 2016 were studied. Using the proposed method, two synchronization time intervals of the Russian stock market were identified: from mid-December 2013 to mid- March 2014 and from mid-October 2014 to mid-January 2016.
Keywords: financial time series, wavelets, entropy, multi-fractals, predictability, synchronization.Views (last year): 12. Citations: 2 (RSCI). -
Репрессилятор с запаздывающей экспрессией генов. Часть I. Детерминистское описание
Компьютерные исследования и моделирование, 2018, т. 10, № 2, с. 241-259Репрессилятором называют первую в синтетической биологии генную регуляторную сеть, искусственно сконструированную в 2000 году. Он представляет собой замкнутую цепь из трех генетических элементов — $lacI$, $\lambda cI$ и $tetR$, — которые имеют естественное происхождение, но в такой комбинации в природе не встречаются. Промотор каждого гена контролирует следующий за ним цистрон по принципу отрицательной обратной связи, подавляя экспрессию соседнего гена. В данной работе впервые рассматривается нелинейная динамика модифицированного репрессилятора, у которого имеются запаздывания по времени во всех звеньях регуляторной цепи. Запаздывание может быть как естественным, т. е. возникать во время транскрипции/трансляции генов в силу многоступенчатого характера этих процессов, так и искусственным, т. е. специально вноситься в работу регуляторной сети с помощью методов синтетической биологии. Предполагается, что регуляция осуществляется протеинами в димерной форме. Рассмотренный репрессилятор имеет еще две важные модификации: расположение на той же плазмиде гена $gfp$, кодирующего флуоресцентный белок, а также наличие в системе накопителя для белка, кодируемого геном $tetR$. В рамках детерминистского описания методом разложения на быстрые и медленные движения получена система нелинейных дифференциальных уравнений с запаздыванием на медленном многообразии. Показано, что при определенных значениях управляющих параметров единственное состояние равновесия теряет устойчивость колебательным образом. Для симметричного репрессилятора, у которого все три гена идентичны, получено аналитическое решение для нейтральной кривой бифуркации Андронова–Хопфа. Для общего случая асимметричного репрессилятора нейтральные кривые построены численно. Показано, что асимметричный репрессилятор является более устойчивым, так как система ориентируется на поведение наиболее стабильного элемента в цепи. Изучены нелинейные динамические режимы, возникающие в репрессиляторе при увеличении надкритических значений управляющих параметров. Кроме предельного цикла, отвечающего поочередным релаксационным пульсациям белковых концентраций элементов, в системе обнаружено существование медленного многообразия, не связанного с этим циклом. Долгоживущий переходный режим, который отвечает многообразию, отражает процесс длительной синхронизации пульсаций в работе отдельных генов. Производится сравнение полученных результатов с известными из литературы экспериментальными данными. Обсуждается место предложенной в работе модели среди других теоретических моделей репрессилятора.
Repressilator with time-delayed gene expression. Part I. Deterministic description
Computer Research and Modeling, 2018, v. 10, no. 2, pp. 241-259Views (last year): 30.The repressor is the first genetic regulatory network in synthetic biology, which was artificially constructed in 2000. It is a closed network of three genetic elements — $lacI$, $\lambda cI$ and $tetR$, — which have a natural origin, but are not found in nature in such a combination. The promoter of each of the three genes controls the next cistron via the negative feedback, suppressing the expression of the neighboring gene. In this paper, the nonlinear dynamics of a modified repressilator, which has time delays in all parts of the regulatory network, has been studied for the first time. Delay can be both natural, i.e. arises during the transcription/translation of genes due to the multistage nature of these processes, and artificial, i.e. specially to be introduced into the work of the regulatory network using synthetic biology technologies. It is assumed that the regulation is carried out by proteins being in a dimeric form. The considered repressilator has two more important modifications: the location on the same plasmid of the gene $gfp$, which codes for the fluorescent protein, and also the presence in the system of a DNA sponge. In the paper, the nonlinear dynamics has been considered within the framework of the deterministic description. By applying the method of decomposition into fast and slow motions, the set of nonlinear differential equations with delay on a slow manifold has been obtained. It is shown that there exists a single equilibrium state which loses its stability in an oscillatory manner at certain values of the control parameters. For a symmetric repressilator, in which all three genes are identical, an analytical solution for the neutral Andronov–Hopf bifurcation curve has been obtained. For the general case of an asymmetric repressilator, neutral curves are found numerically. It is shown that the asymmetric repressor generally is more stable, since the system is oriented to the behavior of the most stable element in the network. Nonlinear dynamic regimes arising in a repressilator with increase of the parameters are studied in detail. It was found that there exists a limit cycle corresponding to relaxation oscillations of protein concentrations. In addition to the limit cycle, we found the slow manifold not associated with above cycle. This is the long-lived transitional regime, which reflects the process of long-term synchronization of pulsations in the work of individual genes. The obtained results are compared with the experimental data known from the literature. The place of the model proposed in the present work among other theoretical models of the repressilator is discussed.
-
Решение задачи оптимального управления процессом метаногенеза на основе принципа максимума Понтрягина
Компьютерные исследования и моделирование, 2020, т. 12, № 2, с. 357-367В работе представлена математическая модель, описывающая процесс получения биогаза из отходов животноводства. Данная модель описывает процессы, протекающие в биогазовой установке для мезофильной и термофильной сред, а также для непрерывного и периодического режимов поступления субстрата. Приведены найденные ранее для периодического режима значения коэффициентов этой модели, полученные путем решения задачи идентификации модели по экспериментальным данным с использованием генетического алгоритма.
Для модели метаногенеза сформулирована задача оптимального управления в форме задачи Лагранжа, критериальный функционал которой представляет собой выход биогаза за определенный промежуток времени. Управляющим параметром задачи служит скорость поступления субстрата в биогазовую установку. Предложен алгоритм решения данной задачи, основанный на численной реализации принципа максимума Понтрягина. При этом в качестве метода оптимизации применялся гибридный генетический алгоритм с дополнительным поиском в окрестности лучшего решения методом сопряженных градиентов. Данный численный метод решения задачи оптимального управления является универсальным и применим к широкому классу математических моделей.
В ходе исследования проанализированы различные режимы подачи субстрата в метантенк, температурные среды и виды сырья. Показано, что скорость образования биогаза при непрерывном режиме подачи сырья в 1.4–1.9 раза выше в мезофильной среде (в 1.9–3.2 — в термофильной среде), чем при периодическом режиме за период полной ферментации, что связано с большей скоростью подачи субстрата и большей концентрацией питательных веществ в субстрате. Однако выход биогаза за период полной ферментации при периодическом режиме вдвое выше выхода за период полной смены субстрата в метантенке при непрерывном режиме, что означает неполную переработку субстрата во втором случае. Скорость образования биогаза для термофильной среды при непрерывном режиме и оптимальной скорости подачи сырья втрое выше, чем для мезофильной среды. Сравнение выхода биогаза для различных типов сырья показывает, что наибольший выход биогаза наблюдается для отходов птицефабрик, наименьший — для отходов ферм КРС, что связано с содержанием питательных веществ в единице субстрата каждого вида.
Ключевые слова: метаногенез, биогаз, математическая модель, система дифференциальных уравнений, оптимальное управление, принцип максимума Понтрягина.
Solution of the problem of optimal control of the process of methanogenesis based on the Pontryagin maximum principle
Computer Research and Modeling, 2020, v. 12, no. 2, pp. 357-367The paper presents a mathematical model that describes the process of obtaining biogas from livestock waste. This model describes the processes occurring in a biogas plant for mesophilic and thermophilic media, as well as for continuous and periodic modes of substrate inflow. The values of the coefficients of this model found earlier for the periodic mode, obtained by solving the problem of model identification from experimental data using a genetic algorithm, are given.
For the model of methanogenesis, an optimal control problem is formulated in the form of a Lagrange problem, whose criterial functionality is the output of biogas over a certain period of time. The controlling parameter of the task is the rate of substrate entry into the biogas plant. An algorithm for solving this problem is proposed, based on the numerical implementation of the Pontryagin maximum principle. In this case, a hybrid genetic algorithm with an additional search in the vicinity of the best solution using the method of conjugate gradients was used as an optimization method. This numerical method for solving an optimal control problem is universal and applicable to a wide class of mathematical models.
In the course of the study, various modes of submission of the substrate to the digesters, temperature environments and types of raw materials were analyzed. It is shown that the rate of biogas production in the continuous feed mode is 1.4–1.9 times higher in the mesophilic medium (1.9–3.2 in the thermophilic medium) than in the periodic mode over the period of complete fermentation, which is associated with a higher feed rate of the substrate and a greater concentration of nutrients in the substrate. However, the yield of biogas during the period of complete fermentation with a periodic mode is twice as high as the output over the period of a complete change of the substrate in the methane tank at a continuous mode, which means incomplete processing of the substrate in the second case. The rate of biogas formation for a thermophilic medium in continuous mode and the optimal rate of supply of raw materials is three times higher than for a mesophilic medium. Comparison of biogas output for various types of raw materials shows that the highest biogas output is observed for waste poultry farms, the least — for cattle farms waste, which is associated with the nutrient content in a unit of substrate of each type.
-
Молекулярно-динамическое исследование комплексов ДНК-аптамера с АМФ и ГМФ
Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1191-1203В данной работе при помощи метода молекулярной динамики проводится сравнительное исследование конформационной стабильности ДНК-аптамера к аденозиновым производным в свободном состоянии и в комплексе с молекулами АМФ и ГМФ. Показано, что в свободном состоянии структура внутренней петли шпильки ДНК-аптамера за счет особой упаковки гуанинов закрывает полость сайта связывания от внешних лигандов, при этомв озникает условие специфичного отбора молекул аденозинового производного в сравнении с гуанином. В дополнение к имеющимся в литературе выявлены новые факторы стабилизации комплекса АМФ и аптамера — водородные связи между О3’ атома рибозы лигандов с кислородом ближайшей фосфатной группы. Также показано, что гуанины, которые образуют водородные связи с АМФ внутри сайта связывания, дополнительно стабилизируются водородными связями с противолежащими по цепи фосфатными группами. Предложенная схема качественно соответствует экспериментальным данным, согласно которым аптамер в растворе обретает конформацию шпильки с формированием сайта связывания, при этом образованный сайт проявляет высокую специфичность при взаимодействии только с аденозиновыми производными.
Molecular dynamics study of complexes of a DNA aptamer with AMP and GMP
Computer Research and Modeling, 2021, v. 13, no. 6, pp. 1191-1203This study is devoted to a comparative study of the conformational stability of the DNA aptamer to adenosine derivatives in a free state and in a complex with AMP and HMP molecules by use of molecular dynamics. It was shown that, in the free state, the structure of the inner loop of the DNA aptamer hairpin, due to the special packing of guanines, closes the cavity of the binding site from external ligands, and the condition for the specific selection of adenosine derivatives in comparison with guanine arises. New stabilization factors of the AMP and aptamer complex have been revealed — hydrogen bonds between the O3’ of the ribose atom of the ligands with the oxygen of the nearest phosphate group. It was also shown that guanines, which form hydrogen bonds with AMP within the binding site, are additionally stabilized by hydrogen bonds with phosphate groups opposing along the chain. The proposed scheme is in qualitative agreement with the experimental data, according to which the aptamer in solution acquires a hairpin conformation with the formation of a binding site, while the formed site exhibits high specificity when interacting only with adenosine derivatives.
-
Обзор выпуклой оптимизации марковских процессов принятия решений
Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 329-353В данной статье проведен обзор как исторических достижений, так и современных результатов в области марковских процессов принятия решений (Markov Decision Process, MDP) и выпуклой оптимизации. Данный обзор является первой попыткой освещения на русском языке области обучения с подкреплением в контексте выпуклой оптимизации. Рассматриваются фундаментальное уравнение Беллмана и построенные на его основе критерии оптимальности политики — стратегии, принимающие решение по известному состоянию среды на данный момент. Также рассмотрены основные итеративные алгоритмы оптимизации политики, построенные на решении уравнений Беллмана. Важным разделом данной статьи стало рассмотрение альтернативы к подходу $Q$-обучения — метода прямой максимизации средней награды агента для избранной стратегии от взаимодействия со средой. Таким образом, решение данной задачи выпуклой оптимизации представимо в виде задачи линейного программирования. В работе демонстрируется, как аппарат выпуклой оптимизации применяется для решения задачи обучения с подкреплением (Reinforcement Learning, RL). В частности, показано, как понятие сильной двойственности позволяет естественно модифицировать постановку задачи RL, показывая эквивалентность между максимизацией награды агента и поиском его оптимальной стратегии. В работе также рассматривается вопрос сложности оптимизации MDP относительно количества троек «состояние–действие–награда», получаемых в результате взаимодействия со средой. Представлены оптимальные границы сложности решения MDP в случае эргодического процесса с бесконечным горизонтом, а также в случае нестационарного процесса с конечным горизонтом, который можно перезапускать несколько раз подряд или сразу запускать параллельно в нескольких потоках. Также в обзоре рассмотрены последние результаты по уменьшению зазора нижней и верхней оценки сложности оптимизации MDP с усредненным вознаграждением (Averaged MDP, AMDP). В заключение рассматриваются вещественнозначная параметризация политики агента и класс градиентных методов оптимизации через максимизацию $Q$-функции ценности. В частности, представлен специальный класс MDP с ограничениями на ценность политики (Constrained Markov Decision Process, CMDP), для которых предложен общий прямодвойственный подход к оптимизации, обладающий сильной двойственностью.
Ключевые слова: MDP, выпуклая оптимизация, $Q$-обучение, линейное программирование, методы градиента политики.
Survey of convex optimization of Markov decision processes
Computer Research and Modeling, 2023, v. 15, no. 2, pp. 329-353This article reviews both historical achievements and modern results in the field of Markov Decision Process (MDP) and convex optimization. This review is the first attempt to cover the field of reinforcement learning in Russian in the context of convex optimization. The fundamental Bellman equation and the criteria of optimality of policy — strategies based on it, which make decisions based on the known state of the environment at the moment, are considered. The main iterative algorithms of policy optimization based on the solution of the Bellman equations are also considered. An important section of this article was the consideration of an alternative to the $Q$-learning approach — the method of direct maximization of the agent’s average reward for the chosen strategy from interaction with the environment. Thus, the solution of this convex optimization problem can be represented as a linear programming problem. The paper demonstrates how the convex optimization apparatus is used to solve the problem of Reinforcement Learning (RL). In particular, it is shown how the concept of strong duality allows us to naturally modify the formulation of the RL problem, showing the equivalence between maximizing the agent’s reward and finding his optimal strategy. The paper also discusses the complexity of MDP optimization with respect to the number of state–action–reward triples obtained as a result of interaction with the environment. The optimal limits of the MDP solution complexity are presented in the case of an ergodic process with an infinite horizon, as well as in the case of a non-stationary process with a finite horizon, which can be restarted several times in a row or immediately run in parallel in several threads. The review also reviews the latest results on reducing the gap between the lower and upper estimates of the complexity of MDP optimization with average remuneration (Averaged MDP, AMDP). In conclusion, the real-valued parametrization of agent policy and a class of gradient optimization methods through maximizing the $Q$-function of value are considered. In particular, a special class of MDPs with restrictions on the value of policy (Constrained Markov Decision Process, CMDP) is presented, for which a general direct-dual approach to optimization with strong duality is proposed.
-
Модель установившегося течения реки в поперечном сечении изогнутого русла
Компьютерные исследования и моделирование, 2024, т. 16, № 5, с. 1163-1178Моделирование русловых процессов при исследовании береговых деформаций русла требует вычисления параметров гидродинамического потока, учитывающих существование вторичных поперечных течений, формирующихся на закруглении русла. Трехмерное моделирование таких процессов на текущий момент возможно только для небольших модельных каналов, для реальных речных потоков необходимы модели пониженной размерности. При этом редукция задачи от трехмерной модели движения речного потока к двумерной модели потока в плоскости створа канала предполагает, что рассматриваемый гидродинамический поток является квазистационарным, и для него выполнены гипотезы об асимптотическом поведении потока по потоковой координате створа. С учетом данных ограничений в работе сформулирована математическая модель задачи о движении стационарного турбулентного спокойного речного потока в створе канала. Задача сформулирована в смешанной постановке скорости — «вихрь – функция тока». В качестве дополнительных условий для редукции задачи требуется задание граничных условий на свободной поверхности потока для поля скорости, определяемого в нормальном и касательном направлении к оси створа. Предполагается, что значения данных скоростей должны быть определены из решения вспомогательных задач или получены из данных натурных или экспериментальных измерений.
Для решения сформулированной задачи используется метод конечных элементов в формулировке Петрова – Галёркина. Получен дискретный аналог задачи и предложен алгоритм ее решения. Выполненные численные исследования показали в целом хорошую согласованность полученных решений при их сравнении с известными экспериментальными данными.
Полученные погрешности авторы связывают с необходимостью более точного определения циркуляционного поля скоростей в створе потока путем подбора и калибровки более подходящей модели вычисления турбулентной вязкости и граничных условий на свободной границе створа.
Model of steady river flow in the cross section of a curved channel
Computer Research and Modeling, 2024, v. 16, no. 5, pp. 1163-1178Modeling of channel processes in the study of coastal channel deformations requires the calculation of hydrodynamic flow parameters that take into account the existence of secondary transverse currents formed at channel curvature. Three-dimensional modeling of such processes is currently possible only for small model channels; for real river flows, reduced-dimensional models are needed. At the same time, the reduction of the problem from a three-dimensional model of the river flow movement to a two-dimensional flow model in the cross-section assumes that the hydrodynamic flow under consideration is quasi-stationary and the hypotheses about the asymptotic behavior of the flow along the flow coordinate of the cross-section are fulfilled for it. Taking into account these restrictions, a mathematical model of the problem of the a stationary turbulent calm river flow movement in a channel cross-section is formulated. The problem is formulated in a mixed formulation of velocity — “vortex – stream function”. As additional conditions for problem reducing, it is necessary to specify boundary conditions on the flow free surface for the velocity field, determined in the normal and tangential direction to the cross-section axis. It is assumed that the values of these velocities should be determined from the solution of auxiliary problems or obtained from field or experimental measurement data.
To solve the formulated problem, the finite element method in the Petrov – Galerkin formulation is used. Discrete analogue of the problem is obtained and an algorithm for solving it is proposed. Numerical studies have shown that, in general, the results obtained are in good agreement with known experimental data. The authors associate the obtained errors with the need to more accurately determine the circulation velocities field at crosssection of the flow by selecting and calibrating a more appropriate model for calculating turbulent viscosity and boundary conditions at the free boundary of the cross-section.
-
Методика анализа шумоиндуцированных явлений в двухкомпонентных стохастических системах реакционно-диффузионного типа со степенной нелинейностью
Компьютерные исследования и моделирование, 2025, т. 17, № 2, с. 277-291В работе построена и исследуется обобщенная модель, описывающая двухкомпонентные системы реакционно-диффузионного типа со степенной нелинейностью и учитывающая влияние внешних шумов. Для анализа обобщенной модели разработана методология, включающая в себя линейный анализ устойчивости, нелинейный анализ устойчивости и численное моделирование эволюции системы. Методика проведения линейного анализа опирается на базовые подходы, в которых для получения характеристического уравнения используется матрица линеаризации. Нелинейный анализ устойчивости проводится с точностью до моментов третьего порядка включительно. Для этого функции, описывающие динамику компонент, раскладываются в ряд Тейлора до слагаемых третьего порядка. Затем с помощью теоремы Новикова проводится процедура усреднения. В результате полученные уравнения образуют бесконечную иерархично подчиненную структуру, которую в определенный момент необходимо прервать. Для этого пренебрегаем вкладом слагаемых выше третьего порядка как в самих уравнениях, так и при построении уравнений моментов. Полученные уравнения образуют набор линейных уравнений, из которых формируется матрица устойчивости. Эта матрица имеет довольно сложную структуру, в связи с чем ее решение может быть получено только численно. Для проведения численного исследования эволюции системы выбран метод переменных направлений. Из-за наличия в анализируемой системе стохастической части метод был модифицирован таким образом, что на целых слоях проводится генерация случайных полей с заданным распределением и функцией корреляции, отвечающих за шумовой вклад в общую нелинейность. Апробация разработанной методологии проведена на предложенной Barrio et al. модели реакции – диффузии, по результатам исследования которой им показана схожесть получаемых структур с пигментацией рыб. В настоящей работе внимание сосредоточено на анализе поведения системы в окрестности ненулевой стационарной точки. Изучена зависимость действительной части собственных значений от волнового числа. В линейном анализе получена область значений волновых чисел, при которых возникает неустойчивость Тьюринга. Нелинейный анализ и численное моделирование эволюции системы проводятся для параметров модели, которые, напротив, находятся вне области неустойчивости Тьюринга. В рамках нелинейного анализа найдены интенсивности аддитивного шума, при которых, несмотря на отсутствие условий для возникновения диффузионной неустойчивости, система переходит в неустойчивое состояние. Результаты численного моделирования эволюции апробируемой модели демонстрируют процесс образования пространственных структур тьюрингового типа при воздействии на нее аддитивного шума.
Ключевые слова: шумоиндуцированные переходы, метод переменных направлений, системы реакционно-диффузионного типа, анализ устойчивости.
Technique for analyzing noise-induced phenomena in two-component stochastic systems of reaction – diffusion type with power nonlinearity
Computer Research and Modeling, 2025, v. 17, no. 2, pp. 277-291The paper constructs and studies a generalized model describing two-component systems of reaction – diffusion type with power nonlinearity, considering the influence of external noise. A methodology has been developed for analyzing the generalized model, which includes linear stability analysis, nonlinear stability analysis, and numerical simulation of the system’s evolution. The linear analysis technique uses basic approaches, in which the characteristic equation is obtained using a linearization matrix. Nonlinear stability analysis realized up to third-order moments inclusively. For this, the functions describing the dynamics of the components are expanded in Taylor series up to third-order terms. Then, using the Novikov theorem, the averaging procedure is carried out. As a result, the obtained equations form an infinite hierarchically subordinate structure, which must be truncated at some point. To achieve this, contributions from terms higher than the third order are neglected in both the equations themselves and during the construction of the moment equations. The resulting equations form a set of linear equations, from which the stability matrix is constructed. This matrix has a rather complex structure, making it solvable only numerically. For the numerical study of the system’s evolution, the method of variable directions was chosen. Due to the presence of a stochastic component in the analyzed system, the method was modified such that random fields with a specified distribution and correlation function, responsible for the noise contribution to the overall nonlinearity, are generated across entire layers. The developed methodology was tested on the reaction – diffusion model proposed by Barrio et al., according to the results of the study, they showed the similarity of the obtained structures with the pigmentation of fish. This paper focuses on the system behavior analysis in the neighborhood of a non-zero stationary point. The dependence of the real part of the eigenvalues on the wavenumber has been examined. In the linear analysis, a range of wavenumber values is identified in which Turing instability occurs. Nonlinear analysis and numerical simulation of the system’s evolution are conducted for model parameters that, in contrast, lie outside the Turing instability region. Nonlinear analysis found noise intensities of additive noise for which, despite the absence of conditions for the emergence of diffusion instability, the system transitions to an unstable state. The results of the numerical simulation of the evolution of the tested model demonstrate the process of forming spatial structures of Turing type under the influence of additive noise.
-
Моделирование предкрахового поведения цен на иерархически организованном финансовом рынке
Компьютерные исследования и моделирование, 2011, т. 3, № 2, с. 215-222Рассматривается иерархическая модель, предложенная Джохансеном и Сорнеттом, описывающая механизм возникновения логопериодических колебаний, предшествующих финансовым крахам, и проводится ее численный анализ. Предлагаются обобщения данной модели на основе введения зависимость степени влияния агентов друг на друга от ультраметрического расстояния между ними. Наибольшее внимание уделяется вопросу об универсальности критической точки, который исследуется с помощью построения распределений точек краха при различном числе агентов.
Ключевые слова: математическое моделирование, логопериодические колебания и степенной рост, ультраметрическое расстояние, иерархические структуры, финансовые крахи.
Modeling the behavior proceeding market crash in a hierarchically organized financial market
Computer Research and Modeling, 2011, v. 3, no. 2, pp. 215-222Views (last year): 1.We consider the hierarchical model of financial crashes introduced by A. Johansen and D. Sornette which reproduces the log-periodic power law behavior of the price before the critical point. In order to build the generalization of this model we introduce the dependence of an influence exponent on an ultrametric distance between agents. Much attention is being paid to a problem of critical point universality which is investigated by comparison of probability density functions of the crash times corresponding to systems with various total numbers of agents.
Indexed in Scopus
Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU
The journal is included in the Russian Science Citation Index
The journal is included in the RSCI
International Interdisciplinary Conference "Mathematics. Computing. Education"




