Результаты поиска по 'оптимальный метод':
Найдено статей: 109
  1. Мезенцев Ю.А., Разумникова О.М., Эстрайх И.В., Тарасова И.В., Трубникова О.А.
    Задачи и алгоритмы оптимальной кластеризации многомерных объектов по множеству разнородных показателей и их приложения в медицине
    Компьютерные исследования и моделирование, 2024, т. 16, № 3, с. 673-693

    Работа посвящена описанию авторских формальных постановок задачи кластеризации при заданном числе кластеров, алгоритмам их решения, а также результатам применения этого инструментария в медицине.

    Решение сформулированных задач точными алгоритмами реализаций даже относительно невысоких размерностей до выполнения условий оптимальности невозможно за сколько-нибудь рациональное время по причине их принадлежности к классу NP.

    В связи с этим нами предложен гибридный алгоритм, сочетающий преимущества точных методов на базе кластеризации в парных расстояниях на начальном этапе с быстродействием методов решения упрощенных задач разбиения по центрам кластеров на завершающем этапе. Для развития данного направления разработан последовательный гибридный алгоритм кластеризации с использованием случайного поиска в парадигме роевого интеллекта. В статье приведено его описание и представлены результаты расчетов прикладных задач кластеризации.

    Для выяснения эффективности разработанного инструментария оптимальной кластеризации многомерных объектов по множеству разнородных показателей был выполнен ряд вычислительных экспериментов с использованием массивов данных, включающих социально-демографические, клинико-анамнестические, электроэнцефалографические и психометрические данные когнитивного статуса пациентов кардиологической клиники. Получено эксперимен- тальное доказательство эффективности применения алгоритмов локального поиска в парадигме роевого интеллекта в рамках гибридного алгоритма при решении задач оптимальной кластеризации. Результаты вычислений свидетельствуют о фактическом разрешении основной проблемы применения аппарата дискретной оптимизации — ограничения доступных размерностей реализаций задач. Нами показано, что эта проблема снимается при сохранении приемлемой близости результатов кластеризации к оптимальным.

    Прикладное значение полученных результатов кластеризации обусловлено также тем, что разработанный инструментарий оптимальной кластеризации дополнен оценкой стабильности сформированных кластеров, что позволяет к известным факторам (наличие стеноза или старший возраст) дополнительно выделить тех пациентов, когнитивные ресурсы которых оказываются недостаточны, чтобы преодолеть влияние операционной анестезии, вследствие чего отмечается однонаправленный эффект послеоперационного ухудшения показателей сложной зрительно-моторной реакции, внимания и памяти. Этот эффект свидетельствует о возможности дифференцированно классифицировать пациентов с использованием предлагаемого инструментария.

    Mezentsev Y.A., Razumnikova O.M., Estraykh I.V., Tarasova I.V., Trubnikova O.A.
    Tasks and algorithms for optimal clustering of multidimensional objects by a variety of heterogeneous indicators and their applications in medicine
    Computer Research and Modeling, 2024, v. 16, no. 3, pp. 673-693

    The work is devoted to the description of the author’s formal statements of the clustering problem for a given number of clusters, algorithms for their solution, as well as the results of using this toolkit in medicine.

    The solution of the formulated problems by exact algorithms of implementations of even relatively low dimensions before proving optimality is impossible in a finite time due to their belonging to the NP class.

    In this regard, we have proposed a hybrid algorithm that combines the advantages of precise methods based on clustering in paired distances at the initial stage with the speed of methods for solving simplified problems of splitting by cluster centers at the final stage. In the development of this direction, a sequential hybrid clustering algorithm using random search in the paradigm of swarm intelligence has been developed. The article describes it and presents the results of calculations of applied clustering problems.

    To determine the effectiveness of the developed tools for optimal clustering of multidimensional objects according to a variety of heterogeneous indicators, a number of computational experiments were performed using data sets including socio-demographic, clinical anamnestic, electroencephalographic and psychometric data on the cognitive status of patients of the cardiology clinic. An experimental proof of the effectiveness of using local search algorithms in the paradigm of swarm intelligence within the framework of a hybrid algorithm for solving optimal clustering problems has been obtained.

    The results of the calculations indicate the actual resolution of the main problem of using the discrete optimization apparatus — limiting the available dimensions of task implementations. We have shown that this problem is eliminated while maintaining an acceptable proximity of the clustering results to the optimal ones. The applied significance of the obtained clustering results is also due to the fact that the developed optimal clustering toolkit is supplemented by an assessment of the stability of the formed clusters, which allows for known factors (the presence of stenosis or older age) to additionally identify those patients whose cognitive resources are insufficient to overcome the influence of surgical anesthesia, as a result of which there is a unidirectional effect of postoperative deterioration of complex visual-motor reaction, attention and memory. This effect indicates the possibility of differentiating the classification of patients using the proposed tools.

  2. Дидыч Я.О., Малинецкий Г.Г.
    Анализ стратегий противников при игре в модифицированный «Морской бой»
    Компьютерные исследования и моделирование, 2016, т. 8, № 5, с. 817-827

    Врабо те рассматривается известная игра «Морской бой». Цель статьи — предложить модифицированную версию «Морского боя» и найти оптимальные стратегии действий игроков в новых правилах. Изменения коснулись как применяемых атакующих стратегий (добавлена новая возможность атаки, охватывающая четыре клетки за один выстрел), размера поля (использовались варианты игры для полей 10 × 10, 20 × 20, 30 × 30), так и правил расстановки кораблей в процессе боя (добавлена возможность перемещения корабля из зоны обстрела). Игра решалась с применением аппарата теории игр: составлены платежные матрицы для каждого варианта изменяемых правил, для них найдены оптимальные смешанные и чистые стратегии. При решении платежных матриц использовался итерационный метод. Симуляция состояла в применении пяти алгоритмов атаки и шести алгоритмов защиты с вариацией параметров при игре «каждого с каждым». Атакующие алгоритмы варьировались в разрезе 100 различных наборов значений, алгоритмы защиты — в разрезе 150 каждый. Важным результатом стало то, что в рамках этих ал- горитмов модифицированный «Морской бой» может быть решен, — то есть могут быть найдены устойчивые чистые или смешанные стратегии поведения, обеспечивающие сторонам оптимальный исход с точки зрения теории игр. Помимо этого, сделана оценка влияния изменений правил стандартного «Морского боя» на результат противостояния. Приведено сравнение с результатами, полученными авторами в предыдущей работе по данной тематике. На основе сопоставления полученных платежных матриц со статистическим анализом, проведенным ранее, отмечено, что стандартный «Морской бой» может быть представлен как частный случай рассмотренных в данной работе модификаций. Задача актуальна как с точки зрения ее применения в военном деле, так и в гражданских областях. Использование результатов статьи способно сохранить ресурсы при геологоразведке, обеспечить преимущество в военном противостоянии, сохранить детали, подвергающиеся разрушительному воздействию, и так далее.

    Didych Y.O., Malinetsky G.G.
    The analysis of player’s behaviour in modified “Sea battle” game
    Computer Research and Modeling, 2016, v. 8, no. 5, pp. 817-827

    The well-known “Sea battle” game is in the focus of the current job. The main goal of the article is to provide modified version of “Sea battle” game and to find optimal players’ strategies in the new rules. Changes were applied to attacking strategies (new option to attack hitting four cells in one shot was added) as well as to the size of the field (sizes of 10 × 10, 20 × 20, 30 × 30 were used) and to the rules of disposal algorithms during the game (new possibility to move the ship off the attacking zone). The game was solved with the use of game theory capabilities: payoff matrices were found for each version of altered rules, for which optimal pure and mixed strategies were discovered. For solving payoff matrices iterative method was used. The simulation was in applying five attacking algorithms and six disposal ones with parameters variation due to the game of players with each other. Attacking algorithms were varied in 100 sets of parameters, disposal algorithms — in 150 sets. Major result is that using such algorithms the modified “Sea battle” game can be solved — that implies the possibility of finding stable pure and mixed strategies of behaviour, which guarantee the sides gaining optimal results in game theory terms. Moreover, influence of modifying the rules of “Sea battle” game is estimated. Comparison with prior authors’ results on this topic was made. Based on matching the payoff matrices with the statistical analysis, completed earlier, it was found out that standard “Sea battle” game could be represented as a special case of game modifications, observed in this article. The job is important not only because of its applications in war area, but in civil areas as well. Use of article’s results could save resources in exploration, provide an advantage in war conflicts, defend devices under devastating impact.

    Views (last year): 18.
  3. Кутовский Н.А., Нечаевский А.В., Ососков Г.А., Пряхина Д.И., Трофимов В.В.
    Моделирование межпроцессорного взаимодействия при выполнении MPI-приложений в облаке
    Компьютерные исследования и моделирование, 2017, т. 9, № 6, с. 955-963

    В Лаборатории информационных технологий (ЛИТ) Объединенного института ядерных исследований (ОИЯИ) планируется создание облачного центра параллельных вычислений, что позволит существенно повысить эффективность выполнения численных расчетов и ускорить получение новых физически значимых результатов за счет более рационального использования вычислительных ресурсов. Для оптимизации схемы параллельных вычислений в облачной среде эту схему необходимо протестировать при различных сочетаниях параметров оборудования (количества и частоты процессоров, уровней распараллеливания, пропускной способности коммуникационной сети и ее латентности). В качестве тестовой была выбрана весьма актуальная задача параллельных вычислений длинных джозефсоновских переходов (ДДП) с использованием технологии MPI. Проблемы оценки влияния вышеуказанных факторов вычислительной среды на скорость параллельных вычислений тестовой задачи было предложено решать методом имитационного моделирования, с использованием разработанной в ЛИТ моделирующей программы SyMSim.

    Работы, выполненные по имитационному моделированию расчетов ДДП в облачной среде с учетом межпроцессорных соединений, позволяют пользователям без проведения серии тестовых запусков в реальной компьютерной обстановке подобрать оптимальное количество процессоров при известном типе сети, характеризуемой пропускной способностью и латентностью. Это может существенно сэкономить вычислительное время на счетных ресурсах, высвободив его для решения реальных задач. Основные параметры модели были получены по результатам вычислительного эксперимента, проведенного на специальном облачном полигоне для MPI-задач из 10 виртуальных машин, взаимодействующих между собой через Ethernet-сеть с пропускной способностью 10 Гбит/с. Вычислительные эксперименты показали, что чистое время вычислений спадает обратно пропорционально числу процессоров, но существенно зависит от пропускной способности сети. Сравнение результатов, полученных эмпирическим путем, с результатами имитационного моделирования показало, что имитационная модель корректно моделирует параллельные расчеты, выполненные с использованием технологии MPI, и подтвердило нашу рекомендацию, что для быстрого счета задач такого класса надо одновременно с увеличением числа процессоров увеличивать пропускную способность сети. По результатам моделирования удалось вывести эмпирическую аналитическую формулу, выражающую зависимость времени расчета от числа процессоров при фиксированной конфигурации системы. Полученная формула может применяться и для других подобных исследований, но требует дополнительных тестов по определению значений переменных.

    Kutovskiy N.A., Nechaevskiy A.V., Ososkov G.A., Pryahina D.I., Trofimov V.V.
    Simulation of interprocessor interactions for MPI-applications in the cloud infrastructure
    Computer Research and Modeling, 2017, v. 9, no. 6, pp. 955-963

    А new cloud center of parallel computing is to be created in the Laboratory of Information Technologies (LIT) of the Joint Institute for Nuclear Research JINR) what is expected to improve significantly the efficiency of numerical calculations and expedite the receipt of new physically meaningful results due to the more rational use of computing resources. To optimize a scheme of parallel computations at a cloud environment it is necessary to test this scheme for various combinations of equipment parameters (processor speed and numbers, throughput оf а communication network etc). As a test problem, the parallel MPI algorithm for calculations of the long Josephson junctions (LDJ) is chosen. Problems of evaluating the impact of abovementioned factors of computing mean on the computing speed of the test problem are solved by simulation with the simulation program SyMSim developed in LIT.

    The simulation of the LDJ calculations in the cloud environment enable users without a series of test to find the optimal number of CPUs with a certain type of network run the calculations in a real computer environment. This can save significant computational time in countable resources. The main parameters of the model were obtained from the results of the computational experiment conducted on a special cloud-based testbed. Computational experiments showed that the pure computation time decreases in inverse proportion to the number of processors, but depends significantly on network bandwidth. Comparison of results obtained empirically with the results of simulation showed that the simulation model correctly simulates the parallel calculations performed using the MPI-technology. Besides it confirms our recommendation: for fast calculations of this type it is needed to increase both, — the number of CPUs and the network throughput at the same time. The simulation results allow also to invent an empirical analytical formula expressing the dependence of calculation time by the number of processors for a fixed system configuration. The obtained formula can be applied to other similar studies, but requires additional tests to determine the values of variables.

    Views (last year): 10. Citations: 1 (RSCI).
  4. Малыгина Н.В., Сурков П.Г.
    О моделировании преодоления водной преграды Rangifer tarandus L
    Компьютерные исследования и моделирование, 2019, т. 11, № 5, с. 895-910

    Видоспецифическими поведенческими признаками дикого северного оленя Rangifer tarandus L. традиционно признаны сезонные миграции и стадный инстинкт. В период миграций эти животные вынуждены преодолевать водные преграды. Особенности поведения рассматриваются как результат процесса селекции, когда среди множества стратегий выбрана единственно эволюционно-стабильная, определяющая репродукцию и биологическую выживаемость дикого северного оленя как вида. Ввиду эскалации промышленного освоения Арктики в настоящее время естественные процессы в популяциях диких северных оленей таймырской популяции происходят на фоне увеличения влияния негативных факторов, поэтому естественно возникла необходимость выявления этологических особенностей этих животных. В настоящей работе представлены результаты применения классических методов теории оптимального управления и дифференциальных игр к исследованию миграционных этограмм диких северных оленей при преодолении водных преград, в том числе крупных рек. На основе этологических особенностей этих животных и форм поведения стадо представляется в качестве управляемой динамической системы. Также оно делится на два класса особей: вожак и остальное стадо, для которых строятся свои модели, описывающие траектории их движения. В основу моделей закладываются гипотезы, представляющие собой математическую формализацию некоторых схем поведения животных. Данный подход позволил найти траекторию важенки с использованием методов теории оптимального управления, а при построении траекторий остальных особей — применить принцип управления с поводырем. Апробация полученных результатов, которые могут быть использованы в формировании общей «платформы» для систематического построения моделей адаптивного поведения и в качестве задела для фундаментальных разработок моделей когнитивной эволюции, проводится численно на модельном примере, использующем данные наблюдений на реке Верхняя Таймыра.

    Malygina N.V., Surkov P.G.
    On the modeling of water obstacles overcoming by Rangifer tarandus L
    Computer Research and Modeling, 2019, v. 11, no. 5, pp. 895-910

    Seasonal migrations and herd instinct are traditionally recognized as wild reindeer (Rangifer tarandus L.) species-specific behavioral signs. These animals are forced to overcome water obstacles during the migrations. Behaviour peculiarities are considered as the result of the selection process, which has chosen among the sets of strategies, as the only evolutionarily stable one, determining the reproduction and biological survival of wild reindeer as a species. Natural processes in the Taimyr population wild reindeer are currently occurring against the background of an increase in the influence of negative factors due to the escalation of the industrial development of the Arctic. That is why the need to identify the ethological features of these animals completely arose. This paper presents the results of applying the classical methods of the theory of optimal control and differential games to the wild reindeer study of the migration patterns in overcoming water barriers, including major rivers. Based on these animals’ ethological features and behavior forms, the herd is presented as a controlled dynamic system, which presents also two classes of individuals: the leader and the rest of the herd, for which their models, describing the trajectories of their movement, are constructed. The models are based on hypotheses, which are the mathematical formalization of some animal behavior patterns. This approach made it possible to find the trajectory of the important one using the methods of the optimal control theory, and in constructing the trajectories of other individuals, apply the principle of control with a guide. Approbation of the obtained results, which can be used in the formation of a common “platform” for the adaptive behavior models systematic construction and as a reserve for the cognitive evolution models fundamental development, is numerically carried out using a model example with observational data on the Werchnyaya Taimyra River.

  5. Королев С.А., Майков Д.В.
    Решение задачи оптимального управления процессом метаногенеза на основе принципа максимума Понтрягина
    Компьютерные исследования и моделирование, 2020, т. 12, № 2, с. 357-367

    В работе представлена математическая модель, описывающая процесс получения биогаза из отходов животноводства. Данная модель описывает процессы, протекающие в биогазовой установке для мезофильной и термофильной сред, а также для непрерывного и периодического режимов поступления субстрата. Приведены найденные ранее для периодического режима значения коэффициентов этой модели, полученные путем решения задачи идентификации модели по экспериментальным данным с использованием генетического алгоритма.

    Для модели метаногенеза сформулирована задача оптимального управления в форме задачи Лагранжа, критериальный функционал которой представляет собой выход биогаза за определенный промежуток времени. Управляющим параметром задачи служит скорость поступления субстрата в биогазовую установку. Предложен алгоритм решения данной задачи, основанный на численной реализации принципа максимума Понтрягина. При этом в качестве метода оптимизации применялся гибридный генетический алгоритм с дополнительным поиском в окрестности лучшего решения методом сопряженных градиентов. Данный численный метод решения задачи оптимального управления является универсальным и применим к широкому классу математических моделей.

    В ходе исследования проанализированы различные режимы подачи субстрата в метантенк, температурные среды и виды сырья. Показано, что скорость образования биогаза при непрерывном режиме подачи сырья в 1.4–1.9 раза выше в мезофильной среде (в 1.9–3.2 — в термофильной среде), чем при периодическом режиме за период полной ферментации, что связано с большей скоростью подачи субстрата и большей концентрацией питательных веществ в субстрате. Однако выход биогаза за период полной ферментации при периодическом режиме вдвое выше выхода за период полной смены субстрата в метантенке при непрерывном режиме, что означает неполную переработку субстрата во втором случае. Скорость образования биогаза для термофильной среды при непрерывном режиме и оптимальной скорости подачи сырья втрое выше, чем для мезофильной среды. Сравнение выхода биогаза для различных типов сырья показывает, что наибольший выход биогаза наблюдается для отходов птицефабрик, наименьший — для отходов ферм КРС, что связано с содержанием питательных веществ в единице субстрата каждого вида.

    Korolev S.A., Maykov D.V.
    Solution of the problem of optimal control of the process of methanogenesis based on the Pontryagin maximum principle
    Computer Research and Modeling, 2020, v. 12, no. 2, pp. 357-367

    The paper presents a mathematical model that describes the process of obtaining biogas from livestock waste. This model describes the processes occurring in a biogas plant for mesophilic and thermophilic media, as well as for continuous and periodic modes of substrate inflow. The values of the coefficients of this model found earlier for the periodic mode, obtained by solving the problem of model identification from experimental data using a genetic algorithm, are given.

    For the model of methanogenesis, an optimal control problem is formulated in the form of a Lagrange problem, whose criterial functionality is the output of biogas over a certain period of time. The controlling parameter of the task is the rate of substrate entry into the biogas plant. An algorithm for solving this problem is proposed, based on the numerical implementation of the Pontryagin maximum principle. In this case, a hybrid genetic algorithm with an additional search in the vicinity of the best solution using the method of conjugate gradients was used as an optimization method. This numerical method for solving an optimal control problem is universal and applicable to a wide class of mathematical models.

    In the course of the study, various modes of submission of the substrate to the digesters, temperature environments and types of raw materials were analyzed. It is shown that the rate of biogas production in the continuous feed mode is 1.4–1.9 times higher in the mesophilic medium (1.9–3.2 in the thermophilic medium) than in the periodic mode over the period of complete fermentation, which is associated with a higher feed rate of the substrate and a greater concentration of nutrients in the substrate. However, the yield of biogas during the period of complete fermentation with a periodic mode is twice as high as the output over the period of a complete change of the substrate in the methane tank at a continuous mode, which means incomplete processing of the substrate in the second case. The rate of biogas formation for a thermophilic medium in continuous mode and the optimal rate of supply of raw materials is three times higher than for a mesophilic medium. Comparison of biogas output for various types of raw materials shows that the highest biogas output is observed for waste poultry farms, the least — for cattle farms waste, which is associated with the nutrient content in a unit of substrate of each type.

  6. Степин Ю.П., Леонов Д.Г., Папилина Т.М., Степанкина О.А.
    Системное моделирование, оценка и оптимизация рисков функционирования распределенных компьютерных систем
    Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1349-1359

    В статье рассматривается проблема надежности эксплуатации открытой интеграционной платформы, обеспечивающей взаимодействие различных программных комплексов моделирования режимов транспорта газа, с учетом предоставления доступа к ним, в том числе через тонких клиентов, по принципу «программное обеспечение как услуга». Математически описаны функционирование, надежность хранения, передачи информации и реализуемость вычислительного процесса системы, что является необходимым для обеспечения работы автоматизированной системы диспетчерского управления транспортом нефти и газа. Представлено системное решение вопросов моделирования работы интеграционной платформы и тонких клиентов в условиях неопределенности и риска на базе метода динамики средних теории марковских случайных процессов. Рассматривается стадия стабильной работы — стационарный режим работы цепи Маркова с непрерывным временем и дискретными состояниями, которая описывается системами линейных алгебраический уравнений Колмогорова–Чепмена, записанных относительно средних численностей (математических ожиданий) состояний объектов исследования. Объектами исследования являются как элементы системы, присутствующие в большом количестве (тонкие клиенты и вычислительные модули), так и единичные (сервер, сетевой менеджер (брокер сообщений), менеджер технологических схем). В совокупности они представляют собой взаимодействующие Марковские случайные процессы, взаимодействие которых определяется тем, что интенсивности переходов в одной группе элементов зависят от средних численностей других групп элементов.

    Через средние численности состояний объектов и интенсивностей их переходов из состояния в состояние предлагается многокритериальная дисперсионная модель оценки риска (как в широком, так и узком смысле, в соответствии со стандартом МЭК). Риск реализации каждого состояния параметров системы вычисляется как среднеквадратическое отклонение оцениваемого параметра системы объектов (в данном случае — средние численности и вероятности состояний элементов открытой интеграционной платформы и облака) от их среднего значения. На основании определенной дисперсионной модели риска функционирования элементов системы вводятся модели критериев оптимальности и рисков функционирования системы в целом. В частности, для тонкого клиента рассчитываются риск недополучения выгоды от подготовки и обработки запроса, суммарный риск потерь, связанный только с непроизводительными состояниями элемента, суммарный риск всех потерь от всех состояний системы. Для полученной многокритериальной задачи оценки рисков предлагаются модели (схемы компромисса) выбора оптимальной стратегии эксплуатации.

    Stepin Y.P., Leonov D.G., Papilina T.M., Stepankina O.A.
    System modeling, risks evaluation and optimization of a distributed computer system
    Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1349-1359

    The article deals with the problem of a distributed system operation reliability. The system core is an open integration platform that provides interaction of varied software for modeling gas transportation. Some of them provide an access through thin clients on the cloud technology “software as a service”. Mathematical models of operation, transmission and computing are to ensure the operation of an automated dispatching system for oil and gas transportation. The paper presents a system solution based on the theory of Markov random processes and considers the stable operation stage. The stationary operation mode of the Markov chain with continuous time and discrete states is described by a system of Chapman–Kolmogorov equations with respect to the average numbers (mathematical expectations) of the objects in certain states. The objects of research are both system elements that are present in a large number – thin clients and computing modules, and individual ones – a server, a network manager (message broker). Together, they are interacting Markov random processes. The interaction is determined by the fact that the transition probabilities in one group of elements depend on the average numbers of other elements groups.

    The authors propose a multi-criteria dispersion model of risk assessment for such systems (both in the broad and narrow sense, in accordance with the IEC standard). The risk is the standard deviation of estimated object parameter from its average value. The dispersion risk model makes possible to define optimality criteria and whole system functioning risks. In particular, for a thin client, the following is calculated: the loss profit risk, the total risk of losses due to non-productive element states, and the total risk of all system states losses.

    Finally the paper proposes compromise schemes for solving the multi-criteria problem of choosing the optimal operation strategy based on the selected set of compromise criteria.

  7. Руденко В.Д., Юдин Н.Е., Васин А.А.
    Обзор выпуклой оптимизации марковских процессов принятия решений
    Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 329-353

    В данной статье проведен обзор как исторических достижений, так и современных результатов в области марковских процессов принятия решений (Markov Decision Process, MDP) и выпуклой оптимизации. Данный обзор является первой попыткой освещения на русском языке области обучения с подкреплением в контексте выпуклой оптимизации. Рассматриваются фундаментальное уравнение Беллмана и построенные на его основе критерии оптимальности политики — стратегии, принимающие решение по известному состоянию среды на данный момент. Также рассмотрены основные итеративные алгоритмы оптимизации политики, построенные на решении уравнений Беллмана. Важным разделом данной статьи стало рассмотрение альтернативы к подходу $Q$-обучения — метода прямой максимизации средней награды агента для избранной стратегии от взаимодействия со средой. Таким образом, решение данной задачи выпуклой оптимизации представимо в виде задачи линейного программирования. В работе демонстрируется, как аппарат выпуклой оптимизации применяется для решения задачи обучения с подкреплением (Reinforcement Learning, RL). В частности, показано, как понятие сильной двойственности позволяет естественно модифицировать постановку задачи RL, показывая эквивалентность между максимизацией награды агента и поиском его оптимальной стратегии. В работе также рассматривается вопрос сложности оптимизации MDP относительно количества троек «состояние–действие–награда», получаемых в результате взаимодействия со средой. Представлены оптимальные границы сложности решения MDP в случае эргодического процесса с бесконечным горизонтом, а также в случае нестационарного процесса с конечным горизонтом, который можно перезапускать несколько раз подряд или сразу запускать параллельно в нескольких потоках. Также в обзоре рассмотрены последние результаты по уменьшению зазора нижней и верхней оценки сложности оптимизации MDP с усредненным вознаграждением (Averaged MDP, AMDP). В заключение рассматриваются вещественнозначная параметризация политики агента и класс градиентных методов оптимизации через максимизацию $Q$-функции ценности. В частности, представлен специальный класс MDP с ограничениями на ценность политики (Constrained Markov Decision Process, CMDP), для которых предложен общий прямодвойственный подход к оптимизации, обладающий сильной двойственностью.

    Rudenko V.D., Yudin N.E., Vasin A.A.
    Survey of convex optimization of Markov decision processes
    Computer Research and Modeling, 2023, v. 15, no. 2, pp. 329-353

    This article reviews both historical achievements and modern results in the field of Markov Decision Process (MDP) and convex optimization. This review is the first attempt to cover the field of reinforcement learning in Russian in the context of convex optimization. The fundamental Bellman equation and the criteria of optimality of policy — strategies based on it, which make decisions based on the known state of the environment at the moment, are considered. The main iterative algorithms of policy optimization based on the solution of the Bellman equations are also considered. An important section of this article was the consideration of an alternative to the $Q$-learning approach — the method of direct maximization of the agent’s average reward for the chosen strategy from interaction with the environment. Thus, the solution of this convex optimization problem can be represented as a linear programming problem. The paper demonstrates how the convex optimization apparatus is used to solve the problem of Reinforcement Learning (RL). In particular, it is shown how the concept of strong duality allows us to naturally modify the formulation of the RL problem, showing the equivalence between maximizing the agent’s reward and finding his optimal strategy. The paper also discusses the complexity of MDP optimization with respect to the number of state–action–reward triples obtained as a result of interaction with the environment. The optimal limits of the MDP solution complexity are presented in the case of an ergodic process with an infinite horizon, as well as in the case of a non-stationary process with a finite horizon, which can be restarted several times in a row or immediately run in parallel in several threads. The review also reviews the latest results on reducing the gap between the lower and upper estimates of the complexity of MDP optimization with average remuneration (Averaged MDP, AMDP). In conclusion, the real-valued parametrization of agent policy and a class of gradient optimization methods through maximizing the $Q$-function of value are considered. In particular, a special class of MDPs with restrictions on the value of policy (Constrained Markov Decision Process, CMDP) is presented, for which a general direct-dual approach to optimization with strong duality is proposed.

  8. Мизгулин В.В., Косульников В.В., Кадушников Р.М.
    Оптимизационный подход к имитационному моделированию микроструктур
    Компьютерные исследования и моделирование, 2013, т. 5, № 4, с. 597-606

    В работе предложен оптимизационный подход к имитационному моделированию микроструктур. Решены задачи оптимизации функции пористости, поиска оптимальной модели гранулометрического состава и введен критерий качества моделирования. Проведена проверка адекватности предложенных методов на примерах и предложена регрессионная модель качества имитационного моделирования микроструктур. Актуальным приложением предложенного подхода является задача 3D-реконструкции микроструктуры керна. Полученные результаты дают основания для продолжения исследований в выбранном направлении.

    Mizgulin V.V., Kosulnikov V.V., Kadushnikov R.M.
    The optimization approach to simulation modeling of microstructures
    Computer Research and Modeling, 2013, v. 5, no. 4, pp. 597-606

    The paper presents an optimization approach to microstructure simulation. Porosity function was optimized by numerical method, grain-size model was optimized by complex method based on criteria of model quality. Methods have been validated on examples. Presented new regression model of model quality. Actual application of proposed method is 3D reconstruction of core sample microstructure. Presented results suggest to prolongation of investigations. 

    Views (last year): 4. Citations: 7 (RSCI).
  9. Соколов А.В., Мамкин В.В., Авилов В.К., Тарасов Д.Л., Курбатова Ю.А., Ольчев А.В.
    Применение метода сбалансированной идентификации для заполнения пропусков в рядах наблюдений за потоками СО2 на сфагновом верховом болоте
    Компьютерные исследования и моделирование, 2019, т. 11, № 1, с. 153-171

    В работе рассматривается применение метода сбалансированной идентификации для построения многофакторной функциональной зависимости нетто СО2-обмена (NEE) от факторов внешней среды и ее дальнейшего использования для заполнения пропусков в рядах наблюдений за потоками СО2 на верховом сфагновом болоте в Тверской области. Измерения потоков на болоте проводились с помощью метода турбулентных пульсаций в период с августа по ноябрь 2017 года. Из-за дождливых погодных условий и высокой повторяемости периодов с низкой турбулентностью на протяжении всего периода наблюдений доля пропусков в измерениях NEE на исследуемом болоте превысила 40%. Разработанная для заполнения пропусков модель описывает NEE верхового болота как разность экосистемного дыхания (RE) и валовой первичной продукции (GPP) и учитывает зависимость этих параметров от приходящей суммарной солнечной радиации (Q), температуры почвы (T), дефицита упругости водяного пара (VPD) и уровня болотных вод (WL). Используемый для этой цели метод сбалансированной идентификации основан на поиске оптимального соотношения между простотой модели и точностью повторения измерений — соотношения, доставляющего минимум оценке погрешности моделирования, полученной методом перекрестного оценивания. Полученные численные решения обладают минимально необходимой нелинейностью (кривизной), что обеспечивает хорошие интерполяционные и экстраполяционные свойства построенных моделей, необходимые для восполнения недостающих данных по потокам. На основе проведенного анализа временной изменчивости NEE и факторов внешней среды была выявлена статистически значимая зависимость GPP болота от Q, T и VPD, а RE — от T и WL. При этом погрешность применения предложенного метода для моделирования среднесуточных данных NEE составила менее 10%, а точность выполненных оценок NEE была выше, чем у модели REddyProc, учитывающей влияние на NEE меньшего числа внешних факторов. На основе восстановленных непрерывных рядов данных по NEE была проведена оценка масштабов внутрисуточной и межсуточной изменчивости NEE и получены интегральные оценки потоков СО2 исследуемого верхового болота для выбранного летне-осеннего периода. Было показано, что если в августе 2017 года на исследуемом болоте скорость фиксации СО2 растительным покровом существенно превышала величину экосистемного дыхания, то, начиная с сентября, на фоне снижения GPP исследуемое болото превратилось в устойчивый источник СО2 для атмосферы.

    Sokolov A.V., Mamkin V.V., Avilov V.K., Tarasov D.L., Kurbatova Y.A., Olchev A.V.
    Application of a balanced identification method for gap-filling in CO2 flux data in a sphagnum peat bog
    Computer Research and Modeling, 2019, v. 11, no. 1, pp. 153-171

    The method of balanced identification was used to describe the response of Net Ecosystem Exchange of CO2 (NEE) to change of environmental factors, and to fill the gaps in continuous CO2 flux measurements in a sphagnum peat bog in the Tver region. The measurements were provided in the peat bog by the eddy covariance method from August to November of 2017. Due to rainy weather conditions and recurrent periods with low atmospheric turbulence the gap proportion in measured CO2 fluxes at our experimental site during the entire period of measurements exceeded 40%. The model developed for the gap filling in long-term experimental data considers the NEE as a difference between Ecosystem Respiration (RE) and Gross Primary Production (GPP), i.e. key processes of ecosystem functioning, and their dependence on incoming solar radiation (Q), soil temperature (T), water vapor pressure deficit (VPD) and ground water level (WL). Applied for this purpose the balanced identification method is based on the search for the optimal ratio between the model simplicity and the data fitting accuracy — the ratio providing the minimum of the modeling error estimated by the cross validation method. The obtained numerical solutions are characterized by minimum necessary nonlinearity (curvature) that provides sufficient interpolation and extrapolation characteristics of the developed models. It is particularly important to fill the missing values in NEE measurements. Reviewing the temporary variability of NEE and key environmental factors allowed to reveal a statistically significant dependence of GPP on Q, T, and VPD, and RE — on T and WL, respectively. At the same time, the inaccuracy of applied method for simulation of the mean daily NEE, was less than 10%, and the error in NEE estimates by the method was higher than by the REddyProc model considering the influence on NEE of fewer number of environmental parameters. Analyzing the gap-filled time series of NEE allowed to derive the diurnal and inter-daily variability of NEE and to obtain cumulative CO2 fluxs in the peat bog for selected summer-autumn period. It was shown, that the rate of CO2 fixation by peat bog vegetation in August was significantly higher than the rate of ecosystem respiration, while since September due to strong decrease of GPP the peat bog was turned into a consistent source of CO2 for the atmosphere.

    Views (last year): 19.
  10. Мальсагов М.Х., Угольницкий Г.А., Усов А.Б.
    Борьба с экономической коррупцией при распределении ресурсов
    Компьютерные исследования и моделирование, 2019, т. 11, № 1, с. 173-185

    В теоретико-игровой постановке рассмотрена модель борьбы с коррупцией при распределении ресурсов. Система распределения ресурсов включает в свой состав одного принципала (субъект управления верхнего уровня), одного или нескольких супервайзеров (субъектов среднего уровня) и нескольких агентов (субъекты нижнего уровня). Отношения между субъектами разных уровней строятся на основе иерархии: субъект верхнего уровня воздействует (управляет) на субъектов среднего уровня, а те, в свою очередь, на субъектов нижнего уровня. Предполагается, что коррупции подвержен средний уровень управления. Агенты предлагают супервайзеру взятки, в обмен на которые он предоставляет им дополнительные доли ресурса. Предположим также, что принципал не подвержен коррупции и является бескорыстным, не преследующим частных целей. Исследование модели проведено с точки зрения как супервайзера, так и агентов. C точки зрения агентов, возникает некооперативная игра, в которой находится равновесие Нэша. При этом задачи оптимального управления для частного вида входных функций решаются аналитически с помощью принципа максимума Понтрягина. C точки зрения супервайзера, возникает игра, которая ведется в соответствии с регламентом игры Гермейера Г2t. Указан алгоритм построения равновесия. Стратегия наказания находится аналитически. Стратегия поощрения в случае входных функций общего вида находится численно. Строится дискретный аналог непрерывной модели. Предполагается, что все субъекты управления могут изменять свои стратегии поведения в одни и те же моменты времени конечное число раз. В результате от задачи максимизации своего целевого функционала супервайзер переходит к задаче максимизации целевой функции многих переменных. Для нахождения ее наибольшего значения используется метод качественно репрезентативных сценариев. Идея этого метода состоит в том, что из множества потенциально возможных сценариев управления выбираются только сценарии, позволяющие представить качественно различные пути развития системы. В результате мощность этого множества не слишком велика и удается осуществить полный перебор качественно репрезентативных сценариев и найти стратегию поощрения агентов. После ее нахождения супервайзер предлагает агентам механизм управления с обратной связью по управлению, состоящий в наказании агентов при отклонении от выбранной супервайзером стратегии и поощрении в противном случае.

    Malsagov M.X., Ougolnitsky G.A., Usov A.B.
    Struggle against economic corruption in resource allocation
    Computer Research and Modeling, 2019, v. 11, no. 1, pp. 173-185

    A dynamic game theoretic model of struggle against corruption in resource allocation is considered. It is supposed that the system of resource allocation includes one principal, one or several supervisors, and several agents. The relations between them are hierarchical: the principal influences to the supervisors, and they in turn exert influence on the agents. It is assumed that the supervisor can be corrupted. The agents propose bribes to the supervisor who in exchange allocates additional resources to them. It is also supposed that the principal is not corrupted and does not have her own purposes. The model is investigated from the point of view of the supervisor and the agents. From the point of view of agents a non-cooperative game arises with a set of Nash equilibria as a solution. The set is found analytically on the base of Pontryagin maximum principle for the specific class of model functions. From the point of view of the supervisor a hierarchical Germeyer game of the type Г2t is built, and the respective algorithm of its solution is proposed. The punishment strategy is found analytically, and the reward strategy is built numerically on the base of a discrete analogue of the initial continuous- time model. It is supposed that all agents can change their strategies in the same time instants only a finite number of times. Thus, the supervisor can maximize his objective function of many variables instead of maximization of the objective functional. A method of qualitatively representative scenarios is used for the solution. The idea of this method consists in that it is possible to choose a very small number of scenarios among all potential ones that represent all qualitatively different trajectories of the system dynamics. These scenarios differ in principle while all other scenarios yield no essentially new results. Then a complete enumeration of the qualitatively representative scenarios becomes possible. After that, the supervisor reports to the agents the rewardpunishment control mechanism.

    Views (last year): 33. Citations: 1 (RSCI).
Pages: « first previous next last »

Indexed in Scopus

Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU

The journal is included in the Russian Science Citation Index

The journal is included in the RSCI

International Interdisciplinary Conference "Mathematics. Computing. Education"