Результаты поиска по 'линейное программирование':
Найдено статей: 26
  1. Руденко В.Д., Юдин Н.Е., Васин А.А.
    Обзор выпуклой оптимизации марковских процессов принятия решений
    Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 329-353

    В данной статье проведен обзор как исторических достижений, так и современных результатов в области марковских процессов принятия решений (Markov Decision Process, MDP) и выпуклой оптимизации. Данный обзор является первой попыткой освещения на русском языке области обучения с подкреплением в контексте выпуклой оптимизации. Рассматриваются фундаментальное уравнение Беллмана и построенные на его основе критерии оптимальности политики — стратегии, принимающие решение по известному состоянию среды на данный момент. Также рассмотрены основные итеративные алгоритмы оптимизации политики, построенные на решении уравнений Беллмана. Важным разделом данной статьи стало рассмотрение альтернативы к подходу $Q$-обучения — метода прямой максимизации средней награды агента для избранной стратегии от взаимодействия со средой. Таким образом, решение данной задачи выпуклой оптимизации представимо в виде задачи линейного программирования. В работе демонстрируется, как аппарат выпуклой оптимизации применяется для решения задачи обучения с подкреплением (Reinforcement Learning, RL). В частности, показано, как понятие сильной двойственности позволяет естественно модифицировать постановку задачи RL, показывая эквивалентность между максимизацией награды агента и поиском его оптимальной стратегии. В работе также рассматривается вопрос сложности оптимизации MDP относительно количества троек «состояние–действие–награда», получаемых в результате взаимодействия со средой. Представлены оптимальные границы сложности решения MDP в случае эргодического процесса с бесконечным горизонтом, а также в случае нестационарного процесса с конечным горизонтом, который можно перезапускать несколько раз подряд или сразу запускать параллельно в нескольких потоках. Также в обзоре рассмотрены последние результаты по уменьшению зазора нижней и верхней оценки сложности оптимизации MDP с усредненным вознаграждением (Averaged MDP, AMDP). В заключение рассматриваются вещественнозначная параметризация политики агента и класс градиентных методов оптимизации через максимизацию $Q$-функции ценности. В частности, представлен специальный класс MDP с ограничениями на ценность политики (Constrained Markov Decision Process, CMDP), для которых предложен общий прямодвойственный подход к оптимизации, обладающий сильной двойственностью.

    Rudenko V.D., Yudin N.E., Vasin A.A.
    Survey of convex optimization of Markov decision processes
    Computer Research and Modeling, 2023, v. 15, no. 2, pp. 329-353

    This article reviews both historical achievements and modern results in the field of Markov Decision Process (MDP) and convex optimization. This review is the first attempt to cover the field of reinforcement learning in Russian in the context of convex optimization. The fundamental Bellman equation and the criteria of optimality of policy — strategies based on it, which make decisions based on the known state of the environment at the moment, are considered. The main iterative algorithms of policy optimization based on the solution of the Bellman equations are also considered. An important section of this article was the consideration of an alternative to the $Q$-learning approach — the method of direct maximization of the agent’s average reward for the chosen strategy from interaction with the environment. Thus, the solution of this convex optimization problem can be represented as a linear programming problem. The paper demonstrates how the convex optimization apparatus is used to solve the problem of Reinforcement Learning (RL). In particular, it is shown how the concept of strong duality allows us to naturally modify the formulation of the RL problem, showing the equivalence between maximizing the agent’s reward and finding his optimal strategy. The paper also discusses the complexity of MDP optimization with respect to the number of state–action–reward triples obtained as a result of interaction with the environment. The optimal limits of the MDP solution complexity are presented in the case of an ergodic process with an infinite horizon, as well as in the case of a non-stationary process with a finite horizon, which can be restarted several times in a row or immediately run in parallel in several threads. The review also reviews the latest results on reducing the gap between the lower and upper estimates of the complexity of MDP optimization with average remuneration (Averaged MDP, AMDP). In conclusion, the real-valued parametrization of agent policy and a class of gradient optimization methods through maximizing the $Q$-function of value are considered. In particular, a special class of MDPs with restrictions on the value of policy (Constrained Markov Decision Process, CMDP) is presented, for which a general direct-dual approach to optimization with strong duality is proposed.

  2. Котлярова Е.В., Кривошеев К.Ю., Гасникова Е.В., Шароватова Ю.И., Шурупов А.В.
    Обоснование связи модели Бэкмана с вырождающимися функциями затрат с моделью стабильной динамики
    Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 335-342

    С 50-х годов XX века транспортное моделирование крупных мегаполисов стало усиленно развиваться. Появились первые модели равновесного распределения потоков по путям. Наиболее популярной (и использующейся до сих пор) моделью была модель Бэкмана и др. 1955 г. В основу этой модели положены два принципа Вардропа. На современном теоретико-игровом языке можно кратко описать суть модели как поиск равновесия Нэша в популяционной игре загрузки, в которой потери игроков (водителей) рассчитываются исходя из выбранного пути и загрузках на этом пути, при фиксированных корреспонденциях. Загрузки (затраты) на пути рассчитываются как сумма затрат на различных участках дороги (ребрах графа транспортной сети). Затраты на ребре (время проезда по ребру) определяется величиной потока автомобилей на этом ребре. Поток на ребре, в свою очередь, определяется суммой потоков по всем путям, проходящим через заданное ребро. Таким образом, затраты на проезд по пути определяются не только выбором пути, но и тем, какие пути выбрали остальные водители. Таким образом, мы находимся в стандартной теоретико-игровой постановке. Специфика формирования функций затрат позволяет сводить поиск равновесия к решению задачи оптимизации (игра потенциальная). Эта задача оптимизации будет выпуклой, если функции затрат монотонно неубывающие. Собственно, различные предположения о функциях затрат формируют различные модели. Наиболее популярной моделью является модель с функцией затрат BPR. Такие функции используются при расчетах реальных городов повсеместно. Однако в начале XXI века Ю. Е. Нестеровым и А. де Пальмой было показано, что модели типа Бэкмана имеют серьезные недостатки. Эти недостатки можно исправить, используя модель, которую авторы назвали моделью стабильной динамики. Поиск равновесия в такой модели также сводится к задаче оптимизации. Точнее, даже задаче линейного программирования. В 2013 г. А. В. Гасниковым было обнаружено, что модель стабильной ди- намики может быть получена предельным переходом, связанным с поведением функции затрат, из модели Бэкмана. Однако обоснование упомянутого предельного перехода было сделано в нескольких важных (для практики), но все- таки частных случаях. В общем случае вопрос о возможности такого предельного перехода, насколько нам известно, остается открытым. Данная работа закрывает данный зазор. В статье в общем случае приводится обоснование возможности отмеченного предельного перехода (когда функция затрат на проезд по ребру как функция потока по ребру вырождается в функцию, равную постоянным затратам до достижения пропускной способности, и равна плюс бесконечности, при превышении пропускной способности).

    Kotliarova E.V., Krivosheev K.Yu., Gasnikova E.V., Sharovatova Y.I., Shurupov A.V.
    Proof of the connection between the Backman model with degenerate cost functions and the model of stable dynamics
    Computer Research and Modeling, 2022, v. 14, no. 2, pp. 335-342

    Since 1950s the field of city transport modelling has progressed rapidly. The first equilibrium distribution models of traffic flow appeared. The most popular model (which is still being widely used) was the Beckmann model, based on the two Wardrop principles. The core of the model could be briefly described as the search for the Nash equilibrium in a population demand game, in which losses of agents (drivers) are calculated based on the chosen path and demands of this path with correspondences being fixed. The demands (costs) of a path are calculated as the sum of the demands of different path segments (graph edges), that are included in the path. The costs of an edge (edge travel time) are determined by the amount of traffic on this edge (more traffic means larger travel time). The flow on a graph edge is determined by the sum of flows over all paths passing through the given edge. Thus, the cost of traveling along a path is determined not only by the choice of the path, but also by the paths other drivers have chosen. Thus, it is a standard game theory task. The way cost functions are constructed allows us to narrow the search for equilibrium to solving an optimization problem (game is potential in this case). If the cost functions are monotone and non-decreasing, the optimization problem is convex. Actually, different assumptions about the cost functions form different models. The most popular model is based on the BPR cost function. Such functions are massively used in calculations of real cities. However, in the beginning of the XXI century, Yu. E. Nesterov and A. de Palma showed that Beckmann-type models have serious weak points. Those could be fixed using the stable dynamics model, as it was called by the authors. The search for equilibrium here could be also reduced to an optimization problem, moreover, the problem of linear programming. In 2013, A.V.Gasnikov discovered that the stable dynamics model can be obtained by a passage to the limit in the Beckmann model. However, it was made only for several practically important, but still special cases. Generally, the question if this passage to the limit is possible remains open. In this paper, we provide the justification of the possibility of the above-mentioned passage to the limit in the general case, when the cost function for traveling along the edge as a function of the flow along the edge degenerates into a function equal to fixed costs until the capacity is reached and it is equal to plus infinity when the capacity is exceeded.

  3. Хрущев С.С., Фурсова П.В., Плюснина Т.Ю., Ризниченко Г.Ю., Рубин А.Б.
    Анализ скорости электронного транспорта через фотосинтетический цитохромный $b_6 f$ -комплекс
    Компьютерные исследования и моделирование, 2024, т. 16, № 4, с. 997-1022

    Рассматривается основанный на методах линейной алгебры подход к анализу скорости электронного транспорта через цитохромный $b_6 f$-комплекс. В предложенном подходе зависимость квазистационарного потока электронов через комплекс от степени восстановленности пулов мобильных переносчиков электрона выступает в качестве функции отклика, характеризующей этот процесс. Разработано программное обеспечение на языке программирования Python, позволяющее построить основное кинетическое уравнение для комплекса по схеме элементарных реакций и вычислить квазистационарные скорости электронного транспорта через комплекс и динамику их изменения в ходе переходного процесса. Вычисления проводятся в многопоточном режиме, что позволяет эффективно использовать ресурсы современных вычислительных систем и за сравнительно небольшое время получать данные о функционировании комплекса в широком диапазоне параметров. Предложенный подход может быть легко адаптирован для анализа электронного транспорта в других компонентах фотосинтетической и дыхательной электрон-транспортной цепи, а также других процессов в сложных мультиферментных комплексах, содержащих несколько реакционных центров. Для параметризации модели цитохромного $b_6 f$-комплекса использованы данные криоэлектронной микроскопии и окислительно-восстановительного титрования. Получены зависимости квазистационарной скорости восстановления пластоцианина и окисления пластохинона от степени восстановленности пулов мобильных переносчиков электрона и проанализирована динамика изменения скорости в ответ на изменение редокс-состояния пула пластохинонов. Результаты моделирования находятся в хорошем согласовании с имеющимися экспериментальными данными.

    Khruschev S.S., Fursova P.V., Plusnina T.Yu., Riznichenko G.Yu., Rubin A.B.
    Analysis of the rate of electron transport through photosynthetic cytochrome $b_6 f$ complex
    Computer Research and Modeling, 2024, v. 16, no. 4, pp. 997-1022

    We consider an approach based on linear algebra methods to analyze the rate of electron transport through the cytochrome $b_6 f$ complex. In the proposed approach, the dependence of the quasi-stationary electron flux through the complex on the degree of reduction of pools of mobile electron carriers is considered a response function characterizing this process. We have developed software in the Python programming language that allows us to construct the master equation for the complex according to the scheme of elementary reactions and calculate quasi-stationary electron transport rates through the complex and the dynamics of their changes during the transition process. The calculations are performed in multithreaded mode, which makes it possible to efficiently use the resources of modern computing systems and to obtain data on the functioning of the complex in a wide range of parameters in a relatively short time. The proposed approach can be easily adapted for the analysis of electron transport in other components of the photosynthetic and respiratory electron-transport chain, as well as other processes in multienzyme complexes containing several reaction centers. Cryo-electron microscopy and redox titration data were used to parameterize the model of cytochrome $b_6 f$ complex. We obtained dependences of the quasi-stationary rate of plastocyanin reduction and plastoquinone oxidation on the degree of reduction of pools of mobile electron carriers and analyzed the dynamics of rate changes in response to changes in the redox state of the plastoquinone pool. The modeling results are in good agreement with the available experimental data.

  4. Лобанов А.И., Миров Ф.Х.
    Использование разностных схем для уравнения переноса со стоком при моделировании энергосетей
    Компьютерные исследования и моделирование, 2020, т. 12, № 5, с. 1149-1164

    Современные системы транспортировки электроэнергии представляют собой сложные инженерные системы. В состав таких систем входят как точечные объекты (производители электроэнергии, потребители, трансформаторные подстанции), так и распределенные (линии электропередач). При создании математических моделей такие сооружения представляются в виде графов с различными типами узлов. Для исследования динамических эффектов в таких системах приходится решать численно систему дифференциальных уравнений в частных производных гиперболического типа.

    В работе использован подход, аналогичный уже примененным ранее при моделировании подобных задач. Использован вариант метода расщепления. Авторами предложен свой способ расщепления. В отличие от большинства известных работ расщепление проводится не по физическим процессам (перенос без диссипации, отдельно диссипативные процессы), а на перенос со стоковыми членами и «обменную» часть. Такое расщепление делает возможным построение гибридных схем для инвариантов Римана, обладающих высоким порядком аппроксимации и минимальной диссипативной погрешностью. Для однофазной ЛЭП приведен пример построения такой гибридной разностной схемы. Предложенная разностная схема строится на основе анализа свойств схем в пространстве неопределенных коэффициентов.

    Приведены примеры расчетов модельной задачи с использованием предложенного расщепления и построенной разностной схемы. На примере численных расчетов показано, что разностная схема позволяет численно воспроизводить возникающие области больших градиентов. Показано, что разностная схема позволяет обнаружить резонансы в подобных системах.

    Lobanov A.I., Mirov F.Kh.
    On the using the differential schemes to transport equation with drain in grid modeling
    Computer Research and Modeling, 2020, v. 12, no. 5, pp. 1149-1164

    Modern power transportation systems are the complex engineering systems. Such systems include both point facilities (power producers, consumers, transformer substations, etc.) and the distributed elements (f.e. power lines). Such structures are presented in the form of the graphs with different types of nodes under creating the mathematical models. It is necessary to solve the system of partial differential equations of the hyperbolic type to study the dynamic effects in such systems.

    An approach similar to one already applied in modeling similar problems earlier used in the work. New variant of the splitting method was used proposed by the authors. Unlike most known works, the splitting is not carried out according to physical processes (energy transport without dissipation, separately dissipative processes). We used splitting to the transport equations with the drain and the exchange between Reimann’s invariants. This splitting makes possible to construct the hybrid schemes for Riemann invariants with a high order of approximation and minimal dissipation error. An example of constructing such a hybrid differential scheme is described for a single-phase power line. The difference scheme proposed is based on the analysis of the properties of the schemes in the space of insufficient coefficients.

    Examples of the model problem numerical solutions using the proposed splitting and the difference scheme are given. The results of the numerical calculations shows that the difference scheme allows to reproduce the arising regions of large gradients. It is shown that the difference schemes also allow detecting resonances in such the systems.

  5. Смирнов С.А., Тарасов А.С.
    Автоматическая облачная система подстройки параметров алгоритмов
    Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 587-592

    В работе представлена система, обеспечивающая подбор наилучших в смысле времени выполнения настроек алгоритма. В качестве алгоритма был взят пакет решения задач частично-целочисленного линейного и нелинейного программирования SCIP. Возможность параллельного перебора множества вариантов настроек обеспечивается кластером из виртуальных машин, автоматически создаваемых в облаке. Представлены результаты работы системы на нескольких наборах задач.

    Smirnov S.A., Tarasov A.S.
    An automated system for program parameters fine tuning in the cloud
    Computer Research and Modeling, 2015, v. 7, no. 3, pp. 587-592

    The paper presents a software system aimed at finding best (in some sense) parameters of an algorithm. The system handles both discrete and continuous parameters and employs massive parallelism offered by public clouds. The paper presents an overview of the system, a method to measure algorithm's performance in the cloud and numerical results of system's use on several problem sets.

  6. В работе рассматриваются возможности реализации крупноблочных схем метода ветвей и границ для решения частично целочисленных задач линейного программирования. В качестве основы берется пакет оптимизации с открытым исходным кодом CBC. Анализируется возможность использования пакета для реализации крупноблочной схемы метода ветвей и границ. Система реализуется с использованием языка Erlang. Проводятся численные эксперименты на основе задачи о коммивояжере, показывающие заметное ускорение распределенной схемы решения задачи по сравнению с единичным однопоточным экземпляром пакета.

    Smirnov S.A., Voloshinov V.V.
    Pre-decomposition of discrete optimization problems to speed up the branch and bound method in a distributed computing environment
    Computer Research and Modeling, 2015, v. 7, no. 3, pp. 719-725

    The paper presents an implementation of branch and bound algorithm employing coarse grained parallelism. The system is based on CBC (COIN-OR branch and cut) open-source MIP solver and inter-process communication capabilities of Erlang. Numerical results show noticeable speedup in comparison to single-threaded CBC instance.

    Views (last year): 2. Citations: 2 (RSCI).
Pages: « first previous

Indexed in Scopus

Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU

The journal is included in the Russian Science Citation Index

The journal is included in the RSCI

International Interdisciplinary Conference "Mathematics. Computing. Education"