All issues
- 2024 Vol. 16
- 2023 Vol. 15
- 2022 Vol. 14
- 2021 Vol. 13
- 2020 Vol. 12
- 2019 Vol. 11
- 2018 Vol. 10
- 2017 Vol. 9
- 2016 Vol. 8
- 2015 Vol. 7
- 2014 Vol. 6
- 2013 Vol. 5
- 2012 Vol. 4
- 2011 Vol. 3
- 2010 Vol. 2
- 2009 Vol. 1
-
Разностные схемы для уравнения переноса, удовлетворяющие обобщенному условию аппроксимации
Компьютерные исследования и моделирование, 2018, т. 10, № 2, с. 181-193Cтроится семейство явных разностных схем на пятиточечном шаблоне для численного решения линейного уравнения переноса. Анализ свойств разностных схем проводится в пространстве неопределенных коэффициентов. Такие пространства впервые были введены в рассмотрение А. С. Холодовым. Для исследования свойств разностных схем ставилась задача линейного программирования. В качестве целевой функции обычно рассматривался коэффициент при главном члене невязки. Для построения монотонных разностных схем ставилась задача оптимизации с ограничениями типа неравенств. Ограниченность такого подхода становится ясной с учетом того, что аппроксимация разностной схемы определяется лишь на классических (гладких) решениях дифференциальной задачи.
В соответствие разностной схеме ставится некоторый функционал, определяющий свойства разностной схемы. Функционал должен быть линейным по коэффициентам схемы. Возможно, что функционал зависит от сеточной функции — решения разностной задачи или проекции на сетку решения дифференциальной задачи. Если первые члены разложения в ряд Тейлора этого функционала по сеточным параметрам совпадут с условиями классической аппроксимации, такой функционал будем называть обобщенным условием аппроксимации. В статье показано, что такие функционалы существуют. Для линейного уравнения с постоянными коэффициентами построение такого функционала возможно и для обобщенного (негладкого) решения дифференциальной задачи.
Построение разностной схемы с заданными свойствами тогда опирается на решение задачи поиска минимума функционала.
Построены семейства функционалов как для гладких решений исходной дифференциальной задачи, так и для обобщенных решений. Построены новые разностные схемы, основанные на анализе функционалов методами линейного программирования. При этом использован аппарат исследования пары самодвойственных задач линейного программирования. Найдена оптимальная монотонная разностная схема, обладающая первым порядком аппроксимации на гладком решении. Обсуждается возможность применения построенных новых схем для построения гибридных разностных схем повышенного порядка аппроксимации на гладких решениях.
Приводится пример численной реализации простейшей разностной схемы с обобщенной аппроксимацией.
Ключевые слова: разностная схема, уравнение переноса, классическое решение, обобщенное решение, монотонность, задача линейного программирования, двойственная задача, дополняющая нежесткость.
Finite difference schemes for linear advection equation solving under generalized approximation condition
Computer Research and Modeling, 2018, v. 10, no. 2, pp. 181-193Views (last year): 27.A set of implicit difference schemes on the five-pointwise stensil is under construction. The analysis of properties of difference schemes is carried out in a space of undetermined coefficients. The spaces were introduced for the first time by A. S. Kholodov. Usually for properties of difference schemes investigation the problem of the linear programming was constructed. The coefficient at the main term of a discrepancy was considered as the target function. The optimization task with inequalities type restrictions was considered for construction of the monotonic difference schemes. The limitation of such an approach becomes clear taking into account that approximation of the difference scheme is defined only on the classical (smooth) solutions of partial differential equations.
The functional which minimum will be found put in compliance to the difference scheme. The functional must be the linear on the difference schemes coefficients. It is possible that the functional depends on net function – the solution of a difference task or a grid projection of the differential problem solution. If the initial terms of the functional expansion in a Taylor series on grid parameters are equal to conditions of classical approximation, we will call that the functional will be the generalized condition of approximation. It is shown that such functionals exist. For the simple linear partial differential equation with constant coefficients construction of the functional is possible also for the generalized (non-smooth) solution of a differential problem.
Families of functionals both for smooth solutions of an initial differential problem and for the generalized solution are constructed. The new difference schemes based on the analysis of the functionals by linear programming methods are constructed. At the same time the research of couple of self-dual problems of the linear programming is used. The optimum monotonic difference scheme possessing the first order of approximation on the smooth solution of differential problem is found. The possibility of application of the new schemes for creation of hybrid difference methods of the raised approximation order on smooth solutions is discussed.
The example of numerical implementation of the simplest difference scheme with the generalized approximation is given.
-
Подход к решению невыпуклой равномерно вогнутой седловой задачи со структурой
Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 225-237В последнее время седловым задачам уделяется большое внимание благодаря их мощным возможностям моделирования для множества задач из различных областей. Приложения этих задач встречаются в многочисленных современных прикладных областях, таких как робастная оптимизация, распределенная оптимизация, теория игр и~приложения машинного обучения, такие как, например, минимизация эмпирического риска или обучение генеративно-состязательных сетей. Поэтому многие исследователи активно работают над разработкой численных методов для решения седловых задач в самых разных предположениях. Данная статья посвящена разработке численного метода решения седловых задач в невыпуклой равномерно вогнутой постановке. В этой постановке считается, что по группе прямых переменных целевая функция может быть невыпуклой, а по группе двойственных переменных задача является равномерно вогнутой (это понятие обобщает понятие сильной вогнутости). Был изучен более общий класс седловых задач со сложной композитной структурой и гёльдерово непрерывными производными высшего порядка. Для решения рассматриваемой задачи был предложен подход, при котором мы сводим задачу к комбинации двух вспомогательных оптимизационных задач отдельно для каждой группы переменных: внешней задачи минимизации и~внутренней задачи максимизации. Для решения внешней задачи минимизации мы используем адаптивный градиентный метод, который применим для невыпуклых задач, а также работает с неточным оракулом, который генерируется путем неточного решения внутренней задачи максимизации. Для решения внутренней задачи максимизации мы используем обобщенный ускоренный метод с рестартами, который представляет собой метод, объединяющий методы ускорения высокого порядка для минимизации выпуклой функции, имеющей гёльдерово непрерывные производные высшего порядка. Важной компонентой проведенного анализа сложности предлагаемого алгоритма является разделение оракульных сложностей на число вызовов оракула первого порядка для внешней задачи минимизации и оракула более высокого порядка для внутренней задачи максимизации. Более того, оценивается сложность всего предлагаемого подхода.
Ключевые слова: седловая задача, невыпуклая оптимизация, равномерно выпуклая функция, неточный оракул, метод высшего порядка.
An approach for the nonconvex uniformly concave structured saddle point problem
Computer Research and Modeling, 2022, v. 14, no. 2, pp. 225-237Recently, saddle point problems have received much attention due to their powerful modeling capability for a lot of problems from diverse domains. Applications of these problems occur in many applied areas, such as robust optimization, distributed optimization, game theory, and many applications in machine learning such as empirical risk minimization and generative adversarial networks training. Therefore, many researchers have actively worked on developing numerical methods for solving saddle point problems in many different settings. This paper is devoted to developing a numerical method for solving saddle point problems in the nonconvex uniformly-concave setting. We study a general class of saddle point problems with composite structure and H\"older-continuous higher-order derivatives. To solve the problem under consideration, we propose an approach in which we reduce the problem to a combination of two auxiliary optimization problems separately for each group of variables, the outer minimization problem w.r.t. primal variables, and the inner maximization problem w.r.t the dual variables. For solving the outer minimization problem, we use the Adaptive Gradient Method, which is applicable for nonconvex problems and also works with an inexact oracle that is generated by approximately solving the inner problem. For solving the inner maximization problem, we use the Restarted Unified Acceleration Framework, which is a framework that unifies the high-order acceleration methods for minimizing a convex function that has H\"older-continuous higher-order derivatives. Separate complexity bounds are provided for the number of calls to the first-order oracles for the outer minimization problem and higher-order oracles for the inner maximization problem. Moreover, the complexity of the whole proposed approach is then estimated.
-
Использование дополнительной информации в задаче обращения усредняющих операторов в пространстве функций
Компьютерные исследования и моделирование, 2011, т. 3, № 3, с. 241-254Решается двойственная задача интегральной геометрии: по заданному оператору усреднения определить класс функций, на котором возможно обращение этого оператора. Эти классы определяются неоднозначно. Дается полное описание таких классов в форме минимальной дополнительной информации, которую надо знать о функции. Исследуется возможность их конструктивного описания, и в случае конечной системы усреднения даются формулы обращения.
Complimentary information using in the task of averaging operators inversion in function space
Computer Research and Modeling, 2011, v. 3, no. 3, pp. 241-254The dual task of integral geometry – to define for a given averaging operator the function class where inversion of that operator is possible – is solved. Those classes are defined ambiguously. Full description of those classes is given in the form of minimal complimentary information necessary to know about the function. The possible to give a constructive description of the class is researched and in the case of a finite averaging system the inversion formulas are given.
-
Калибровка параметров модели расчета матрицы корреспонденций для г. Москвы
Компьютерные исследования и моделирование, 2020, т. 12, № 5, с. 961-978В данной работе рассматривается задача восстановления матрицы корреспонденций для наблюдений реальных корреспонденций в г. Москве. Следуя общепринятому подходу [Гасников и др., 2013], транспортная сеть рассматривается как ориентированный граф, дуги которого соответствуют участкам дороги, а вершины графа — районы, из которых выезжают / в которые въезжают участники движения. Число жителей города считается постоянным. Задача восстановления матрицы корреспонденций состоит в расчете всех корреспонденций израйона $i$ в район $j$.
Для восстановления матрицы предлагается использовать один из наиболее популярных в урбанистике способов расчета матрицы корреспонценций — энтропийная модель. В работе, в соответствии с работой [Вильсон, 1978], приводится описание эволюционного обоснования энтропийной модели, описывается основная идея перехода к решению задачи энтропийно-линейного программирования (ЭЛП) при расчете матрицы корреспонденций. Для решения полученной задачи ЭЛП предлагается перейти к двойственной задаче и решать задачу относительно двойственных переменных. В работе описывается несколько численных методов оптимизации для решения данной задачи: алгоритм Синхорна и ускоренный алгоритм Синхорна. Далее приводятся численные эксперименты для следующих вариантов функций затрат: линейная функция затрат и сумма степенной и логарифмической функции затрат. В данных функциях затраты представляют из себя некоторую комбинацию среднего времени в пути и расстояния между районами, которая зависит от параметров. Для каждого набора параметров функции затрат рассчитывается матрица корреспонденций и далее оценивается качество восстановленной матрицы относительно известной матрицы корреспонденций. Мы предполагаем, что шум в восстановленной матрице корреспонденций является гауссовским, в результате в качестве метрики качества выступает среднеквадратичное отклонение. Данная задача представляет из себя задачу невыпуклой оптимизации. В статье приводится обзор безградиенных методов оптимизации для решения невыпуклых задач. Так как число параметров функции затрат небольшое, для определения оптимальных параметров функции затрат было выбрано использовать метод перебора по сетке значений. Таким образом, для каждого набора параметров рассчитывается матрица корреспонденций и далее оценивается качество восстановленной матрицы относительно известной матрицы корреспонденций. Далее по минимальному значению невязки для каждой функции затрат определяется, для какой функции затрат и при каких значениях параметров восстановленная матрица наилучшим образом описывает реальные корреспонденции.
Ключевые слова: модель расчета матрицы корреспонденций, энтропийно-линейное программирование, метод Синхорна, метод ускоренного Синхорна.
Calibration of model parameters for calculating correspondence matrix for Moscow
Computer Research and Modeling, 2020, v. 12, no. 5, pp. 961-978In this paper, we consider the problem of restoring the correspondence matrix based on the observations of real correspondences in Moscow. Following the conventional approach [Gasnikov et al., 2013], the transport network is considered as a directed graph whose edges correspond to road sections and the graph vertices correspond to areas that the traffic participants leave or enter. The number of city residents is considered constant. The problem of restoring the correspondence matrix is to calculate all the correspondence from the $i$ area to the $j$ area.
To restore the matrix, we propose to use one of the most popular methods of calculating the correspondence matrix in urban studies — the entropy model. In our work, which is based on the work [Wilson, 1978], we describe the evolutionary justification of the entropy model and the main idea of the transition to solving the problem of entropy-linear programming (ELP) in calculating the correspondence matrix. To solve the ELP problem, it is proposed to pass to the dual problem. In this paper, we describe several numerical optimization methods for solving this problem: the Sinkhorn method and the Accelerated Sinkhorn method. We provide numerical experiments for the following variants of cost functions: a linear cost function and a superposition of the power and logarithmic cost functions. In these functions, the cost is a combination of average time and distance between areas, which depends on the parameters. The correspondence matrix is calculated for multiple sets of parameters and then we calculate the quality of the restored matrix relative to the known correspondence matrix.
We assume that the noise in the restored correspondence matrix is Gaussian, as a result, we use the standard deviation as a quality metric. The article provides an overview of gradient-free optimization methods for solving non-convex problems. Since the number of parameters of the cost function is small, we use the grid search method to find the optimal parameters of the cost function. Thus, the correspondence matrix calculated for each set of parameters and then the quality of the restored matrix is evaluated relative to the known correspondence matrix. Further, according to the minimum residual value for each cost function, we determine for which cost function and at what parameter values the restored matrix best describes real correspondence.
-
Улично-дорожная сеть является основой инфраструктуры любой урбанистической территории. В данной статье сравниваются структурные характеристики (коэффициент сетчатости, коэффициент кластеризации) дорожных сетей центра Москвы (старая Москва), сформированных в результате самоорганизации, и сети дорог вблизи Ленинского проспекта (послевоенная Москва), которая формировалась в процессе централизованного планирования. Данные для построения дорожных сетей в виде первичных графов взяты из интернет-ресурса OpenStreetMap, позволяющего точно идентифицировать координаты перекрестков. По вычисленным характеристикам в зарубежных публикациях найдены города, дорожные сети которых имеют сходные с этими двумя районами Москвы структуры. С учетом двойственного представления дорожных сетей центров Москвы и Петербурга, изучались информационно-когнитивные свойства навигации по этим туристическим районам двух столиц. При построении двойственного графа исследуемых районов не принимались во внимание различия в типах дорог (одностороннее или двусторонне движение и т. п.). То есть построенные двойственные графы являются неориентированным. Поскольку дорожные сети в двойственном представлении описываются степенным законом распределения вершин по числу ребер (являются безмасштабными сетями), вычислены показатели степеней этих распределений. Показано, что информационная сложность двойственного графа центра Москвы превышает когнитивный порог в 8.1 бит, а этот же показатель для центра Петербурга ниже этого порога. Это объясняется тем, что дорожная сеть центра Петербурга создавалась на основе планирования и потому более проста для навигации. В заключение, с использованием методов статистической механики (метод расчета статистических сумм) для дорожных сетей некоторых российских городов, вычислялась энтропия Гиббса. Обнаружено, что с ростом размеров дорожных сетей их энтропия уменьшается. Обсуждаются задачи изучения эволюции сетей городской инфраструктуры различной природы (сети общественного транспорта, снабжения, коммуникации и т. д.), что позволит более глубоко исследовать и понять фундаментальные закономерности процесса урбанизации.
Ключевые слова: коэффициент сетчатости, загруженность сети, двойственное представление сети, энтропия сети.Views (last year): 3.Road network infrastructure is the basis of any urban area. This article compares the structural characteristics (meshedness coefficient, clustering coefficient) road networks of Moscow center (Old Moscow), formed as a result of self-organization and roads near Leninsky Prospekt (postwar Moscow), which was result of cetralized planning. Data for the construction of road networks in the form of graphs taken from the Internet resource OpenStreetMap, allowing to accurately identify the coordinates of the intersections. According to the characteristics of the calculated Moscow road networks areas the cities with road network which have a similar structure to the two Moscow areas was found in foreign publications. Using the dual representation of road networks of centers of Moscow and St. Petersburg, studied the information and cognitive features of navigation in these tourist areas of the two capitals. In the construction of the dual graph of the studied areas were not taken into account the different types of roads (unidirectional or bi-directional traffic, etc), that is built dual graphs are undirected. Since the road network in the dual representation are described by a power law distribution of vertices on the number of edges (scale-free networks), exponents of these distributions were calculated. It is shown that the information complexity of the dual graph of the center of Moscow exceeds the cognitive threshold 8.1 bits, and the same feature for the center of St. Petersburg below this threshold, because the center of St. Petersburg road network was created on the basis of planning and therefore more easy to navigate. In conclusion, using the methods of statistical mechanics (the method of calculating the partition functions) for the road network of some Russian cities the Gibbs entropy were calculated. It was found that with the road network size increasing their entropy decreases. We discuss the problem of studying the evolution of urban infrastructure networks of different nature (public transport, supply , communication networks, etc.), which allow us to more deeply explore and understand the fundamental laws of urbanization.
-
Редукция дисперсии для минимаксных задач с небольшой размерностью одной из переменных
Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 257-275Статья посвящена выпукло-вогнутым седловым задачам, в которых целевая функция является суммой большого числа слагаемых. Такие задачи привлекают значительное внимание математического сообщества в связи с множеством приложений в машинном обучении, включая adversarial learning, adversarial attacks и robust reinforcement learning, и это лишь некоторые из них. Отдельные функции в сумме обычно представляют собой ошибку, связанную с объектом из выборки. Кроме того, формулировка допускает (возможно, негладкий) композитный член. Такие слагаемые часто отражают регуляризацию в задачах машинного обучения. Предполагается, что размерность одной из групп переменных относительно мала (около сотни или меньше), а другой — велика. Такой случай возникает, например, при рассмотрении двойственной формулировки задачи минимизации с умеренным числом ограничений. Предлагаемый подход основан на использовании метода секущей плоскости Вайды для минимизации относительно внешнего блока переменных. Этот алгоритм оптимизации особенно эффективен, когда размерность задачи не очень велика. Неточный оракул для метода Вайды вычисляется через приближенное решение внутренней задачи максимизации, которая решается ускоренным алгоритмом с редукцией дисперсии Katyusha. Таким образом, мы используем структуру задачи для достижения быстрой сходимости. В исследовании получены отдельные оценки сложности для градиентов различных компонент относительно различных переменных. Предложенный подход накладывает слабые предположения о целевой функции. В частности, не требуется ни сильной выпуклости, ни гладкости относительно низкоразмерной группы переменных. Количество шагов предложенного алгоритма, а также арифметическая сложность каждого шага явно зависят от размерности внешней переменной, отсюда предположение, что она относительно мала.
Ключевые слова: седловые задачи, методы первого порядка, методы секущей плоскости, редукция дисперсии.
Variance reduction for minimax problems with a small dimension of one of the variables
Computer Research and Modeling, 2022, v. 14, no. 2, pp. 257-275The paper is devoted to convex-concave saddle point problems where the objective is a sum of a large number of functions. Such problems attract considerable attention of the mathematical community due to the variety of applications in machine learning, including adversarial learning, adversarial attacks and robust reinforcement learning, to name a few. The individual functions in the sum usually represent losses related to examples from a data set. Additionally, the formulation admits a possibly nonsmooth composite term. Such terms often reflect regularization in machine learning problems. We assume that the dimension of one of the variable groups is relatively small (about a hundred or less), and the other one is large. This case arises, for example, when one considers the dual formulation for a minimization problem with a moderate number of constraints. The proposed approach is based on using Vaidya’s cutting plane method to minimize with respect to the outer block of variables. This optimization algorithm is especially effective when the dimension of the problem is not very large. An inexact oracle for Vaidya’s method is calculated via an approximate solution of the inner maximization problem, which is solved by the accelerated variance reduced algorithm Katyusha. Thus, we leverage the structure of the problem to achieve fast convergence. Separate complexity bounds for gradients of different components with respect to different variables are obtained in the study. The proposed approach is imposing very mild assumptions about the objective. In particular, neither strong convexity nor smoothness is required with respect to the low-dimensional variable group. The number of steps of the proposed algorithm as well as the arithmetic complexity of each step explicitly depend on the dimensionality of the outer variable, hence the assumption that it is relatively small.
-
Поиск стохастических равновесий в транспортных сетях с помощью универсального прямо-двойственного градиентного метода
Компьютерные исследования и моделирование, 2018, т. 10, № 3, с. 335-345В статье рассматривается одна из задач транспортного моделирования — поиск равновесного распределения транспортных потоков в сети. Для описания временных издержек и распределения потоков в сети, представляемой с помощью графа, используется классическая модель Бэкмана. При этом поведение агентов не является полностью рациональным, что описывается посредством введения марковской логит-динамики: в каждый момент времени водительвыбирает маршрут случайно согласно распределению Гиббса с учетом текущих временных затрат на ребрах графа. Таким образом, задача сводится к поиску стационарного распределения для данной динамики, которое является стохастическим равновесием Нэша – Вардропа в соответствующей популяционной игре загрузки транспортной сети. Так как данная игра является потенциальной, эта задача эквивалентна минимизации некоторого функционала от распределения потоков, причем стохастичностьпро является в появлении энтропийной регуляризации. Для полученной задачи оптимизации построена двойственная задача. Для ее решения применен универсальный прямо-двойственный градиентный метод. Его особенность заключается в адаптивной настройке на локальную гладкость задачи, что особенно важно при сложной структуре целевой функции и невозможности априорно оценитьг ладкость с приемлемой точностью. Такая ситуация имеет место в рассматриваемой задаче, так как свойства функции сильно зависят от транспортного графа, на который мы не накладываем сильных ограничений. В статье приводится описание алгоритма, в том числе подробно рассмотрено применение численного дифференцирования для вычисления значения и градиента целевой функции. В работе представлены теоретическая оценка времени работы алгоритма и результаты численных экспериментов на примере небольшого американского города.
Ключевые слова: модель Бэкмана, равновесие Нэша – Вардропа, универсальный метод подобных треугольников, выпуклая оптимизация.
Searching stochastic equilibria in transport networks by universal primal-dual gradient method
Computer Research and Modeling, 2018, v. 10, no. 3, pp. 335-345Views (last year): 28.We consider one of the problems of transport modelling — searching the equilibrium distribution of traffic flows in the network. We use the classic Beckman’s model to describe time costs and flow distribution in the network represented by directed graph. Meanwhile agents’ behavior is not completely rational, what is described by the introduction of Markov logit dynamics: any driver selects a route randomly according to the Gibbs’ distribution taking into account current time costs on the edges of the graph. Thus, the problem is reduced to searching of the stationary distribution for this dynamics which is a stochastic Nash – Wardrope equilibrium in the corresponding population congestion game in the transport network. Since the game is potential, this problem is equivalent to the problem of minimization of some functional over flows distribution. The stochasticity is reflected in the appearance of the entropy regularization, in contrast to non-stochastic case. The dual problem is constructed to obtain a solution of the optimization problem. The universal primal-dual gradient method is applied. A major specificity of this method lies in an adaptive adjustment to the local smoothness of the problem, what is most important in case of the complex structure of the objective function and an inability to obtain a prior smoothness bound with acceptable accuracy. Such a situation occurs in the considered problem since the properties of the function strongly depend on the transport graph, on which we do not impose strong restrictions. The article describes the algorithm including the numerical differentiation for calculation of the objective function value and gradient. In addition, the paper represents a theoretical estimate of time complexity of the algorithm and the results of numerical experiments conducted on a small American town.
-
Обзор выпуклой оптимизации марковских процессов принятия решений
Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 329-353В данной статье проведен обзор как исторических достижений, так и современных результатов в области марковских процессов принятия решений (Markov Decision Process, MDP) и выпуклой оптимизации. Данный обзор является первой попыткой освещения на русском языке области обучения с подкреплением в контексте выпуклой оптимизации. Рассматриваются фундаментальное уравнение Беллмана и построенные на его основе критерии оптимальности политики — стратегии, принимающие решение по известному состоянию среды на данный момент. Также рассмотрены основные итеративные алгоритмы оптимизации политики, построенные на решении уравнений Беллмана. Важным разделом данной статьи стало рассмотрение альтернативы к подходу $Q$-обучения — метода прямой максимизации средней награды агента для избранной стратегии от взаимодействия со средой. Таким образом, решение данной задачи выпуклой оптимизации представимо в виде задачи линейного программирования. В работе демонстрируется, как аппарат выпуклой оптимизации применяется для решения задачи обучения с подкреплением (Reinforcement Learning, RL). В частности, показано, как понятие сильной двойственности позволяет естественно модифицировать постановку задачи RL, показывая эквивалентность между максимизацией награды агента и поиском его оптимальной стратегии. В работе также рассматривается вопрос сложности оптимизации MDP относительно количества троек «состояние–действие–награда», получаемых в результате взаимодействия со средой. Представлены оптимальные границы сложности решения MDP в случае эргодического процесса с бесконечным горизонтом, а также в случае нестационарного процесса с конечным горизонтом, который можно перезапускать несколько раз подряд или сразу запускать параллельно в нескольких потоках. Также в обзоре рассмотрены последние результаты по уменьшению зазора нижней и верхней оценки сложности оптимизации MDP с усредненным вознаграждением (Averaged MDP, AMDP). В заключение рассматриваются вещественнозначная параметризация политики агента и класс градиентных методов оптимизации через максимизацию $Q$-функции ценности. В частности, представлен специальный класс MDP с ограничениями на ценность политики (Constrained Markov Decision Process, CMDP), для которых предложен общий прямодвойственный подход к оптимизации, обладающий сильной двойственностью.
Ключевые слова: MDP, выпуклая оптимизация, $Q$-обучение, линейное программирование, методы градиента политики.
Survey of convex optimization of Markov decision processes
Computer Research and Modeling, 2023, v. 15, no. 2, pp. 329-353This article reviews both historical achievements and modern results in the field of Markov Decision Process (MDP) and convex optimization. This review is the first attempt to cover the field of reinforcement learning in Russian in the context of convex optimization. The fundamental Bellman equation and the criteria of optimality of policy — strategies based on it, which make decisions based on the known state of the environment at the moment, are considered. The main iterative algorithms of policy optimization based on the solution of the Bellman equations are also considered. An important section of this article was the consideration of an alternative to the $Q$-learning approach — the method of direct maximization of the agent’s average reward for the chosen strategy from interaction with the environment. Thus, the solution of this convex optimization problem can be represented as a linear programming problem. The paper demonstrates how the convex optimization apparatus is used to solve the problem of Reinforcement Learning (RL). In particular, it is shown how the concept of strong duality allows us to naturally modify the formulation of the RL problem, showing the equivalence between maximizing the agent’s reward and finding his optimal strategy. The paper also discusses the complexity of MDP optimization with respect to the number of state–action–reward triples obtained as a result of interaction with the environment. The optimal limits of the MDP solution complexity are presented in the case of an ergodic process with an infinite horizon, as well as in the case of a non-stationary process with a finite horizon, which can be restarted several times in a row or immediately run in parallel in several threads. The review also reviews the latest results on reducing the gap between the lower and upper estimates of the complexity of MDP optimization with average remuneration (Averaged MDP, AMDP). In conclusion, the real-valued parametrization of agent policy and a class of gradient optimization methods through maximizing the $Q$-function of value are considered. In particular, a special class of MDPs with restrictions on the value of policy (Constrained Markov Decision Process, CMDP) is presented, for which a general direct-dual approach to optimization with strong duality is proposed.
-
Облачная интерпретация энтропийной модели расчета матрицы корреспонденций
Компьютерные исследования и моделирование, 2024, т. 16, № 1, с. 89-103С ростом населения городов сильнее ощущается необходимость планирования развития транспортной инфраструктуры. Для этой цели создаются пакеты транспортного моделирования, которые обычно содержат набор задач выпуклой оптимизации, итеративное решение которых приводит к искомому равновесному распределению потоков по путям. Одно из направлений развития транспортного моделирования — это построение более точных обобщенных моделей, которые учитывают различные типы пассажиров, их цели поездок, а также специфику личных и общественных средств передвижения, которыми могут воспользоваться агенты. Другим не менее важным направлением является улучшение эффективности производимых вычислений, так как в связи с большой размерностью современных транспортных сетей поиск численного решения задачи равновесного распределения потоков по путям является довольно затратным. Итеративность всего процесса решения лишь усугубляет это. Одним из подходов, ведущим к уменьшению числа производимых вычислений, и является построение согласованных моделей, которые позволяют объединить блоки 4-стадийной модели в единую задачу оптимизации. Это позволяет исключить итеративную прогонку блоков, перейдя от решения отдельной задачи оптимизации на каждом этапе к некоторой общей задаче. В ранних работах было доказано, что такие подходы дают эквивалентные решения. Тем не менее стоит рассмотреть обоснованность и интерпретируемость этих методов. Целью данной статьи является обоснование единой задачи, объединяющей в себе как расчет матрицы корреспонденций, так и модальный выбор, для обобщенного случая, когда в транспортной сети присутствуют различные слои спроса, типы агентов и классы транспортных средств. В статье приводятся возможные интерпретации для калибровочных параметров, применяемых в задаче, а также для двойственных множителей, ассоциированных с балансовыми ограничениями. Авторы статьи также показывают возможность объединения рассматриваемой задачи с блоком определения загрузки сети в единую задачу оптимизации.
Ключевые слова: мультиномиальный логит, модель дискретного выбора, модальный выбор, энтропийная модель.
Cloud interpretation of the entropy model for calculating the trip matrix
Computer Research and Modeling, 2024, v. 16, no. 1, pp. 89-103As the population of cities grows, the need to plan for the development of transport infrastructure becomes more acute. For this purpose, transport modeling packages are created. These packages usually contain a set of convex optimization problems, the iterative solution of which leads to the desired equilibrium distribution of flows along the paths. One of the directions for the development of transport modeling is the construction of more accurate generalized models that take into account different types of passengers, their travel purposes, as well as the specifics of personal and public modes of transport that agents can use. Another important direction of transport models development is to improve the efficiency of the calculations performed. Since, due to the large dimension of modern transport networks, the search for a numerical solution to the problem of equilibrium distribution of flows along the paths is quite expensive. The iterative nature of the entire solution process only makes this worse. One of the approaches leading to a reduction in the number of calculations performed is the construction of consistent models that allow to combine the blocks of a 4-stage model into a single optimization problem. This makes it possible to eliminate the iterative running of blocks, moving from solving a separate optimization problem at each stage to some general problem. Early work has proven that such approaches provide equivalent solutions. However, it is worth considering the validity and interpretability of these methods. The purpose of this article is to substantiate a single problem, that combines both the calculation of the trip matrix and the modal choice, for the generalized case when there are different layers of demand, types of agents and classes of vehicles in the transport network. The article provides possible interpretations for the gauge parameters used in the problem, as well as for the dual factors associated with the balance constraints. The authors of the article also show the possibility of combining the considered problem with a block for determining network load into a single optimization problem.
-
Тензорные методы для сильно выпуклых сильно вогнутых седловых задач и сильно монотонных вариационных неравенств
Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 357-376В данной статье предлагаются методы оптимизации высокого порядка (тензорные методы) для решения двух типов седловых задач. Первый тип — это классическая мин-макс-постановка для поиска седловой точки функционала. Второй тип — это поиск стационарной точки функционала седловой задачи путем минимизации нормы градиента этого функционала. Очевидно, что стационарная точка не всегда совпадает с точкой оптимума функции. Однако необходимость в решении подобного типа задач может возникать в случае, если присутствуют линейные ограничения. В данном случае из решения задачи поиска стационарной точки двойственного функционала можно восстановить решение задачи поиска оптимума прямого функционала. В обоих типах задач какие-либо ограничения на область определения целевого функционала отсутствуют. Также мы предполагаем, что целевой функционал является $\mu$-сильно выпуклыми $\mu$-сильно вогнутым, а также что выполняется условие Липшица для его $p$-й производной.
Для задач типа «мин-макс» мы предлагаем два алгоритма. Так как мы рассматриваем сильно выпуклую и сильно вогнутую задачу, первый алгоритмиспо льзует существующий тензорный метод для решения выпуклых вогнутых седловых задач и ускоряет его с помощью техники рестартов. Таким образом удается добиться линейной скорости сходимости. Используя дополнительные предположения о выполнении условий Липшица для первой и второй производных целевого функционала, можно дополнительно ускорить полученный метод. Для этого можно «переключиться» на другой существующий метод для решения подобных задач в зоне его квадратичной локальной сходимости. Так мы получаем второй алгоритм, обладающий глобальной линейной сходимостью и локальной квадратичной сходимостью. Наконец, для решения задач второго типа существует определенная методология для тензорных методов в выпуклой оптимизации. Суть ее заключается в применении специальной «обертки» вокруг оптимального метода высокого порядка. Причем для этого условие сильной выпуклости не является необходимым. Достаточно лишь правильным образом регуляризовать целевой функционал, сделав его таким образом сильно выпуклым и сильно вогнутым. В нашей работе мы переносим эту методологию на выпукло-вогнутые функционалы и используем данную «обертку» на предлагаемом выше алгоритме с глобальной линейной сходимостью и локальной квадратичной сходимостью. Так как седловая задача является частным случаем монотонного вариационного неравенства, предлагаемые методы также подойдут для поиска решения сильно монотонных вариационных неравенств.
Ключевые слова: вариационное неравенство, седловая задача, гладкость высокого порядка, тензорные методы, минимизация нормы градиента.
Tensor methods for strongly convex strongly concave saddle point problems and strongly monotone variational inequalities
Computer Research and Modeling, 2022, v. 14, no. 2, pp. 357-376In this paper we propose high-order (tensor) methods for two types of saddle point problems. Firstly, we consider the classic min-max saddle point problem. Secondly, we consider the search for a stationary point of the saddle point problem objective by its gradient norm minimization. Obviously, the stationary point does not always coincide with the optimal point. However, if we have a linear optimization problem with linear constraints, the algorithm for gradient norm minimization becomes useful. In this case we can reconstruct the solution of the optimization problem of a primal function from the solution of gradient norm minimization of dual function. In this paper we consider both types of problems with no constraints. Additionally, we assume that the objective function is $\mu$-strongly convex by the first argument, $\mu$-strongly concave by the second argument, and that the $p$-th derivative of the objective is Lipschitz-continous.
For min-max problems we propose two algorithms. Since we consider strongly convex a strongly concave problem, the first algorithm uses the existing tensor method for regular convex concave saddle point problems and accelerates it with the restarts technique. The complexity of such an algorithm is linear. If we additionally assume that our objective is first and second order Lipschitz, we can improve its performance even more. To do this, we can switch to another existing algorithm in its area of quadratic convergence. Thus, we get the second algorithm, which has a global linear convergence rate and a local quadratic convergence rate.
Finally, in convex optimization there exists a special methodology to solve gradient norm minimization problems by tensor methods. Its main idea is to use existing (near-)optimal algorithms inside a special framework. I want to emphasize that inside this framework we do not necessarily need the assumptions of strong convexity, because we can regularize the convex objective in a special way to make it strongly convex. In our article we transfer this framework on convex-concave objective functions and use it with our aforementioned algorithm with a global linear convergence and a local quadratic convergence rate.
Since the saddle point problem is a particular case of the monotone variation inequality problem, the proposed methods will also work in solving strongly monotone variational inequality problems.
Indexed in Scopus
Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU
The journal is included in the Russian Science Citation Index
The journal is included in the RSCI
International Interdisciplinary Conference "Mathematics. Computing. Education"