Результаты поиска по 'принятие решений':
Найдено статей: 68
  1. Эффективность систем связи и передачи данных (ССиПД), являющихся неотъемлемой составляющей современных систем практически в любой области науки и техники, во многом зависит от стабильности частоты формируемых сигналов. Формируемые в ССиПД сигналы могут рассматриваться как процессы, частота которых изменяется под действием совокупности внешних воздействий. Изменение частоты сигналов приводит к уменьшению отношения «сигнал/шум» (ОСШ) и, соответственно, ухудшению характеристик ССиПД, таких как вероятность битовой ошибки, пропускная способность. Описание таких изменений частоты сигналов наиболее удобно рассматривать как случайные процессы, аппарат которых находит широкое применение при построении математических моделей, описывающих функционирование систем и устройств в различных областях науки и техники. При этом во многих случаях характеристики случайного процесса, такие как закон распределения, математическое ожидание и дисперсия, могут являться неизвестными или известными с погрешностями, не позволяющими получить приемлемые по точности оценки параметров сигналов. В статье предлагается алгоритм решения задачи по определению характеристик случайного процесса (частоты сигнала) на основе набора отсчетов его частоты, позволяющих определить выборочное среднее, выборочную дисперсию и закон распределения отклонений частоты в генеральной совокупности. Основой данного алгоритма является сравнение измеренных на некотором временном интервале значений наблюдаемого случайного процесса с набором того же количества случайных значений, сформированных на основе модельных законов распределения. В качестве модельных законов распределения могут рассматриваться законы распределения, принятые на основе математических моделей этих систем и устройств или соответствующие аналогичным системам и устройствам. В качестве математического ожидания и дисперсии при формировании набора случайных значений для принятого модельного закона распределения принимаются выборочные среднее значение и дисперсия, полученные по результатам измерений наблюдаемого случайного процесса. Особенность алгоритма заключается в проведении сравнения упорядоченных по возрастанию или убыванию измеренных значений наблюдаемого случайного процесса и сформированных наборов значений в соответствии с принятыми моделями законов распределения. Приведены результаты математического моделирования, иллюстрирующие применение данного алгоритма.

    Safaryan O.A.
    Determining the characteristics of a random process by comparing them with values based on models of distribution laws
    Computer Research and Modeling, 2025, v. 17, no. 6, pp. 1105-1118

    The effectiveness of communication and data transmission systems (CSiPS), which are an integral part of modern systems in almost any field of science and technology, largely depends on the stability of the frequency of the generated signals. The signals generated in the CSiPD can be considered as processes, the frequency of which changes under the influence of a combination of external influences. Changing the frequency of the signals leads to a decrease in the signal-tonoise ratio (SNR) and, consequently, a deterioration in the characteristics of the signal-to-noise ratio, such as the probability of a bit error and bandwidth. It is most convenient to consider the description of such changes in the frequency of signals as random processes, the apparatus of which is widely used in the construction of mathematical models describing the functioning of systems and devices in various fields of science and technology. Moreover, in many cases, the characteristics of a random process, such as the distribution law, mathematical expectation, and variance, may be unknown or known with errors that do not allow us to obtain estimates of the signal parameters that are acceptable in accuracy. The article proposes an algorithm for solving the problem of determining the characteristics of a random process (signal frequency) based on a set of samples of its frequency, allowing to determine the sample mean, sample variance and the distribution law of frequency deviations in the general population. The basis of this algorithm is the comparison of the values of the observed random process measured over a certain time interval with a set of the same number of random values formed on the basis of model distribution laws. Distribution laws based on mathematical models of these systems and devices or corresponding to similar systems and devices can be considered as model distribution laws. When forming a set of random values for the accepted model distribution law, the sample mean value and variance obtained from the measurement results of the observed random process are used as mathematical expectation and variance. The feature of the algorithm is to compare the measured values of the observed random process ordered in ascending or descending order and the generated sets of values in accordance with the accepted models of distribution laws. The results of mathematical modeling illustrating the application of this algorithm are presented.

  2. Угольницкий Г.А., Усов А.Б.
    Теоретико-игровая модель согласования интересов при инновационном развитии корпорации
    Компьютерные исследования и моделирование, 2016, т. 8, № 4, с. 673-684

    Исследуются динамические теоретико-игровые модели инновационного развития корпорации. Предлагаемые модели основаны на согласовании частных и общественных интересов агентов. Предполагается, что структура интересов каждого агента включает как частную (личные интересы), так и общественную (интересы компании в целом, в первую очередь отражающие необходимость ее инновационного развития) составляющие. Агенты могут делить персональные ресурсы между этими направлениями. Динамика системы описывается не дифференциальным, а разностным уравнением. При исследовании предложенной модели инновационного развития используются имитация и метод перебора областей допустимых управлений субъектов с некоторым шагом. Основной вклад работы — сравнительный анализ эффективности методов иерархического управления для информационных регламентов Штакельберга/Гермейера при принуждении/побуждении (четыре регламента) с помощью индексов системной согласованности. Предлагаемая модель носит универсальный характер и может быть использована для научно обоснованной поддержки ПИР компаний всех отраслей экономики. Специфика конкретной компании учитывается в ходе идентификации модели (определения конкретных классов ис- пользуемых в модели функций и числовых значений параметров), которая представляет собой отдельную сложную задачу и предполагает анализ системы официальной отчетности компании и применение экспертных оценок ее специалистов. Приняты следующие предположения относительно информационного регламента иерархической игры: все игроки используют программные стратегии; ведущий выбирает и сообщает ведомым экономические управления либо административные управления, которые могут быть только функциями времени (игры Штакельберга) либо зависеть также от управлений ведомых (игры Гермейера); при известных стратегиях ведущего ведомые одновременно и независимо выбирают свои стратегии, что приводит к равновесию Нэша в игре ведомых. За конечное число итераций предложенный алгоритм имитационного моделирования позволяет построить приближенное решение модели или сделать вывод, что равновесия не существует. Достоверность и эффективность предложенного алгоритма следуют из свойств методов сценариев и прямого упорядоченного перебора с постоянным шагом. Получен ряд содержательных выводов относительно сравнительной эффективности методов иерархического управления инновациями.

    Ougolnitsky G.A., Usov A.B.
    Game-theoretic model of coordinations of interests at innovative development of corporations
    Computer Research and Modeling, 2016, v. 8, no. 4, pp. 673-684

    Dynamic game theoretic models of the corporative innovative development are investigated. The proposed models are based on concordance of private and public interests of agents. It is supposed that the structure of interests of each agent includes both private (personal interests) and public (interests of the whole company connected with its innovative development first) components. The agents allocate their personal resources between these two directions. The system dynamics is described by a difference (not differential) equation. The proposed model of innovative development is studied by simulation and the method of enumeration of the domains of feasible controls with a constant step. The main contribution of the paper consists in comparative analysis of efficiency of the methods of hierarchical control (compulsion or impulsion) for information structures of Stackelberg or Germeier (four structures) by means of the indices of system compatibility. The proposed model is a universal one and can be used for a scientifically grounded support of the programs of innovative development of any economic firm. The features of a specific company are considered in the process of model identification (a determination of the specific classes of model functions and numerical values of its parameters) which forms a separate complex problem and requires an analysis of the statistical data and expert estimations. The following assumptions about information rules of the hierarchical game are accepted: all players use open-loop strategies; the leader chooses and reports to the followers some values of administrative (compulsion) or economic (impulsion) control variables which can be only functions of time (Stackelberg games) or depend also on the followers’ controls (Germeier games); given the leader’s strategies all followers simultaneously and independently choose their strategies that gives a Nash equilibrium in the followers’ game. For a finite number of iterations the proposed algorithm of simulation modeling allows to build an approximate solution of the model or to conclude that it doesn’t exist. A reliability and efficiency of the proposed algorithm follow from the properties of the scenario method and the method of a direct ordered enumeration with a constant step. Some comprehensive conclusions about the comparative efficiency of methods of hierarchical control of innovations are received.

    Views (last year): 9. Citations: 6 (RSCI).
  3. Настоящая статья описывает разработанную авторами модель построения распределенной вычислительной сети и осуществления в ней распределенных вычислений, которые выполняются в рамках программно-информационной среды, обеспечивающей управление информационными, автоматизированными и инженерными системами интеллектуальных зданий. Представленная модель основана на функциональном подходе с инкапсуляцией недетерминированных вычислений и различных побочных эффектов в монадические вычисления, что позволяет применять все достоинства функционального программирования для выбора и исполнения сценариев управления различными аспектами жизнедеятельности зданий и сооружений. Кроме того, описываемая модель может использоваться совместно с процессом интеллектуализации технических и социотехнических систем для повышения уровня автономности принятия решений по управлению значениями параметров внутренней среды здания, а также для реализации методов адаптивного управления, в частности применения различных техник и подходов искусственного интеллекта. Важной частью модели является направленный ациклический граф, который представляет собой расширение блокчейна с возможностью существенным образом снизить стоимость транзакций с учетом выполнения смарт-контрактов. По мнению авторов, это позволит реализовать новые технологии и методы (распределенный реестр на базе направленного ациклического графа, вычисления на краю и гибридную схему построения искусственных интеллектуальных систем) и все это вместе использовать для повышения эффективности управления интеллектуальными зданиями. Актуальность представленной модели основана на необходимости и важности перевода процессов управления жизненным циклом зданий и сооружений в парадигму Индустрии 4.0 и применения для управления методов искусственного интеллекта с повсеместным внедрением автономных искусственных когнитивных агентов. Новизна модели вытекает из совокупного рассмотрения распределенных вычислений в рамках функционального подхода и гибридной парадигмы построения искусственных интеллектуальных агентов для управления интеллектуальными зданиями. Работа носит теоретический характер. Статья будет интересна ученым и инженерам, работающим в области автоматизации технологических и производственных процессов как в рамках интеллектуальных зданий, так и в части управления сложными техническими и социотехническими системами в целом.

    The present article describes the authors’ model of construction of the distributed computer network and realization in it of the distributed calculations which are carried out within the limits of the software-information environment providing management of the information, automated and engineering systems of intellectual buildings. The presented model is based on the functional approach with encapsulation of the non-determined calculations and various side effects in monadic calculations that allows to apply all advantages of functional programming to a choice and execution of scenarios of management of various aspects of life activity of buildings and constructions. Besides, the described model can be used together with process of intellectualization of technical and sociotechnical systems for increase of level of independence of decision-making on management of values of parameters of the internal environment of a building, and also for realization of methods of adaptive management, in particular application of various techniques and approaches of an artificial intellect. An important part of the model is a directed acyclic graph, which is an extension of the blockchain with the ability to categorically reduce the cost of transactions taking into account the execution of smart contracts. According to the authors it will allow one to realize new technologies and methods — the distributed register on the basis of the directed acyclic graph, calculation on edge and the hybrid scheme of construction of artificial intellectual systems — and all this together can be used for increase of efficiency of management of intellectual buildings. Actuality of the presented model is based on necessity and importance of translation of processes of management of life cycle of buildings and constructions in paradigm of Industry 4.0 and application for management of methods of an artificial intellect with universal introduction of independent artificial cognitive agents. Model novelty follows from cumulative consideration of the distributed calculations within the limits of the functional approach and hybrid paradigm of construction of artificial intellectual agents for management of intellectual buildings. The work is theoretical. The article will be interesting to scientists and engineers working in the field of automation of technological and industrial processes both within the limits of intellectual buildings, and concerning management of complex technical and social and technical systems as a whole.

  4. Лубашевский И.А., Лубашевский В.И.
    Модель динамической ловушки для описания человеческого контроля в рамках «стимул – реакция»
    Компьютерные исследования и моделирование, 2024, т. 16, № 1, с. 79-87

    В статье предлагается новая модель динамической ловушки типа «стимул – реакция», которая имитирует человеческий контроль динамических систем, где ограниченная рациональность человеческого сознания играет существенную роль. Детально рассматривается сценарий, в котором субъект модулирует контролируемую переменную в ответ на определенный стимул. В этом контексте ограниченная рациональность человеческого сознания проявляется в неопределенности восприятия стимула и последующих действий субъекта. Модель предполагает, что когда интенсивность стимула падает ниже (размытого) порога восприятия стимула, субъект приостанавливает управление и поддерживает контролируемую переменную вблизи нуля с точностью, определяемую неопределенностью ее управления. Когда интенсивность стимула превышает неопределенность восприятия и становится доступной человеческому сознания, испытуемый активирует контроль. Тем самым, динамику системы можно представить как чередующуюся последовательность пассивного и активного режимов управления с вероятностными переходами между ними. Более того, ожидается, что эти переходы проявляют гистерезис из-за инерции принятия решений.

    В общем случае пассивный и активный режимы базируются на различных механизмах, что является проблемой для создания эффективных алгоритмов их численного моделирования. Предлагаемая модель преодолевает эту проблему за счет введения динамической ловушки типа «стимул – реакция», имеющей сложную структуру. Область динамической ловушки включает две подобласти: область стагнации динамики системы и область гистерезиса. Модель основывается на формализме стохастических дифференциальных уравнений и описывает как вероятностные переходы между пассивным и активным режимами управления, так и внутреннюю динамику этих режимов в рамках единого представления. Предложенная модель воспроизводит ожидаемые свойства этих режимов управления, вероятностные переходы между ними и гистерезис вблизи порога восприятия. Кроме того, в предельном случае модель оказывается способной имитировать человеческий контроль, когда (1) активный режим представляет собой реализацию «разомкнутого» типа для локально запланированных действий и (2) активация контроля возникает только тогда, когда интенсивность стимула существенно возрастает и риск потери контроля системы становится существенным.

    Lubashevsky I.A., Lubashevskiy V.I.
    Dynamical trap model for stimulus – response dynamics of human control
    Computer Research and Modeling, 2024, v. 16, no. 1, pp. 79-87

    We present a novel model for the dynamical trap of the stimulus – response type that mimics human control over dynamic systems when the bounded capacity of human cognition is a crucial factor. Our focus lies on scenarios where the subject modulates a control variable in response to a certain stimulus. In this context, the bounded capacity of human cognition manifests in the uncertainty of stimulus perception and the subsequent actions of the subject. The model suggests that when the stimulus intensity falls below the (blurred) threshold of stimulus perception, the subject suspends the control and maintains the control variable near zero with accuracy determined by the control uncertainty. As the stimulus intensity grows above the perception uncertainty and becomes accessible to human cognition, the subject activates control. Consequently, the system dynamics can be conceptualized as an alternating sequence of passive and active modes of control with probabilistic transitions between them. Moreover, these transitions are expected to display hysteresis due to decision-making inertia.

    Generally, the passive and active modes of human control are governed by different mechanisms, posing challenges in developing efficient algorithms for their description and numerical simulation. The proposed model overcomes this problem by introducing the dynamical trap of the stimulus-response type, which has a complex structure. The dynamical trap region includes two subregions: the stagnation region and the hysteresis region. The model is based on the formalism of stochastic differential equations, capturing both probabilistic transitions between control suspension and activation as well as the internal dynamics of these modes within a unified framework. It reproduces the expected properties in control suspension and activation, probabilistic transitions between them, and hysteresis near the perception threshold. Additionally, in a limiting case, the model demonstrates the capability of mimicking a similar subject’s behavior when (1) the active mode represents an open-loop implementation of locally planned actions and (2) the control activation occurs only when the stimulus intensity grows substantially and the risk of the subject losing the control over the system dynamics becomes essential.

  5. Антонов И.В., Бруттан Ю.В., Горелов М.А., Яковлев Ю.С.
    Гибридная нейронная сеть для прогнозирования характеристик покрытия при газопламенном напылении
    Компьютерные исследования и моделирование, 2026, т. 18, № 1, с. 101-116

    Представлена модель гибридной искусственной нейронной сети, основанная на архитектуре, включающей сверточный энкодер изображений (Convolutional Neural Network, CNN) и модуль внимания (Attention-based Multiple Instance Learning, Attention MIL), обеспечивающий агрегирование информативных признаков из последовательности кадров процесса газопламенного напыления. Дополнительные технологические параметры — давление воздуха, давление пропана и расстояние от сопла до поверхности — интегрируются в модель через табличный канал, что позволяет учитывать взаимосвязь между визуальными и числовыми характеристиками технологического режима. Программная реализация выполнена на платформе Streamlit с использованием библиотеки PyTorch и включает интерактивный интерфейс для обучения и визуализации результатов, анализ весов внимания по кадрам, а также режим прогнозирования выходных характеристик — шероховатости поверхности ($R_a$) и массы нанесенного слоя ($m$). Проведены экспериментальные исследования на данных реальных технологических процессов, выполнен сравнительный анализ точности различных конфигураций модели. Показано, что гибридная нейронная сеть, объединяющая визуальные и табличные признаки, обеспечивает более высокую точность прогноза по сравнению с моделями, использующими только одну из модальностей. При сравнении вариантов реализации гибридной нейронной сети установлено, что использование механизма внимания при формировании признаков серии изображений процесса газопламенного напыления обеспечивает существенное увеличение точности результатов по сравнению с режимом усреднения признаков без использования механизма внимания. В приложении реализован модуль визуализации внимания, который создает монтаж наиболее значимых кадров и отображает их веса внимания, что позволяет определить, какие кадры оказали наибольшее влияние на прогноз. Реализована возможность экспорта модели в формат ONNX для интеграции в системы технологического контроля. Предложенный подход демонстрирует эффективность слияния визуальной и табличной информации для задач мониторинга технологических процессов. Модель может служить основой для создания системы поддержки принятия решений или системы автоматизированного контроля качества покрытия при газопламенном напылении. Рассмотрены ограничения реализованной модели и перспективы ее дальнейшего развития.

    Antonov I.V., Bruttan I.V., Gorelov M.A., Iakovlev I.S.
    Hybrid neural network for predicting coating characteristics in flame spraying
    Computer Research and Modeling, 2026, v. 18, no. 1, pp. 101-116

    The paper presents a hybrid artificial neural network model based on an architecture that incorporates a convolutional image encoder (CNN) and an attention module (Attention-based Multiple Instance Learning, Attention MIL). This module aggregates informative features from a sequence of frames capturing the flame spraying process. Additional technological parameters—air pressure, propane pressure, and standoff distance — are integrated into the model via a tabular channel, enabling it to account for the relationship between visual data and numerical process regime characteristics. The software implementation was developed using the Streamlit platform and the PyTorch library. It features an interactive interface for model training and result visualization, analysis of attention weights across frames, and a prediction mode for output characteristics: surface roughness ($R_a$) and the mass of the deposited coating ($m$). Experimental studies were conducted on data from real-world technological processes, and a comparative analysis of the accuracy of various model configurations was performed. The results demonstrate that the hybrid neural network, which combines visual and tabular features, achieves higher prediction accuracy compared to models using only a single modality. Furthermore, when comparing different implementations of the hybrid network, it was established that using the attention mechanism to process the series of flame spray images provides a significant increase in accuracy over a simple averaging of features without attention. The application includes an attention visualization module that creates a montage of the most significant frames and displays their attention weights, allowing users to identify which frames had the greatest influence on the prediction. The model’s capability for export to the ONNX format for integration into process control systems is also demonstrated. The proposed approach showcases the effectiveness of fusing visual and tabular information for manufacturing process monitoring tasks. The model can serve as a foundation for developing a decision support system or an automated quality control system for coatings produced by flame spraying. The limitations of the implemented model and prospects for its further development are also considered.

  6. Представлены результаты компьютерного моделирования нестационарных температурных полей, возникающих в полярных диэлектриках, облученных сфокусированными электронными пучками средних энергий, при исследовании с помощью методик растровой электронной микроскопии. Математическая модель основана на решении многомерного эволюционного уравнения теплопроводности численным конечноэлементным методом. Аппроксимация теплового источника проведена с учетом оценки области взаимодействия электронов с веществом на основе симуляции электронных траекторий методом Монте-Карло. Разработано программное приложение в ППП Маtlab, реализующее данную модель. Приведены геометрические интерпретации и результаты расчётов, демонстрирующие особенности температурного нагрева модельных образцов электронным зондом, при заданных параметрах эксперимента и принятой аппроксимации источника.

    Maslovskaya A.G., Sivunov A.V.
    The use of finite element method for simulation of heat conductivity processes in polar dielectrics irradiated by electron bunches
    Computer Research and Modeling, 2012, v. 4, no. 4, pp. 767-780

    The paper describes the results of computer simulation of time-dependent temperature fields arising in polar dielectrics irradiated by focused electron bunches with average electron energy when analyzing with electron microscopy techniques. The mathematical model was based on solving several-dimensional nonstationary heat conduction equation with use of numerical finite element method. The approximation of thermal source was performed taking into account the estimation of initial electron distribution determined by Monte-Carlo simulation of electron trajectories. The simulation program was designed in Matlab. The geometrical modeling and calculation results demonstrated the main features of model sample heating by electron beam were presented at the given experimental parameters as well as source approximation.

    Views (last year): 5. Citations: 3 (RSCI).
  7. Бурлаков Е.А.
    Зависимость работы организации от ее организационной структуры в ходе неожиданных и тлеющих кризисов
    Компьютерные исследования и моделирование, 2016, т. 8, № 4, с. 685-706

    В работе описана математическая модель функционирования организации с иерархической структурой управления на ранней стадии кризиса. Особенность развития этой стадии кризиса заключается в наличии так называемых сигналов раннего предупреждения, которые несут информацию о приближении нежелательного явления. Сотрудники организации способны улавливать эти сигналы и на их основе подготавливать ее к наступлению кризиса. Эффективность такой подготовки зависит как от параметров организации, так и от параметров кризисного явления. Предлагаемая в статье имитационная агентная модель реализована на языке программирования Java. Эта модель используется по методу Монте-Карло для сравнения децентрализованных и централизованных организационных структур, функционирующих в ходе неожиданных и тлеющих кризисов. Централизованными мы называем структуры с большим количеством уровней иерархии и малым количеством подчиненных у каждого руководителя, а децентрализованными — структуры с малым количеством уровней иерархии и большим количеством подчиненных у каждого руководителя. Под неожиданным кризисом понимается кризис со скоротечной ранней стадией и малым количеством слабых сигналов, а под тлеющим кризисом — кризис с длительной ранней стадией и большим количеством сигналов, не всегда несущих важную информацию. Эффективность функционирования организации на ранней стадии кризиса измеряется по двум параметрам: проценту сигналов раннего предупреждения, по которым были приняты решения для подготовки организации, и доле времени, отведенного руководителем организации на работу с сигналами. По результатам моделирования выявлено, что централизованные организации обрабатывают больше сигналов раннего предупреждения при тлеющих кризисах, а децентрализованные — при неожиданных кризисах. С другой стороны, занятость руководителя организации в ходе неожиданных кризисов выше для децентрализованных организаций, а в ходе тлеющих кризисов — для централизованных. В итоге, ни один из двух классов организаций не является более эффективным в ходе изученных типов кризисов сразу по обоим параметрам. Полученные в работе результаты проверены на устойчивость по параметрам, описывающим организацию и сотрудников.

    Burlakov E.A.
    Relation between performance of organization and its structure during sudden and smoldering crises
    Computer Research and Modeling, 2016, v. 8, no. 4, pp. 685-706

    The article describes a mathematical model that simulates performance of a hierarchical organization during an early stage of a crisis. A distinguished feature of this stage of crisis is presence of so called early warning signals containing information on the approaching event. Employees are capable of catching the early warnings and of preparing the organization for the crisis based on the signals’ meaning. The efficiency of the preparation depends on both parameters of the organization and parameters of the crisis. The proposed simulation agentbased model is implemented on Java programming language and is used for conducting experiments via Monte- Carlo method. The goal of the experiments is to compare how centralized and decentralized organizational structures perform during sudden and smoldering crises. By centralized organizations we assume structures with high number of hierarchy levels and low number of direct reports of every manager, while decentralized organizations mean structures with low number of hierarchy levels and high number of direct reports of every manager. Sudden crises are distinguished by short early stage and low number of warning signals, while smoldering crises are defined as crises with long lasting early stage and high number of warning signals not necessary containing important information. Efficiency of the organizational performance during early stage of a crisis is measured by two parameters: percentage of early warnings which have been acted upon in order to prepare organization for the crisis, and time spent by top-manager on working with early warnings. As a result, we show that during early stage of smoldering crises centralized organizations process signals more efficiently than decentralized organizations, while decentralized organizations handle early warning signals more efficiently during early stage of sudden crises. However, occupation of top-managers during sudden crises is higher in decentralized organizations and it is higher in centralized organizations during smoldering crises. Thus, neither of the two classes of organizational structures is more efficient by the two parameters simultaneously. Finally, we conduct sensitivity analysis to verify the obtained results.

    Views (last year): 2. Citations: 2 (RSCI).
  8. Руденко В.Д., Юдин Н.Е., Васин А.А.
    Обзор выпуклой оптимизации марковских процессов принятия решений
    Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 329-353

    В данной статье проведен обзор как исторических достижений, так и современных результатов в области марковских процессов принятия решений (Markov Decision Process, MDP) и выпуклой оптимизации. Данный обзор является первой попыткой освещения на русском языке области обучения с подкреплением в контексте выпуклой оптимизации. Рассматриваются фундаментальное уравнение Беллмана и построенные на его основе критерии оптимальности политики — стратегии, принимающие решение по известному состоянию среды на данный момент. Также рассмотрены основные итеративные алгоритмы оптимизации политики, построенные на решении уравнений Беллмана. Важным разделом данной статьи стало рассмотрение альтернативы к подходу $Q$-обучения — метода прямой максимизации средней награды агента для избранной стратегии от взаимодействия со средой. Таким образом, решение данной задачи выпуклой оптимизации представимо в виде задачи линейного программирования. В работе демонстрируется, как аппарат выпуклой оптимизации применяется для решения задачи обучения с подкреплением (Reinforcement Learning, RL). В частности, показано, как понятие сильной двойственности позволяет естественно модифицировать постановку задачи RL, показывая эквивалентность между максимизацией награды агента и поиском его оптимальной стратегии. В работе также рассматривается вопрос сложности оптимизации MDP относительно количества троек «состояние–действие–награда», получаемых в результате взаимодействия со средой. Представлены оптимальные границы сложности решения MDP в случае эргодического процесса с бесконечным горизонтом, а также в случае нестационарного процесса с конечным горизонтом, который можно перезапускать несколько раз подряд или сразу запускать параллельно в нескольких потоках. Также в обзоре рассмотрены последние результаты по уменьшению зазора нижней и верхней оценки сложности оптимизации MDP с усредненным вознаграждением (Averaged MDP, AMDP). В заключение рассматриваются вещественнозначная параметризация политики агента и класс градиентных методов оптимизации через максимизацию $Q$-функции ценности. В частности, представлен специальный класс MDP с ограничениями на ценность политики (Constrained Markov Decision Process, CMDP), для которых предложен общий прямодвойственный подход к оптимизации, обладающий сильной двойственностью.

    Rudenko V.D., Yudin N.E., Vasin A.A.
    Survey of convex optimization of Markov decision processes
    Computer Research and Modeling, 2023, v. 15, no. 2, pp. 329-353

    This article reviews both historical achievements and modern results in the field of Markov Decision Process (MDP) and convex optimization. This review is the first attempt to cover the field of reinforcement learning in Russian in the context of convex optimization. The fundamental Bellman equation and the criteria of optimality of policy — strategies based on it, which make decisions based on the known state of the environment at the moment, are considered. The main iterative algorithms of policy optimization based on the solution of the Bellman equations are also considered. An important section of this article was the consideration of an alternative to the $Q$-learning approach — the method of direct maximization of the agent’s average reward for the chosen strategy from interaction with the environment. Thus, the solution of this convex optimization problem can be represented as a linear programming problem. The paper demonstrates how the convex optimization apparatus is used to solve the problem of Reinforcement Learning (RL). In particular, it is shown how the concept of strong duality allows us to naturally modify the formulation of the RL problem, showing the equivalence between maximizing the agent’s reward and finding his optimal strategy. The paper also discusses the complexity of MDP optimization with respect to the number of state–action–reward triples obtained as a result of interaction with the environment. The optimal limits of the MDP solution complexity are presented in the case of an ergodic process with an infinite horizon, as well as in the case of a non-stationary process with a finite horizon, which can be restarted several times in a row or immediately run in parallel in several threads. The review also reviews the latest results on reducing the gap between the lower and upper estimates of the complexity of MDP optimization with average remuneration (Averaged MDP, AMDP). In conclusion, the real-valued parametrization of agent policy and a class of gradient optimization methods through maximizing the $Q$-function of value are considered. In particular, a special class of MDPs with restrictions on the value of policy (Constrained Markov Decision Process, CMDP) is presented, for which a general direct-dual approach to optimization with strong duality is proposed.

  9. Грачев В.А., Найштут Ю.С.
    Релаксационные колебания и устойчивость тонких оболочек
    Компьютерные исследования и моделирование, 2020, т. 12, № 4, с. 807-820

    В работе изучаются возможности прогнозирования потери устойчивости тонких цилиндрических оболочек неразрушающими методами на стадии эксплуатации. Исследуются пологие оболочки, изготовленные из высокопрочных материалов. Для таких конструктивных решений характерны перемещения поверхностей, превосходящие толщины элементов. В рассматриваемых оболочках могут генерироваться релаксационные колебания значительной амплитуды даже при сравнительно невысоком уровне внутренних напряжений. Произведено упрощенное механико-математическое моделирование задачи о колебаниях цилиндрической оболочки, сводящее проблему к обыкновенному дифференциальному уравнению. При создании модели существенно использованы исследования многих авторов по изучению геометрии поверхности, образующейся после потери устойчивости. Нелинейное обыкновенное дифференциальное уравнение колеблющейся оболочки совпадает с хорошо изученным уравнением Дуффинга. Важно, что для тонких оболочек в уравнении Дуффинга появляется малый параметр перед второй производной по времени. Последнее обстоятельство дает возможность провести детальный анализ выведенного уравнения и описать релаксационные колебания — физическое явление, присущее только тонким высокопрочным оболочкам.

    Показано, что гармонические колебания оболочки вокруг положения равновесия и устойчивые релаксационные колебания определяются точкой бифуркации решений уравнения Дуффинга. Эта точка является первой в схеме Фейгенбаума по преобразованию устойчивых периодических движений в динамический хаос. Произведены вычисления амплитуды и периода релаксационных колебаний в зависимости от физических свойств и уровня внутренних напряжений в оболочке. Рассмотрены два случая нагружения: сжатие вдоль образующих и внешнее давление.

    Отмечено, что если внешние силы изменяются в течение времени по гармоническому закону, то периодическое колебание оболочки (нелинейный резонанс) состоит из отрезков медленного и скачкообразного движений. Этот факт, наряду со знанием амплитуды и частоты колеблющейся оболочки, позволяет предложить экспериментальную установку для прогноза потери устойчивости оболочки неразрушающим методом. В качестве критерия безопасности принято следующее требование: максимальные комбинации нагрузок не должны вызывать перемещения, превышающие заданные пределы. Получена формула, оценивающая запас устойчивости (коэффициент безопасности) конструкции по результатам экспериментальных измерений.

    Grachev V.A., Nayshtut Yu.S.
    Relaxation oscillations and buckling of thin shells
    Computer Research and Modeling, 2020, v. 12, no. 4, pp. 807-820

    The paper reviews possibilities to predict buckling of thin cylindrical shells with non-destructive techniques during operation. It studies shallow shells made of high strength materials. Such structures are known for surface displacements exceeding the thickness of the elements. In the explored shells relaxation oscillations of significant amplitude can be generated even under relatively low internal stresses. The problem of the cylindrical shell oscillation is mechanically and mathematically modeled in a simplified form by conversion into an ordinary differential equation. To create the model, the researches of many authors were used who studied the geometry of the surface formed after buckling (postbuckling behavior). The nonlinear ordinary differential equation for the oscillating shell matches the well-known Duffing equation. It is important that there is a small parameter before the second time derivative in the Duffing equation. The latter circumstance enables making a detailed analysis of the obtained equation and describing the physical phenomena — relaxation oscillations — that are unique to thin high-strength shells.

    It is shown that harmonic oscillations of the shell around the equilibrium position and stable relaxation oscillations are defined by the bifurcation point of the solutions to the Duffing equation. This is the first point in the Feigenbaum sequence to convert the stable periodic motions into dynamic chaos. The amplitude and the period of relaxation oscillations are calculated based on the physical properties and the level of internal stresses within the shell. Two cases of loading are reviewed: compression along generating elements and external pressure.

    It is highlighted that if external forces vary in time according to the harmonic law, the periodic oscillation of the shell (nonlinear resonance) is a combination of slow and stick-slip movements. Since the amplitude and the frequency of the oscillations are known, this fact enables proposing an experimental facility for prediction of the shell buckling with non-destructive techniques. The following requirement is set as a safety factor: maximum load combinations must not cause displacements exceeding specified limits. Based on the results of the experimental measurements a formula is obtained to estimate safety against buckling (safety factor) of the structure.

  10. Минниханов Р.Н., Аникин И.В., Дагаева М.В., Аслямов Т.И., Большаков Т.Е.
    Подходы к обработке изображений в системе поддержки принятия решений центра автоматизированной фиксации административных правонарушений дорожного движения
    Компьютерные исследования и моделирование, 2021, т. 13, № 2, с. 405-415

    В статье предлагается ряд подходов к обработке изображений в системе поддержки принятия решений (СППР) центра автоматизированной фиксации административных правонарушений дорожного движения (ЦАФАП). Основной задачей данной СППР является помощь человеку-оператору в получении точной информации о государственном регистрационном знаке (ГРЗ) и модели транспортного средства (ТС) на основании изображений, полученных с комплексов фотовидеофиксации (ФВФ). В статье предложены подходы к распознаванию ГРЗ и марки/модели ТС на изображении, основанные на современных нейросетевых моделях. Для распознавания ГРЗ использована нейросетевая модель LPRNet с дополнительно введенным Spatial Transformer Layer для предобработки изображения. Для автоматического определения марки/модели ТС на изображении использована нейросетевая архитектура ResNeXt-101-32x8d. Предложен подход к формированию обучающей выборки для нейросетевой модели распознавания ГРЗ, основанный на методах компьютерного зрения и алгоритмах машинного обучения. В данном подходе использован алгоритм SIFT для нахождения ключевых точек изображения с ГРЗ и вычисления их дескрипторов, а для удаления точек-выбросов использован алгоритм DBSCAN. Точность распознавания ГРЗ на тестовой выборке составила 96 %. Предложен подход к повышению производительности процедур дообучения и распознавания марки/модели ТС, основанный на использовании новой архитектуры сверточной нейронной сети с «заморозкой» весовых коэффициентов сверточных слоев, дополнительным сверточным слоем распараллеливания процесса классификации и множеством бинарных классификаторов на выходе. Применение новой архитектуры позволило на несколько порядков уменьшить время дообучения нейросетевой модели распознавания марки/модели ТС с итоговой точностью классификации, близкой к 99 %. Предложенные подходы были апробированы и внедрены в СППР ЦАФАП Республики Татарстан.

    Minnikhanov R.N., Anikin I.V., Dagaeva M.V., Asliamov T.I., Bolshakov T.E.
    Approaches for image processing in the decision support system of the center for automated recording of administrative offenses of the road traffic
    Computer Research and Modeling, 2021, v. 13, no. 2, pp. 405-415

    We suggested some approaches for solving image processing tasks in the decision support system (DSS) of the Center for Automated Recording of Administrative Offenses of the Road Traffic (CARAO). The main task of this system is to assist the operator in obtaining accurate information about the vehicle registration plate and the vehicle brand/model based on images obtained from the photo and video recording systems. We suggested the approach for vehicle registration plate recognition and brand/model classification on the images based on modern neural network models. LPRNet neural network model supplemented by Spatial Transformer Layer was used to recognize the vehicle registration plate. The ResNeXt-101-32x8d neural network model was used to classify for vehicle brand/model. We suggested the approach to construct the training set for the neural network of vehicle registration plate recognition. The approach is based on computer vision methods and machine learning algorithms. The SIFT algorithm was used to detect and describe local features on images with the vehicle registration plate. DBSCAN clustering was used to detect and delete outliers in such local features. The accuracy of vehicle registration plate recognition was 96% on the testing set. We suggested the approach to improve the efficiency of using the ResNeXt-101-32x8d model at additional training and classification stages. The approach is based on the new architecture of convolutional neural networks with “freezing” weight coefficients of convolutional layers, an additional convolutional layer for parallelizing the classification process, and a set of binary classifiers at the output. This approach significantly reduced the time of additional training of neural network when new vehicle brand/model classification was needed. The final accuracy of vehicle brand/model classification was 99% on the testing set. The proposed approaches were tested and implemented in the DSS of the CARAO of the Republic of Tatarstan.

Pages: « first previous next last »

Indexed in Scopus

Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU

The journal is included in the Russian Science Citation Index

The journal is included in the RSCI

International Interdisciplinary Conference "Mathematics. Computing. Education"