Результаты поиска по 'обучение':
Найдено статей: 89
  1. Зацерковный А.В., Нурминский Е.А.
    Нейросетевой анализ транспортных потоков городских агломераций на основе данных публичных камер видеообзора
    Компьютерные исследования и моделирование, 2021, т. 13, № 2, с. 305-318

    Адекватное моделирование сложной динамики городских транспортных потоков требует сбора больших объемов данных для определения характера соответствующих моделей и их калибровки. Вместе с тем оборудование специализированных постов наблюдения является весьма затратным мероприятием и не всегда технически возможно. Совокупность этих факторов приводит к недостаточному фактографическому обеспечению как систем оперативного управления транспортными потоками, так и специалистов по транспортному планированию с очевидными последствиями для качества принимаемых решений. В качестве способа обеспечить массовый сбор данных хотя бы для качественного анализа ситуаций достаточно давно применяется обзорные видеокамеры, транслирующие изображения в определенные ситуационные центры, где соответствующие операторы осуществляют контроль и управление процессами. Достаточно много таких обзорных камер предоставляют данные своих наблюдений в общий доступ, что делает их ценным ресурсом для транспортных исследований. Вместе с тем получение количественных данных с таких камер сталкивается с существенными проблемами, относящимися к теории и практике обработки видеоизображений, чему и посвящена данная работа. В работе исследуется практическое применение некоторых мейнстримовских нейросетевых технологий для определения основных характеристик реальных транспортных потоков, наблюдаемых камерами общего доступа, классифицируются возникающие при этом проблемы и предлагаются их решения. Для отслеживания объектов дорожного движения применяются варианты сверточных нейронных сетей, исследуются способы их применения для определения базовых характеристик транспортных потоков. Простые варианты нейронной сети используются для автоматизации при получении обучающих примеров для более глубокой нейронной сети YOLOv4. Сеть YOLOv4 использована для оценки характеристик движения (скорость, плотность потока) для различных направлений с записей камер видеонаблюдения.

    Zatserkovnyy A.V., Nurminski E.A.
    Neural network analysis of transportation flows of urban aglomeration using the data from public video cameras
    Computer Research and Modeling, 2021, v. 13, no. 2, pp. 305-318

    Correct modeling of complex dynamics of urban transportation flows requires the collection of large volumes of empirical data to specify types of the modes and their identification. At the same time, setting a large number of observation posts is expensive and technically not always feasible. All this results in insufficient factographic support for the traffic control systems as well as for urban planners with the obvious consequences for the quality of their decisions. As one of the means to provide large-scale data collection at least for the qualitative situation analysis, the wide-area video cameras are used in different situation centers. There they are analyzed by human operators who are responsible for observation and control. Some video cameras provided their videos for common access, which makes them a valuable resource for transportation studies. However, there are significant problems with getting qualitative data from such cameras, which relate to the theory and practice of image processing. This study is devoted to the practical application of certain mainstream neuro-networking technologies for the estimation of essential characteristics of actual transportation flows. The problems arising in processing these data are analyzed, and their solutions are suggested. The convolution neural networks are used for tracking, and the methods for obtaining basic parameters of transportation flows from these observations are studied. The simplified neural networks are used for the preparation of training sets for the deep learning neural network YOLOv4 which is later used for the estimation of speed and density of automobile flows.

  2. Гладин Е.Л., Зайнуллина К.Э.
    Метод эллипсоидов для задач выпуклой стохастической оптимизации малой размерности
    Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1137-1147

    В статье рассматривается задача минимизации математического ожидания выпуклой функции. Задачи такого вида повсеместны в машинном обучении, а также часто возникают в ряде других приложений. На практике для их решения обычно используются процедуры типа стохастического градиентного спуска (SGD). В нашей работе предлагается решать такие задачи с использованием метода эллипсоидов с мини-батчингом. Алгоритм имеет линейную скорость сходимости и может оказаться эффективнее SGD в ряде задач. Это подтверждается в наших экспериментах, исходный код которых находится в открытом доступе. Для получения линейной скорости сходимости метода не требуется ни гладкость, ни сильная выпуклость целевой функции. Таким образом, сложность алгоритма не зависит от обусловленности задачи. В работе доказывается, что метод эллипсоидов с наперед заданной вероятностью находит решение с желаемой точностью при использовании мини-батчей, размер которых пропорционален точности в степени -2. Это позволяет выполнять алгоритм параллельно на большом числе процессоров, тогда как возможности для батчараллелизации процедур типа стохастического градиентного спуска весьма ограничены. Несмотря на быструю сходимость, общее количество вычислений градиента для метода эллипсоидов может получиться больше, чем для SGD, который неплохо сходится и при маленьком размере батча. Количество итераций метода эллипсоидов квадратично зависит от размерности задачи, поэтому метод подойдет для относительно небольших размерностей.

    Gladin E.L., Zainullina K.E.
    Ellipsoid method for convex stochastic optimization in small dimension
    Computer Research and Modeling, 2021, v. 13, no. 6, pp. 1137-1147

    The article considers minimization of the expectation of convex function. Problems of this type often arise in machine learning and a variety of other applications. In practice, stochastic gradient descent (SGD) and similar procedures are usually used to solve such problems. We propose to use the ellipsoid method with mini-batching, which converges linearly and can be more efficient than SGD for a class of problems. This is verified by our experiments, which are publicly available. The algorithm does not require neither smoothness nor strong convexity of the objective to achieve linear convergence. Thus, its complexity does not depend on the conditional number of the problem. We prove that the method arrives at an approximate solution with given probability when using mini-batches of size proportional to the desired accuracy to the power −2. This enables efficient parallel execution of the algorithm, whereas possibilities for batch parallelization of SGD are rather limited. Despite fast convergence, ellipsoid method can result in a greater total number of calls to oracle than SGD, which works decently with small batches. Complexity is quadratic in dimension of the problem, hence the method is suitable for relatively small dimensionalities.

  3. Востриков Д.Д., Конин Г.О., Лобанов А.В., Матюхин В.В.
    Влияние конечности мантиссы на точность безградиентных методов оптимизации
    Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 259-280

    Безградиентные методы оптимизации, или методы нулевого порядка, широко применяются в обучении нейронных сетей, обучении с подкреплением, а также в промышленных задачах, где доступны лишь значения функции в точке (работа с неаналитическими функциями). В частности, метод обратного распространения ошибки в PyTorch работает именно по этому принципу. Существует общеизвестный факт, что при компьютерных вычислениях используется эвристика чисел с плавающей точкой, и из-за этого возникает проблема конечности мантиссы.

    В этой работе мы, во-первых, сделали обзор наиболее популярных методов аппроксимации градиента: конечная прямая/центральная разность (FFD/FCD), покомпонентная прямая/центральная разность (FWC/CWC), прямая/центральная рандомизация на $l_2$ сфере (FSSG2/CFFG2); во-вторых, мы описали текущие теоретические представления шума, вносимого неточностью вычисления функции в точке: враждебный шум, случайный шум; в-третьих, мы провели серию экспериментов на часто встречающихся классах задач, таких как квадратичная задача, логистическая регрессия, SVM, чтобы попытаться определить, соответствует ли реальная природа машинного шума существующей теории. Оказалось, что в реальности (по крайней мере на тех классах задач, которые были рассмотрены в данной работе) машинный шум оказался чем-то средним между враждебным шумом и случайным, в связи с чем текущая теория о влиянии конечности мантиссы на поиск оптимума в задачах безградиентной оптимизации требует некоторой корректировки.

    Vostrikov D.D., Konin G.O., Lobanov A.V., Matyukhin V.V.
    Influence of the mantissa finiteness on the accuracy of gradient-free optimization methods
    Computer Research and Modeling, 2023, v. 15, no. 2, pp. 259-280

    Gradient-free optimization methods or zeroth-order methods are widely used in training neural networks, reinforcement learning, as well as in industrial tasks where only the values of a function at a point are available (working with non-analytical functions). In particular, the method of error back propagation in PyTorch works exactly on this principle. There is a well-known fact that computer calculations use heuristics of floating-point numbers, and because of this, the problem of finiteness of the mantissa arises.

    In this paper, firstly, we reviewed the most popular methods of gradient approximation: Finite forward/central difference (FFD/FCD), Forward/Central wise component (FWC/CWC), Forward/Central randomization on $l_2$ sphere (FSSG2/CFFG2); secondly, we described current theoretical representations of the noise introduced by the inaccuracy of calculating the function at a point: adversarial noise, random noise; thirdly, we conducted a series of experiments on frequently encountered classes of problems, such as quadratic problem, logistic regression, SVM, to try to determine whether the real nature of machine noise corresponds to the existing theory. It turned out that in reality (at least for those classes of problems that were considered in this paper), machine noise turned out to be something between adversarial noise and random, and therefore the current theory about the influence of the mantissa limb on the search for the optimum in gradient-free optimization problems requires some adjustment.

  4. Небаба С.Г., Марков Н.Г.
    Сверточные нейронные сети семейства YOLO для мобильных систем компьютерного зрения
    Компьютерные исследования и моделирование, 2024, т. 16, № 3, с. 615-631

    Работа посвящена анализу известных классов моделей сверточных нейронных сетей и исследованию выбранных из них перспективных моделей для детектирования летающих объектов на изображениях. Под детектированием объектов (англ. — Object Detection) здесь понимаются обнаружение, локализация в пространстве и классификация летающих объектов. Комплексное исследование выбранных перспективных моделей сверточных нейронных сетей проводится с целью выявления наиболее эффективных из них для создания мобильных систем компьютерного зрения реального времени. Показано, что наиболее приемлемыми для детектирования летающих объектов на изображениях с учетом сформулированных требований к мобильным системам компьютерного зрения реального времени и, соответственно, к лежащим в их основе моделям сверточных нейронных сетей являются модели семейства YOLO, причем наиболее перспективными следует считать пять моделей из этого семейства: YOLOv4, YOLOv4-Tiny, YOLOv4-CSP, YOLOv7 и YOLOv7-Tiny. Для обучения, валидации и комплексного исследования этих моделей разработан соответствующий набор данных. Каждое размеченное изображение из набора данных включает от одного до нескольких летающих объектов четырех классов: «птица», «беспилотный летательный аппарат самолетного типа», «беспилотный летательный аппарат вертолетного типа» и «неизвестный объект» (объекты в воздушном пространстве, не входящие в первые три класса). Исследования показали, что все модели сверточных нейронных сетей по скорости детектирования объектов на изображении (по скорости вычисления модели) значительно превышают заданное пороговое значение, однако только модели YOLOv4-CSP и YOLOv7, причем только частично, удовлетворяют требованию по точности детектирования (классификации) летающих объектов. Наиболее сложным для детектирования классом объектов является класс «птица». При этом выявлено, что наиболее эффективной по точности классификации является модель YOLOv7, модель YOLOv4-CSP на втором месте. Обе модели рекомендованы к использованию в составе мобильной системы компьютерного зрения реального времени при условии увеличения в созданном наборе данных числа изображений с объектами класса «птица» и дообучения этих моделей с тем, чтобы они удовлетворяли требованию по точности детектирования летающих объектов каждого из четырех классов.

    Nebaba S.G., Markov N.G.
    Convolutional neural networks of YOLO family for mobile computer vision systems
    Computer Research and Modeling, 2024, v. 16, no. 3, pp. 615-631

    The work analyzes known classes of convolutional neural network models and studies selected from them promising models for detecting flying objects in images. Object detection here refers to the detection, localization in space and classification of flying objects. The work conducts a comprehensive study of selected promising convolutional neural network models in order to identify the most effective ones from them for creating mobile real-time computer vision systems. It is shown that the most suitable models for detecting flying objects in images, taking into account the formulated requirements for mobile real-time computer vision systems, are models of the YOLO family, and five models from this family should be considered: YOLOv4, YOLOv4-Tiny, YOLOv4-CSP, YOLOv7 and YOLOv7-Tiny. An appropriate dataset has been developed for training, validation and comprehensive research of these models. Each labeled image of the dataset includes from one to several flying objects of four classes: “bird”, “aircraft-type unmanned aerial vehicle”, “helicopter-type unmanned aerial vehicle”, and “unknown object” (objects in airspace not included in the first three classes). Research has shown that all convolutional neural network models exceed the specified threshold value by the speed of detecting objects in the image, however, only the YOLOv4-CSP and YOLOv7 models partially satisfy the requirements of the accuracy of detection of flying objects. It was shown that most difficult object class to detect is the “bird” class. At the same time, it was revealed that the most effective model is YOLOv7, the YOLOv4-CSP model is in second place. Both models are recommended for use as part of a mobile real-time computer vision system with condition of additional training of these models on increased number of images with objects of the “bird” class so that they satisfy the requirement for the accuracy of detecting flying objects of each four classes.

  5. Зинченко Д.А., Никонов Э.Г., Зинченко А.И.
    Моделирование и анализ основных характеристик внутренней трековой системы многофункционального детектора частиц MPD методом Монте-Карло
    Компьютерные исследования и моделирование, 2019, т. 11, № 1, с. 87-94

    В настоящее время в ОИЯИ (Дубна) осуществляется строительство ускорительного комплекса NICA для проведения экспериментов по изучению взаимодействий релятивистских ядер и поляризованных частиц (протонов и дейтронов). Одна из создаваемых экспериментальных установок MPD (MultiPurpose Detector) рассчитана на изучение ядро-ядерных, протон-ядерных и протон-протонных взаимодействий. В связи с планами развития установки MPD рассматривается возможность создания внутреннего трекера с использованием кремниевых пиксельных детекторов нового поколения. Предполагается, что такой детектор позволит значительно повысить исследовательский потенциал эксперимента как для ядро-ядерных (за счет высокого пространственного разрешения вблизи области пересечения пучков), так и для протон-протонных (за счет высокого быстродействия) взаимодействий.

    В представленной работе изучаются основные характеристики такого трекера с использованием данных по протон-протонным взаимодействиям, полученных с помощью моделирования методом Монте-Карло. В частности, оцениваются возможности детектора по восстановлению вершин распада короткоживущих частиц и по выделению редких событий таких распадов среди продуктов гораздо более вероятных «обычных» взаимодействий. Также затрагивается проблема разделения вершин взаимодействий для восстановления наложенных событий при высокой светимости ускорителя и способность детектора проводить быструю селекцию редких событий (триггер). Полученные результаты могут быть использованы для обоснования необходимости создания данного детектора и развития системы триггера высокого уровня, основанного в том числе на методах машинного обучения.

    Zinchenko D.A., Nikonov E.G., Zinchenko A.I.
    A Monte-Carlo study of the inner tracking system main characteristics for multi purpose particle detector MPD
    Computer Research and Modeling, 2019, v. 11, no. 1, pp. 87-94

    At present, the accelerator complex NICA is being built at JINR (Dubna). It is intended for performing experiments to study interactions of relativistic nuclei and polarized particles (protons and deuterons). One of the experimental facilitues MPD (MultiPurpose Detector) was designed to investigate nucleus-nucleus, protonnucleus and proton-proton interactions. The existing plans of future MPD upgrade consider a possibility to install an inner tracker made of the new generation silicon pixel sensors. It is expected that such a detector will considerably enhance the research capability of the experiment both for nucleus-nucleus interactions (due to a high spatial resolution near the collision region) and proton-proton ones (due to a fast detector response).

    This paper presents main characteristics of such a tracker, obtained using a Monte-Carlo simulation of the detector for proton-proton collisions. In particular, the detector ability to reconstruct decay vertices of short-lived particles and perform a selection of rare events of such decays from much more frequent “common” interactions are evaluated. Also, the problem of a separation of multiple collisions during the high luminosity accelerator running and the task of detector triggering on rare events are addressed. The results obtained can be used to justify the necessity to build such a detector and to develop a high-level trigger system, possibly based on machine learning techniques.

    Views (last year): 28.
  6. Емалетдинова Л.Ю., Мухаметзянов З.И., Катасёва Д.В., Кабирова А.Н.
    Метод построения прогнозной нейросетевой модели временного ряда
    Компьютерные исследования и моделирование, 2020, т. 12, № 4, с. 737-756

    В данной статье рассматривается метод построения прогнозной нейросетевой модели временного ряда, основанный на определении состава входных переменных, построения обучающей выборки и самого обучения с использованием метода обратного распространения ошибки. Традиционные методы построения прогнозных моделей временного ряда (авторегрессионной модели, модели скользящего среднего или модели авторегрессии – скользящего среднего) позволяют аппроксимировать временной ряд линейной зависимостью текущего значения выходной переменной от некоторого количества ее предыдущих значений. Такое ограничение, как линейность зависимости, приводит к значительным ошибкам при прогнозировании.

    Технологии интеллектуального анализа с применением нейросетевого моделирования позволяют аппроксимировать временной ряд нелинейной зависимостью. Причем процесс построения нейросетевой модели (определение состава входных переменных, числа слоев и количества нейронов в слоях, выбор функций активации нейронов, определение оптимальных значений весов связей нейронов) позволяет получить прогнозную модель в виде аналитической нелинейной зависимости.

    Одним из ключевых моментов при построении нейросетевых моделей в различных прикладных областях, влияющих на ее адекватность, является определение состава ее входных переменных. Состав входных переменных традиционно выбирается из некоторых физических соображений или методом подбора. Для задачи определения состава входных переменных прогнозной нейросетевой модели временного ряда предлагается использовать особенности поведения автокорреляционной и частной автокорреляционной функций.

    В работе предлагается метод определения состава входных переменных нейросетевых моделей для стационарных и нестационарных временных рядов, базирующийся на построении и анализе автокорреляционных функций. На основе предложенного метода разработаны алгоритм и программа в среде программирования Python, определяющая состав входных переменных прогнозной нейросетевой модели — персептрона, а также строящая саму модель. Осуществлена экспериментальная апробация предложенного метода на примере построения прогнозной нейросетевой модели временного ряда, отражающего потребление электроэнергии в разных регионах США, открыто опубликованной компанией PJM Interconnection LLC (PJM) — региональной сетевой организацией в Соединенных Штатах. Данный временной ряд является нестационарным и характеризуется наличием как тренда, так и сезонности. Прогнозирование очередных значений временного ряда на ос- нове предыдущих значений и построенной нейросетевой модели показало высокую точность аппроксимации, что доказывает эффективность предлагаемого метода.

    Emaletdinova L.Y., Mukhametzyanov Z.I., Kataseva D.V., Kabirova A.N.
    A method of constructing a predictive neural network model of a time series
    Computer Research and Modeling, 2020, v. 12, no. 4, pp. 737-756

    This article studies a method of constructing a predictive neural network model of a time series based on determining the composition of input variables, constructing a training sample and training itself using the back propagation method. Traditional methods of constructing predictive models of the time series are: the autoregressive model, the moving average model or the autoregressive model — the moving average allows us to approximate the time series by a linear dependence of the current value of the output variable on a number of its previous values. Such a limitation as linearity of dependence leads to significant errors in forecasting.

    Mining Technologies using neural network modeling make it possible to approximate the time series by a nonlinear dependence. Moreover, the process of constructing of a neural network model (determining the composition of input variables, the number of layers and the number of neurons in the layers, choosing the activation functions of neurons, determining the optimal values of the neuron link weights) allows us to obtain a predictive model in the form of an analytical nonlinear dependence.

    The determination of the composition of input variables of neural network models is one of the key points in the construction of neural network models in various application areas that affect its adequacy. The composition of the input variables is traditionally selected from some physical considerations or by the selection method. In this work it is proposed to use the behavior of the autocorrelation and private autocorrelation functions for the task of determining the composition of the input variables of the predictive neural network model of the time series.

    In this work is proposed a method for determining the composition of input variables of neural network models for stationary and non-stationary time series, based on the construction and analysis of autocorrelation functions. Based on the proposed method in the Python programming environment are developed an algorithm and a program, determining the composition of the input variables of the predictive neural network model — the perceptron, as well as building the model itself. The proposed method was experimentally tested using the example of constructing a predictive neural network model of a time series that reflects energy consumption in different regions of the United States, openly published by PJM Interconnection LLC (PJM) — a regional network organization in the United States. This time series is non-stationary and is characterized by the presence of both a trend and seasonality. Prediction of the next values of the time series based on previous values and the constructed neural network model showed high approximation accuracy, which proves the effectiveness of the proposed method.

  7. Гладин Е.Л., Бородич Е.Д.
    Редукция дисперсии для минимаксных задач с небольшой размерностью одной из переменных
    Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 257-275

    Статья посвящена выпукло-вогнутым седловым задачам, в которых целевая функция является суммой большого числа слагаемых. Такие задачи привлекают значительное внимание математического сообщества в связи с множеством приложений в машинном обучении, включая adversarial learning, adversarial attacks и robust reinforcement learning, и это лишь некоторые из них. Отдельные функции в сумме обычно представляют собой ошибку, связанную с объектом из выборки. Кроме того, формулировка допускает (возможно, негладкий) композитный член. Такие слагаемые часто отражают регуляризацию в задачах машинного обучения. Предполагается, что размерность одной из групп переменных относительно мала (около сотни или меньше), а другой — велика. Такой случай возникает, например, при рассмотрении двойственной формулировки задачи минимизации с умеренным числом ограничений. Предлагаемый подход основан на использовании метода секущей плоскости Вайды для минимизации относительно внешнего блока переменных. Этот алгоритм оптимизации особенно эффективен, когда размерность задачи не очень велика. Неточный оракул для метода Вайды вычисляется через приближенное решение внутренней задачи максимизации, которая решается ускоренным алгоритмом с редукцией дисперсии Katyusha. Таким образом, мы используем структуру задачи для достижения быстрой сходимости. В исследовании получены отдельные оценки сложности для градиентов различных компонент относительно различных переменных. Предложенный подход накладывает слабые предположения о целевой функции. В частности, не требуется ни сильной выпуклости, ни гладкости относительно низкоразмерной группы переменных. Количество шагов предложенного алгоритма, а также арифметическая сложность каждого шага явно зависят от размерности внешней переменной, отсюда предположение, что она относительно мала.

    Gladin E.L., Borodich E.D.
    Variance reduction for minimax problems with a small dimension of one of the variables
    Computer Research and Modeling, 2022, v. 14, no. 2, pp. 257-275

    The paper is devoted to convex-concave saddle point problems where the objective is a sum of a large number of functions. Such problems attract considerable attention of the mathematical community due to the variety of applications in machine learning, including adversarial learning, adversarial attacks and robust reinforcement learning, to name a few. The individual functions in the sum usually represent losses related to examples from a data set. Additionally, the formulation admits a possibly nonsmooth composite term. Such terms often reflect regularization in machine learning problems. We assume that the dimension of one of the variable groups is relatively small (about a hundred or less), and the other one is large. This case arises, for example, when one considers the dual formulation for a minimization problem with a moderate number of constraints. The proposed approach is based on using Vaidya’s cutting plane method to minimize with respect to the outer block of variables. This optimization algorithm is especially effective when the dimension of the problem is not very large. An inexact oracle for Vaidya’s method is calculated via an approximate solution of the inner maximization problem, which is solved by the accelerated variance reduced algorithm Katyusha. Thus, we leverage the structure of the problem to achieve fast convergence. Separate complexity bounds for gradients of different components with respect to different variables are obtained in the study. The proposed approach is imposing very mild assumptions about the objective. In particular, neither strong convexity nor smoothness is required with respect to the low-dimensional variable group. The number of steps of the proposed algorithm as well as the arithmetic complexity of each step explicitly depend on the dimensionality of the outer variable, hence the assumption that it is relatively small.

  8. В данной работе представлены результаты экспериментальной проверки некоторых вопросов, касающихся практического использования методов преодоления катастрофической забывчивости нейронных сетей. Проведено сравнение двух таких современных методов: метода эластичного закрепления весов (EWC, Elastic Weight Consolidation) и метода ослабления скоростей весов (WVA, Weight Velocity Attenuation). Разобраныих преимущества и недостатки в сравнении друг с другом. Показано, что метод эластичного закрепления весов (EWC) лучше применять в задачах, где требуется полностью сохранять выученные навыки на всех задачах в очереди обучения, а метод ослабления скоростей весов (WVA) больше подходит для задач последовательного обучения с сильно ограниченными вычислительными ресурсами или же когда требуется не точное сохранение всех навыков, а переиспользование репрезентаций и ускорение обучения от задачи к задаче. Проверено и подтверждено интуитивное предположение, что ослабление метода WVA необходимо применять к оптимизационному шагу, то есть к приращениям весов нейронной сети, а не к самому градиенту функции потерь, и это справедливо для любого градиентного оптимизационного метода, кроме простейшего стохастического градиентного спуска (SGD), для которого оптимизационный шаг и градиент функции потерь пропорциональны. Рассмотрен выбор оптимальной функции ослабления скоростей весов между гиперболической функцией и экспонентой. Показано, что гиперболическое убывание более предпочтительно, так как, несмотря на сравнимое качество при оптимальных значениях гиперпараметра метода WVA, оно более устойчиво к отклонениям гиперпараметра от оптимального значения (данный гиперпараметр в методе WVA обеспечивает баланс между сохранением старых навыков и обучением новой задаче). Приведены эмпирические наблюдения, которые подтверждают гипотезу о том, что оптимальное значение гиперпараметра не зависит от числа задач в очереди последовательного обучения. Следовательно, данный гиперпараметр может подбираться на небольшом числе задач, а использоваться — на более длинных последовательностях.

    Kutalev A.A., Lapina A.A.
    Modern ways to overcome neural networks catastrophic forgetting and empirical investigations on their structural issues
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 45-56

    This paper presents the results of experimental validation of some structural issues concerning the practical use of methods to overcome catastrophic forgetting of neural networks. A comparison of current effective methods like EWC (Elastic Weight Consolidation) and WVA (Weight Velocity Attenuation) is made and their advantages and disadvantages are considered. It is shown that EWC is better for tasks where full retention of learned skills is required on all the tasks in the training queue, while WVA is more suitable for sequential tasks with very limited computational resources, or when reuse of representations and acceleration of learning from task to task is required rather than exact retention of the skills. The attenuation of the WVA method must be applied to the optimization step, i. e. to the increments of neural network weights, rather than to the loss function gradient itself, and this is true for any gradient optimization method except the simplest stochastic gradient descent (SGD). The choice of the optimal weights attenuation function between the hyperbolic function and the exponent is considered. It is shown that hyperbolic attenuation is preferable because, despite comparable quality at optimal values of the hyperparameter of the WVA method, it is more robust to hyperparameter deviations from the optimal value (this hyperparameter in the WVA method provides a balance between preservation of old skills and learning a new skill). Empirical observations are presented that support the hypothesis that the optimal value of this hyperparameter does not depend on the number of tasks in the sequential learning queue. And, consequently, this hyperparameter can be picked up on a small number of tasks and used on longer sequences.

  9. Приведены результаты исследований по идентификации каналов управляемого объекта, основанные на постобработке измерений с созданием модели многовходового управляемого объекта и последующем активном вычислительном эксперименте. Построение модели управляемого объекта осуществляется путем аппроксимации его поведения нейросетевой моделью по трендам, полученным в ходе пассивного эксперимента в режиме нормальной эксплуатации. Рекуррентная нейронная сеть, имеющая в своем составе элементы в виде обратных связей, позволяет моделировать поведение динамических объектов. Временны́е задержки входных сигналов и сигналов обратных связей позволяют моделировать поведение инерционных объектов с чистым запаздыванием. Обученная на примерах функционирования объекта с системой управления модель представлена динамической нейронной сетью и моделью регулятора с известной функцией регулирования. Нейросетевая модель эмулирует поведение системы и используется для проведения на ней опытов активного вычислительного эксперимента. Нейросетевая модель позволяет получить отклик управляемого объекта на испытательное воздействие, в том числе и на периодическое. По полученной комплексной частотной характеристике с применением метода наименьших квадратов находят значения параметров передаточной функции каналов объекта. Представлен пример идентификации канала имитационной системы управления. Имитационный объект имеет два входа и один выход и обладает различным транспортным запаздыванием по каналам передачи. Один из входов является управляющим воздействием, второй является контролируемым возмущением. Выходная управляемая величина изменяется в результате управляющего воздействия, вырабатываемого регулятором, работающим по пропорционально-интегральному закону регулирования, на основании отклонения управляемой величины от задания. Найденные параметры передаточных функций каналов имитационного объекта близки к значениям параметров исходного имитационного объекта. Приведенная ошибка реакции на единичное ступенчатое воздействие модели системы управления, построенной по результатам идентификации имитационной системы управления, не превышает 0.08. Рассматриваемые объекты относятся к классу технологических процессов с непрерывным характером производства. Подобные объекты характерны для химической, металлургической, горно-обогатительной, целлюлозно-бумажной и ряда других отраслей промышленности.

    Shumixin A.G., Aleksandrova A.S.
    Identification of a controlled object using frequency responses obtained from a dynamic neural network model of a control system
    Computer Research and Modeling, 2017, v. 9, no. 5, pp. 729-740

    We present results of a study aimed at identification of a controlled object’s channels based on postprocessing of measurements with development of a model of a multiple-input controlled object and subsequent active modelling experiment. The controlled object model is developed using approximation of its behavior by a neural network model using trends obtained during a passive experiment in the mode of normal operation. Recurrent neural network containing feedback elements allows to simulate behavior of dynamic objects; input and feedback time delays allow to simulate behavior of inertial objects with pure delay. The model was taught using examples of the object’s operation with a control system and is presented by a dynamic neural network and a model of a regulator with a known regulation function. The neural network model simulates the system’s behavior and is used to conduct active computing experiments. Neural network model allows to obtain the controlled object’s response to an exploratory stimulus, including a periodic one. The obtained complex frequency response is used to evaluate parameters of the object’s transfer system using the least squares method. We present an example of identification of a channel of the simulated control system. The simulated object has two input ports and one output port and varying transport delays in transfer channels. One of the input ports serves as a controlling stimulus, the second is a controlled perturbation. The controlled output value changes as a result of control stimulus produced by the regulator operating according to the proportional-integral regulation law based on deviation of the controlled value from the task. The obtained parameters of the object’s channels’ transfer functions are close to the parameters of the input simulated object. The obtained normalized error of the reaction for a single step-wise stimulus of the control system model developed based on identification of the simulated control system doesn’t exceed 0.08. The considered objects pertain to the class of technological processes with continuous production. Such objects are characteristic of chemical, metallurgic, mine-mill, pulp and paper, and other industries.

    Views (last year): 10.
  10. Шабанов А.Э., Петров М.Н., Чикиткин А.В.
    Многослойная нейронная сеть для определения размеров наночастиц в задаче лазерной спектрометрии
    Компьютерные исследования и моделирование, 2019, т. 11, № 2, с. 265-273

    Решение задачи лазерной спектрометрии позволяет определять размеры частиц в растворе по спектру интенсивности рассеянного света. В результате эксперимента методом динамического рассеяния света получается кривая интенсивности рассеяния, по которой необходимо определить, частицы каких размеров представлены в растворе. Экспериментально полученный спектр интенсивности сравнивается с теоретически ожидаемым спектром, который является кривой Лоренца. Основная задача сводится к тому, чтобы на основании этих данных найти относительные концентрации частиц каждого сорта, представленных в растворе. В статье представлен способ построения и использования нейронной сети, обученной на синтетических данных, для определения размера частиц в растворе в диапазоне 1–500 нм. Нейронная сеть имеет полносвязный слой из 60 нейронов с функцией активации RELU на выходе, слой из 45 нейронов и с аналогичной функцией активации, слой dropout и 2 слоя с количеством нейронов 15 и 1 (выход сети). В статье описано, как сеть обучалась и тестировалась на синтетических и экспериментальных данных. На синтетических данных метрика «среднеквадратичное отклонение» (rmse) дала значение 1.3157 нм. Экспериментальные данные были получены для размеров частиц 200 нм, 400 нм и раствора с представителями обоих размеров. Сравниваются результаты работы нейронной сети и классических линейных методов, основанных на применении различных регуляризаций за счет введения дополнительных параметров и применяемых для определения размера частиц. К недостаткам классических методов можно отнести трудность автоматического определения степени регуляризации: слишком сильная регуляризация приводит к тому, что кривые распределения частиц по размерам сильно сглаживаются, а слабая регуляризация дает осциллирующие кривые и низкую надежность результатов. В работе показано, что нейронная сеть дает хорошее предсказание для частиц с большим размером. Для малых размеров предсказание хуже, но ошибка быстро уменьшается с увеличением размера.

    Shabanov A.E., Petrov M.N., Chikitkin A.V.
    A multilayer neural network for determination of particle size distribution in Dynamic Light Scattering problem
    Computer Research and Modeling, 2019, v. 11, no. 2, pp. 265-273

    Solution of Dynamic Light Scattering problem makes it possible to determine particle size distribution (PSD) from the spectrum of the intensity of scattered light. As a result of experiment, an intensity curve is obtained. The experimentally obtained spectrum of intensity is compared with the theoretically expected spectrum, which is the Lorentzian line. The main task is to determine on the basis of these data the relative concentrations of particles of each class presented in the solution. The article presents a method for constructing and using a neural network trained on synthetic data to determine PSD in a solution in the range of 1–500 nm. The neural network has a fully connected layer of 60 neurons with the RELU activation function at the output, a layer of 45 neurons and the same activation function, a dropout layer and 2 layers with 15 and 1 neurons (network output). The article describes how the network has been trained and tested on synthetic and experimental data. On the synthetic data, the standard deviation metric (rmse) gave a value of 1.3157 nm. Experimental data were obtained for particle sizes of 200 nm, 400 nm and a solution with representatives of both sizes. The results of the neural network and the classical linear methods are compared. The disadvantages of the classical methods are that it is difficult to determine the degree of regularization: too much regularization leads to the particle size distribution curves are much smoothed out, and weak regularization gives oscillating curves and low reliability of the results. The paper shows that the neural network gives a good prediction for particles with a large size. For small sizes, the prediction is worse, but the error quickly decreases as the particle size increases.

    Views (last year): 16.
Pages: « first previous next last »

Indexed in Scopus

Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU

The journal is included in the Russian Science Citation Index

The journal is included in the RSCI

International Interdisciplinary Conference "Mathematics. Computing. Education"