All issues
- 2026 Vol. 18
- 2025 Vol. 17
- 2024 Vol. 16
- 2023 Vol. 15
- 2022 Vol. 14
- 2021 Vol. 13
- 2020 Vol. 12
- 2019 Vol. 11
- 2018 Vol. 10
- 2017 Vol. 9
- 2016 Vol. 8
- 2015 Vol. 7
- 2014 Vol. 6
- 2013 Vol. 5
- 2012 Vol. 4
- 2011 Vol. 3
- 2010 Vol. 2
- 2009 Vol. 1
-
Статистическое распределение фазы квазигармонического сигнала: основы теории и компьютерное моделирование
Компьютерные исследования и моделирование, 2024, т. 16, № 2, с. 287-297В работе представлены результаты фундаментального исследования, направленного на теоретическое изучение и компьютерное моделирование свойств статистического распределения фазы квазигармонического сигнала, формируемого в результате воздействия гауссовского шума на исходно гармонический сигнал. Методами математического анализа получены в явном виде формулы для основных характеристик данного распределения — функции распределения, функции плотности вероятности, функции правдоподобия. В результате проведенного компьютерного моделирования проанализированы зависимости данных функций от параметров распределения фазы. В работе разработаны и обоснованы методы оценивания параметров распределения фазы, несущих информацию об исходном, не искаженном шумом сигнале. Показано, что задача оценивания исходного значения фазы квазигармонического сигнала может эффективно решаться простым усреднением результатов выборочных измерений фазы, в то время как для решения задачи оценивания второго параметра распределения фазы — параметра уровня сигнала относительно шума — предлагается использовать метод максимума правдоподобия. В работе представлены графические материалы, полученные путем компьютерного моделирования основных характеристик исследуемого статистического распределения фазы. Существование и единственность максимума функции правдоподобия позволяют обосновать возможность и эффективность решения задачи оценивания уровня сигнала относительно уровня шума методом максимума правдоподобия. Развиваемый в работе метод оценивания уровня незашумленного сигнала относительно уровня шума, т.е. параметра, характеризующего интенсивность сигнала, на основании измерений фазы сигнала является оригинальным, принципиально новым, открывающим перспективы использования фазовых измерений как инструмента анализа стохастических данных. Данное исследование является значимым для решения задач расчета фазы и уровня сигнала методами статистической обработки выборочных фазовых измерений. Предлагаемые методы оценивания параметров распределения фазы квазигармонического сигнала могут использоваться при решении различных научных и прикладных задач, в частности, в таких областях, как радиофизика, оптика, радиолокация, радионавигация, метрология.
Ключевые слова: квазигармонический сигнал, гауссовский шум, отношение сигнала к шуму, функция распределения, функция плотности вероятности, функция правдоподобия, интеграл ошибок.
Statistical distribution of the quasi-harmonic signal’s phase: basics of theory and computer simulation
Computer Research and Modeling, 2024, v. 16, no. 2, pp. 287-297The paper presents the results of the fundamental research directed on the theoretical study and computer simulation of peculiarities of the quasi-harmonic signal’s phase statistical distribution. The quasi-harmonic signal is known to be formed as a result of the Gaussian noise impact on the initially harmonic signal. By means of the mathematical analysis the formulas have been obtained in explicit form for the principle characteristics of this distribution, namely: for the cumulative distribution function, the probability density function, the likelihood function. As a result of the conducted computer simulation the dependencies of these functions on the phase distribution parameters have been analyzed. The paper elaborates the methods of estimating the phase distribution parameters which contain the information about the initial, undistorted signal. It has been substantiated that the task of estimating the initial value of the phase of quasi-harmonic signal can be efficiently solved by averaging the results of the sampled measurements. As for solving the task of estimating the second parameter of the phase distribution, namely — the parameter, determining the signal level respectively the noise level — a maximum likelihood technique is proposed to be applied. The graphical illustrations are presented that have been obtained by means of the computer simulation of the principle characteristics of the phase distribution under the study. The existence and uniqueness of the likelihood function’s maximum allow substantiating the possibility and the efficiency of solving the task of estimating signal’s level relative to noise level by means of the maximum likelihood technique. The elaborated method of estimating the un-noised signal’s level relative to noise, i. e. the parameter characterizing the signal’s intensity on the basis of measurements of the signal’s phase is an original and principally new technique which opens perspectives of usage of the phase measurements as a tool of the stochastic data analysis. The presented investigation is meaningful for solving the task of determining the phase and the signal’s level by means of the statistical processing of the sampled phase measurements. The proposed methods of the estimation of the phase distribution’s parameters can be used at solving various scientific and technological tasks, in particular, in such areas as radio-physics, optics, radiolocation, radio-navigation, metrology.
-
Обновления аппаратно-программной базы ALICE перед вторым запуском Большого адронного коллайдера
Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 415-419В докладе представлен ряд новостей и обновлений ALICE computing к RUN2 и RUN3.
В их числе:
– ввод в работу новой системы EOS;
– переход к файловой системе CVMFS для хранения ПО;
– план решения проблемы Long Term Data Preservation;
– обзор концепции “O square”, совмещающей офлайн- и онлайн-обработку данных;
– обзор существующих моделей использования виртуальных облаков для обработки данных ALICE.
Ряд нововведений показан на примере российских сайтов.
ALICE computing update before start of RUN2
Computer Research and Modeling, 2015, v. 7, no. 3, pp. 415-419Views (last year): 2.The report presents a number of news and updates of the ALICE computing for RUN2 and RUN3.
This includes:
– implementation in production of a new system EOS;
– migration to the file system CVMFS to be used for storage of the software;
– the plan for solving the problem of “Long-Term Data Preservation”;
– overview of the concept of “O square”, combining offline and online data processing;
– overview of the existing models to use the virtual clouds for ALICE data processing. Innovations are shown on the example of the Russian sites.
-
Преобразование исходных показателей технологического процесса выплавки стали для последующего моделирования
Компьютерные исследования и моделирование, 2017, т. 9, № 2, с. 187-199Эффективность производственного процесса непосредственно зависит от качества управления технологией, которая, в свою очередь, опирается на точность и оперативность обработки контрольно- измерительной информации. Разработка математических методов исследования системных связей и закономерностей функционирования и построение математических моделей с учетом структурных особенностей объекта исследований, а также написание программных продуктов для реализации данных методов являются актуальными задачами. Практика показала, что список параметров, имеющих место при исследовании сложного объекта современного производства, варьируется от нескольких десятков до нескольких сот наименований, причем степень воздействия каждого из факторов в начальный момент не ясна. Приступать к работе по непосредственному определению модели в этих условиях нельзя — объем требуемой информации может оказаться слишком велик, причем бóльшая часть работы по сбору этой информации будет проделана впустую из-за того, что степень влияния на параметры оптимизации большинства факторов из первоначального списка окажется пренебрежимо малой. Поэтому необходимым этапом при определении модели сложного объекта является работа по сокращению размерности факторного пространства. Большинство промышленных производств являются групповыми иерархическими процессами массового и крупносерийного производства, характеризующимися сотнями факторов. (Для примера реализации математических методов и апробации построенных моделей в основу были взяты данные Молдавского металлургического завода.) С целью исследования системных связей и закономерностей функционирования таких сложных объектов обычно выбираются несколько информативных параметров и осуществляется их выборочный контроль. В данной статье описывается последовательность приведения исходных показателей технологического процесса выплавки стали к виду, пригодному для построения математической модели с целью прогнозирования, внедрения новых видов стали и создание основы для разработки системы автоматизированного управления качеством продукции. В процессе преобразования выделяются следующие этапы: сбор и анализ исходных данных, построение таблицы слабокоррелированных параметров, сокращение факторного пространства с помощью корреляционных плеяд и метода весовых коэффициентов. Полученные результаты позволяют оптимизировать процесс построения модели многофакторного процесса.
Ключевые слова: плавка стали, исходная таблица данных, корреляционная матрица, корреляционные плеяды, матрица факторов, весовые коэффициенты.
Conversion of the initial indices of the technological process of the smelting of steel for the subsequent simulation
Computer Research and Modeling, 2017, v. 9, no. 2, pp. 187-199Views (last year): 6. Citations: 1 (RSCI).Efficiency of production directly depends on quality of the management of technology which, in turn, relies on the accuracy and efficiency of the processing of control and measuring information. Development of the mathematical methods of research of the system communications and regularities of functioning and creation of the mathematical models taking into account structural features of object of researches, and also writing of the software products for realization of these methods are an actual task. Practice has shown that the list of parameters that take place in the study of complex object of modern production, ranging from a few dozen to several hundred names, and the degree of influence of each factor in the initial time is not clear. Before working for the direct determination of the model in these circumstances, it is impossible — the amount of the required information may be too great, and most of the work on the collection of this information will be done in vain due to the fact that the degree of influence on the optimization of most factors of the original list would be negligible. Therefore, a necessary step in determining a model of a complex object is to work to reduce the dimension of the factor space. Most industrial plants are hierarchical group processes and mass volume production, characterized by hundreds of factors. (For an example of realization of the mathematical methods and the approbation of the constructed models data of the Moldavian steel works were taken in a basis.) To investigate the systemic linkages and patterns of functioning of such complex objects are usually chosen several informative parameters, and carried out their sampling. In this article the sequence of coercion of the initial indices of the technological process of the smelting of steel to the look suitable for creation of a mathematical model for the purpose of prediction is described. The implementations of new types became also creation of a basis for development of the system of automated management of quality of the production. In the course of weak correlation the following stages are selected: collection and the analysis of the basic data, creation of the table the correlated of the parameters, abbreviation of factor space by means of the correlative pleiads and a method of weight factors. The received results allow to optimize process of creation of the model of multiple-factor process.
-
Разработка алгоритма анизотропной нелинейной фильтрации данных компьютерной томографии с применением динамического порога
Компьютерные исследования и моделирование, 2019, т. 11, № 2, с. 233-248В статье рассматривается разработка алгоритма шумоподавления на основе анизотропной нелинейной фильтрации данных. Анализ отечественной и зарубежной литературы показал, что наиболее эффективные алгоритмы шумоподавления данных рентгеновской компьютерной томографии применяют комплекс нелинейных методик анализа и обработки данных, таких как билатеральная, адаптивная, трехмерная фильтрации. Однако комбинация таких методик редко применяется на практике ввиду большого времени обработки данных. В связи с этим было принято решение разработать эффективный и быстродейственный алгоритм шумоподавления на основе упрощенных билатеральных фильтров с трехмерным накоплением данных. Алгоритм был разработан на языке C++11 в программной среде Microsoft Visual Studio 2015. Основным отличием разработанного алгоритма шумоподавления является применение в нем улучшенной математической модели шума на основе распределения Пуассона и Гаусса от логарифмической величины, разработанной ранее. Это позволило точнее определить уровень шума и тем самым порог обработки данных. В результате работы алгоритма шумоподавления были получены обработанные данные компьютерной томографии с пониженным уровнем шума. При визуальной оценке работы алгоритма были отмечены повышенная информативность обработанных данных по сравнению с оригиналом, четкость отображения гомогенных областей и значительное сокращение шума в областях обработки. При оценке численных результатов обработки было выявлено снижение уровня среднеквадратичного отклонения более чем в 6 раз в областях, подвергшихся шумоподавлению, а высокие показатели коэффициента детерминации показали, что данные не подверглись искажению и изменились только из-за удаления шумов. Применение разработанного универсального динамического порога, принцип работы которого основан на пороговых критериях, позволил снизить уровень шума во всем массиве данных более чем в 6 раз. Динамический порог хорошо вписывается как в разработанный алгоритм шумоподавления на основе анизотропной нелинейной фильтрации, так и другой алгоритм шумоподавления. Алгоритм успешно функционирует в составе рабочей станции MultiVox, получил высокую оценку своей работы от специалистов-рентгенологов, а также готовится к внедрению в единую радиологическую сеть города Москвы в качестве модуля.
Ключевые слова: компьютерная томография (КТ), низкодозовая компьютерная томография (НДКТ), доза облучения, шумоподавление, анизотропия, динамическая фильтрация.
Development of anisotropic nonlinear noise-reduction algorithm for computed tomography data with context dynamic threshold
Computer Research and Modeling, 2019, v. 11, no. 2, pp. 233-248Views (last year): 21.The article deals with the development of the noise-reduction algorithm based on anisotropic nonlinear data filtering of computed tomography (CT). Analysis of domestic and foreign literature has shown that the most effective algorithms for noise reduction of CT data use complex methods for analyzing and processing data, such as bilateral, adaptive, three-dimensional and other types of filtrations. However, a combination of such techniques is rarely used in practice due to long processing time per slice. In this regard, it was decided to develop an efficient and fast algorithm for noise-reduction based on simplified bilateral filtration method with three-dimensional data accumulation. The algorithm was developed on C ++11 programming language in Microsoft Visual Studio 2015. The main difference of the developed noise reduction algorithm is the use an improved mathematical model of CT noise, based on the distribution of Poisson and Gauss from the logarithmic value, developed earlier by our team. This allows a more accurate determination of the noise level and, thus, the threshold of data processing. As the result of the noise reduction algorithm, processed CT data with lower noise level were obtained. Visual evaluation of the data showed the increased information content of the processed data, compared to original data, the clarity of the mapping of homogeneous regions, and a significant reduction in noise in processing areas. Assessing the numerical results of the algorithm showed a decrease in the standard deviation (SD) level by more than 6 times in the processed areas, and high rates of the determination coefficient showed that the data were not distorted and changed only due to the removal of noise. Usage of newly developed context dynamic threshold made it possible to decrease SD level on every area of data. The main difference of the developed threshold is its simplicity and speed, achieved by preliminary estimation of the data array and derivation of the threshold values that are put in correspondence with each pixel of the CT. The principle of its work is based on threshold criteria, which fits well both into the developed noise reduction algorithm based on anisotropic nonlinear filtration, and another algorithm of noise-reduction. The algorithm successfully functions as part of the MultiVox workstation and is being prepared for implementation in a single radiological network of the city of Moscow.
-
Нейросетевой анализ транспортных потоков городских агломераций на основе данных публичных камер видеообзора
Компьютерные исследования и моделирование, 2021, т. 13, № 2, с. 305-318Адекватное моделирование сложной динамики городских транспортных потоков требует сбора больших объемов данных для определения характера соответствующих моделей и их калибровки. Вместе с тем оборудование специализированных постов наблюдения является весьма затратным мероприятием и не всегда технически возможно. Совокупность этих факторов приводит к недостаточному фактографическому обеспечению как систем оперативного управления транспортными потоками, так и специалистов по транспортному планированию с очевидными последствиями для качества принимаемых решений. В качестве способа обеспечить массовый сбор данных хотя бы для качественного анализа ситуаций достаточно давно применяется обзорные видеокамеры, транслирующие изображения в определенные ситуационные центры, где соответствующие операторы осуществляют контроль и управление процессами. Достаточно много таких обзорных камер предоставляют данные своих наблюдений в общий доступ, что делает их ценным ресурсом для транспортных исследований. Вместе с тем получение количественных данных с таких камер сталкивается с существенными проблемами, относящимися к теории и практике обработки видеоизображений, чему и посвящена данная работа. В работе исследуется практическое применение некоторых мейнстримовских нейросетевых технологий для определения основных характеристик реальных транспортных потоков, наблюдаемых камерами общего доступа, классифицируются возникающие при этом проблемы и предлагаются их решения. Для отслеживания объектов дорожного движения применяются варианты сверточных нейронных сетей, исследуются способы их применения для определения базовых характеристик транспортных потоков. Простые варианты нейронной сети используются для автоматизации при получении обучающих примеров для более глубокой нейронной сети YOLOv4. Сеть YOLOv4 использована для оценки характеристик движения (скорость, плотность потока) для различных направлений с записей камер видеонаблюдения.
Ключевые слова: искусственные нейронные сети, машинное зрение, машинное обучение, сопровождение объекта, сверточные нейронные сети.
Neural network analysis of transportation flows of urban aglomeration using the data from public video cameras
Computer Research and Modeling, 2021, v. 13, no. 2, pp. 305-318Correct modeling of complex dynamics of urban transportation flows requires the collection of large volumes of empirical data to specify types of the modes and their identification. At the same time, setting a large number of observation posts is expensive and technically not always feasible. All this results in insufficient factographic support for the traffic control systems as well as for urban planners with the obvious consequences for the quality of their decisions. As one of the means to provide large-scale data collection at least for the qualitative situation analysis, the wide-area video cameras are used in different situation centers. There they are analyzed by human operators who are responsible for observation and control. Some video cameras provided their videos for common access, which makes them a valuable resource for transportation studies. However, there are significant problems with getting qualitative data from such cameras, which relate to the theory and practice of image processing. This study is devoted to the practical application of certain mainstream neuro-networking technologies for the estimation of essential characteristics of actual transportation flows. The problems arising in processing these data are analyzed, and their solutions are suggested. The convolution neural networks are used for tracking, and the methods for obtaining basic parameters of transportation flows from these observations are studied. The simplified neural networks are used for the preparation of training sets for the deep learning neural network YOLOv4 which is later used for the estimation of speed and density of automobile flows.
-
Оценка вероятности спонтанного синтеза вычислительных структур применительно к реализации параллельной обработки информации
Компьютерные исследования и моделирование, 2021, т. 13, № 4, с. 677-696Мы рассматриваем модель спонтанного формирования вычислительной структуры в мозге человека для решения заданного класса задач в процессе выполнения серии однотипных заданий. Модель основана на специальном определении числовой меры сложности алгоритма решения. Эта мера обладает информационным свойством: сложность вычислительной структуры, состоящей из двух независимых структур, равна сумме сложностей этих структур. Тогда вероятность спонтанного возникновения структуры экспоненциально зависит от сложности структуры. Коэффициент при экспоненте требует экспериментального определения для каждого типа задач. Он может зависеть от формы предъявления исходных данных и от процедуры выдачи результата. Этот метод оценки применен к результатам серии экспериментов, в которых определялась стратегия решения человеком серии однотипных задач с растущим числом исходных данных. Эти эксперименты были описаны в ранее изданных работах. Рассматривались две основные стратегии: последовательное выполнение вычислительного алгоритма или использование параллельных вычислений в тех задачах, где это эффективно. Эти стратегии различаются схемами проведения вычислений. Используя оценку сложности схем, можно по эмпирической вероятности одной из стратегий рассчитать вероятность другой. Проведенные вычисления показали хорошее совпадение расчетной и эмпирической вероятности. Это подтверждает гипотезу о спонтанном формировании структур, решающих задачу, в процессе начальной тренировки человека. Работа содержит краткое описание экспериментов, подробные вычислительные схемы и строгое определение меры сложности вычислительных структур и вывод зависимости вероятности формирования структуры от ее сложности.
Ключевые слова: алгоритм, вычислительная структура, итеративная структура, сложность, вероятность, инженерная психология, статистика.
Estimation of the probability of spontaneous synthesis of computational structures in relation to the implementation of parallel information processing
Computer Research and Modeling, 2021, v. 13, no. 4, pp. 677-696We consider a model of spontaneous formation of a computational structure in the human brain for solving a given class of tasks in the process of performing a series of similar tasks. The model is based on a special definition of a numerical measure of the complexity of the solution algorithm. This measure has an informational property: the complexity of a computational structure consisting of two independent structures is equal to the sum of the complexities of these structures. Then the probability of spontaneous occurrence of the structure depends exponentially on the complexity of the structure. The exponential coefficient requires experimental determination for each type of problem. It may depend on the form of presentation of the source data and the procedure for issuing the result. This estimation method was applied to the results of a series of experiments that determined the strategy for solving a series of similar problems with a growing number of initial data. These experiments were described in previously published papers. Two main strategies were considered: sequential execution of the computational algorithm, or the use of parallel computing in those tasks where it is effective. These strategies differ in how calculations are performed. Using an estimate of the complexity of schemes, you can use the empirical probability of one of the strategies to calculate the probability of the other. The calculations performed showed a good match between the calculated and empirical probabilities. This confirms the hypothesis about the spontaneous formation of structures that solve the problem during the initial training of a person. The paper contains a brief description of experiments, detailed computational schemes and a strict definition of the complexity measure of computational structures and the conclusion of the dependence of the probability of structure formation on its complexity.
-
Метод обработки данных акустико-эмиссионного контроля для определения скорости и локации каждого сигнала
Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1029-1040Акустико-эмиссионный метод неразрушающего контроля является одним из эффективных и экономичных способов обследования сосудов высокого давления для поиска в них скрытых дефектов (трещин, расслоений и др.), а также единственным методом, чувствительным к развивающимся дефектам. Скорость распространения звука в объекте контроля и ее адекватное определение в локационной схеме имеют важнейшее значение для точности локации источника акустической эмиссии. Предложенный в статье метод обработки данных акустической эмиссии позволяет определить координаты источника и наиболее вероятную скорость для каждого сигнала. Метод включает в себя предварительную фильтрацию данных по амплитуде, по разности времен прихода, исключение электромагнитных помех. Далее к ним применяется комплекс численных методов для решения получившихся нелинейных уравнений, в частности метод Ньютона–Канторовича и общий итерационный процесс. Скорость распространения сигнала от одного источника принимается постоянной во всех направлениях. В качестве начального приближения берется центр тяжести треугольника, образованного первыми тремя датчиками, зафиксировавшими сигнал. Разработанный метод имеет важное практическое применение, и в статье приведен пример его апробации при калибровке акустико- эмиссионной системы на производственном объекте (абсорбере очистки углеводородного газа). Описаны критерии предварительной фильтрации данных. Полученные локации хорошо согласуются с местоположениями генерации сигналов, а вычисленные скорости четко отражают разделение акустической волны на волны Лэмба и Рэлея благодаря разноудаленности источников сигналов от датчиков. В статье построен график соответствия усредненной скорости сигнала и расстояния от его источника до ближайшего датчика. Основным достоинством разработанного метода можно считать его способность вычислять и отображать на общей схеме объекта местоположение сигналов, имеющих разные скорости, а не задавать единую скорость для всех сигналов акустической эмиссии в рамках одного расчета. Это позволяет увеличить степень свободы при вычислениях и тем самым увеличить их точность.
Ключевые слова: акустическая эмиссия, метод Ньютона – Канторовича, калибровка, локация, метод итераций, дефекты.
Method for processing acoustic emission testing data to define signal velocity and location
Computer Research and Modeling, 2022, v. 14, no. 5, pp. 1029-1040Non-destructive acoustic emission testing is an effective and cost-efficient way to examine pressure vessels for hidden defects (cracks, laminations etc.), as well as the only method that is sensitive to developing defects. The sound velocity in the test object and its adequate definition in the location scheme are of paramount importance for the accurate detection of the acoustic emission source. The acoustic emission data processing method proposed herein comprises a set of numerical methods and allows defining the source coordinates and the most probable velocity for each signal. The method includes pre-filtering of data by amplitude, by time differences, elimination of electromagnetic interference. Further, a set of numerical methods is applied to them to solve the system of nonlinear equations, in particular, the Newton – Kantorovich method and the general iterative process. The velocity of a signal from one source is assumed as a constant in all directions. As the initial approximation is taken the center of gravity of the triangle formed by the first three sensors that registered the signal. The method developed has an important practical application, and the paper provides an example of its approbation in the calibration of an acoustic emission system at a production facility (hydrocarbon gas purification absorber). Criteria for prefiltering of data are described. The obtained locations are in good agreement with the signal generation sources, and the velocities even reflect the Rayleigh-Lamb division of acoustic waves due to the different signal source distances from the sensors. The article contains the dependency graph of the average signal velocity against the distance from its source to the nearest sensor. The main advantage of the method developed is its ability to detect the location of different velocity signals within a single test. This allows to increase the degree of freedom in the calculations, and thereby increase their accuracy.
-
Ресурсно-адаптивный подход к разметке текстовых данных в структурированном виде с использованием малых языковых моделей
Компьютерные исследования и моделирование, 2026, т. 18, № 1, с. 41-59В данной работе проведено экспериментальное исследование применения автоматической разметки текстовых данных в формате «вопрос – ответ» (QA-пары) в условиях ограниченных вычислительных ресурсов и требований к защите данных. В отличие от традиционных подходов, основанных на жестких правилах или использовании внешних API, предложено применять малые языковые модели с небольшим количеством параметров, способные функционировать локально без GPU на стандартных CPU-системах. Для тестирования были выбраны две модели: Gemma-3-4b и Qwen-2.5-3b (квантованные 4-битные версии), а в качестве исходного материала использован корпус документов с четкой структурой и формально-строгим стилем изложения. Разработана система автоматической аннотации, реализующая полный цикл генерации QA-датасета: автоматическое разбиение исходного документа на логически связные фрагменты, формирование пар «вопрос – ответ» моделью Gemma-3-4b, предварительная проверка их корректности с использованием Qwen-2.5-3b с опорой на доказательный фрагмент из контекста и экспертной оценкой качества. Экспорт полученных результатов предоставляется в формате JSONL. Оценка производительности охватывает всю систему генерации QA-пар, включая обработку фрагментов локальной языковой моделью, модули предобработки и постобработки текста. Производительность измеряется по времени генерации одной QA-пары, общей пропускной способности системы, использованию оперативной памяти и загрузке процессора, что позволяет объективно оценить вычислительную эффективность предлагаемого подхода при запуске на CPU. Эксперимент на расширенной выборке из 12 документов показал, что автоматическая аннотация демонстрирует устойчивую производительность при обработке документов различных типов, тогда как ручная разметка характеризуется существенно большими временными затратами и высокой вариативностью. В зависимости от типа документа ускорение аннотации по сравнению с ручным процессом составляет от 8 до 14 раз. Анализ качества показал, что большинство сгенерированных QA-пар обладают высокой семантической согласованностью с исходным контекстом, при этом лишь ограниченная доля данных требует экспертной корректировки или исключения. Хотя полная ручная валидация корпуса (золотой стандарт) в рамках работы не проводилась, сочетание автоматической оценки и выборочной экспертной проверки позволяет рассматривать полученный уровень качества как приемлемый для задач предварительной автоматизированной аннотации. В целом результаты подтверждают практическую применимость малых языковых моделей для построения автономных и воспроизводимых систем автоматической разметки текстов в условиях ограниченных вычислительных ресурсов и создают основу для дальнейших исследований в области эффективной подготовки обучающих корпусов для задач обработки естественного языка.
Ключевые слова: языковые модели, разметка данных, вопрос – ответ, оценка качества, локальные вычисления, ограниченные вычислительные ресурсы.
Resource-adaptive approach to structured text data annotation using small language models
Computer Research and Modeling, 2026, v. 18, no. 1, pp. 41-59This paper presents an experimental study of the application of automatic annotation of text data in the question – answer format (QA pairs) under conditions of limited computing resources and data protection requirements. Unlike traditional approaches based on rigid rules or the use of external APIs, we propose using small language models with a small number of parameters that can function locally without a GPU on standard CPU systems. Two models were selected for testing — Gemma-3-4b and Qwen-2.5-3b (quantized 4-bit versions) — and a corpus of documents with a clear structure and a formally rigorous style of presentation was used as source material. An automatic annotation system was developed that implements the full cycle of QA dataset generation: automatic division of the source document into logically connected fragments, formation of “question – answer” pairs using the Gemma-3-4b model, preliminary verification of their correctness using Qwen-2.5-3b based on evidence span from the context and expert quality assessment. The results are exported in JSONL format. Performance evaluation covers the entire QA pair generation system, including fragment processing by the local language model, text preprocessing and postprocessing modules. Performance is measured by the time it takes to generate a single QA pair, the total throughput of the system, RAM usage, and CPU load, which allows for an objective assessment of the computational efficiency of the proposed approach when running on a CPU. An experiment on an extended sample of 12 documents showed that automatic annotation demonstrates stable performance when processing different types of documents, while manual annotation is characterized by significantly higher time costs and high variability. Depending on the type of document, the acceleration of annotation compared to the manual process ranges from 8 to 14 times. Quality analysis showed that most of the generated QA pairs have high semantic consistency with the original context, with only a limited proportion of data requiring expert correction or exception. Although full manual validation of the corpus (the “gold standard”) was not performed as part of this work, the combination of automatic evaluation and selective expert review allows us to consider the resulting quality level acceptable for preliminary automated annotation tasks. Overall, the results confirm the practical applicability of small language models for building autonomous and reproducible automatic text annotation systems under limited computational resources and provide a basis for further research in the field of effective training corpus preparation for natural language processing tasks.
-
О Международной Пущинской школе-конференции молодых ученых «Биология – наука XXI века»
Компьютерные исследования и моделирование, 2010, т. 2, № 1, с. 41 -
Определение параметров сигнала и шума при анализе райсовских данных методом моментов низших нечетных порядков
Компьютерные исследования и моделирование, 2017, т. 9, № 5, с. 717-728В работе развивается новый математический метод решения задачи совместного расчета параметров сигнала и шума в условиях статистического распределения Райса посредством метода моментов, основанного на анализе данных для начальных моментов 1-го и 3-го порядков случайной райсовской величины. Получена в явном виде система уравнений для искомых параметров сигнала и шума. В предельном случае малой величины отношения сигнала к шуму получены аналитические формулы, позволяющие рассчитать искомые параметры задачи без необходимости численного решения уравнений. Развитый в работе метод обеспечивает эффективное разделение информативной и шумовой компонент анализируемых данных в отсутствие каких-либо априорных предположений, лишь на основе обработки результатов выборочных измерений сигнала. Задача является значимой для целей обработки райсовских данных, в частности, в системах магнитно-резонансной визуализации, в системах ультразвуковой визуализации, при анализе оптических сигналов в системах дальнометрии, в радиолокации и т. д. Как показали результаты исследований, решение двухпараметрической задачи разработанным методом не приводит к увеличению объема требуемых вычислительных ресурсов по сравнению с решением однопараметрической задачи, решаемой в предположении априорной известности второго параметра. В работе приведены результаты компьютерного моделирования разработанного метода. Результаты численного расчета параметров сигнала и шума разработанным методом подтверждают его эффективность. Проведено сопоставление точности определения искомых параметров развитым в работе методом и ранее разработанным вариантом метода моментов, основанным на обработке измеренных данных для низших четных моментов анализируемого сигнала.
Ключевые слова: функция плотности вероятности, распределение Райса, метод моментов, выборки измерений, отношение сигнала к шуму.
Signal and noise parameters’ determination at rician data analysis by method of moments of lower odd orders
Computer Research and Modeling, 2017, v. 9, no. 5, pp. 717-728Views (last year): 10. Citations: 1 (RSCI).The paper develops a new mathematical method of the joint signal and noise parameters determination at the Rice statistical distribution by method of moments based upon the analysis of data for the 1-st and the 3-rd raw moments of the random rician value. The explicit equations’ system have been obtained for required parameters of the signal and noise. In the limiting case of the small value of the signal-to-noise ratio the analytical formulas have been derived that allow calculating the required parameters without the necessity of solving the equations numerically. The technique having been elaborated in the paper ensures an efficient separation of the informative and noise components of the data to be analyzed without any a-priori restrictions, just based upon the processing of the results of the signal’s sampled measurements. The task is meaningful for the purposes of the rician data processing, in particular in the systems of magnetic-resonance visualization, in ultrasound visualization systems, at the optical signals’ analysis in range measuring systems, in radio location, etc. The results of the investigation have shown that the two parameter task solution of the proposed technique does not lead to the increase in demanded volume of computing resources compared with the one parameter task being solved in approximation that the second parameter of the task is known a-priori There are provided the results of the elaborated technique’s computer simulation. The results of the signal and noise parameters’ numerical calculation have confirmed the efficiency of the elaborated technique. There has been conducted the comparison of the accuracy of the sought-for parameters estimation by the technique having been developed in this paper and by the previously elaborated method of moments based upon processing the measured data for lower even moments of the signal to be analyzed.
Indexed in Scopus
Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU
The journal is included in the Russian Science Citation Index
The journal is included in the RSCI
International Interdisciplinary Conference "Mathematics. Computing. Education"




