All issues
- 2026 Vol. 18
- 2025 Vol. 17
- 2024 Vol. 16
- 2023 Vol. 15
- 2022 Vol. 14
- 2021 Vol. 13
- 2020 Vol. 12
- 2019 Vol. 11
- 2018 Vol. 10
- 2017 Vol. 9
- 2016 Vol. 8
- 2015 Vol. 7
- 2014 Vol. 6
- 2013 Vol. 5
- 2012 Vol. 4
- 2011 Vol. 3
- 2010 Vol. 2
- 2009 Vol. 1
-
Использование синтаксических деревьев для автоматизации коррекции документов в формате LaTeX
Компьютерные исследования и моделирование, 2012, т. 4, № 4, с. 871-883Рассматривается задача автоматизации коррекции документов в формате LaTeX. Каждый документ представляется в виде синтаксического дерева. С помощью модифицированного алгоритма Zhang-Shasha строится отображение вершин дерева изначального документа в вершины дерева отредактированного документа, соответствующее минимальному редактирующему расстоянию. Отображения вершины в вершину составляют обучающую выборку, по которой генерируются правила замены для автоматической коррекции. Для каждого правила собирается статистика его применимости к отредактированным документам. На ее основе производится оценка качества правил и их улучшение.
Ключевые слова: автоматизация, анализ текста, лексема, машинное обучение, метрика, обучение с подкреплением, регулярное выражение, редактирующее расстояние, синтаксическое дерево, токен, LaTeX.
The use of syntax trees in order to automate the correction of LaTeX documents
Computer Research and Modeling, 2012, v. 4, no. 4, pp. 871-883Citations: 5 (RSCI).The problem is to automate the correction of LaTeX documents. Each document is represented as a parse tree. The modified Zhang-Shasha algorithm is used to construct a mapping of tree vertices of the original document to the tree vertices of the edited document, which corresponds to the minimum editing distance. Vertex to vertex maps form the training set, which is used to generate rules for automatic correction. The statistics of the applicability to the edited documents is collected for each rule. It is used for quality assessment and improvement of the rules.
-
Аддитивная регуляризация тематических моделей с быстрой векторизацией текста
Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1515-1528Задача вероятностного тематического моделирования заключается в том, чтобы по заданной коллекции текстовых документов найти две матрицы: матрицу условных вероятностей тем в документах и матрицу условных вероятностей слов в темах. Каждый документ представляется в виде мультимножества слов, то есть предполагается, что для выявления тематики документа не важен порядок слов в нем, а важна только их частота. При таком предположении задача сводится к вычислению низкорангового неотрицательного матричного разложения, наилучшего по критерию максимума правдоподобия. Данная задача имеет в общем случае бесконечное множество решений, то есть является некорректно поставленной. Для регуляризации ее решения к логарифму правдоподобия добавляется взвешенная сумма оптимизационных критериев, с помощью которых формализуются дополнительные требования к модели. При моделировании больших текстовых коллекций хранение первой матрицы представляется нецелесообразным, поскольку ее размер пропорционален числу документов в коллекции. В то же время тематические векторные представления документов необходимы для решения многих задач текстовой аналитики — информационного поиска, кластеризации, классификации, суммаризации текстов. На практике тематический вектор вычисляется для каждого документа по необходимости, что может потребовать десятков итераций по всем словам документа. В данной работе предлагается способ быстрого вычисления тематического вектора для произвольного текста, требующий лишь одной итерации, то есть однократного прохода по всем словам документа. Для этого в модель вводится дополнительное ограничение в виде уравнения, позволяющего вычислять первую матрицу через вторую за линейное время. Хотя формально данное ограничение не является оптимизационным критерием, фактически оно выполняет роль регуляризатора и может применяться в сочетании с другими критериями в рамках теории аддитивной регуляризации тематических моделей ARTM. Эксперименты на трех свободно доступных текстовых коллекциях показали, что предложенный метод улучшает качество модели по пяти оценкам качества, характеризующим разреженность, различность, информативность и когерентность тем. Для проведения экспериментов использовались библиотеки с открытымк одомB igARTM и TopicNet.
Ключевые слова: автоматическая обработка текстов, обучение без учителя, тематическое моделирование, аддитивная регуляризация тематических моделей, EM-алгоритм, PLSA, LDA, ARTM, BigARTM, TopicNet.
Additive regularizarion of topic models with fast text vectorizartion
Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1515-1528The probabilistic topic model of a text document collection finds two matrices: a matrix of conditional probabilities of topics in documents and a matrix of conditional probabilities of words in topics. Each document is represented by a multiset of words also called the “bag of words”, thus assuming that the order of words is not important for revealing the latent topics of the document. Under this assumption, the problem is reduced to a low-rank non-negative matrix factorization governed by likelihood maximization. In general, this problem is ill-posed having an infinite set of solutions. In order to regularize the solution, a weighted sum of optimization criteria is added to the log-likelihood. When modeling large text collections, storing the first matrix seems to be impractical, since its size is proportional to the number of documents in the collection. At the same time, the topical vector representation (embedding) of documents is necessary for solving many text analysis tasks, such as information retrieval, clustering, classification, and summarization of texts. In practice, the topical embedding is calculated for a document “on-the-fly”, which may require dozens of iterations over all the words of the document. In this paper, we propose a way to calculate a topical embedding quickly, by one pass over document words. For this, an additional constraint is introduced into the model in the form of an equation, which calculates the first matrix from the second one in linear time. Although formally this constraint is not an optimization criterion, in fact it plays the role of a regularizer and can be used in combination with other regularizers within the additive regularization framework ARTM. Experiments on three text collections have shown that the proposed method improves the model in terms of sparseness, difference, logLift and coherence measures of topic quality. The open source libraries BigARTM and TopicNet were used for the experiments.
-
Субградиентные методы для слабо выпуклых задач с острым минимумом в случае неточной информации о функции или субградиенте
Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1765-1778Проблема разработки эффективных численных методов для невыпуклых (в том числе негладких) задач довольно актуальна в связи с широкой распространенностью таких задач в приложениях. Работа посвящена субградиентным методам для задач минимизации липшицевых $\mu$-слабо выпуклых функций, причем не обязательно гладких. Хорошо известно, что для пространств большой размерности субградиентные методы имеют невысокие скоростные гарантии даже на классе выпуклых функций. При этом, если выделить подкласс функций, удовлетворяющих условию острого минимума, а также использовать шаг Поляка, можно гарантировать линейную скорость сходимости субградиентного метода. Однако возможны ситуации, когда значения функции или субградиента численному методу доступны лишь с некоторой погрешностью. В таком случае оценка качества выдаваемого этим численным методом приближенного решения может зависеть от величины погрешности. В настоящей статье для субградиентного метода с шагом Поляка исследованы ситуации, когда на итерациях используется неточная информация о значении целевой функции или субградиента. Доказано, что при определенном выборе начальной точки субградиентный метод с аналогом шага Поляка сходится со скоростью геометрической прогрессии на классе $\mu$-слабо выпуклых функций с острым минимумом в случае аддитивной неточности в значениях субградиента. В случае когда как значение функции, так и значение ее субградиента в текущей точке известны с погрешностью, показана сходимость в некоторую окрестность множества точных решений и получены оценки качества выдаваемого решения субградиентным методом с соответствующим аналогом шага Поляка. Также в статье предложен субградиентный метод с клиппированным шагом и получена оценка качества выдаваемого им решения на классе $\mu$-слабо выпуклых функций с острым минимумом. Проведены численные эксперименты для задачи восстановления матрицы малого ранга. Они показали, что эффективность исследуемых алгоритмов может не зависеть от точности локализации начального приближения внутри требуемой области, а неточность в значениях функции и субградиента может влиять на количество итераций, необходимых для достижения приемлемого качества решения, но почти не влияет на само качество решения.
Ключевые слова: субградиентный метод, адаптивный метод, шаг Поляка, слабо выпуклые функции, острый минимум, неточный субградиент.
Subgradient methods for weakly convex problems with a sharp minimum in the case of inexact information about the function or subgradient
Computer Research and Modeling, 2024, v. 16, no. 7, pp. 1765-1778The problem of developing efficient numerical methods for non-convex (including non-smooth) problems is relevant due to their widespread use of such problems in applications. This paper is devoted to subgradient methods for minimizing Lipschitz $\mu$-weakly convex functions, which are not necessarily smooth. It is well known that subgradient methods have low convergence rates in high-dimensional spaces even for convex functions. However, if we consider a subclass of functions that satisfies sharp minimum condition and also use the Polyak step, we can guarantee a linear convergence rate of the subgradient method. In some cases, the values of the function or it’s subgradient may be available to the numerical method with some error. The accuracy of the solution provided by the numerical method depends on the magnitude of this error. In this paper, we investigate the behavior of the subgradient method with a Polyak step when inaccurate information about the objective function value or subgradient is used in iterations. We prove that with a specific choice of starting point, the subgradient method with some analogue of the Polyak step-size converges at a geometric progression rate on a class of $\mu$-weakly convex functions with a sharp minimum, provided that there is additive inaccuracy in the subgradient values. In the case when both the value of the function and the value of its subgradient at the current point are known with error, convergence to some neighborhood of the set of exact solutions is shown and the quality estimates of the output solution by the subgradient method with the corresponding analogue of the Polyak step are obtained. The article also proposes a subgradient method with a clipped step, and an assessment of the quality of the solution obtained by this method for the class of $\mu$-weakly convex functions with a sharp minimum is presented. Numerical experiments were conducted for the problem of low-rank matrix recovery. They showed that the efficiency of the studied algorithms may not depend on the accuracy of localization of the initial approximation within the required region, and the inaccuracy in the values of the function and subgradient may affect the number of iterations required to achieve an acceptable quality of the solution, but has almost no effect on the quality of the solution itself.
-
Использование продолженных систем ОДУ для исследования математических моделей свертывания крови
Компьютерные исследования и моделирование, 2022, т. 14, № 4, с. 931-951Многие свойства решений систем обыкновенных дифференциальных уравнений определяются свойствами системы в вариациях. Продолженной системой будем называть систему ОДУ, включающую в себя одновременно исходную нелинейную систему и систему уравнений в вариациях. При исследовании свойств задачи Коши для систем обыкновенных дифференциальных уравнений переход к продолженным системам позволяет исследовать многие тонкие свойства решений. Например, переход к продолженной системе позволяет повысить порядок аппроксимации численных методов, дает подходы к построению функции чувствительности без использования процедур численного дифференцирования, позволяет применять для решения обратной задачи методы повышенного порядка сходимости. Использован метод Бройдена, относящийся к классу квазиньютоновских методов. Для решения жестких систем обыкновенных дифференциальных уравнений применялся метод Розенброка с комплексными коэффициентами. В данном случае он эквивалентен методу второго порядка аппроксимации для продолженной системы.
В качестве примера использования подхода рассматривается несколько связанных между собой математических моделей свертывания крови. По результатам численных расчетов делается вывод о необходимости включения в систему уравнений описания петли положительных обратных связей по фактору свертывания XI. Приводятся оценки некоторых скоростей реакций на основе решения обратной задачи.
Рассматривается влияние освобождения фактора V при активации тромбоцитов. При модификации математической модели удалось достичь количественного соответствия по динамике производства тромбина с экспериментальными данными для искусственной системы. На основе анализа чувствительности проверена гипотеза об отсутствии влияния состава липидной мембраны (числа сайтов для тех или иных факторов системы свертывания, кроме сайтов для тромбина) на динамику процесса.
Ключевые слова: математические модели, система ОДУ, уравнение в вариациях, метод CROS, метод Бройдена, свертывание крови, тромбин, тромбоциты.
Using extended ODE systems to investigate the mathematical model of the blood coagulation
Computer Research and Modeling, 2022, v. 14, no. 4, pp. 931-951Many properties of ordinary differential equations systems solutions are determined by the properties of the equations in variations. An ODE system, which includes both the original nonlinear system and the equations in variations, will be called an extended system further. When studying the properties of the Cauchy problem for the systems of ordinary differential equations, the transition to extended systems allows one to study many subtle properties of solutions. For example, the transition to the extended system allows one to increase the order of approximation for numerical methods, gives the approaches to constructing a sensitivity function without using numerical differentiation procedures, allows to use methods of increased convergence order for the inverse problem solution. Authors used the Broyden method belonging to the class of quasi-Newtonian methods. The Rosenbroke method with complex coefficients was used to solve the stiff systems of the ordinary differential equations. In our case, it is equivalent to the second order approximation method for the extended system.
As an example of the proposed approach, several related mathematical models of the blood coagulation process were considered. Based on the analysis of the numerical calculations results, the conclusion was drawn that it is necessary to include a description of the factor XI positive feedback loop in the model equations system. Estimates of some reaction constants based on the numerical inverse problem solution were given.
Effect of factor V release on platelet activation was considered. The modification of the mathematical model allowed to achieve quantitative correspondence in the dynamics of the thrombin production with experimental data for an artificial system. Based on the sensitivity analysis, the hypothesis tested that there is no influence of the lipid membrane composition (the number of sites for various factors of the clotting system, except for thrombin sites) on the dynamics of the process.
-
Пространственно-временные модели распространения информационно-коммуникационных технологий
Компьютерные исследования и моделирование, 2023, т. 15, № 6, с. 1695-1712В статье предложен пространственно-временной подход к моделированию диффузии информационно-коммуникационных технологий на основе уравнения Фишера – Колмогорова – Петровского – Пискунова, в котором кинетика диффузии описывается моделью Басса, широко применяемой для моделирования распространения инноваций на рынке. Для этого уравнения изучены его положения равновесия и на основе сингулярной теории возмущений получено приближенное решение в виде бегущей волны, т.е. решение, которое распространяется с постоянной скоростью, сохраняя при этом свою форму в пространстве. Скорость волны показывает, на какую величину за единичный интервал времени изменяется пространственная характеристика, определяющая данный уровень распространения технологии. Эта скорость существенно выше скорости, с которой происходит распространение за счет диффузии. С помощью построения такого автоволнового решения появляется возможность оценить время, необходимое субъекту исследования для достижения текущего показателя лидера.
Полученное приближенное решение далее было применено для оценки факторов, влияющих на скорость распространения информационно-коммуникационных технологий по федеральным округам Российской Федерации. Вк ачестве пространственных переменных для диффузии мобильной связи среди населения рассматривались различные социально-экономические показатели. Полюсы роста, в которых возникают инновации, обычно характеризуются наивысшими значениями пространственных переменных. Для России таким полюсом роста является Москва, поэтому в качестве факторных признаков рассматривались показатели федеральных округов, отнесенные к показателям Москвы. Наилучшее приближение к исходным данным было получено для отношения доли затрат на НИОКР в ВРП к показателю Москвы, среднего за период 2000–2009 гг. Было получено, что для УФО на начальном этапе распространения мобильной связи отставание от столицы составило менее одного года, для ЦФО, СЗФО — 1,4 года, для ПФО, СФО, ЮФО и ДВФО — менее двух лет, для СКФО — немногим более двух лет. Кроме того, получены оценки времени запаздывания распространения цифровых технологий (интранета, экстранета и др.), применяемых организациями федеральных округов РФ, относительно показателей Москвы.
Ключевые слова: диффузия инноваций, бегущая волна, пространственно-временная модель, мобильная связь, информационно-коммуникационные технологии.
Spatio-temporal models of ICT diffusion
Computer Research and Modeling, 2023, v. 15, no. 6, pp. 1695-1712The article proposes a space-time approach to modeling the diffusion of information and communication technologies based on the Fisher –Kolmogorov– Petrovsky – Piskunov equation, in which the diffusion kinetics is described by the Bass model, which is widely used to model the diffusion of innovations in the market. For this equation, its equilibrium positions are studied, and based on the singular perturbation theory, was obtained an approximate solution in the form of a traveling wave, i. e. a solution that propagates at a constant speed while maintaining its shape in space. The wave speed shows how much the “spatial” characteristic, which determines the given level of technology dissemination, changes in a single time interval. This speed is significantly higher than the speed at which propagation occurs due to diffusion. By constructing such an autowave solution, it becomes possible to estimate the time required for the subject of research to achieve the current indicator of the leader.
The obtained approximate solution was further applied to assess the factors affecting the rate of dissemination of information and communication technologies in the federal districts of the Russian Federation. Various socio-economic indicators were considered as “spatial” variables for the diffusion of mobile communications among the population. Growth poles in which innovation occurs are usually characterized by the highest values of “spatial” variables. For Russia, Moscow is such a growth pole; therefore, indicators of federal districts related to Moscow’s indicators were considered as factor indicators. The best approximation to the initial data was obtained for the ratio of the share of R&D costs in GRP to the indicator of Moscow, average for the period 2000–2009. It was found that for the Ural Federal District at the initial stage of the spread of mobile communications, the lag behind the capital was less than one year, for the Central Federal District, the Northwestern Federal District — 1.4 years, for the Volga Federal District, the Siberian Federal District, the Southern Federal District and the Far Eastern Federal District — less than two years, in the North Caucasian Federal District — a little more 2 years. In addition, estimates of the delay time for the spread of digital technologies (intranet, extranet, etc.) used by organizations of the federal districts of the Russian Federation from Moscow indicators were obtained.
-
Использование облачных технологий CERN для дальнейшего развития по TDAQ ATLAS и его применения при обработке данных ДЗЗ в приложениях космического мониторинга
Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 683-689Облачные технологий CERN (проект CernVM) дают новые возможности разработчикам программного обеспечения. Участие группы TDAQ ATLAS ОИЯИ в разработке ПО распределенной системы сбора и обработке данных эксперимента ATLAS (CERN) связано с необходимостью работы в условиях динамично развивающейся системы и ее инфраструктуры. Использование облачных технологий, в частности виртуальных машин CernVM, предоставляет наиболее эффективные способы доступа как к собственно ПО TDAQ, так и к ПО, используемому в CERN: среда — Scientific Linux и software repository c CernVM-FS. Исследуется вопрос о возможности функционирования ПО промежуточного уровня (middleware) в среде CernVM. Использование CernVM будет проиллюстрировано на трех задачах: разработка пакетов Event Dump и Webemon, а также на адаптации системы автоматической проверки качества данных TDAQ ATLAS — Data Quality Monitoring Framework для задач оценки качества радиолокационных данных.
Ключевые слова: облачные технологий, виртуальные машины, обработка данных в области дистанционного зондирования Земли, ATLAS TDAQ, ПО промежуточного уровня.
Using CERN cloud technologies for the further ATLAS TDAQ software development and for its application for the remote sensing data processing in the space monitoring tasks
Computer Research and Modeling, 2015, v. 7, no. 3, pp. 683-689Views (last year): 2.The CERN cloud technologies (the CernVM project) give a new possibility for the software developers. The participation of the JINR ATLAS TDAQ working group in the software development for distributed data acquisition and processing system (TDAQ) of the ATLAS experiment (CERN) involves the work in the condition of the dynamically developing system and its infrastructure. The CERN cloud technologies, especially CernVM, provide the most effective access as to the TDAQ software as to the third-part software used in ATLAS. The access to the Scientific Linux environment is provided by CernVM virtual machines and the access software repository — by CernVM-FS. The problem of the functioning of the TDAQ middleware in the CernVM environment was studied in this work. The CernVM usage is illustrated on three examples: the development of the packages Event Dump and Webemon, and the adaptation of the data quality auto checking system of the ATLAS TDAQ (Data Quality Monitoring Framework) for the radar data assessment.
Indexed in Scopus
Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU
The journal is included in the Russian Science Citation Index
The journal is included in the RSCI
International Interdisciplinary Conference "Mathematics. Computing. Education"




