Latest issue Issue 5, 2024 Vol. 16

All issues

2024 Vol. 16
- Issue 5
- Issue 4
- Issue 3
- Issue 2
- Issue 1 (special issue)
2023 Vol. 15
- Issue 6
- Issue 5
- Issue 4 (special issue)
- Issue 3
- Issue 2 (special issue)
- Issue 1
2022 Vol. 14
- Issue 6
- Issue 5
- Issue 4 (special issue)
- Issue 3
- Issue 2 (special issue)
- Issue 1
2021 Vol. 13
- Issue 6
- Issue 5
- Issue 4
- Issue 3
- Issue 2 (special issue)
- Issue 1
2020 Vol. 12
- Issue 6
- Issue 5
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2019 Vol. 11
- Issue 6
- Issue 5
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2018 Vol. 10
- Issue 6
- Issue 5 (special issue)
- Issue 4
- Issue 3 (special issue)
- Issue 2
- Issue 1
2017 Vol. 9
- Issue 6
- Issue 5
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2016 Vol. 8
- Issue 6
- Issue 5
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2015 Vol. 7
- Issue 6
- Issue 5
- Issue 4
- Issue 3 (special issue)
- Issue 2
- Issue 1
2014 Vol. 6
- Issue 6 (special issue)
- Issue 5
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2013 Vol. 5
- Issue 6 (special issue)
- Issue 5
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2012 Vol. 4
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2011 Vol. 3
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2010 Vol. 2
- Issue 4
- Issue 3
- Issue 2
- Issue 1
2009 Vol. 1
- Issue 4
- Issue 3
- Issue 2
- Issue 1

Результаты поиска по 'отображение':

Найдено статей: 31

Лукьянченко П.П., Данилов А.М., Бугаев А.С., Горбунов Е.И., Пашков Р.А., Ильина П.Г., Гаджимирзаев Ш.М.
Подход к оценке динамики уровня консолидированности отраcли
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 129-140

В данной статье нами предложен новый подход к анализу эконометрических параметров отрасли для уровня консолидированности отрасли. Исследование базируется на простой модели управления отраслью в соответствии с моделью из теории автоматического управления. Состояние отрасли оценивается на основе ежеквартальных эконометрических параметров получаемых в обезличенном виде от каждой компании отрасли через налогового регулятора.

Предложен подход к анализу отрасли, который не предусматривает отслеживания эконометрических показателей каждой компании, но рассматривает параметры всех компаний отрасли, как единого объекта.

Ежеквартальными эконометрическими параметрами для каждой компании отрасли являются доход, количество работников, налоги и сборы, уплачиваемые в бюджет, доход от продажи лицензионных прав на программное обеспечение.

Был использован ABC-метод анализа модифицированный до ABCD-метода (D — компании с нулевым вкладом в соответствующую отраслевую метрику) для различных отраслевых метрик. Были построены Парето-кривые для множества эконометрических параметров отрасли.

Для оценки степени монополизированности отрасли был рассчитан индекс Херфиндаля – Хиршмана (ИХХ) для наиболее чувствительных метрик отрасли. С использованием ИХХ было показано что пандемия COVID-19 не привела к существенным изменениям уровня монополизированности российской ИТ-отрасли.

В качестве наиболее наглядного подхода к отображению отрасли было предложено использовать диаграмму рассеяния в сочетании с присвоением компаниям отрасли цвета в соответствии с их позицией на Парето-кривой. Также продемонстрирован эффект влияния процедуры аккредитации путем отображения отрасли в формате диаграммы рассеяния c красно-черным отображением аккредитованных и неаккредитованных компаний, соответственно.

И заключительным результатом, отраженным в статье является предложение использования процедуры сквозной идентификации при организации цепочек поставок программного обеспечения с целью контроля структуры рынка программного обеспечения. Этот подход позволяет избежать множественного учета при продаже лицензий на программное обеспечение в рамках цепочек поставок.

Результаты работы могут быть положены в основу дальнейшего анализа ИТ-отрасли и перехода к агентному моделированию отрасли.

Ключевые слова: индекс Херфиндаля – Хиршмана, ABCD-анализ, монополизированность ИТ-отрасли.

Lukianchenko P.P., Danilov A.M., Bugaev A.S., Gorbunov E.I., Pashkov R.A., Ilyina P.G., Gadzhimirzayev Sh.M.
Approach to Estimating the Dynamics of the Industry Consolidation Level
Computer Research and Modeling, 2023, v. 15, no. 1, pp. 129-140

In this article we propose a new approach to the analysis of econometric industry parameters for the industry consolidation level. The research is based on the simple industry automatic control model. The state of the industry is measured by quarterly obtained econometric parameters from each industry’s company provided by the tax control regulator. An approach to analysis of the industry, which does not provide for tracking the economy of each company, but explores the parameters of the set of all companies as a whole, is proposed. Quarterly obtained econometric parameters from each industry’s company are Income, Quantity of employers, Taxes, and Income from Software Licenses. The ABC analysis method was modified by ABCD analysis (D — companies with zero-level impact to industry metrics) and used to make the results obtained for different indicators comparable. Pareto charts were formed for the set of econometric indicators.

To estimate the industry monopolization, the Herfindahl – Hirschman index was calculated for the most sensitive companies metrics. Using the HHI approach, it was proved that COVID-19 does not lead to changes in the monopolization of the Russian IT industry.

As the most visually obvious approach to the industry visualization, scattering diagrams in combination with the Pareto graph colors were proposed. The affect of the accreditation procedure is clearly observed by scattering diagram in combination with red/black dots for accredited and nonaccredited companies respectively.

The last reported result is the proposal to use the Licenses End-to-End Product Identification as the market structure control instrument. It is the basis to avoid the multiple accounting of the licenses reselling within the chain of software distribution.

The results of research could be the basis for future IT industry analysis and simulation on the agent based approach.

Keywords: Herfindahl – Hirschman index, ABCD analysis, monopolization of IT industry.
Беляев А.В.
Стохастические переходы от порядка к хаосу в метапопуляционной модели с миграцией
Компьютерные исследования и моделирование, 2024, т. 16, № 4, с. 959-973

Данная работа посвящена исследованию проблемы моделирования и анализа динамических режимов, как регулярных, так и хаотических, в системах связанных популяций в присутствии случайных возмущений. В качестве исходной детерминированной популяционной модели рассматривается дискретная модель Рикера. В работе исследуется динамика двух популяций, связанных миграцией. Миграция пропорциональна разнице между плотностями двух популяций с коэффициентом связи, который отвечает за силу миграционного потока. Изолированные популяционные подсистемы, не учитывающие миграцию и моделируемые отображением Рикера, демонстрируют различные динамические режимы: равновесный, периодический и хаотический. В данной работе в качестве бифуркационного параметра используется коэффициент связи, а также фиксируются параметры естественного прироста популяций, при которых одна изп одсистем находится в равновесном режиме, а во второй преобладает хаотический режим. Связывание двух популяций посредством миграции порождает новые динамические режимы, не наблюдавшиеся в изолированной модели. Целью данной статьи является анализ динамических режимов корпоративной динамики при вариации интенсивности перетоков между популяционными подсистемами. В статье представлен бифуркационный анализа ттракторов детерминированной модели двух связанных популяций, выявлены зоны моно- и бистабильности, даны примеры регулярных и хаотических аттракторов. Основной акцент данной работы сделан на сравнении устойчивости динамических режимов к случайным возмущениям в коэффициенте интенсивности миграции. Методами прямого численного моделирования выявлены и описаны индуцированные шумом переходы с периодического аттрактора на хаотический. В статье представлены результаты анализа стохастических явлений с помощью показателя Ляпунова. Показано, что в рассматриваемой модели существует зона изменения бифуркационного параметра, при котором даже с увеличением интенсивности случайных возмущений не происходит переход от порядка к хаосу. Для аналитического исследования вызванных шумом переходов применены техника функции стохастической чувствительности и метод доверительных областей. В работе показано, как с помощью этого математического аппарата можно предсказать критическую интенсивность шума, вызывающую трансформацию периодического режима в хаотический.

Ключевые слова: метапопуляция, связанные системы, случайные возмущения, стохастическая чувствительность, переход «порядок – хаос», модель Рикера.

Belyaev A.V.
Stochastic transitions from order to chaos in a metapopulation model with migration
Computer Research and Modeling, 2024, v. 16, no. 4, pp. 959-973

This paper focuses on the problem of modeling and analyzing dynamic regimes, both regular and chaotic, in systems of coupled populations in the presence of random disturbances. The discrete Ricker model is used as the initial deterministic population model. The paper examines the dynamics of two populations coupled by migration. Migration is proportional to the difference between the densities of two populations with a coupling coefficient responsible for the strength of the migration flow. Isolated population subsystems, modeled by the Ricker map, exhibit various dynamic modes, including equilibrium, periodic, and chaotic ones. In this study, the coupling coefficient is treated as a bifurcation parameter and the parameters of natural population growth rate remain fixed. Under these conditions, one subsystem is in the equilibrium mode, while the other exhibits chaotic behavior. The coupling of two populations through migration creates new dynamic regimes, which were not observed in the isolated model. This article aims to analyze the dynamics of corporate systems with variations in the flow intensity between population subsystems. The article presents a bifurcation analysis of the attractors in a deterministic model of two coupled populations, identifies zones of monostability and bistability, and gives examples of regular and chaotic attractors. The main focus of the work is in comparing the stability of dynamic regimes against random disturbances in the migration intensity. Noise-induced transitions from a periodic attractor to a chaotic attractor are identified and described using direct numerical simulation methods. The Lyapunov exponents are used to analyze stochastic phenomena. It has been shown that in this model, there is a region of change in the bifurcation parameter in which, even with an increase in the intensity of random perturbations, there is no transition from order to chaos. For the analytical study of noise-induced transitions, the stochastic sensitivity function technique and the confidence domain method are used. The paper demonstrates how this mathematical tool can be employed to predict the critical noise intensity that causes a periodic regime to transform into a chaotic one.

Keywords: metapopulation, coupled systems, random disturbances, stochastic sensitivity, chaos – order transition, Ricker model.
Орлова Е.В.
Модель согласования экономических интересов дуополистов при формировании ценовой политики
Компьютерные исследования и моделирование, 2015, т. 7, № 6, с. 1309-1329

Предложена модель рыночного ценообразования фирм-дуополистов, представляющая динамику цен в виде четырехпараметрического двумерного отображения. Показано, что неподвижная точка данного отображения совпадает с точкой локального равновесия цен по Нэшу при игровом взаимодействии фирм. Численно выявлены бифуркации неподвижной точки, показан сценарий перехода от периодического режима к хаотическому через удвоение периода. Для обеспечения устойчивости локального равновесия цен по Нэшу предложен механизм управления динамикой цен на рынке, позволяющий стабилизировать хаотические траектории цен и согласовать экономические интересы фирм в процессе формирования их ценовой политики.

Ключевые слова: двумерное отображение, устойчивость неподвижной точки, бифуркационный анализ, ценовая конкуренция, управление рыночными ценами, стратегическое взаимодействие фирм, равновесие по Нэшу.

Orlova E.V.
Model for economic interests agreement in duopoly’s making price decisions
Computer Research and Modeling, 2015, v. 7, no. 6, pp. 1309-1329

The model of market pricing in duopoly describing the prices dynamics as a two-dimensional map is presented. It is shown that the fixed point of the map coincides with the local Nash-equilibrium price in duopoly game. There have been numerically identified a bifurcation of the fixed point, shown the scheme of transition from periodic to chaotic mode through a doubling period. To ensure the sustainability of local Nashequilibrium price the controlling chaos mechanism has been proposed. This mechanism allows to harmonize the economic interests of the firms and to form the balanced pricing policy.

Keywords: two-dimensional map, stability of fixed point, bifurcation analysis, price competition, control of market prices, strategic interaction of firms, Nash-equilibrium.
Views (last year): 10. Citations: 2 (RSCI).
Говорухин В.Н., Загребнева А.Д.
Популяционные волны и их бифуркации в модели «активный хищник – пассивная жертва»
Компьютерные исследования и моделирование, 2020, т. 12, № 4, с. 831-843

В работе изучаются пространственно-временные режимы, реализующиеся в системе типа «хищник– жертва». Предполагается, что хищники перемещаются направленно и случайно, а жертвы распространяются только диффузионно. Демографические процессы в популяции хищников не учитываются, их общая численность постоянна и является параметром. Переменные модели — плотности популяций хищников и жертв, скорость хищников — связаны между собой системой трех уравнений типа «реакция – диффузия – адвекция». Система рассматривается на кольцевом ареале (с периодическими условиями на границах интервала). Исследуются бифуркации волновых режимов при изменении двух параметров — общего количества хищников и их коэффициента таксисного ускорения.

Основным методом исследования является численный анализ. Пространственная аппроксимация задачи в частных производных производится методом конечных разностей. Интегрирование полученной системы обыкновенных дифференциальных уравнений по времени проводится методом Рунге – Кутты. Для анализа динамических режимов используются построение отображения Пуанкаре, расчет показателей Ляпунова и спектр Фурье.

Показано, что популяционные волны в предположениях модели могут возникать в результате направленных перемещений хищников. Динамика в системе качественно меняется при росте их общего количества. При малых значениях устойчив стационарный однородный режим, который сменяется автоколебаниями в виде бегущих волн. Форма волн претерпевает изменения с ростом бифуркационного параметра, ее усложнение происходит за счет увеличения числа временных колебательных мод. Большой коэффициент таксисного ускорения приводит к переходу от многочастотных к хаотическим и гиперхаотическим популяционным волнам. При большом количестве хищников реализуется стационарный режим с отсутствием жертв.

Ключевые слова: популяционные волны, бифуркации, многочастотные режимы, хаос.

Govorukhin V.N., Zagrebneva A.D.
Population waves and their bifurcations in a model “active predator – passive prey”
Computer Research and Modeling, 2020, v. 12, no. 4, pp. 831-843

Our purpose is to study the spatio-temporal population wave behavior observed in the predator-prey system. It is assumed that predators move both directionally and randomly, and prey spread only diffusely. The model does not take into account demographic processes in the predator population; it’s total number is constant and is a parameter. The variables of the model are the prey and predator densities and the predator speed, which are connected by a system of three reaction – diffusion – advection equations. The system is considered on an annular range, that is the periodic conditions are set at the boundaries of the interval. We have studied the bifurcations of wave modes arising in the system when two parameters are changed — the total number of predators and their taxis acceleration coefficient.

The main research method is a numerical analysis. The spatial approximation of the problem in partial derivatives is performed by the finite difference method. Integration of the obtained system of ordinary differential equations in time is carried out by the Runge –Kutta method. The construction of the Poincare map, calculation of Lyapunov exponents, and Fourier analysis are used for a qualitative analysis of dynamic regimes.

It is shown that, population waves can arise as a result of existence of directional movement of predators. The population dynamics in the system changes qualitatively as the total predator number increases. А stationary homogeneous regime is stable at low value of parameter, then it is replaced by self-oscillations in the form of traveling waves. The waveform becomes more complicated as the bifurcation parameter increases; its complexity occurs due to an increase in the number of temporal vibrational modes. A large taxis acceleration coefficient leads to the possibility of a transition from multi-frequency to chaotic and hyperchaotic population waves. A stationary regime without preys becomes stable with a large number of predators.

Keywords: population waves, bifurcations, multi-frequency regimes, chaos.
Чувилин К.В.
Эффективный алгоритм сравнения документов в формате ${\mathrm{\LaTeX}}$
Компьютерные исследования и моделирование, 2015, т. 7, № 2, с. 329-345

Рассматривается задача построения различий, возникающих при редактировании документов в формате ${\mathrm{\LaTeX}}$. Каждый документ представляется в виде синтаксического дерева, узлы которого называются токенами. Строится минимально возможное текстовое представление документа, не меняющее синтаксическое дерево. Весь текст разбивается на фрагменты, границы которых соответствуют токенам. С помощью алгоритма Хиршберга строится отображение последовательности текстовых фрагментов изначального документа в аналогичную последовательность отредактированного документа, соответствующее минимальному редактирующему расстоянию. Строится отображение символов текстов, соответствующее отображению последовательностей текстовых фрагментов. В синтаксических деревьях выделяются токены такие, что символы соответствующих фрагментов текста при отображении либо все не меняются, либо все удаляются, либо все добавляются. Для деревьев, образованных остальными токенами, строится отображение с помощью алгоритма Zhang–Shasha.

Ключевые слова: автоматизация, анализ текста, лексема, машинное обучение, метрика, редактирующее расстояние, синтаксическое дерево, токен, ${\mathrm{\LaTeX}}$.

Chuvilin K.V.
An efficient algorithm for ${\mathrm{\LaTeX}}$ documents comparing
Computer Research and Modeling, 2015, v. 7, no. 2, pp. 329-345

The problem is constructing the differences that arise on ${\mathrm{\LaTeX}}$ documents editing. Each document is represented as a parse tree whose nodes are called tokens. The smallest possible text representation of the document that does not change the syntax tree is constructed. All of the text is splitted into fragments whose boundaries correspond to tokens. A map of the initial text fragment sequence to the similar sequence of the edited document corresponding to the minimum distance is built with Hirschberg algorithm A map of text characters corresponding to the text fragment sequences map is cunstructed. Tokens, that chars are all deleted, or all inserted, or all not changed, are selected in the parse trees. The map for the trees formed with other tokens is built using Zhang–Shasha algorithm.

Keywords: automation, editing distance, text analysis, lexeme, machine learning, metric, parse tree, syntax tree, token, ${\mathrm{\LaTeX}}$.
Views (last year): 2. Citations: 2 (RSCI).
Степанян И.В.
Биоматематическая система методов описания нуклеиновых кислот
Компьютерные исследования и моделирование, 2020, т. 12, № 2, с. 417-434

Статья посвящена применению методов математического анализа, поиска паттернов и изучения состава нуклеотидов в последовательностях ДНК на геномном уровне. Изложены новые методы математической биологии, которые позволили обнаружить и отобразить скрытую упорядоченность генетических нуклеотидных последовательностей, находящихся в клетках живых организмов. Исследования основаны на работах по алгебраической биологии доктора физико-математических наук С. В. Петухова, которым впервые были введены и обоснованы новые алгебры и гиперкомплексные числовые системы, описывающие генетические явления. В данной работе описана новая фаза развития матричных методов в генетике для исследования свойств нуклеотидных последовательностей (и их физико-химических параметров), построенная на принципах конечной геометрии. Целью исследования является демонстрация возможностей новых алгоритмов и обсуждение обнаруженных свойств генетических молекул ДНК и РНК. Исследование включает три этапа: параметризация, масштабирование и визуализация. Параметризация — определение учитываемых параметров, которые основаны на структурных и физико-химических свойствах нуклеотидов как элементарных составных частей генома. Масштабирование играет роль «фокусировки» и позволяет исследовать генетические структуры в различных масштабах. Визуализация включает выбор осей координатной системы и способа визуального отображения. Представленные в работе алгоритмы выдвигаются на роль расширенного инструментария для развития научно-исследовательского программного обеспечения анализа длинных нуклеотидных последовательностей с возможностью отображения геномов в параметрических пространствах различной размерности. Одним из значимых результатов исследования является то, что были получены новые биологически интерпретируемые критерии классификации геномов различных живых организмов для выявления межвидовых взаимосвязей. Новая концепция позволяет визуально и численно оценить вариативность физико-химических параметров нуклеотидных последовательностей. Эта концепция также позволяет обосновать связь параметров молекул ДНК и РНК с фрактальными геометрическими мозаиками, обнаруживает упорядоченность и симметрии полинуклеотидов и их помехоустойчивость. Полученные результаты стали обоснованием для введения новых научных терминов: «генометрия» как методология вычислительных стратегий и «генометрика» как конкретные параметры того или иного генома или нуклеотидной последовательности. В связи с результатами исследования затронуты вопросы биосемиотики и уровни иерархичности организации живой материи.

Ключевые слова: генетические алгоритмы, вариативность, многомерный анализ данных, физико-химические параметры нуклеиновых кислот, конечная геометрия.

Stepanyan I.V.
Biomathematical system of the nucleic acids description
Computer Research and Modeling, 2020, v. 12, no. 2, pp. 417-434

The article is devoted to the application of various methods of mathematical analysis, search for patterns and studying the composition of nucleotides in DNA sequences at the genomic level. New methods of mathematical biology that made it possible to detect and visualize the hidden ordering of genetic nucleotide sequences located in the chromosomes of cells of living organisms described. The research was based on the work on algebraic biology of the doctor of physical and mathematical sciences S. V. Petukhov, who first introduced and justified new algebras and hypercomplex numerical systems describing genetic phenomena. This paper describes a new phase in the development of matrix methods in genetics for studying the properties of nucleotide sequences (and their physicochemical parameters), built on the principles of finite geometry. The aim of the study is to demonstrate the capabilities of new algorithms and discuss the discovered properties of genetic DNA and RNA molecules. The study includes three stages: parameterization, scaling, and visualization. Parametrization is the determination of the parameters taken into account, which are based on the structural and physicochemical properties of nucleotides as elementary components of the genome. Scaling plays the role of “focusing” and allows you to explore genetic structures at various scales. Visualization includes the selection of the axes of the coordinate system and the method of visual display. The algorithms presented in this work are put forward as a new toolkit for the development of research software for the analysis of long nucleotide sequences with the ability to display genomes in parametric spaces of various dimensions. One of the significant results of the study is that new criteria were obtained for the classification of the genomes of various living organisms to identify interspecific relationships. The new concept allows visually and numerically assessing the variability of the physicochemical parameters of nucleotide sequences. This concept also allows one to substantiate the relationship between the parameters of DNA and RNA molecules with fractal geometric mosaics, reveals the ordering and symmetry of polynucleotides, as well as their noise immunity. The results obtained justified the introduction of new terms: “genometry” as a methodology of computational strategies and “genometrica” as specific parameters of a particular genome or nucleotide sequence. In connection with the results obtained, biosemiotics and hierarchical levels of organization of living matter are raised.

Keywords: genetic algorithms, variability, multivariate data analysis, chemical parameters of nucleic acids, finite geometry.
Мусаев А.А., Григорьев Д.А.
Обзор современных технологий извлечения знаний из текстовых сообщений
Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1291-1315

Решение общей проблемы информационного взрыва связано с системами автоматической обработки цифровых данных, включая их распознавание, сортировку, содержательную обработку и представление в виде, приемлемом для восприятия человеком. Естественным решением является создание интеллектуальных систем извлечения знаний из неструктурированной информации. При этом явные успехи в области обработки структурированных данных контрастируют со скромными достижениями в области анализа неструктурированной информации, в частности в задачах обработки текстовых документов. В настоящее время данное направление находится в стадии интенсивных исследований и разработок. Данная работа представляет собой системный обзор международных и отечественных публикаций, посвященных ведущему тренду в области автоматической обработки потоков текстовой информации, а именно интеллектуальному анализу текстов или Text Mining (TM). Рассмотрены основные задачи и понятия TM, его место в области проблемы искусственного интеллекта, а также указаны сложности при обработке текстов на естественном языке (NLP), обусловленные слабой структурированностью и неоднозначностью лингвистической ин- формации. Описаны стадии предварительной обработки текстов, их очистка и селекция признаков, которые, наряду с результатами морфологического, синтаксического и семантического анализа, являются компонентами TM. Процесс интеллектуального анализа текстов представлен как отображение множества текстовых документов в «знания», т.е. в очищенную от избыточности и шума совокупность сведений, необходимых для решения конкретной прикладной задачи. На примере задачи трейдинга продемонстрирована формализация принятия торгового решения, основанная на совокупности аналитических рекомендаций. Типичными примерами TM являются задачи и технологии информационного поиска (IR), суммаризации текста, анализа тональности, классификации и кластеризации документов и т. п. Общим вопросом для всех методов TM является выбор типа словоформ и их производных, используемых для распознавания контента в последовательностях символов NL. На примере IR рассмотрены типовые алгоритмы поиска, основанные на простых словоформах, фразах, шаблонах и концептах, а также более сложные технологии, связанные с дополнением шаблонов синтаксической и семантической информацией. В общем виде дано описание механизмов NLP: морфологический, синтаксический, семантический и прагматический анализ. Приведен сравнительный анализ современных инструментов TM, позволяющий осуществить выбор платформы, исходя из особенности решаемой задачи и практических навыков пользователя.

Ключевые слова: извлечение знаний, извлечение информации, обработка естественного языка, машинное обучение, семантическое аннотирование.

Musaev A.A., Grigoriev D.A.
Extracting knowledge from text messages: overview and state-of-the-art
Computer Research and Modeling, 2021, v. 13, no. 6, pp. 1291-1315

In general, solving the information explosion problem can be delegated to systems for automatic processing of digital data. These systems are intended for recognizing, sorting, meaningfully processing and presenting data in formats readable and interpretable by humans. The creation of intelligent knowledge extraction systems that handle unstructured data would be a natural solution in this area. At the same time, the evident progress in these tasks for structured data contrasts with the limited success of unstructured data processing, and, in particular, document processing. Currently, this research area is undergoing active development and investigation. The present paper is a systematic survey on both Russian and international publications that are dedicated to the leading trend in automatic text data processing: Text Mining (TM). We cover the main tasks and notions of TM, as well as its place in the current AI landscape. Furthermore, we analyze the complications that arise during the processing of texts written in natural language (NLP) which are weakly structured and often provide ambiguous linguistic information. We describe the stages of text data preparation, cleaning, and selecting features which, alongside the data obtained via morphological, syntactic, and semantic analysis, constitute the input for the TM process. This process can be represented as mapping a set of text documents to «knowledge». Using the case of stock trading, we demonstrate the formalization of the problem of making a trade decision based on a set of analytical recommendations. Examples of such mappings are methods of Information Retrieval (IR), text summarization, sentiment analysis, document classification and clustering, etc. The common point of all tasks and techniques of TM is the selection of word forms and their derivatives used to recognize content in NL symbol sequences. Considering IR as an example, we examine classic types of search, such as searching for word forms, phrases, patterns and concepts. Additionally, we consider the augmentation of patterns with syntactic and semantic information. Next, we provide a general description of all NLP instruments: morphological, syntactic, semantic and pragmatic analysis. Finally, we end the paper with a comparative analysis of modern TM tools which can be helpful for selecting a suitable TM platform based on the user’s needs and skills.

Keywords: text mining, information extraction, natural language processing, machine learning, semantic annotations.
Томинин Я.Д., Томинин В.Д., Бородич Е.Д., Ковалев Д.А., Двуреченский П.Е., Гасников А.В., Чуканов С.В.
Об ускоренных методах для седловых задач с композитной структурой
Компьютерные исследования и моделирование, 2023, т. 15, № 2, с. 433-467

В данной работе рассматриваются сильно-выпукло сильно-вогнутые не билинейные седловые задачи с разными числами обусловленности по прямым и двойственным переменным. Во-первых, мы рассматриваем задачи с гладкими композитами, один из которых имеет структуру с конечной суммой. Для этой задачи мы предлагаем алгоритм уменьшения дисперсии с оценками сложности, превосходящими существующие ограничения в литературе. Во-вторых, мы рассматриваем седловые задачи конечной суммы с композитами и предлагаем несколько алгоритмов в зависимости от свойств составных членов. Когда составные члены являются гладкими, мы получаем лучшие оценки сложности, чем в литературе, включая оценки недавно предложенных почти оптимальных алгоритмов, которые не учитывают составную структуру задачи. Кроме того, наши алгоритмы позволяют разделить сложность, т. е. оценить для каждой функции в задаче количество вызовов оракула, достаточное для достижения заданной точности. Это важно, так как разные функции могут иметь разную арифметическую сложность оракула, а дорогие оракулы желательно вызывать реже, чем дешевые. Ключевым моментом во всех этих результатах является наша общая схема для седловых задач, которая может представлять самостоятельный интерес. Эта структура, в свою очередь, основана на предложенном нами ускоренном мета-алгоритме для композитной оптимизации с вероятностными неточными оракулами и вероятностной неточностью в проксимальном отображении, которые также могут представлять самостоятельный интерес.

Ключевые слова: седловая задача, минимаксная оптимизация, композитная оптимизация, ускоренные алгоритмы.

Tomonin Y.D., Tominin V.D., Borodich E.D., Kovalev D.A., Dvurechensky P.E., Gasnikov A.V., Chukanov S.V.
On Accelerated Methods for Saddle-Point Problems with Composite Structure
Computer Research and Modeling, 2023, v. 15, no. 2, pp. 433-467

We consider strongly-convex-strongly-concave saddle-point problems with general non-bilinear objective and different condition numbers with respect to the primal and dual variables. First, we consider such problems with smooth composite terms, one of which has finite-sum structure. For this setting we propose a variance reduction algorithm with complexity estimates superior to the existing bounds in the literature. Second, we consider finite-sum saddle-point problems with composite terms and propose several algorithms depending on the properties of the composite terms. When the composite terms are smooth we obtain better complexity bounds than the ones in the literature, including the bounds of a recently proposed nearly-optimal algorithms which do not consider the composite structure of the problem. If the composite terms are prox-friendly, we propose a variance reduction algorithm that, on the one hand, is accelerated compared to existing variance reduction algorithms and, on the other hand, provides in the composite setting similar complexity bounds to the nearly-optimal algorithm which is designed for noncomposite setting. Besides, our algorithms allow one to separate the complexity bounds, i. e. estimate, for each part of the objective separately, the number of oracle calls that is sufficient to achieve a given accuracy. This is important since different parts can have different arithmetic complexity of the oracle, and it is desired to call expensive oracles less often than cheap oracles. The key thing to all these results is our general framework for saddle-point problems, which may be of independent interest. This framework, in turn is based on our proposed Accelerated Meta-Algorithm for composite optimization with probabilistic inexact oracles and probabilistic inexactness in the proximal mapping, which may be of independent interest as well.

Keywords: saddle-point problem, minimax optimization, composite optimization, accelerated algorithms.
Заводских Р.К., Ефанов Н.Н.
Предсказание производительности избранных типов циклов над одномерными массивами посредством анализа эмбеддингов промежуточных представлений
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 211-224

Предложен метод отображения промежуточных представлений C-, C++-программ в пространство векторов (эмбеддингов) для оценки производительности программ на этапе компиляции, без необходимости исполнения. Использование эмбеддингов для данной цели позволяет не проводить сравнение графов исследуемых программ непосредственно, что вычислительно упрощает задачу сравнения программ. Метод основан на серии трансформаций исходного промежуточного представления (IR), таких как: инструментирование — добавление фиктивных инструкций в оптимизационном проходе компилятора в зависимости от разности смещений в текущей инструкции обращения к памяти относительно предыдущей, преобразование IR в многомерный вектор с помощью технологии IR2Vec с понижением размерности по алгоритму t-SNE (стохастическое вложение соседей с t-распределением). В качестве метрики производительности предлагается доля кэш-промахов 1-го уровня (D1 cache misses). Приводится эвристический критерий отличия программ с большей долей кэш-промахов от программ с меньшей долей по их образам. Также описан разработанный в ходе работы проход компилятора, генерирующий и добавляющий фиктивные инструкции IR согласно используемой модели памяти. Приведено описание разработанного программного комплекса, реализующего предложенный способ оценивания на базе компиляторной инфраструктуры LLVM. Проведен ряд вычислительных экспериментов на синтетических тестах из наборов программ с идентичными потоками управления, но различным порядком обращений к одномерному массиву, показано, что коэффициент корреляции между метрикой производительности и расстоянием до эмбеддинга худшей программы в наборе отрицателен вне зависимости от инициализации t-SNE, что позволяет сделать заключение о достоверности эвристического критерия. Также в статье рассмотрен способ генерации тестов. По результатам экспериментов, вариативность значений метрики производительности на исследуемых множествах предложена как метрика для улучшения генератора тестов.

Ключевые слова: математическое моделирование, компиляторы, промежуточные представления программ, эмбеддинги, анализ производительности, статический анализ.

Zavodskikh R.K., Efanov N.N.
Performance prediction for chosen types of loops over one-dimensional arrays with embedding-driven intermediate representations analysis
Computer Research and Modeling, 2023, v. 15, no. 1, pp. 211-224

The method for mapping of intermediate representations (IR) set of C, C++ programs to vector embedding space is considered to create an empirical estimation framework for static performance prediction using LLVM compiler infrastructure. The usage of embeddings makes programs easier to compare due to avoiding Control Flow Graphs (CFG) and Data Flow Graphs (DFG) direct comparison. This method is based on transformation series of the initial IR such as: instrumentation — injection of artificial instructions in an instrumentation compiler’s pass depending on load offset delta in the current instruction compared to the previous one, mapping of instrumented IR into multidimensional vector with IR2Vec and dimension reduction with t-SNE (t-distributed stochastic neighbor embedding) method. The D1 cache miss ratio measured with perf stat tool is considered as performance metric. A heuristic criterion of programs having more or less cache miss ratio is given. This criterion is based on embeddings of programs in 2D-space. The instrumentation compiler’s pass developed in this work is described: how it generates and injects artificial instructions into IR within the used memory model. The software pipeline that implements the performance estimation based on LLVM compiler infrastructure is given. Computational experiments are performed on synthetic tests which are the sets of programs with the same CFGs but with different sequences of offsets used when accessing the one-dimensional array of a given size. The correlation coefficient between performance metric and distance to the worst program’s embedding is measured and proved to be negative regardless of t-SNE initialization. This fact proves the heuristic criterion to be true. The process of such synthetic tests generation is also considered. Moreover, the variety of performance metric in programs set in such a test is proposed as a metric to be improved with exploration of more tests generators.

Keywords: mathematical modeling, compilers, intermediate representation, embeddings, performance analysis, static analysis.
Чувилин К.В.
Использование синтаксических деревьев для автоматизации коррекции документов в формате LaTeX
Компьютерные исследования и моделирование, 2012, т. 4, № 4, с. 871-883

Рассматривается задача автоматизации коррекции документов в формате LaTeX. Каждый документ представляется в виде синтаксического дерева. С помощью модифицированного алгоритма Zhang-Shasha строится отображение вершин дерева изначального документа в вершины дерева отредактированного документа, соответствующее минимальному редактирующему расстоянию. Отображения вершины в вершину составляют обучающую выборку, по которой генерируются правила замены для автоматической коррекции. Для каждого правила собирается статистика его применимости к отредактированным документам. На ее основе производится оценка качества правил и их улучшение.

Ключевые слова: автоматизация, анализ текста, лексема, машинное обучение, метрика, обучение с подкреплением, регулярное выражение, редактирующее расстояние, синтаксическое дерево, токен, LaTeX.

Chuvilin K.V.
The use of syntax trees in order to automate the correction of LaTeX documents
Computer Research and Modeling, 2012, v. 4, no. 4, pp. 871-883

The problem is to automate the correction of LaTeX documents. Each document is represented as a parse tree. The modified Zhang-Shasha algorithm is used to construct a mapping of tree vertices of the original document to the tree vertices of the edited document, which corresponds to the minimum editing distance. Vertex to vertex maps form the training set, which is used to generate rules for automatic correction. The statistics of the applicability to the edited documents is collected for each rule. It is used for quality assessment and improvement of the rules.

Keywords: automation, editing distance, LaTeX, lexeme, machine learning, metric, parse tree, regular expression, reinforcement learning, syntax tree, text analysis, token.
Citations: 5 (RSCI).

Pages: « first previous next

Indexed in Scopus

Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU

The journal is included in the Russian Science Citation Index

The journal is included in the RSCI

International Interdisciplinary Conference "Mathematics. Computing. Education"