All issues
- 2025 Vol. 17
- 2024 Vol. 16
- 2023 Vol. 15
- 2022 Vol. 14
- 2021 Vol. 13
- 2020 Vol. 12
- 2019 Vol. 11
- 2018 Vol. 10
- 2017 Vol. 9
- 2016 Vol. 8
- 2015 Vol. 7
- 2014 Vol. 6
- 2013 Vol. 5
- 2012 Vol. 4
- 2011 Vol. 3
- 2010 Vol. 2
- 2009 Vol. 1
-
Разработка и исследование алгоритмов машинного обучения для решения задачи классификации в публикациях Twitter
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 185-195Посты в социальных сетях способны как предсказывать движение финансового рынка, так и в некоторых случаях даже определять его направление. Анализ постов в Twitter способствует прогнозированию цен на криптовалюту. Специфика рассматриваемого сообщества заключается в особенной лексике. Так, в постах используются сленговые выражения, аббревиатуры и сокращения, наличие которых затрудняет векторизацию текстовых данных, в следствие чего рассматриваются методы предобработки такие, как лемматизация Stanza и применение регулярных выражений. В этой статье описываются простейшие модели машинного обучения, которые могут работать, несмотря на такие проблемы, как нехватка данных и короткие сроки прогнозирования. Решается задача бинарной текстовой классификации, в условиях которой слово рассматривается как элемент бинарного вектора единицы данных. Базисные слова определяются на основе частотного анализа упоминаний того или иного слова. Разметка составляется на основе свечей Binance с варьируемыми параметрами для более точного описания тренда изменения цены. В работе вводятся метрики, отражающие распределение слов в зависимости от их принадлежности к положительному или отрицательному классам. Для решения задачи классификации использовались dense-модель с подобранными при помощи Keras Tuner параметрами, логистическая регрессия, классификатор случайного леса, наивный байесовский классификатор, способный работать с малочисленной выборкой, что весьма актуально для нашей задачи, и метод k-ближайших соседей. Было проведено сравнение построенных моделей на основе метрики точности предсказанных меток. В ходе исследования было выяснено, что наилучшим подходом является использование моделей, которые предсказывают ценовые движения одной монеты. Наши модели имеют дело с постами, содержащими упоминания проекта LUNA, которого на данный момент уже не существует. Данный подход к решению бинарной классификации текстовых данных широко применяется для предсказания цены актива, тренда ее движения, что часто используется в автоматизированной торговле.
Ключевые слова: криптовалюты, Twitter, машинное обучение, обработка естественного языка, векторизация, dense модель, логистическая регрессия, случайный лес, KNN, наивный байесовский классификатор.
Development of and research on machine learning algorithms for solving the classification problem in Twitter publications
Computer Research and Modeling, 2023, v. 15, no. 1, pp. 185-195Posts on social networks can both predict the movement of the financial market, and in some cases even determine its direction. The analysis of posts on Twitter contributes to the prediction of cryptocurrency prices. The specificity of the community is represented in a special vocabulary. Thus, slang expressions and abbreviations are used in posts, the presence of which makes it difficult to vectorize text data, as a result of which preprocessing methods such as Stanza lemmatization and the use of regular expressions are considered. This paper describes created simplest machine learning models, which may work despite such problems as lack of data and short prediction timeframe. A word is considered as an element of a binary vector of a data unit in the course of the problem of binary classification solving. Basic words are determined according to the frequency analysis of mentions of a word. The markup is based on Binance candlesticks with variable parameters for a more accurate description of the trend of price changes. The paper introduces metrics that reflect the distribution of words depending on their belonging to a positive or negative classes. To solve the classification problem, we used a dense model with parameters selected by Keras Tuner, logistic regression, a random forest classifier, a naive Bayesian classifier capable of working with a small sample, which is very important for our task, and the k-nearest neighbors method. The constructed models were compared based on the accuracy metric of the predicted labels. During the investigation we recognized that the best approach is to use models which predict price movements of a single coin. Our model deals with posts that mention LUNA project, which no longer exist. This approach to solving binary classification of text data is widely used to predict the price of an asset, the trend of its movement, which is often used in automated trading.
-
Модели пространственной селекции при диаграммообразовании на основе позиционирования в сверхплотных сетях радиодоступа миллиметрового диапазона
Компьютерные исследования и моделирование, 2024, т. 16, № 1, с. 195-216В работе решается задача установления зависимости потенциала пространственной селекции полезных и мешающих сигналов по критерию отношения «сигнал/помеха» от погрешности позиционирования устройств при диаграммообразовании по местоположению на базовой станции, оборудованной антенной решеткой. Конфигурируемые параметры моделирования включают планарную антенную решетку с различным числом антенных элементов, траекторию движения, а также точность определения местоположения по метрике среднеквадратического отклонения оценки координат устройств. В модели реализованы три алгоритма управления формой диаграммы направленности: 1) управление положением одного максимума и одного нуля; 2) управление формой и шириной главного лепестка; 3) адаптивная схема. Результаты моделирования показали, что первый алгоритм наиболее эффективен при числе элементов антенной решетки не более 5 и погрешности позиционирования не более 7 м, а второй алгоритм целесообразно использовать при числе элементов антенной решетки более 15 и погрешности позиционирования более 5 м. Адаптивное диаграммообразование реализуется по обучающему сигналу и обеспечивает оптимальную пространственную селекцию полезных и мешающих сигналов без использования данных о местоположении, однако отличается высокой сложностью аппаратной реализации. Скрипты разработанных моделей доступны для верификации. Полученные результаты могут использоваться при разработке научно обоснованных рекомендаций по управлению лучом в сверхплотных сетях радиодоступа миллиметрового диапазона пятого и последующих поколений.
Ключевые слова: диаграммообразование, управление лучом, антенная решетка, отношение «сигнал/помеха», позиционирование, оценка координат.
Models for spatial selection during location-aware beamforming in ultra-dense millimeter wave radio access networks
Computer Research and Modeling, 2024, v. 16, no. 1, pp. 195-216The work solves the problem of establishing the dependence of the potential for spatial selection of useful and interfering signals according to the signal-to-interference ratio criterion on the positioning error of user equipment during beamforming by their location at a base station, equipped with an antenna array. Configurable simulation parameters include planar antenna array with a different number of antenna elements, movement trajectory, as well as the accuracy of user equipment location estimation using root mean square error of coordinate estimates. The model implements three algorithms for controlling the shape of the antenna radiation pattern: 1) controlling the beam direction for one maximum and one zero; 2) controlling the shape and width of the main beam; 3) adaptive beamforming. The simulation results showed, that the first algorithm is most effective, when the number of antenna array elements is no more than 5 and the positioning error is no more than 7 m, and the second algorithm is appropriate to employ, when the number of antenna array elements is more than 15 and the positioning error is more than 5 m. Adaptive beamforming is implemented using a training signal and provides optimal spatial selection of useful and interfering signals without device location data, but is characterized by high complexity of hardware implementation. Scripts of the developed models are available for verification. The results obtained can be used in the development of scientifically based recommendations for beam control in ultra-dense millimeter-wave radio access networks of the fifth and subsequent generations.
-
Предсказание производительности избранных типов циклов над одномерными массивами посредством анализа эмбеддингов промежуточных представлений
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 211-224Предложен метод отображения промежуточных представлений C-, C++-программ в пространство векторов (эмбеддингов) для оценки производительности программ на этапе компиляции, без необходимости исполнения. Использование эмбеддингов для данной цели позволяет не проводить сравнение графов исследуемых программ непосредственно, что вычислительно упрощает задачу сравнения программ. Метод основан на серии трансформаций исходного промежуточного представления (IR), таких как: инструментирование — добавление фиктивных инструкций в оптимизационном проходе компилятора в зависимости от разности смещений в текущей инструкции обращения к памяти относительно предыдущей, преобразование IR в многомерный вектор с помощью технологии IR2Vec с понижением размерности по алгоритму t-SNE (стохастическое вложение соседей с t-распределением). В качестве метрики производительности предлагается доля кэш-промахов 1-го уровня (D1 cache misses). Приводится эвристический критерий отличия программ с большей долей кэш-промахов от программ с меньшей долей по их образам. Также описан разработанный в ходе работы проход компилятора, генерирующий и добавляющий фиктивные инструкции IR согласно используемой модели памяти. Приведено описание разработанного программного комплекса, реализующего предложенный способ оценивания на базе компиляторной инфраструктуры LLVM. Проведен ряд вычислительных экспериментов на синтетических тестах из наборов программ с идентичными потоками управления, но различным порядком обращений к одномерному массиву, показано, что коэффициент корреляции между метрикой производительности и расстоянием до эмбеддинга худшей программы в наборе отрицателен вне зависимости от инициализации t-SNE, что позволяет сделать заключение о достоверности эвристического критерия. Также в статье рассмотрен способ генерации тестов. По результатам экспериментов, вариативность значений метрики производительности на исследуемых множествах предложена как метрика для улучшения генератора тестов.
Ключевые слова: математическое моделирование, компиляторы, промежуточные представления программ, эмбеддинги, анализ производительности, статический анализ.
Performance prediction for chosen types of loops over one-dimensional arrays with embedding-driven intermediate representations analysis
Computer Research and Modeling, 2023, v. 15, no. 1, pp. 211-224The method for mapping of intermediate representations (IR) set of C, C++ programs to vector embedding space is considered to create an empirical estimation framework for static performance prediction using LLVM compiler infrastructure. The usage of embeddings makes programs easier to compare due to avoiding Control Flow Graphs (CFG) and Data Flow Graphs (DFG) direct comparison. This method is based on transformation series of the initial IR such as: instrumentation — injection of artificial instructions in an instrumentation compiler’s pass depending on load offset delta in the current instruction compared to the previous one, mapping of instrumented IR into multidimensional vector with IR2Vec and dimension reduction with t-SNE (t-distributed stochastic neighbor embedding) method. The D1 cache miss ratio measured with perf stat tool is considered as performance metric. A heuristic criterion of programs having more or less cache miss ratio is given. This criterion is based on embeddings of programs in 2D-space. The instrumentation compiler’s pass developed in this work is described: how it generates and injects artificial instructions into IR within the used memory model. The software pipeline that implements the performance estimation based on LLVM compiler infrastructure is given. Computational experiments are performed on synthetic tests which are the sets of programs with the same CFGs but with different sequences of offsets used when accessing the one-dimensional array of a given size. The correlation coefficient between performance metric and distance to the worst program’s embedding is measured and proved to be negative regardless of t-SNE initialization. This fact proves the heuristic criterion to be true. The process of such synthetic tests generation is also considered. Moreover, the variety of performance metric in programs set in such a test is proposed as a metric to be improved with exploration of more tests generators.
-
Использование синтаксических деревьев для автоматизации коррекции документов в формате LaTeX
Компьютерные исследования и моделирование, 2012, т. 4, № 4, с. 871-883Рассматривается задача автоматизации коррекции документов в формате LaTeX. Каждый документ представляется в виде синтаксического дерева. С помощью модифицированного алгоритма Zhang-Shasha строится отображение вершин дерева изначального документа в вершины дерева отредактированного документа, соответствующее минимальному редактирующему расстоянию. Отображения вершины в вершину составляют обучающую выборку, по которой генерируются правила замены для автоматической коррекции. Для каждого правила собирается статистика его применимости к отредактированным документам. На ее основе производится оценка качества правил и их улучшение.
Ключевые слова: автоматизация, анализ текста, лексема, машинное обучение, метрика, обучение с подкреплением, регулярное выражение, редактирующее расстояние, синтаксическое дерево, токен, LaTeX.
The use of syntax trees in order to automate the correction of LaTeX documents
Computer Research and Modeling, 2012, v. 4, no. 4, pp. 871-883Citations: 5 (RSCI).The problem is to automate the correction of LaTeX documents. Each document is represented as a parse tree. The modified Zhang-Shasha algorithm is used to construct a mapping of tree vertices of the original document to the tree vertices of the edited document, which corresponds to the minimum editing distance. Vertex to vertex maps form the training set, which is used to generate rules for automatic correction. The statistics of the applicability to the edited documents is collected for each rule. It is used for quality assessment and improvement of the rules.
Indexed in Scopus
Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU
The journal is included in the Russian Science Citation Index
The journal is included in the RSCI
International Interdisciplinary Conference "Mathematics. Computing. Education"




