All issues
- 2026 Vol. 18
- 2025 Vol. 17
- 2024 Vol. 16
- 2023 Vol. 15
- 2022 Vol. 14
- 2021 Vol. 13
- 2020 Vol. 12
- 2019 Vol. 11
- 2018 Vol. 10
- 2017 Vol. 9
- 2016 Vol. 8
- 2015 Vol. 7
- 2014 Vol. 6
- 2013 Vol. 5
- 2012 Vol. 4
- 2011 Vol. 3
- 2010 Vol. 2
- 2009 Vol. 1
-
Разработка и исследование алгоритма выделения признаков в публикациях Twitter для задачи классификации с известной разметкой
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 171-183Посты социальных сетей играют важную роль в отражении ситуации на финансовом рынке, а их анализ является мощным инструментом ведения торговли. В статье описан результат исследования влияния деятельности социальных медиа на движение финансового рынка. Сначала отбирается топ инфлюенсеров, активность которых считается авторитетной в криптовалютном сообществе. Сообщения в Twitter используются в качестве данных. Подобные тексты обычно сильно зашумлены, так как включают сленг и сокращения, поэтому представлены методы подготовки первичных текстовых данных, включающих в себя обработку Stanza, регулярными выражениями. Рассмотрено два подхода представления момента времени в формате текстовых данных. Так исследуется влияние либо одного твита, либо целого пакета, состоящего из твитов, собранных за определенный период времени. Также рассмотрен статистический подход в виде частотного анализа, введены метрики, способные отразить значимость того или иного слова при выявлении зависимости между изменением цены и постами в Twitter. Частотный анализ подразумевает исследование распределений встречаемости различных слов и биграмм в тексте для положительного, отрицательного либо общего трендов. Для построения разметки изменения на рынке перерабатываются в бинарный вектор с помощью различных параметров, задавая таким образом задачу бинарной классификации. Параметры для свечей Binance подбираются для лучшего описания движения рынка криптовалюты, их вариативность также исследуется в данной статье. Оценка эмоционального окраса текстовых данных изучается с помощью Stanford Core NLP. Результат статистического анализа представляет непосредственно практический интерес, так как предполагает выбор признаков для дальнейшей бинарной или мультиклассовой задач классификации. Представленные методы анализа текста способствуют повышению точности моделей, решающих задачи обработки естественного языка, с помощью отбора слов, улучшения качества векторизации. Такие алгоритмы зачастую используются в автоматизированных торговых стратегиях для предсказания цены актива, тренда ее движения.
Ключевые слова: анализ текста, обработка естественного языка, активность в Twitter, частотный анализ, отбор признаков, задача классификации, финансовые рынки.
Development of and research on an algorithm for distinguishing features in Twitter publications for a classification problem with known markup
Computer Research and Modeling, 2023, v. 15, no. 1, pp. 171-183Social media posts play an important role in demonstration of financial market state, and their analysis is a powerful tool for trading. The article describes the result of a study of the impact of social media activities on the movement of the financial market. The top authoritative influencers are selected. Twitter posts are used as data. Such texts usually include slang and abbreviations, so methods for preparing primary text data, including Stanza, regular expressions are presented. Two approaches to the representation of a point in time in the format of text data are considered. The difference of the influence of a single tweet or a whole package consisting of tweets collected over a certain period of time is investigated. A statistical approach in the form of frequency analysis is also considered, metrics defined by the significance of a particular word when identifying the relationship between price changes and Twitter posts are introduced. Frequency analysis involves the study of the occurrence distributions of various words and bigrams in the text for positive, negative or general trends. To build the markup, changes in the market are processed into a binary vector using various parameters, thus setting the task of binary classification. The parameters for Binance candlesticks are sorted out for better description of the movement of the cryptocurrency market, their variability is also explored in this article. Sentiment is studied using Stanford Core NLP. The result of statistical analysis is relevant to feature selection for further binary or multiclass classification tasks. The presented methods of text analysis contribute to the increase of the accuracy of models designed to solve natural language processing problems by selecting words, improving the quality of vectorization. Such algorithms are often used in automated trading strategies to predict the price of an asset, the trend of its movement.
-
Разработка и исследование алгоритмов машинного обучения для решения задачи классификации в публикациях Twitter
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 185-195Посты в социальных сетях способны как предсказывать движение финансового рынка, так и в некоторых случаях даже определять его направление. Анализ постов в Twitter способствует прогнозированию цен на криптовалюту. Специфика рассматриваемого сообщества заключается в особенной лексике. Так, в постах используются сленговые выражения, аббревиатуры и сокращения, наличие которых затрудняет векторизацию текстовых данных, в следствие чего рассматриваются методы предобработки такие, как лемматизация Stanza и применение регулярных выражений. В этой статье описываются простейшие модели машинного обучения, которые могут работать, несмотря на такие проблемы, как нехватка данных и короткие сроки прогнозирования. Решается задача бинарной текстовой классификации, в условиях которой слово рассматривается как элемент бинарного вектора единицы данных. Базисные слова определяются на основе частотного анализа упоминаний того или иного слова. Разметка составляется на основе свечей Binance с варьируемыми параметрами для более точного описания тренда изменения цены. В работе вводятся метрики, отражающие распределение слов в зависимости от их принадлежности к положительному или отрицательному классам. Для решения задачи классификации использовались dense-модель с подобранными при помощи Keras Tuner параметрами, логистическая регрессия, классификатор случайного леса, наивный байесовский классификатор, способный работать с малочисленной выборкой, что весьма актуально для нашей задачи, и метод k-ближайших соседей. Было проведено сравнение построенных моделей на основе метрики точности предсказанных меток. В ходе исследования было выяснено, что наилучшим подходом является использование моделей, которые предсказывают ценовые движения одной монеты. Наши модели имеют дело с постами, содержащими упоминания проекта LUNA, которого на данный момент уже не существует. Данный подход к решению бинарной классификации текстовых данных широко применяется для предсказания цены актива, тренда ее движения, что часто используется в автоматизированной торговле.
Ключевые слова: криптовалюты, Twitter, машинное обучение, обработка естественного языка, векторизация, dense модель, логистическая регрессия, случайный лес, KNN, наивный байесовский классификатор.
Development of and research on machine learning algorithms for solving the classification problem in Twitter publications
Computer Research and Modeling, 2023, v. 15, no. 1, pp. 185-195Posts on social networks can both predict the movement of the financial market, and in some cases even determine its direction. The analysis of posts on Twitter contributes to the prediction of cryptocurrency prices. The specificity of the community is represented in a special vocabulary. Thus, slang expressions and abbreviations are used in posts, the presence of which makes it difficult to vectorize text data, as a result of which preprocessing methods such as Stanza lemmatization and the use of regular expressions are considered. This paper describes created simplest machine learning models, which may work despite such problems as lack of data and short prediction timeframe. A word is considered as an element of a binary vector of a data unit in the course of the problem of binary classification solving. Basic words are determined according to the frequency analysis of mentions of a word. The markup is based on Binance candlesticks with variable parameters for a more accurate description of the trend of price changes. The paper introduces metrics that reflect the distribution of words depending on their belonging to a positive or negative classes. To solve the classification problem, we used a dense model with parameters selected by Keras Tuner, logistic regression, a random forest classifier, a naive Bayesian classifier capable of working with a small sample, which is very important for our task, and the k-nearest neighbors method. The constructed models were compared based on the accuracy metric of the predicted labels. During the investigation we recognized that the best approach is to use models which predict price movements of a single coin. Our model deals with posts that mention LUNA project, which no longer exist. This approach to solving binary classification of text data is widely used to predict the price of an asset, the trend of its movement, which is often used in automated trading.
-
Поиск точек разладки в биометрических данных: ретроспективные непараметрические методы сегментации на основе динамического программирования и скользящих окон
Компьютерные исследования и моделирование, 2024, т. 16, № 5, с. 1295-1321Работа посвящена анализу медико-биологических данных, получаемых с помощью локомоторных тренировок и тестирований космонавтов, проводимых как на Земле, так и во время полета. Данные эксперименты можно описать как движение космонавта по беговой дорожке согласно прописанному регламенту в различных скоростных режимах, во время которых не только записывается скорость, но и собирается ряд показателей, включающих частоту сердечных сокращений, величину давления на опору и пр. С целью анализа динамики состояния космонавта на протяжении длительного времени, для независимой оценки целевых показателей необходимо проводить качественную сегментацию режимов его движения. Особую актуальность данная задача приобретает при разработке автономной системы жизнеобеспечения космонавтов, которая будет действовать без сопровождения персонала с Земли. При сегментации целевых данных сложность заключается в наличии различных аномалий, включая отход испытуемого от заранее прописанного регламента, переходы между режимами движения произвольного вида и длительности, аппаратные сбои и пр. Статья включает в себя подробный обзор ряда современных ретроспективных (оффлайн) непараметрических методов поиска многократных разладок во временном ряде, где под разладкой понимается резкое изменение свойств наблюдаемого ряда, происходящее в неизвестный заранее момент времени. Особое внимание уделено алгоритмам и статистическим показателям, которые определяют степень однородности данных, а также способам поиска точек разладки. В данной работе рассматриваются подходы, основанные на методах динамического программирования и скользящего окна. Вторая часть статьи посвящена численному моделированию представленных методов на характерных примерах экспериментальных данных, включающих как простые, так и сложные скоростные профили движения. Проведенный анализ позволил выделить методы, которые в дальнейшем будут проанализированы на полном корпусе данных. Предпочтение отдается методам, обеспечивающим близость разметки к заданному эталону, потенциально позволяющим детектировать обе границы переходных процессов, а также обладающим робастностью относительно внутренних параметров.
Ключевые слова: космическая медицина, локомоторное тестирование, временные ряды, точка разладки, сегментация, непараметрический, ретроспективный, динамическое программирование, скользящее окно.
Changepoint detection in biometric data: retrospective nonparametric segmentation methods based on dynamic programming and sliding windows
Computer Research and Modeling, 2024, v. 16, no. 5, pp. 1295-1321This paper is dedicated to the analysis of medical and biological data obtained through locomotor training and testing of astronauts conducted both on Earth and during spaceflight. These experiments can be described as the astronaut’s movement on a treadmill according to a predefined regimen in various speed modes. During these modes, not only the speed is recorded but also a range of parameters, including heart rate, ground reaction force, and others, are collected. In order to analyze the dynamics of the astronaut’s condition over an extended period, it is necessary to perform a qualitative segmentation of their movement modes to independently assess the target metrics. This task becomes particularly relevant in the development of an autonomous life support system for astronauts that operates without direct supervision from Earth. The segmentation of target data is complicated by the presence of various anomalies, such as deviations from the predefined regimen, arbitrary and varying duration of mode transitions, hardware failures, and other factors. The paper includes a detailed review of several contemporary retrospective (offline) nonparametric methods for detecting multiple changepoints, which refer to sudden changes in the properties of the observed time series occurring at unknown moments. Special attention is given to algorithms and statistical measures that determine the homogeneity of the data and methods for detecting change points. The paper considers approaches based on dynamic programming and sliding window methods. The second part of the paper focuses on the numerical modeling of these methods using characteristic examples of experimental data, including both “simple” and “complex” speed profiles of movement. The analysis conducted allowed us to identify the preferred methods, which will be further evaluated on the complete dataset. Preference is given to methods that ensure the closeness of the markup to a reference one, potentially allow the detection of both boundaries of transient processes, as well as are robust relative to internal parameters.
-
Автоматизированное выявление противоречивости в контенте социальных медиа: подход на основе предварительно обученных моделей
Компьютерные исследования и моделирование, 2026, т. 18, № 2, с. 501-517Обнаружение противоречивости в онлайн-дискурсе имеет важное значение для управления связями с общественностью, что позволяет информировать различные процессы от законотворчества до предпринимательства. В данной работе предлагается подход к обнаружению противоречивости в онлайн-контенте на основе анализа выражаемых эмоций. Противоречивость онлайн-контента определяется как феномен провоцирования разногласий и конфликтов в обсуждениях. Данная работа развивает предыдущие семантические методы, анализируя численные оценки именно эмоционального окраса сообщений. В качестве инструментов обнаружения противоречивости рассматриваются современные языковые модели для распознавания эмоций и распознавания именованных сущностей. Результаты работы этих моделей были агрегированы по сущностям для оценки их эмоциональной коннотации. Был предложен показатель эмоциональной дивергенции, основанный на дисперсии эмоций, для количественной оценки противоречивости контента. Затем сущности с достаточно высокой эмоциональной дивергенцией по отношению к специфике коммуникаций в рамках сообщества были отобраны в качестве маркеров противоречивости. Проведены эксперименты на данных Reddit, связанных с политическим кризисом в Шри-Ланке 2022 года, которые подтверждают возможность показателя эмоциональной дивергенции обнаруживать противоречивость. Всего было собрано два набора данных с использованием различных методологий: одна была направлена на извлечение более ранних сообщений, а другая была предназначена для сбора более свежих записей. Собранные данные включали обсуждения политики, общественных деятелей, организаций и локаций, связанных с обозначенным кризисом. При измерении на данных с ручной разметкой, предложенный метод достиг значения полноты 0,705 и точности около 0,496 для первого набора данных, в то время как для второго набора были зафиксированы значения полноты 0,716 и точности 0,436. Основными факторами, ограничивающими точность, стали качество низлежащих моделей и ложные срабатывания: широко обсуждаемые, но непротиворечивые маркеры. Наконец, было установлено, что изучение типичного распределения эмоций в контенте социальных медиа может быть полезным для повышения качества обнаружения противоречивости.
Ключевые слова: обнаружение противоречивости, социальные медиа, обработка естественного языка, анализ тональности, распознавание именованных сущностей.
Semi-automated detection of controversy in social media content: an approach based on pre-trained models
Computer Research and Modeling, 2026, v. 18, no. 2, pp. 501-517Detecting controversy in online discussions is critical for managing public relations, as it helps inform various processes from policymaking to business. This work aims to expand approaches to online controversy detection based on the expressed emotions. Controversy was defined as an online content phenomenon of provoking disagreements and conflict. This study builds upon prior semantic methods by analyzing estimates of emotional connotations of messages. Modern language models for emotion recognition and named entity recognition are explored as tools of controversy detection. The outputs of these models were aggregated by entity to estimate the entity’s emotional connotation. The emotional divergence score based on the dispersion of emotions was proposed to quantify controversy in user content. Then, entities with sufficiently high emotional divergence relative to the domain of discussions were selected as markers of controversy. A case study of Reddit data related to Sri-Lankan 2022 political crisis was conducted, showing the capabilities of emotional divergence score in controversy detection. A total of two datasets were collected with different methodologies: one aimed at collecting earlier messages and another aimed at collecting more recent ones. The collected data contained discussions of policy, public figures, organizations and locations tied to the crisis. When measured on manually annotated data samples, the proposed method achieved a recall value of 0.705 and a precision value close to 0.496 for the first dataset, while recall of 0.716 and precision of 0.436 were recorded for the second dataset. The main factors that limit the precision were found to be the quality of underlying models and false positives: highly discussed non-controversial markers. Lastly, it was identified that a study of regular emotional distribution of social media content may be helpful for improving controversy detection quality.
Indexed in Scopus
Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU
The journal is included in the Russian Science Citation Index
The journal is included in the RSCI
International Interdisciplinary Conference "Mathematics. Computing. Education"




