All issues
- 2024 Vol. 16
- 2023 Vol. 15
- 2022 Vol. 14
- 2021 Vol. 13
- 2020 Vol. 12
- 2019 Vol. 11
- 2018 Vol. 10
- 2017 Vol. 9
- 2016 Vol. 8
- 2015 Vol. 7
- 2014 Vol. 6
- 2013 Vol. 5
- 2012 Vol. 4
- 2011 Vol. 3
- 2010 Vol. 2
- 2009 Vol. 1
-
Моделирование траекторий временных рядов с помощью уравнения Лиувилля
Компьютерные исследования и моделирование, 2024, т. 16, № 3, с. 585-598Представлен алгоритм моделирования ансамбля траекторий нестационарных временных рядов. Построена численная схема аппроксимации выборочной плотности функции распределения в задаче с закрепленными концами, когда начальное распределение за заданное количество шагов переходит в определенное конечное распределение, так, что на каждом шаге выполняется полугрупповое свойство решения уравнения Лиувилля. Модель позволяет численно построить эволюционирующие плотности функций распределения при случайном переключении состояний системы, порождающей исходный временной ряд.
Основная проблема, рассматриваемая в работе, связана с тем, что при численной реализации левосторонней разностной производной по времени решение становится неустойчивым, но именно такой подход отвечает моделированию эволюции. При выборе неявных устойчивых схем с «заходом в будущее» используется итерационный процесс, который на каждом своем шаге не отвечает полугрупповому свойству. Если же моделируется некоторый реальный процесс, в котором предположительно имеет место целеполагание, то желательно использовать схемы, которые порождают модель переходного процесса. Такая модель используется в дальнейшем для того, чтобы построить предиктор разладки, который позволит определить, в какое именно состояние переходит изучаемый процесс до того, как он действительно в него перешел. Описываемая в статье модель может использоваться как инструментарий моделирования реальных нестационарных временных рядов.
Схема моделирования состоит в следующем. Из заданного временного ряда отбираются фрагменты, отвечающие определенным состояниям, например трендам с заданными углами наклона и дисперсиями. Из этих фрагментов составляются эталонные распределения состояний. Затем определяются эмпирические распределения длительностей пребывания системы в указанных состояниях и длительности времени перехода из состояния в состояние. В соответствии с этими эмпирическими распределениями строится вероятностная модель разладки и моделируются соответствующие траектории временного ряда.
Ключевые слова: нестационарный временной ряд, выборочная функция распределения, аппроксимация скорости, кинетическое уравнение, полугруппа.
Modeling time series trajectories using the Liouville equation
Computer Research and Modeling, 2024, v. 16, no. 3, pp. 585-598This paper presents algorithm for modeling set of trajectories of non-stationary time series, based on a numerical scheme for approximating the sample density of the distribution function in a problem with fixed ends, when the initial distribution for a given number of steps transforms into a certain final distribution, so that at each step the semigroup property of solving the Liouville equation is satisfied. The model makes it possible to numerically construct evolving densities of distribution functions during random switching of states of the system generating the original time series.
The main problem is related to the fact that with the numerical implementation of the left-hand differential derivative in time, the solution becomes unstable, but such approach corresponds to the modeling of evolution. An integrative approach is used while choosing implicit stable schemes with “going into the future”, this does not match the semigroup property at each step. If, on the other hand, some real process is being modeled, in which goal-setting presumably takes place, then it is desirable to use schemes that generate a model of the transition process. Such model is used in the future in order to build a predictor of the disorder, which will allow you to determine exactly what state the process under study is going into, before the process really went into it. The model described in the article can be used as a tool for modeling real non-stationary time series.
Steps of the modeling scheme are described further. Fragments corresponding to certain states are selected from a given time series, for example, trends with specified slope angles and variances. Reference distributions of states are compiled from these fragments. Then the empirical distributions of the duration of the system’s stay in the specified states and the duration of the transition time from state to state are determined. In accordance with these empirical distributions, a probabilistic model of the disorder is constructed and the corresponding trajectories of the time series are modeled.
-
Метод построения прогнозной нейросетевой модели временного ряда
Компьютерные исследования и моделирование, 2020, т. 12, № 4, с. 737-756В данной статье рассматривается метод построения прогнозной нейросетевой модели временного ряда, основанный на определении состава входных переменных, построения обучающей выборки и самого обучения с использованием метода обратного распространения ошибки. Традиционные методы построения прогнозных моделей временного ряда (авторегрессионной модели, модели скользящего среднего или модели авторегрессии – скользящего среднего) позволяют аппроксимировать временной ряд линейной зависимостью текущего значения выходной переменной от некоторого количества ее предыдущих значений. Такое ограничение, как линейность зависимости, приводит к значительным ошибкам при прогнозировании.
Технологии интеллектуального анализа с применением нейросетевого моделирования позволяют аппроксимировать временной ряд нелинейной зависимостью. Причем процесс построения нейросетевой модели (определение состава входных переменных, числа слоев и количества нейронов в слоях, выбор функций активации нейронов, определение оптимальных значений весов связей нейронов) позволяет получить прогнозную модель в виде аналитической нелинейной зависимости.
Одним из ключевых моментов при построении нейросетевых моделей в различных прикладных областях, влияющих на ее адекватность, является определение состава ее входных переменных. Состав входных переменных традиционно выбирается из некоторых физических соображений или методом подбора. Для задачи определения состава входных переменных прогнозной нейросетевой модели временного ряда предлагается использовать особенности поведения автокорреляционной и частной автокорреляционной функций.
В работе предлагается метод определения состава входных переменных нейросетевых моделей для стационарных и нестационарных временных рядов, базирующийся на построении и анализе автокорреляционных функций. На основе предложенного метода разработаны алгоритм и программа в среде программирования Python, определяющая состав входных переменных прогнозной нейросетевой модели — персептрона, а также строящая саму модель. Осуществлена экспериментальная апробация предложенного метода на примере построения прогнозной нейросетевой модели временного ряда, отражающего потребление электроэнергии в разных регионах США, открыто опубликованной компанией PJM Interconnection LLC (PJM) — региональной сетевой организацией в Соединенных Штатах. Данный временной ряд является нестационарным и характеризуется наличием как тренда, так и сезонности. Прогнозирование очередных значений временного ряда на ос- нове предыдущих значений и построенной нейросетевой модели показало высокую точность аппроксимации, что доказывает эффективность предлагаемого метода.
Ключевые слова: временной ряд, прогнозирование, нейросетевая модель, персептрон, тренд, сезонность, стационарный ряд, нестационарный ряд, автокорреляционная функция, частная автокорреляционная функция, точность аппроксимации.
A method of constructing a predictive neural network model of a time series
Computer Research and Modeling, 2020, v. 12, no. 4, pp. 737-756This article studies a method of constructing a predictive neural network model of a time series based on determining the composition of input variables, constructing a training sample and training itself using the back propagation method. Traditional methods of constructing predictive models of the time series are: the autoregressive model, the moving average model or the autoregressive model — the moving average allows us to approximate the time series by a linear dependence of the current value of the output variable on a number of its previous values. Such a limitation as linearity of dependence leads to significant errors in forecasting.
Mining Technologies using neural network modeling make it possible to approximate the time series by a nonlinear dependence. Moreover, the process of constructing of a neural network model (determining the composition of input variables, the number of layers and the number of neurons in the layers, choosing the activation functions of neurons, determining the optimal values of the neuron link weights) allows us to obtain a predictive model in the form of an analytical nonlinear dependence.
The determination of the composition of input variables of neural network models is one of the key points in the construction of neural network models in various application areas that affect its adequacy. The composition of the input variables is traditionally selected from some physical considerations or by the selection method. In this work it is proposed to use the behavior of the autocorrelation and private autocorrelation functions for the task of determining the composition of the input variables of the predictive neural network model of the time series.
In this work is proposed a method for determining the composition of input variables of neural network models for stationary and non-stationary time series, based on the construction and analysis of autocorrelation functions. Based on the proposed method in the Python programming environment are developed an algorithm and a program, determining the composition of the input variables of the predictive neural network model — the perceptron, as well as building the model itself. The proposed method was experimentally tested using the example of constructing a predictive neural network model of a time series that reflects energy consumption in different regions of the United States, openly published by PJM Interconnection LLC (PJM) — a regional network organization in the United States. This time series is non-stationary and is characterized by the presence of both a trend and seasonality. Prediction of the next values of the time series based on previous values and the constructed neural network model showed high approximation accuracy, which proves the effectiveness of the proposed method.
-
Идентификация управляемого объекта по частотным характеристикам, полученным экспериментально на нейросетевой динамической модели системы управления
Компьютерные исследования и моделирование, 2017, т. 9, № 5, с. 729-740Приведены результаты исследований по идентификации каналов управляемого объекта, основанные на постобработке измерений с созданием модели многовходового управляемого объекта и последующем активном вычислительном эксперименте. Построение модели управляемого объекта осуществляется путем аппроксимации его поведения нейросетевой моделью по трендам, полученным в ходе пассивного эксперимента в режиме нормальной эксплуатации. Рекуррентная нейронная сеть, имеющая в своем составе элементы в виде обратных связей, позволяет моделировать поведение динамических объектов. Временны́е задержки входных сигналов и сигналов обратных связей позволяют моделировать поведение инерционных объектов с чистым запаздыванием. Обученная на примерах функционирования объекта с системой управления модель представлена динамической нейронной сетью и моделью регулятора с известной функцией регулирования. Нейросетевая модель эмулирует поведение системы и используется для проведения на ней опытов активного вычислительного эксперимента. Нейросетевая модель позволяет получить отклик управляемого объекта на испытательное воздействие, в том числе и на периодическое. По полученной комплексной частотной характеристике с применением метода наименьших квадратов находят значения параметров передаточной функции каналов объекта. Представлен пример идентификации канала имитационной системы управления. Имитационный объект имеет два входа и один выход и обладает различным транспортным запаздыванием по каналам передачи. Один из входов является управляющим воздействием, второй является контролируемым возмущением. Выходная управляемая величина изменяется в результате управляющего воздействия, вырабатываемого регулятором, работающим по пропорционально-интегральному закону регулирования, на основании отклонения управляемой величины от задания. Найденные параметры передаточных функций каналов имитационного объекта близки к значениям параметров исходного имитационного объекта. Приведенная ошибка реакции на единичное ступенчатое воздействие модели системы управления, построенной по результатам идентификации имитационной системы управления, не превышает 0.08. Рассматриваемые объекты относятся к классу технологических процессов с непрерывным характером производства. Подобные объекты характерны для химической, металлургической, горно-обогатительной, целлюлозно-бумажной и ряда других отраслей промышленности.
Ключевые слова: объект с системой управления, идентификация, нейронная сеть, моделирование, комплексная частотная характеристика, передаточная функция.
Identification of a controlled object using frequency responses obtained from a dynamic neural network model of a control system
Computer Research and Modeling, 2017, v. 9, no. 5, pp. 729-740Views (last year): 10.We present results of a study aimed at identification of a controlled object’s channels based on postprocessing of measurements with development of a model of a multiple-input controlled object and subsequent active modelling experiment. The controlled object model is developed using approximation of its behavior by a neural network model using trends obtained during a passive experiment in the mode of normal operation. Recurrent neural network containing feedback elements allows to simulate behavior of dynamic objects; input and feedback time delays allow to simulate behavior of inertial objects with pure delay. The model was taught using examples of the object’s operation with a control system and is presented by a dynamic neural network and a model of a regulator with a known regulation function. The neural network model simulates the system’s behavior and is used to conduct active computing experiments. Neural network model allows to obtain the controlled object’s response to an exploratory stimulus, including a periodic one. The obtained complex frequency response is used to evaluate parameters of the object’s transfer system using the least squares method. We present an example of identification of a channel of the simulated control system. The simulated object has two input ports and one output port and varying transport delays in transfer channels. One of the input ports serves as a controlling stimulus, the second is a controlled perturbation. The controlled output value changes as a result of control stimulus produced by the regulator operating according to the proportional-integral regulation law based on deviation of the controlled value from the task. The obtained parameters of the object’s channels’ transfer functions are close to the parameters of the input simulated object. The obtained normalized error of the reaction for a single step-wise stimulus of the control system model developed based on identification of the simulated control system doesn’t exceed 0.08. The considered objects pertain to the class of technological processes with continuous production. Such objects are characteristic of chemical, metallurgic, mine-mill, pulp and paper, and other industries.
-
Режимы с обострением в истории человечества или воспоминания о будущем
Компьютерные исследования и моделирование, 2019, т. 11, № 5, с. 931-947В статье рассмотрены режимы с обострением в социальной и биологической истории. Проведен анализ возможных причин резкого ускорения биологических и социальных процессов в определенные исторические эпохи. С использованием математического моделирования показано, что гиперболические тренды в социальной и биологической эволюции могут быть следствием переходных процессов в периоды расширения экологических ниш. Ускорение биологического видообразования связано с тем, что более ранние виды своей жизнедеятельностью изменяют среду обитания, делая ее более разнообразной, насыщая органикой, тем самым создавая благоприятные условия для появления новых видов. В социальной истории расширение экологических ниш связано с технологическими революциями, важнейшими из которых были: неолитическая революция — переход от присваивающего хозяйства к производящему (10 тыс. лет назад), «городская революция» — переход от неолита к бронзовому веку (5 тыс. лет назад), «осевое время» — переход к массовому освоению железных орудий (2.5 тыс. лет назад), промышленная революция — переход от ручного труда к машинному (200 лет назад). Все эти технологические революции сопровождались резким демографическим ростом, изменениями в социальной и политической сфе- рах. Так, наблюдаемый в последние столетия гиперболический характер роста некоторых демографических, экономических и других показателей мировой динамики — это следствие переходных процессов, начавшихся вследствие промышленной революции (замены ручного труда машинным) и предваряющих переход общества на новую стадию своего развития. Точка сингулярности гиперболического тренда характеризует окончание начального этапа этого процесса и переход к завершающей его стадии. Предложена математическая модель, описывающая демографические и экономические изменения в эпохи перемен. Показано, что прямым аналогом современной ситуации в этом смысле является «осевое время» (период с 8 века до нашей эры до начала нашей эры). Наличие такой аналогии позволяет заглянуть в будущее, изучая прошлое.
Ключевые слова: биологическая и социальная эволюция, гиперболический рост, переходные процессы, стабилизация.
Regimes with exacerbation in the history of mankind or memories of the future
Computer Research and Modeling, 2019, v. 11, no. 5, pp. 931-947The article describes the modes with the exacerbation of social and biological history. The analysis of the possible causes of the sharp acceleration of biological and social processes in certain historical periods is carried out. Using mathematical modeling shows that hyperbolic trends in social and biological evolution may be the result of transitional processes in periods of expansion of ecological niches. Accelerating biological speciation due to the fact that its earlier life change inhabitancy, making it more diverse, saturating the organic, thus creating favourable conditions for the emergence of new species. In the social history of the expansion of ecological niches associated with technological revolutions, of which the most important were: Neolithic revolution — the transition from appropriating economy to producing economy (10 thousand years ago), “urban revolution” — a shift from the Neolithic epoch to the bronze epoch (5 thousand years ago), the “axial age” — transition to the development of iron tools (2.5 thousand years ago), the industrial revolution — the transition from manual labor to machine production (200 years ago). All of these technological revolutions have been accompanied by dramatic population growth, changes in social and political spheres. So, observed in the last century, hyperbolic nature of some demographic, economic growth and other indicators of world dynamics is a consequence of the transition process, which began as a result of the industrial revolution and to prepare for the transition of the society to a new stage of its development. Singularity point of hyperbolic trend shows the end of the initial phase of the process and marks the transition to the final stage. The mathematical model describing the demographic and economic changes in the era of change is proposed. It is shown that a direct analogue of the contemporary situation in this sense is the “axial age” (since 8 century BC to the beginning of our era). The existence of this analogy allows you to see into the future by studying the past.
-
Моделирование трендов динамики объема и структуры накопленной кредитной задолженности в банковской системе
Компьютерные исследования и моделирование, 2019, т. 11, № 5, с. 965-978Объем и структура накопленной кредитной задолженности перед банковской системой зависят от множества факторов, важнейшим из которых является текущий и ожидаемый уровень процентных ставок. Изменения в поведении заемщиков в ответ на сигналы денежно-кредитной политики позволяют разрабатывать эконометрические модели, представляющие динамику структуры кредитного портфеля банковской системы по срокам размещения средств. Эти модели помогают рассчитать показатели, характеризующие влияние регулирующих действий со стороны центрального банка на уровень процентного риска в целом. В работе проводилась идентификация четырех видов моделей: дискретной линейной модели, основанной на передаточных функциях, модели в пространстве состояний, классической эконометрической модели ARMAX и нелинейной модели типа Гаммерштейна – Винера. Для их описания использовался формальный язык теории автоматического управления, а для идентификации — программный пакет MATLAB. В ходе исследования было выявлено, что для краткосрочного прогнозирования объема и структуры кредитной задолженности больше всего подходит дискретная линейная модель в пространстве состояний, позволяющая прогнозировать тренды по структуре накопленной кредитной задолженности на прогнозном горизонте в 1 год. На примере реальных данных по российской банковской системе модель показывает высокую чувствительность реакции на изменения в денежно-кредитной политике, проводимой центральным банком РФ, структуры кредитной задолженности по срокам ее погашения. Так, при резком повышении процентных ставок в ответ на внешние рыночные шоки заемщики предпочитают сокращать сроки кредитования, при этом общий уровень задолженности повышается прежде всего за счет возрастающей переоценки номинального долга. При формировании устойчивого тренда снижения процентных ставок структура задолженности смещается в сторону долгосрочных кредитов.
Ключевые слова: кредитная задолженность, процентная ставка, динамическое моделирование, модель в пространстве состояний, прогнозирование.
Modelling of trends in the volume and structure of accumulated credit indebtedness in the banking system
Computer Research and Modeling, 2019, v. 11, no. 5, pp. 965-978The volume and structure of accumulated credit debt to the banking system depends on many factors, the most important of which is the level of interest rates. The correct assessment of borrowers’ reaction to the changes in the monetary policy allows to develop econometric models, representing the structure of the credit portfolio in the banking system by terms of lending. These models help to calculate indicators characterizing the level of interest rate risk in the whole system. In the study, we carried out the identification of four types of models: discrete linear model based on transfer functions; the state-space model; the classical econometric model ARMAX, and a nonlinear Hammerstein –Wiener model. To describe them, we employed the formal language of automatic control theory; to identify the model, we used the MATLAB software pack-age. The study revealed that the discrete linear state-space model is most suitable for short-term forecasting of both the volume and the structure of credit debt, which in turn allows to predict trends in the structure of accumulated credit debt on the forecasting horizon of 1 year. The model based on the real data has shown a high sensitivity of the structure of credit debt by pay back periods reaction to the changes in the Ñentral Bank monetary policy. Thus, a sharp increase in interest rates in response to external market shocks leads to shortening of credit terms by borrowers, at the same time the overall level of debt rises, primarily due to the increasing revaluation of nominal debt. During the stable falling trend of interest rates, the structure shifts toward long-term debts.
-
Обзор современных технологий извлечения знаний из текстовых сообщений
Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1291-1315Решение общей проблемы информационного взрыва связано с системами автоматической обработки цифровых данных, включая их распознавание, сортировку, содержательную обработку и представление в виде, приемлемом для восприятия человеком. Естественным решением является создание интеллектуальных систем извлечения знаний из неструктурированной информации. При этом явные успехи в области обработки структурированных данных контрастируют со скромными достижениями в области анализа неструктурированной информации, в частности в задачах обработки текстовых документов. В настоящее время данное направление находится в стадии интенсивных исследований и разработок. Данная работа представляет собой системный обзор международных и отечественных публикаций, посвященных ведущему тренду в области автоматической обработки потоков текстовой информации, а именно интеллектуальному анализу текстов или Text Mining (TM). Рассмотрены основные задачи и понятия TM, его место в области проблемы искусственного интеллекта, а также указаны сложности при обработке текстов на естественном языке (NLP), обусловленные слабой структурированностью и неоднозначностью лингвистической ин- формации. Описаны стадии предварительной обработки текстов, их очистка и селекция признаков, которые, наряду с результатами морфологического, синтаксического и семантического анализа, являются компонентами TM. Процесс интеллектуального анализа текстов представлен как отображение множества текстовых документов в «знания», т.е. в очищенную от избыточности и шума совокупность сведений, необходимых для решения конкретной прикладной задачи. На примере задачи трейдинга продемонстрирована формализация принятия торгового решения, основанная на совокупности аналитических рекомендаций. Типичными примерами TM являются задачи и технологии информационного поиска (IR), суммаризации текста, анализа тональности, классификации и кластеризации документов и т. п. Общим вопросом для всех методов TM является выбор типа словоформ и их производных, используемых для распознавания контента в последовательностях символов NL. На примере IR рассмотрены типовые алгоритмы поиска, основанные на простых словоформах, фразах, шаблонах и концептах, а также более сложные технологии, связанные с дополнением шаблонов синтаксической и семантической информацией. В общем виде дано описание механизмов NLP: морфологический, синтаксический, семантический и прагматический анализ. Приведен сравнительный анализ современных инструментов TM, позволяющий осуществить выбор платформы, исходя из особенности решаемой задачи и практических навыков пользователя.
Ключевые слова: извлечение знаний, извлечение информации, обработка естественного языка, машинное обучение, семантическое аннотирование.
Extracting knowledge from text messages: overview and state-of-the-art
Computer Research and Modeling, 2021, v. 13, no. 6, pp. 1291-1315In general, solving the information explosion problem can be delegated to systems for automatic processing of digital data. These systems are intended for recognizing, sorting, meaningfully processing and presenting data in formats readable and interpretable by humans. The creation of intelligent knowledge extraction systems that handle unstructured data would be a natural solution in this area. At the same time, the evident progress in these tasks for structured data contrasts with the limited success of unstructured data processing, and, in particular, document processing. Currently, this research area is undergoing active development and investigation. The present paper is a systematic survey on both Russian and international publications that are dedicated to the leading trend in automatic text data processing: Text Mining (TM). We cover the main tasks and notions of TM, as well as its place in the current AI landscape. Furthermore, we analyze the complications that arise during the processing of texts written in natural language (NLP) which are weakly structured and often provide ambiguous linguistic information. We describe the stages of text data preparation, cleaning, and selecting features which, alongside the data obtained via morphological, syntactic, and semantic analysis, constitute the input for the TM process. This process can be represented as mapping a set of text documents to «knowledge». Using the case of stock trading, we demonstrate the formalization of the problem of making a trade decision based on a set of analytical recommendations. Examples of such mappings are methods of Information Retrieval (IR), text summarization, sentiment analysis, document classification and clustering, etc. The common point of all tasks and techniques of TM is the selection of word forms and their derivatives used to recognize content in NL symbol sequences. Considering IR as an example, we examine classic types of search, such as searching for word forms, phrases, patterns and concepts. Additionally, we consider the augmentation of patterns with syntactic and semantic information. Next, we provide a general description of all NLP instruments: morphological, syntactic, semantic and pragmatic analysis. Finally, we end the paper with a comparative analysis of modern TM tools which can be helpful for selecting a suitable TM platform based on the user’s needs and skills.
-
Разработка и исследование алгоритма выделения признаков в публикациях Twitter для задачи классификации с известной разметкой
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 171-183Посты социальных сетей играют важную роль в отражении ситуации на финансовом рынке, а их анализ является мощным инструментом ведения торговли. В статье описан результат исследования влияния деятельности социальных медиа на движение финансового рынка. Сначала отбирается топ инфлюенсеров, активность которых считается авторитетной в криптовалютном сообществе. Сообщения в Twitter используются в качестве данных. Подобные тексты обычно сильно зашумлены, так как включают сленг и сокращения, поэтому представлены методы подготовки первичных текстовых данных, включающих в себя обработку Stanza, регулярными выражениями. Рассмотрено два подхода представления момента времени в формате текстовых данных. Так исследуется влияние либо одного твита, либо целого пакета, состоящего из твитов, собранных за определенный период времени. Также рассмотрен статистический подход в виде частотного анализа, введены метрики, способные отразить значимость того или иного слова при выявлении зависимости между изменением цены и постами в Twitter. Частотный анализ подразумевает исследование распределений встречаемости различных слов и биграмм в тексте для положительного, отрицательного либо общего трендов. Для построения разметки изменения на рынке перерабатываются в бинарный вектор с помощью различных параметров, задавая таким образом задачу бинарной классификации. Параметры для свечей Binance подбираются для лучшего описания движения рынка криптовалюты, их вариативность также исследуется в данной статье. Оценка эмоционального окраса текстовых данных изучается с помощью Stanford Core NLP. Результат статистического анализа представляет непосредственно практический интерес, так как предполагает выбор признаков для дальнейшей бинарной или мультиклассовой задач классификации. Представленные методы анализа текста способствуют повышению точности моделей, решающих задачи обработки естественного языка, с помощью отбора слов, улучшения качества векторизации. Такие алгоритмы зачастую используются в автоматизированных торговых стратегиях для предсказания цены актива, тренда ее движения.
Ключевые слова: анализ текста, обработка естественного языка, активность в Twitter, частотный анализ, отбор признаков, задача классификации, финансовые рынки.
Development of and research on an algorithm for distinguishing features in Twitter publications for a classification problem with known markup
Computer Research and Modeling, 2023, v. 15, no. 1, pp. 171-183Social media posts play an important role in demonstration of financial market state, and their analysis is a powerful tool for trading. The article describes the result of a study of the impact of social media activities on the movement of the financial market. The top authoritative influencers are selected. Twitter posts are used as data. Such texts usually include slang and abbreviations, so methods for preparing primary text data, including Stanza, regular expressions are presented. Two approaches to the representation of a point in time in the format of text data are considered. The difference of the influence of a single tweet or a whole package consisting of tweets collected over a certain period of time is investigated. A statistical approach in the form of frequency analysis is also considered, metrics defined by the significance of a particular word when identifying the relationship between price changes and Twitter posts are introduced. Frequency analysis involves the study of the occurrence distributions of various words and bigrams in the text for positive, negative or general trends. To build the markup, changes in the market are processed into a binary vector using various parameters, thus setting the task of binary classification. The parameters for Binance candlesticks are sorted out for better description of the movement of the cryptocurrency market, their variability is also explored in this article. Sentiment is studied using Stanford Core NLP. The result of statistical analysis is relevant to feature selection for further binary or multiclass classification tasks. The presented methods of text analysis contribute to the increase of the accuracy of models designed to solve natural language processing problems by selecting words, improving the quality of vectorization. Such algorithms are often used in automated trading strategies to predict the price of an asset, the trend of its movement.
-
Разработка и исследование алгоритмов машинного обучения для решения задачи классификации в публикациях Twitter
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 185-195Посты в социальных сетях способны как предсказывать движение финансового рынка, так и в некоторых случаях даже определять его направление. Анализ постов в Twitter способствует прогнозированию цен на криптовалюту. Специфика рассматриваемого сообщества заключается в особенной лексике. Так, в постах используются сленговые выражения, аббревиатуры и сокращения, наличие которых затрудняет векторизацию текстовых данных, в следствие чего рассматриваются методы предобработки такие, как лемматизация Stanza и применение регулярных выражений. В этой статье описываются простейшие модели машинного обучения, которые могут работать, несмотря на такие проблемы, как нехватка данных и короткие сроки прогнозирования. Решается задача бинарной текстовой классификации, в условиях которой слово рассматривается как элемент бинарного вектора единицы данных. Базисные слова определяются на основе частотного анализа упоминаний того или иного слова. Разметка составляется на основе свечей Binance с варьируемыми параметрами для более точного описания тренда изменения цены. В работе вводятся метрики, отражающие распределение слов в зависимости от их принадлежности к положительному или отрицательному классам. Для решения задачи классификации использовались dense-модель с подобранными при помощи Keras Tuner параметрами, логистическая регрессия, классификатор случайного леса, наивный байесовский классификатор, способный работать с малочисленной выборкой, что весьма актуально для нашей задачи, и метод k-ближайших соседей. Было проведено сравнение построенных моделей на основе метрики точности предсказанных меток. В ходе исследования было выяснено, что наилучшим подходом является использование моделей, которые предсказывают ценовые движения одной монеты. Наши модели имеют дело с постами, содержащими упоминания проекта LUNA, которого на данный момент уже не существует. Данный подход к решению бинарной классификации текстовых данных широко применяется для предсказания цены актива, тренда ее движения, что часто используется в автоматизированной торговле.
Ключевые слова: криптовалюты, Twitter, машинное обучение, обработка естественного языка, векторизация, dense модель, логистическая регрессия, случайный лес, KNN, наивный байесовский классификатор.
Development of and research on machine learning algorithms for solving the classification problem in Twitter publications
Computer Research and Modeling, 2023, v. 15, no. 1, pp. 185-195Posts on social networks can both predict the movement of the financial market, and in some cases even determine its direction. The analysis of posts on Twitter contributes to the prediction of cryptocurrency prices. The specificity of the community is represented in a special vocabulary. Thus, slang expressions and abbreviations are used in posts, the presence of which makes it difficult to vectorize text data, as a result of which preprocessing methods such as Stanza lemmatization and the use of regular expressions are considered. This paper describes created simplest machine learning models, which may work despite such problems as lack of data and short prediction timeframe. A word is considered as an element of a binary vector of a data unit in the course of the problem of binary classification solving. Basic words are determined according to the frequency analysis of mentions of a word. The markup is based on Binance candlesticks with variable parameters for a more accurate description of the trend of price changes. The paper introduces metrics that reflect the distribution of words depending on their belonging to a positive or negative classes. To solve the classification problem, we used a dense model with parameters selected by Keras Tuner, logistic regression, a random forest classifier, a naive Bayesian classifier capable of working with a small sample, which is very important for our task, and the k-nearest neighbors method. The constructed models were compared based on the accuracy metric of the predicted labels. During the investigation we recognized that the best approach is to use models which predict price movements of a single coin. Our model deals with posts that mention LUNA project, which no longer exist. This approach to solving binary classification of text data is widely used to predict the price of an asset, the trend of its movement, which is often used in automated trading.
Indexed in Scopus
Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU
The journal is included in the Russian Science Citation Index
The journal is included in the RSCI
International Interdisciplinary Conference "Mathematics. Computing. Education"