Результаты поиска по 'разметка':
Найдено статей: 9
  1. Иванов С.Д.
    Интерактивный реестр геосенсоров на основе веб-приложения
    Компьютерные исследования и моделирование, 2016, т. 8, № 4, с. 621-632

    Выбор и корректное использование инструмента минеральной геотермобарометрии — геосенсора — является сложной задачей из-за большого разнообразия существующих сенсоров, с одной стороны, и наличия специфических требований к их использованию с другой. Для снижения трудоемкости и обеспечения информационной поддержки использования геосенсоров в статье предлагается организация набора геосенсоров в рамках компьютерной системы, называемой интерактивным реестром. В статье дается формальное описание термодинамического геосенсора как функции состава минералов и независимых параметров, а также рассматриваются основные этапы получения оценок давления и температуры, общие для всех сенсоров: переход к коэффициентам формул, расчет дополнительных параметров и непосредственное вычисление искомого значения. Рассматриваются существующие программы — коллекции геосенсоров, выполненные как в виде отдельных приложений, так и в виде электронных таблиц, анализируются достоинства и недостатки этих подходов. Дается описание справочной информации, необходимой для использования геосенсора: в минеральном парагенезисе, в точности и пределах значений параметров, в литературной ссылке и др. Предлагается реализации реестра геосенсоров на базе веб-приложения, использующего технологию вики. Применение технологии вики позволяет эффективно организовать плохо формализуемую справочную информацию о сенсоре и его алгоритм, записанный на языке программирования в рамках единой информационной системы. Для структурирования информации используются ссылки, пространства имен и вики-разметка. В статье рассматривается реализация данного приложения на основе вики-системы DokuWiki и специально разработанного RESTful-сервера, позволяющего пользователю использовать геосенсоры, описанные в реестре для обработки собственных данных. В качестве языка описания геосенсоров в приложении используется язык R, для выполнения расчетов используется сервер RServe. Для контроля корректности работы сенсоров каждый из них снабжается юнит-тестом. Пользовательский интерфейс приложения разработан в виде плагинов к системе DokuWiki. Приводится пример использования разработанного приложения. В заключение рассматриваются вопросы безопасности и производительности разработанного приложения, а также возможность его масштабирования.

    Ivanov S.D.
    Web-based interactive registry of the geosensors
    Computer Research and Modeling, 2016, v. 8, no. 4, pp. 621-632

    Selection and correct applying of the geosensor — the instrument of mineral geothermobarometry is challenging because of the wide variety of existing geosensors on the one hand and the availability of specific requirements for their use on the other. In this paper, organization of the geosensors within the computer system called interactive registry was proposed for reducing the labor intensity of the geosensors usage and providing information support for them. The article provides a formal description of the thermodynamic geosensor, as a function of the minerals composition and independent parameters, as well as the basic steps of pressure and temperature estimation which are common for all geosensors: conversion to the formula units, calculation of the additional parameters and the calculation of the required values. Existing collections of geosensors made as standalone applications, or as spreadsheets was examined for advantages and disadvantages of these approaches. Additional information necessary to use the geosensor was described: paragenesis, accuracy and range of parameter values, reference and others. Implementation of the geosensors registry as the webbased application which uses wiki technology was proposed. Usage of the wiki technology allows to effectively organize not so well formalized additional information about the geosensor and it’s algorithm which had written in a programming language into a single information system. For information organization links, namespaces and wiki markup was used. The article discusses the implementation of the applications on the top of DokuWiki system with specially designed RESTful server, allowing users to apply the geosensors from the registry to their own data. Programming language R uses as a geosensors description language. RServe server uses for calculations. The unittest for each geosensor allows to check the correctness of it’s implementation. The user interface of the application was developed as DokuWiki plug-in. The example of usage was given. In the article conclusion, the questions of the application security, performance and scaling was discussed.

    Views (last year): 5.
  2. Полежаев В.А.
    Задачи и методы автоматического построения графа цитирований по коллекции научных документов
    Компьютерные исследования и моделирование, 2012, т. 4, № 4, с. 707-719

    Задача автоматического построения графа цитирования по коллекции научных документов сводится к решению последовательности задач распознавания. Рассматриваются методы решения, их адаптация и объединение в технологическую цепочку, приводятся результаты вычислительных экспериментов для некоторых задач.

    Polezhaev V.A.
    Automated citation graph building from a corpora of scientific documents
    Computer Research and Modeling, 2012, v. 4, no. 4, pp. 707-719

    In this paper the problem of automated building of a citation graph from a collection of scientific documents is considered as a sequence of machine learning tasks. The overall data processing technology is described which consists of six stages: preprocessing, metainformation extraction, bibliography lists extraction, splitting bibliography lists into separate bibliography records, standardization of each bibliography record, and record linkage. The goal of this paper is to provide a survey of approaches and algorithms suitable for each stage, motivate the choice of the best combination of algorithms, and adapt some of them for multilingual bibliographies processing. For some of the tasks new algorithms and heuristics are proposed and evaluated on the mixed English and Russian documents corpora.

    Views (last year): 5. Citations: 1 (RSCI).
  3. Холодов Я.А., Алексеенко А.Е., Васильев М.О., Холодов А.С.
    Построение математической модели дорожного перекрестка на основе гидродинамического подхода
    Компьютерные исследования и моделирование, 2014, т. 6, № 4, с. 503-522

    Целью данной работы является построение макроскопической гидродинамической модели, описывающей автомобильное движение на автодорожном перекрестке и учитывающей как распределение светофорных фаз, так и существующую дорожную разметку на перекрестке.

    Kholodov Y.A., Alekseenko A.E., Vasilev M.O., Kholodov A.S.
    Developing the mathematical model of road junction by the hydrodynamic approach
    Computer Research and Modeling, 2014, v. 6, no. 4, pp. 503-522

    The purpose of this paper is to develop a macroscopic hydrodynamic model describing the vehicular traffic on a road junction and taking into account the distribution of traffic light phases and the existing road markings.

    Views (last year): 4.
  4. Шлеймович М.П., Дагаева М.В., Катасёв А.С., Ляшева С.А., Медведев М.В.
    Анализ изображений в системах управления беспилотными автомобилями на основе модели энергетических признаков
    Компьютерные исследования и моделирование, 2018, т. 10, № 3, с. 369-376

    В статье показана актуальность научно-исследовательских работ в области создания систем управления беспилотными автомобилями на основе технологий компьютерного зрения. Средства компьютерного зрения используются для решения большого количества различных задач, в том числе для определения местоположения автомобиля, обнаружения препятствий, определения пригодного для парковки места. Данные задачи являются ресурсоемкими и должны выполняться в реальном режиме времени. Поэтому актуальна разработка эффективных моделей, методов и средств, обеспечивающих достижение требуемых показателей времени и точности для применения в системах управления беспилотными автомобилями. При этом важное значение имеет выбор модели представления изображений. В данной работе рассмотрена модель на основе вейвлет-преобразования, позволяющая сформировать признаки, характеризующие оценки энергии точек изображения и отражающие их значимость с точки зрения вклада в общую энергию изображения. Для формирования модели энергетических признаков выполняется процедура, основанная на учете зависимостей между вейвлет-коэффициентами различных уровней и применении эвристических настроечных коэффициентов для усиления или ослабления влияния граничных и внутренних точек. На основе предложенной модели можно построить описания изображений для выделения и анализа их характерных особенностей, в том числе для выделения контуров, регионов и особых точек. Эффективность предлагаемого подхода к анализу изображений обусловлена тем, что рассматриваемые объекты, такие как дорожные знаки, дорожная разметка или номера автомобилей, которые необходимо обнаруживать и идентифицировать, характеризуются соответствующими признаками. Кроме того, использование вейвлет-преобразований позволяет производить одни и те же базовые операции для решения комплекса задач в бортовых системах беспилотных автомобилей, в том числе для задач первичной обработки, сегментации, описания, распознавания и сжатия изображений. Применение такого унифицированного подхода позволит сократить время на выполнение всех процедур и снизить требования к вычислительным ресурсам бортовой системы беспилотного автотранспортного средства.

    Shleymovich M.P., Dagaeva M.V., Katasev A.S., Lyasheva S.A., Medvedev M.V.
    The analysis of images in control systems of unmanned automobiles on the base of energy features model
    Computer Research and Modeling, 2018, v. 10, no. 3, pp. 369-376

    The article shows the relevance of research work in the field of creating control systems for unmanned vehicles based on computer vision technologies. Computer vision tools are used to solve a large number of different tasks, including to determine the location of the car, detect obstacles, determine a suitable parking space. These tasks are resource intensive and have to be performed in real time. Therefore, it is important to develop effective models, methods and tools that ensure the achievement of the required time and accuracy for use in unmanned vehicle control systems. In this case, the choice of the image representation model is important. In this paper, we consider a model based on the wavelet transform, which makes it possible to form features characterizing the energy estimates of the image points and reflecting their significance from the point of view of the contribution to the overall image energy. To form a model of energy characteristics, a procedure is performed based on taking into account the dependencies between the wavelet coefficients of various levels and the application of heuristic adjustment factors for strengthening or weakening the influence of boundary and interior points. On the basis of the proposed model, it is possible to construct descriptions of images their characteristic features for isolating and analyzing, including for isolating contours, regions, and singular points. The effectiveness of the proposed approach to image analysis is due to the fact that the objects in question, such as road signs, road markings or car numbers that need to be detected and identified, are characterized by the relevant features. In addition, the use of wavelet transforms allows to perform the same basic operations to solve a set of tasks in onboard unmanned vehicle systems, including for tasks of primary processing, segmentation, description, recognition and compression of images. The such unified approach application will allow to reduce the time for performing all procedures and to reduce the requirements for computing resources of the on-board system of an unmanned vehicle.

    Views (last year): 31. Citations: 1 (RSCI).
  5. В данной статье решается задача разработки технологии сбора исходных данных для построения моделей оценки функционального состояния человека. Данное состояние оценивается по зрачковой реакции человека на изменение освещенности на основе метода пупиллометрии. Данный метод предполагает сбор и анализ исходных данных (пупиллограмм), представленных в виде временных рядов, характеризующих динамику изменения зрачков человека на световое импульсное воздействие. Анализируются недостатки традиционного подхода к сбору исходных данных с применением методов компьютерного зрения и сглаживания временных рядов. Акцентируется внимание на важности качества исходных данных для построения адекватных математических моделей. Актуализируется необходимость ручной разметки окружностей радужной оболочки глаза и зрачка для повышения точности и качества исходных данных. Описываются этапы предложенной технологии сбора исходных данных. Приводится пример полученной пупиллограммы, имеющей гладкую форму и не содержащей выбросы, шумы, аномалии и пропущенные значения. На основе представленной технологии разработан программно-аппаратный комплекс, представляющий собой совокупность специального программного обеспечения, имеющего два основных модуля, и аппаратной части, реализованной на базе микрокомпьютера Raspberry Pi 4 Model B, с периферийным оборудованием, реализующим заданный функционал. Для оценки эффективности разработанной технологии используются модели однослойного персептрона и коллектива нейронных сетей, для построения которых использовались исходные данные о функциональном состоянии утомления человека. Проведенные исследования показали, что применение ручной разметки исходных данных (по сравнению с автоматическими методами компьютерного зрения) приводит к снижению числа ошибок 1-го и 2-года рода и, соответственно, повышению точности оценки функционального состояния человека. Таким образом, представленная технология сбора исходных данных может эффективно использоваться для построения адекватных моделей оценки функционального состояния человека по зрачковой реакции на изменение освещенности. Использование таких моделей актуально в решении отдельных задач обеспечения транспортной безопасности, в частности мониторинга функционального состояния водителей.

    This article solves the problem of developing a technology for collecting initial data for building models for assessing the functional state of a person. This condition is assessed by the pupil response of a person to a change in illumination based on the pupillometry method. This method involves the collection and analysis of initial data (pupillograms), presented in the form of time series characterizing the dynamics of changes in the human pupils to a light impulse effect. The drawbacks of the traditional approach to the collection of initial data using the methods of computer vision and smoothing of time series are analyzed. Attention is focused on the importance of the quality of the initial data for the construction of adequate mathematical models. The need for manual marking of the iris and pupil circles is updated to improve the accuracy and quality of the initial data. The stages of the proposed technology for collecting initial data are described. An example of the obtained pupillogram is given, which has a smooth shape and does not contain outliers, noise, anomalies and missing values. Based on the presented technology, a software and hardware complex has been developed, which is a collection of special software with two main modules, and hardware implemented on the basis of a Raspberry Pi 4 Model B microcomputer, with peripheral equipment that implements the specified functionality. To evaluate the effectiveness of the developed technology, models of a single-layer perspetron and a collective of neural networks are used, for the construction of which the initial data on the functional state of intoxication of a person were used. The studies have shown that the use of manual marking of the initial data (in comparison with automatic methods of computer vision) leads to a decrease in the number of errors of the 1st and 2nd years of the kind and, accordingly, to an increase in the accuracy of assessing the functional state of a person. Thus, the presented technology for collecting initial data can be effectively used to build adequate models for assessing the functional state of a person by pupillary response to changes in illumination. The use of such models is relevant in solving individual problems of ensuring transport security, in particular, monitoring the functional state of drivers.

  6. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Захарова Е.М.
    Разработка и исследование жесткого алгоритма анализа публикаций в Twitter и их влияния на движение рынка криптовалют
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 157-170

    Посты в социальных сетях являются важным индикатором, отображающим положение активов на финансовом рынке. В статье описывается жесткое решение задачи классификации для определения влияния активности в социальных сетях на движение финансового рынка. Отбираются аккаунты авторитетных в сообществе крипто-трейдеров-инфлюенсеров. В качестве данных используются специальные пакеты сообщений, которые состоят из текстовых постов, взятых из Twitter. Приведены способы предобработки текста, заключающиеся в лемматизации Stanza и применении регулярных выражений, для очищения зашумленных текстов, особенностью которых является многочисленное употребление сленговых слов и сокращений. Решается задача бинарной классификации, где слово рассматривается как элемент вектора единицы данных. Для более точного описания криптовалютной активности ищутся наилучшие параметры разметки для обработки свечей Binance. Методы выявления признаков, необходимых для точного описания текстовых данных и последующего процесса установления зависимости, представлены в виде машинного обучения и статистического анализа. В качестве первого используется отбор признаков на основе критерия информативности, который применяется при разбиении решающего дерева на поддеревья. Такой подход реализован в модели случайного леса и актуален для задачи выбора значимых для «стрижки деревьев» признаков. Второй же основан на жестком составлении бинарного вектора в ходе грубой проверки наличия либо отсутствия слова в пакете и подсчете суммы элементов этого вектора. Затем принимается решение в зависимости от преодоления этой суммой порогового значения, базирующегося на уровне, предварительно подобранном с помощью анализа частотного распределения упоминаний слова. Алгоритм, используемый для решения проблемы, был назван бенчмарком и проанализирован в качестве инструмента. Подобные алгоритмы часто используются в автоматизированных торговых стратегиях. В процессе исследования также описаны наблюдения влияния часто встречающихся в тексте слов, которые используются в качестве базиса размерностью 2 и 3 при векторизации.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Zakharova E.M.
    Development of and research into a rigid algorithm for analyzing Twitter publications and its influence on the movements of the cryptocurrency market
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 157-170

    Social media is a crucial indicator of the position of assets in the financial market. The paper describes the rigid solution for the classification problem to determine the influence of social media activity on financial market movements. Reputable crypto traders influencers are selected. Twitter posts packages are used as data. The methods of text, which are characterized by the numerous use of slang words and abbreviations, and preprocessing consist in lemmatization of Stanza and the use of regular expressions. A word is considered as an element of a vector of a data unit in the course of solving the problem of binary classification. The best markup parameters for processing Binance candles are searched for. Methods of feature selection, which is necessary for a precise description of text data and the subsequent process of establishing dependence, are represented by machine learning and statistical analysis. First, the feature selection is used based on the information criterion. This approach is implemented in a random forest model and is relevant for the task of feature selection for splitting nodes in a decision tree. The second one is based on the rigid compilation of a binary vector during a rough check of the presence or absence of a word in the package and counting the sum of the elements of this vector. Then a decision is made depending on the superiority of this sum over the threshold value that is predetermined previously by analyzing the frequency distribution of mentions of the word. The algorithm used to solve the problem was named benchmark and analyzed as a tool. Similar algorithms are often used in automated trading strategies. In the course of the study, observations of the influence of frequently occurring words, which are used as a basis of dimension 2 and 3 in vectorization, are described as well.

  7. Плохотников К.Э.
    Проблема выбора решений при классическом формате описания молекулярной системы
    Компьютерные исследования и моделирование, 2023, т. 15, № 6, с. 1573-1600

    Разработанные автором недавно численные методики расчета молекулярной системы на базе прямого решения уравнения Шрёдингера методом Монте-Карло показали огромную неопределенностьв выборе решений. С одной стороны, оказалось возможным построить множество новых решений, с другой стороны, резко обостриласьпроб лема их связывания с реальностью. В квантовомеханических расчетах ab initio проблема выбора решений стоит не так остро после перехода к классическому формату описания молекулярной системы в терминах потенциальной энергии, метода молекулярной динамики и пр. В данной работе исследуется проблема выбора решений при классическом формате описания молекулярной системы без учета квантовомеханических предпосылок. Как оказалось, проблема выбора решений при классическом формате описания молекулярной системы сводится к конкретной разметке конфигурационного пространства в виде набора стационарных точек и реконструкции соответствующей функции потенциальной энергии. В такой постановке решение проблемы выбора сводится к двум возможным физико-математическим задачам: по заданной функции потенциальной энергии найти все ее стационарные точки (прямая задача проблемы выбора), по заданному набору стационарных точек реконструироватьф ункцию потенциальной энергии (обратная задача проблемы выбора). В работе с помощью вычислительного эксперимента обсуждается прямая задача проблемы выбора на примере описания моноатомного кластера. Численно оцениваются число и форма локально равновесных (седловых) конфигураций бинарного потенциала. Вводится соответствующая мера по различению конфигураций в пространстве. Предлагается формат построения всей цепочки многочастичных вкладов в функцию потенциальной энергии: бинарный, трехчастичный и т.д., многочастичный потенциал максимальной частичности. Обсуждается и иллюстрируется бесконечное количество локально равновесных (седловых) конфигураций для максимально многочастичного потенциала. Предлагается методика вариации числа стационарных точек путем комбинирования многочастичных вкладов в функцию потенциальной энергии. Перечисленные выше результаты работы направлены на то, чтобы уменьшить тот огромный произвол выбора формы потенциала, который имеет место в настоящее время. Уменьшение произвола выбора выражается в том, что имеющиеся знания о вполне конкретном наборе стационарных точек согласуются с соответствующей формой функции потенциальной энергии.

    Plokhotnikov K.E.
    The problem of choosing solutions in the classical format of the description of a molecular system
    Computer Research and Modeling, 2023, v. 15, no. 6, pp. 1573-1600

    The numerical methods developed by the author recently for calculating the molecular system based on the direct solution of the Schrodinger equation by the Monte Carlo method have shown a huge uncertainty in the choice of solutions. On the one hand, it turned out to be possible to build many new solutions; on the other hand, the problem of their connection with reality has become sharply aggravated. In ab initio quantum mechanical calculations, the problem of choosing solutions is not so acute after the transition to the classical format of describing a molecular system in terms of potential energy, the method of molecular dynamics, etc. In this paper, we investigate the problem of choosing solutions in the classical format of describing a molecular system without taking into account quantum mechanical prerequisites. As it turned out, the problem of choosing solutions in the classical format of describing a molecular system is reduced to a specific marking of the configuration space in the form of a set of stationary points and reconstruction of the corresponding potential energy function. In this formulation, the solution of the choice problem is reduced to two possible physical and mathematical problems: to find all its stationary points for a given potential energy function (the direct problem of the choice problem), to reconstruct the potential energy function for a given set of stationary points (the inverse problem of the choice problem). In this paper, using a computational experiment, the direct problem of the choice problem is discussed using the example of a description of a monoatomic cluster. The number and shape of the locally equilibrium (saddle) configurations of the binary potential are numerically estimated. An appropriate measure is introduced to distinguish configurations in space. The format of constructing the entire chain of multiparticle contributions to the potential energy function is proposed: binary, threeparticle, etc., multiparticle potential of maximum partiality. An infinite number of locally equilibrium (saddle) configurations for the maximum multiparticle potential is discussed and illustrated. A method of variation of the number of stationary points by combining multiparticle contributions to the potential energy function is proposed. The results of the work listed above are aimed at reducing the huge arbitrariness of the choice of the form of potential that is currently taking place. Reducing the arbitrariness of choice is expressed in the fact that the available knowledge about the set of a very specific set of stationary points is consistent with the corresponding form of the potential energy function.

  8. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Горбачёв Р.А.
    Разработка и исследование алгоритма выделения признаков в публикациях Twitter для задачи классификации с известной разметкой
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 171-183

    Посты социальных сетей играют важную роль в отражении ситуации на финансовом рынке, а их анализ является мощным инструментом ведения торговли. В статье описан результат исследования влияния деятельности социальных медиа на движение финансового рынка. Сначала отбирается топ инфлюенсеров, активность которых считается авторитетной в криптовалютном сообществе. Сообщения в Twitter используются в качестве данных. Подобные тексты обычно сильно зашумлены, так как включают сленг и сокращения, поэтому представлены методы подготовки первичных текстовых данных, включающих в себя обработку Stanza, регулярными выражениями. Рассмотрено два подхода представления момента времени в формате текстовых данных. Так исследуется влияние либо одного твита, либо целого пакета, состоящего из твитов, собранных за определенный период времени. Также рассмотрен статистический подход в виде частотного анализа, введены метрики, способные отразить значимость того или иного слова при выявлении зависимости между изменением цены и постами в Twitter. Частотный анализ подразумевает исследование распределений встречаемости различных слов и биграмм в тексте для положительного, отрицательного либо общего трендов. Для построения разметки изменения на рынке перерабатываются в бинарный вектор с помощью различных параметров, задавая таким образом задачу бинарной классификации. Параметры для свечей Binance подбираются для лучшего описания движения рынка криптовалюты, их вариативность также исследуется в данной статье. Оценка эмоционального окраса текстовых данных изучается с помощью Stanford Core NLP. Результат статистического анализа представляет непосредственно практический интерес, так как предполагает выбор признаков для дальнейшей бинарной или мультиклассовой задач классификации. Представленные методы анализа текста способствуют повышению точности моделей, решающих задачи обработки естественного языка, с помощью отбора слов, улучшения качества векторизации. Такие алгоритмы зачастую используются в автоматизированных торговых стратегиях для предсказания цены актива, тренда ее движения.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Gorbachev R.A.
    Development of and research on an algorithm for distinguishing features in Twitter publications for a classification problem with known markup
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 171-183

    Social media posts play an important role in demonstration of financial market state, and their analysis is a powerful tool for trading. The article describes the result of a study of the impact of social media activities on the movement of the financial market. The top authoritative influencers are selected. Twitter posts are used as data. Such texts usually include slang and abbreviations, so methods for preparing primary text data, including Stanza, regular expressions are presented. Two approaches to the representation of a point in time in the format of text data are considered. The difference of the influence of a single tweet or a whole package consisting of tweets collected over a certain period of time is investigated. A statistical approach in the form of frequency analysis is also considered, metrics defined by the significance of a particular word when identifying the relationship between price changes and Twitter posts are introduced. Frequency analysis involves the study of the occurrence distributions of various words and bigrams in the text for positive, negative or general trends. To build the markup, changes in the market are processed into a binary vector using various parameters, thus setting the task of binary classification. The parameters for Binance candlesticks are sorted out for better description of the movement of the cryptocurrency market, their variability is also explored in this article. Sentiment is studied using Stanford Core NLP. The result of statistical analysis is relevant to feature selection for further binary or multiclass classification tasks. The presented methods of text analysis contribute to the increase of the accuracy of models designed to solve natural language processing problems by selecting words, improving the quality of vectorization. Such algorithms are often used in automated trading strategies to predict the price of an asset, the trend of its movement.

  9. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Горбачёв Р.А.
    Разработка и исследование алгоритмов машинного обучения для решения задачи классификации в публикациях Twitter
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 185-195

    Посты в социальных сетях способны как предсказывать движение финансового рынка, так и в некоторых случаях даже определять его направление. Анализ постов в Twitter способствует прогнозированию цен на криптовалюту. Специфика рассматриваемого сообщества заключается в особенной лексике. Так, в постах используются сленговые выражения, аббревиатуры и сокращения, наличие которых затрудняет векторизацию текстовых данных, в следствие чего рассматриваются методы предобработки такие, как лемматизация Stanza и применение регулярных выражений. В этой статье описываются простейшие модели машинного обучения, которые могут работать, несмотря на такие проблемы, как нехватка данных и короткие сроки прогнозирования. Решается задача бинарной текстовой классификации, в условиях которой слово рассматривается как элемент бинарного вектора единицы данных. Базисные слова определяются на основе частотного анализа упоминаний того или иного слова. Разметка составляется на основе свечей Binance с варьируемыми параметрами для более точного описания тренда изменения цены. В работе вводятся метрики, отражающие распределение слов в зависимости от их принадлежности к положительному или отрицательному классам. Для решения задачи классификации использовались dense-модель с подобранными при помощи Keras Tuner параметрами, логистическая регрессия, классификатор случайного леса, наивный байесовский классификатор, способный работать с малочисленной выборкой, что весьма актуально для нашей задачи, и метод k-ближайших соседей. Было проведено сравнение построенных моделей на основе метрики точности предсказанных меток. В ходе исследования было выяснено, что наилучшим подходом является использование моделей, которые предсказывают ценовые движения одной монеты. Наши модели имеют дело с постами, содержащими упоминания проекта LUNA, которого на данный момент уже не существует. Данный подход к решению бинарной классификации текстовых данных широко применяется для предсказания цены актива, тренда ее движения, что часто используется в автоматизированной торговле.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Gorbachev R.A.
    Development of and research on machine learning algorithms for solving the classification problem in Twitter publications
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 185-195

    Posts on social networks can both predict the movement of the financial market, and in some cases even determine its direction. The analysis of posts on Twitter contributes to the prediction of cryptocurrency prices. The specificity of the community is represented in a special vocabulary. Thus, slang expressions and abbreviations are used in posts, the presence of which makes it difficult to vectorize text data, as a result of which preprocessing methods such as Stanza lemmatization and the use of regular expressions are considered. This paper describes created simplest machine learning models, which may work despite such problems as lack of data and short prediction timeframe. A word is considered as an element of a binary vector of a data unit in the course of the problem of binary classification solving. Basic words are determined according to the frequency analysis of mentions of a word. The markup is based on Binance candlesticks with variable parameters for a more accurate description of the trend of price changes. The paper introduces metrics that reflect the distribution of words depending on their belonging to a positive or negative classes. To solve the classification problem, we used a dense model with parameters selected by Keras Tuner, logistic regression, a random forest classifier, a naive Bayesian classifier capable of working with a small sample, which is very important for our task, and the k-nearest neighbors method. The constructed models were compared based on the accuracy metric of the predicted labels. During the investigation we recognized that the best approach is to use models which predict price movements of a single coin. Our model deals with posts that mention LUNA project, which no longer exist. This approach to solving binary classification of text data is widely used to predict the price of an asset, the trend of its movement, which is often used in automated trading.

Indexed in Scopus

Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU

The journal is included in the Russian Science Citation Index

The journal is included in the RSCI

International Interdisciplinary Conference "Mathematics. Computing. Education"