Результаты поиска по 'сети':
Найдено авторов: 1
  1. Lloyd S. (Ллойд С.)
Найдено статей: 128
  1. Ужинский А.В., Ососков Г.А., Гончаров П.В., Фронтасьева М.В.
    Перспективы использования космоснимков для прогнозирования загрязнения воздуха тяжелыми металлами
    Компьютерные исследования и моделирование, 2018, т. 10, № 4, с. 535-544

    Контроль за загрязнением воздуха имеет большое значение для стран Европы и Азии. В рамках Конвенции ООН по дальнему трансграничному переносу воздушных загрязнений (СLRTAP) реализуется программа UNECE ICP Vegetation, направленная на определение наиболее неблагополучных областей, создание региональных карт и улучшение понимания природы долгосрочных трансграничных загрязнений. В Объединенном институте ядерных исследований была разработана облачная платформа, предоставляющая участникам программы ICP Vegetation удобные инструменты для сбора, анализа и обработки данных мониторинга. В настоящее время в системе содержится информация о более чем 6000 точках пробоотбора в 40 регионах различных стран Европы и Азии.

    Важным этапом контроля является моделирование загрязнений в местах, где частота исследований или плотность покрытия сети сбора образцов недостаточны. Одним из подходов к прогнозированию загрязнений является использование специализированных статистических моделей и методов машинного обучения совместно с различными количественными показателями точек сбора образцов и информацией о концентрациях элементов. Наиболее перспективным источником количественных показателей для обучения моделей являются космические снимки в различных спектрах. Обученная должным образом модель позволит получать прогноз по концентрациям элементов, используя исключительно космоснимки. Специализированная платформа Google Earth Engine предоставляет широкие возможности для анализа и обработки данных от более чем 100 различных проектов дистанционного зондирования земли, удобный интерфейс разработчика на JavaScript и программный интерфейс на Python для использования в сторонних приложениях.

    В работе рассматривается возможность использования статистических показателей космоснимков, полученных от платформы Google Earth Engine, совместно с данными мониторинга состояния окружающей среды проекта ICP Vegetation для обучения моделей, способных прогнозировать концентрацию тяжелых металлов в определенных регионах.

    Uzhinskiy A.V., Ososkov G.A., Goncharov P.V., Frontasyeva M.V.
    Perspectives of using a satellite imagery data for prediction of heavy metals contamination
    Computer Research and Modeling, 2018, v. 10, no. 4, pp. 535-544
    Views (last year): 21.
  2. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Захарова Е.М.
    Разработка и исследование жесткого алгоритма анализа публикаций в Twitter и их влияния на движение рынка криптовалют
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 157-170

    Посты в социальных сетях являются важным индикатором, отображающим положение активов на финансовом рынке. В статье описывается жесткое решение задачи классификации для определения влияния активности в социальных сетях на движение финансового рынка. Отбираются аккаунты авторитетных в сообществе крипто-трейдеров-инфлюенсеров. В качестве данных используются специальные пакеты сообщений, которые состоят из текстовых постов, взятых из Twitter. Приведены способы предобработки текста, заключающиеся в лемматизации Stanza и применении регулярных выражений, для очищения зашумленных текстов, особенностью которых является многочисленное употребление сленговых слов и сокращений. Решается задача бинарной классификации, где слово рассматривается как элемент вектора единицы данных. Для более точного описания криптовалютной активности ищутся наилучшие параметры разметки для обработки свечей Binance. Методы выявления признаков, необходимых для точного описания текстовых данных и последующего процесса установления зависимости, представлены в виде машинного обучения и статистического анализа. В качестве первого используется отбор признаков на основе критерия информативности, который применяется при разбиении решающего дерева на поддеревья. Такой подход реализован в модели случайного леса и актуален для задачи выбора значимых для «стрижки деревьев» признаков. Второй же основан на жестком составлении бинарного вектора в ходе грубой проверки наличия либо отсутствия слова в пакете и подсчете суммы элементов этого вектора. Затем принимается решение в зависимости от преодоления этой суммой порогового значения, базирующегося на уровне, предварительно подобранном с помощью анализа частотного распределения упоминаний слова. Алгоритм, используемый для решения проблемы, был назван бенчмарком и проанализирован в качестве инструмента. Подобные алгоритмы часто используются в автоматизированных торговых стратегиях. В процессе исследования также описаны наблюдения влияния часто встречающихся в тексте слов, которые используются в качестве базиса размерностью 2 и 3 при векторизации.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Zakharova E.M.
    Development of and research into a rigid algorithm for analyzing Twitter publications and its influence on the movements of the cryptocurrency market
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 157-170

    Social media is a crucial indicator of the position of assets in the financial market. The paper describes the rigid solution for the classification problem to determine the influence of social media activity on financial market movements. Reputable crypto traders influencers are selected. Twitter posts packages are used as data. The methods of text, which are characterized by the numerous use of slang words and abbreviations, and preprocessing consist in lemmatization of Stanza and the use of regular expressions. A word is considered as an element of a vector of a data unit in the course of solving the problem of binary classification. The best markup parameters for processing Binance candles are searched for. Methods of feature selection, which is necessary for a precise description of text data and the subsequent process of establishing dependence, are represented by machine learning and statistical analysis. First, the feature selection is used based on the information criterion. This approach is implemented in a random forest model and is relevant for the task of feature selection for splitting nodes in a decision tree. The second one is based on the rigid compilation of a binary vector during a rough check of the presence or absence of a word in the package and counting the sum of the elements of this vector. Then a decision is made depending on the superiority of this sum over the threshold value that is predetermined previously by analyzing the frequency distribution of mentions of the word. The algorithm used to solve the problem was named benchmark and analyzed as a tool. Similar algorithms are often used in automated trading strategies. In the course of the study, observations of the influence of frequently occurring words, which are used as a basis of dimension 2 and 3 in vectorization, are described as well.

  3. Софронова Е.А., Дивеев А.И., Казарян Д.Э., Константинов С.В., Дарьина А.Н., Селиверстов Я.А., Баскин Л.А.
    Использование реальных данных из нескольких источников для оптимизации транспортных потоков в пакете CTraf
    Компьютерные исследования и моделирование, 2024, т. 16, № 1, с. 147-159

    Рассмотрена задача оптимального управления транспортным потоком в сети городских дорог. Управление осуществляется изменением длительностей рабочих фаз светофоров на регулируемых перекрестках. Приведено описание разработанной системы управления. В системе управления предусмотрено использование трех видов управлений: программного, с обратной связью и ручного. При управлении с обратной связью для определения количественных характеристик транспортного потока используются детекторы дорожной инфраструктуры, видеокамеры, индуктивные петлевые и радиолокационные датчики. Обработка сигналов с детекторов позволяет определить состояние транспортного потока в каждый текущий момент времени. Для определения моментов переключения рабочих фаз светофоров количественные характеристики транспортных потоков поступают в математическую модель транспортного потока, реализованную в вычислительной среде системы автоматического управления транспортными потоками. Модель представляет собой систему конечно-разностных рекуррентных уравнений и описывает изменение транспортного потока на каждом участке дороги в каждый такт времени на основе рассчитанных данных по характеристикам транспортного потока в сети, пропускным способностям маневров и распределению потока на перекрестках с альтернативными направлениями движения. Модель обладает свойствами масштабирования и агрегирования. Структура модели зависит от структуры графа управляемой сети дорог, а количество узлов в графе равно количеству рассматриваемых участков дорог сети. Моделирование изменений транспортного потока в режиме реального времени позволяет оптимально определять длительности рабочих фаз светофоров и обеспечивать управление транспортным потоком с обратной связью по его текущему состоянию. В работе рассмотрена система автоматического сбора и обработки данных, поступающих в модель. Для моделирования состояний транспортного потока в сети и решения задачи оптимального управления транспортным потоком разработан программный комплекс CTraf, краткое описание которого представлено в работе. Приведен пример решения задачи оптимального управления транспортным потокам в сети дорог города Москва на основе реальных данных.

    Sofronova E.A., Diveev A.I., Kazaryan D.E., Konstantinov S.V., Daryina A.N., Seliverstov Y.A., Baskin L.A.
    Utilizing multi-source real data for traffic flow optimization in CTraf
    Computer Research and Modeling, 2024, v. 16, no. 1, pp. 147-159

    The problem of optimal control of traffic flow in an urban road network is considered. The control is carried out by varying the duration of the working phases of traffic lights at controlled intersections. A description of the control system developed is given. The control system enables the use of three types of control: open-loop, feedback and manual. In feedback control, road infrastructure detectors, video cameras, inductive loop and radar detectors are used to determine the quantitative characteristics of current traffic flow state. The quantitative characteristics of the traffic flows are fed into a mathematical model of the traffic flow, implemented in the computer environment of an automatic traffic flow control system, in order to determine the moments for switching the working phases of the traffic lights. The model is a system of finite-difference recurrent equations and describes the change in traffic flow on each road section at each time step, based on retrived data on traffic flow characteristics in the network, capacity of maneuvers and flow distribution through alternative maneuvers at intersections. The model has scaling and aggregation properties. The structure of the model depends on the structure of the graph of the controlled road network. The number of nodes in the graph is equal to the number of road sections in the considered network. The simulation of traffic flow changes in real time makes it possible to optimally determine the duration of traffic light operating phases and to provide traffic flow control with feedback based on its current state. The system of automatic collection and processing of input data for the model is presented. In order to model the states of traffic flow in the network and to solve the problem of optimal traffic flow control, the CTraf software package has been developed, a brief description of which is given in the paper. An example of the solution of the optimal control problem of traffic flows on the basis of real data in the road network of Moscow is given.

  4. Васильев А.Н., Карп В.П.
    Моделирование саморегуляции активного нейрона в сети
    Компьютерные исследования и моделирование, 2012, т. 4, № 3, с. 613-619

    Предложена модель поведения активного нейрона, явившаяся развитием модели, описанной в работе Шамиса А.Л. [Шамис, 2006]. Предложены топология локально связанной матрицы активной нейронной сети и структура интеграции информации от различных источников. Приведен пример сценария поведения робота, управляемого активной нейронной сетью. Представлены результаты экспериментов с программной реализацией нейросети.

    Vasiliev A.N., Karp V.P.
    Modeling self-regulation of active neuron in the network
    Computer Research and Modeling, 2012, v. 4, no. 3, pp. 613-619

    A model of the behavior of the active neuron, which was the development of the model described in Shamis A.L. [Shamis, 2006], is designed. Proposed topology is locally connected matrix of the active neural network and the structure integration of information from different sources. An example of the script behavior robot controlled by this neural network is described. The results of experiments with the software implementation of a neural network are presented.

    Views (last year): 1.
  5. Тарасевич Ю.Ю., Зелепухина В.А.
    Академическая сеть как возбудимая среда
    Компьютерные исследования и моделирование, 2015, т. 7, № 1, с. 177-183

    В работе проведено моделирование распространения некой идеи в профессиональной виртуальной группе. Мы рассматриваем распространение возбуждения в неоднородной возбудимой среде высокой связности. Предполагается, что элементы сети образуют полный граф. Параметры элементов распределены по нормальному закону. Моделирование показало, что в зависимости от параметров в виртуальной группе интерес к идее может затухать или испытывать колебания. Наличие в сети постоянно возбужденного элемента достаточно высокой активности приводит к хаотизации — доля членов сообщества, активно интересующихся идеей, меняется нерегулярно.

    Tarasevich Y.Y., Zelepukhina V.A.
    Academic network as excitable medium
    Computer Research and Modeling, 2015, v. 7, no. 1, pp. 177-183

    The paper simulated the spread of certain ideas in a professional virtual group. We consider the propagation of excitation in an inhomogeneous excitable medium of high connectivity. It is assumed that the network elements form a complete graph. Parameters of the elements are normally distributed. The simulation showed that interest in the idea can fade or fluctuate depending on the settings in the virtual group. The presence of a permanent excited element with relatively high activity leads to chaos — the fraction of members of the community actively interested in an idea varies irregularly.

    Views (last year): 6.
  6. Охапкина Е.П., Охапкин В.П.
    Подходы к кластеризации групп социальной сети
    Компьютерные исследования и моделирование, 2015, т. 7, № 5, с. 1127-1139

    Исследование посвящено проблеме использования социальных сетей в качестве инструмента в противозаконной деятельности и источника информации, способного нести опасность обществу. В статье приводится структура мультиагентной системы, под управлением которой может осуществляться кластеризация групп социальной сети по критериям, однозначно определяющим группу в качестве деструктивной. Приведен алгоритм, который используют агенты системы для кластеризации.

    Okhapkina E.P., Okhapkin V.P.
    Approaches to a social network groups clustering
    Computer Research and Modeling, 2015, v. 7, no. 5, pp. 1127-1139

    The research is devoted to the problem of the use of social networks as a tool of the illegal activity and as a source of information that could be dangerous to society. The article presents the structure of the multiagent system with which a social network groups could be clustered according to the criteria uniquely defines a group as a destructive. The agents’ of the system clustering algorithm is described.

    Views (last year): 8. Citations: 2 (RSCI).
  7. Петросян А.Ш.
    Современное использование сетевой инфраструктуры в системе обработки задач коллаборации ATLAS
    Компьютерные исследования и моделирование, 2015, т. 7, № 6, с. 1343-1349

    Важнейшим компонентом распределенной вычислительной системы является сетевая инфраструктура. Несмотря на то что сеть составляет основу такого рода систем, она часто является незаметным партнером для систем хранения и вычислительных ресурсов. Мы предлагаем интегрировать сетевой элемент напрямую в распределенные системы через уровень управления нагрузками. Для такого подхода имеется достаточно предпосылок. Так как сложность и требования к распределенным системам растут, очень важно использовать имеющуюся инфраструктуру эффективно. Например, одни могут использовать измерения качества сетевых соединений в механизмах принятия решений в системе управления задачами. Кроме того, новейшие технологии позволяют другим задавать сетевую конфигурацию программно, например используя ПКС — программно-конфигурируемые сети. Мы опишем, как эти методы используются в системе управления задачами PanDA, применяемой коллаборацией ATLAS.

    Petrosyan A.Sh.
    The New Use of Network Element in ATLAS Workload Management System
    Computer Research and Modeling, 2015, v. 7, no. 6, pp. 1343-1349

    A crucial component of distributed computing systems is network infrastructure. While networking forms the backbone of such systems, it is often the invisible partner to storage and computing resources. We propose to integrate Network Elements directly into distributed systems through the workload management layer. There are many reasons for this approach. As the complexity and demand for distributed systems grow, it is important to use existing infrastructure efficiently. For example, one could use network performance measurements in the decision making mechanisms of workload management systems. New advanced technologies allow one to programmatically define network configuration, for example SDN — Software Defined Networks. We will describe how these methods are being used within the PanDA workload management system of the ATLAS collaboration.

    Views (last year): 2. Citations: 2 (RSCI).
  8. Светлов К.В., Иванов С.А.
    Стохастическая модель числа сторонников политического лидера в цифровом публичном пространстве
    Компьютерные исследования и моделирование, 2019, т. 11, № 5, с. 979-997

    В представленной статье мы исследуем процесс изменения рейтинга одобрения политического лидера под влиянием процессов, протекающих в цифровом публичном пространстве. Драйвером указанных изменений служит взаимодействие пользователей онлайн-площадок (информационных и новостных ресурсов, блогов, социальных сетей), в результате которого они могут обмениваться друг с другом мнениями и формулировать свою позицию в отношении политика. Помимо межличностного взаимодействия мы рассмотрим такие факторы, как информационное воздействие, выражающееся в создании информационного потока, имеющего заданную мощность и тональность (положительную или отрицательную, в контексте влияния на имидж политического лидера), а также наличие группы агентов (лидеров мнений), оказывающих поддержку политику или же, наоборот, негативно влияющих на его представление в медийном пространстве.

    Математической основой представленного исследования является модель Кирмана, имеющая истоки в биологии и первоначально нашедшая свое применение в экономике. В рамках даннойм одели считается, что каждый участник находится в одном из двух возможных состояний, а также задается скачкообразный марковский процесс, описывающий переходы между этими состояниями. Для рассматриваемой нами задачи данными состояниями являются 0 или 1, в зависимости от того, является ли конкретный агент сторонником политика и одобряет его деятельность или же нет. Пользуясь аппаратом теории марковских процессов, мы находим его диффузионное приближение, известное как процесс Якоби. При помощи спектрального разложения для инфинитезимального оператора данного процесса мы имеем возможность найти аналитическое представление для плотности переходных вероятностей.

    Анализируя вероятности, полученные указанным образом, можно оценить влияние отдельных факторов модели: мощность и тональность новостных сообщений, доступных для пользователей онлайн-пространства и релевантных для задач формирования рейтинга, а также численности сторонников или противников политика. Далее, пользуясь найденными собственными функциями и значениями, мы выводим выражения для оценки условных математических ожиданий рейтинга политика, что может служить основой для построения прогнозов, важных для задач формирования стратегии представления политического лидера в онлайн-среде.

    Svetlov K.V., Ivanov S.A.
    Stochastic model of voter dynamics in online media
    Computer Research and Modeling, 2019, v. 11, no. 5, pp. 979-997

    In the present article we explore the process of changing the level of approval of a political leader under the influence of the processes taking place in online platforms (social networks, forums, etc.). The driver of these changes is the interaction of users, through which they can exchange opinions with each other and formulate their position in relation to the political leader. In addition to interpersonal interaction, we will consider such factors as the information impact, expressed in the creation of an information flow with a given power and polarity (positive or negative, in the context of influencing the image of a political leader), as well as the presence of a group of agents (opinion leaders), supporting the leader, or, conversely, negatively affecting its representation in the media space.

    The mathematical basis of the presented research is the Kirman model, which has its roots in biology and initially found its application in economics. Within the framework of this model it is considered that each user is in one of the two possible states, and a Markov jump process describing transitions between these states is given. For the problem under consideration, these states are 0 or 1, depending on whether a particular agent is a supporter of a political leader or not. For further research, we find its diffusional approximation, known as the Jacoby process. With the help of spectral decomposition for the infinitesimal operator of this process we have an opportunity to find an analytical representation for the transition probability density.

    Analyzing the probabilities obtained in this way, we can assess the influence of individual factors of the model: the power and direction of the information flow, available to online users and relevant to the tasks of rating formation, as well as the number of supporters or opponents of the politician. Next, using the found eigenfunctions and eigenvalues, we derive expressions for the evaluation of conditional mathematical expectations of a politician’s rating, which can serve as a basis for building forecasts that are important for the formation of a strategy of representing a political leader in the online environment.

  9. Ильин О.В.
    Граничные условия для решеточных уравнений Больцмана в приложениях к задачам гемодинамики
    Компьютерные исследования и моделирование, 2020, т. 12, № 4, с. 865-882

    Рассматривается одномерная трехскоростная кинетическая решеточная модель уравнения Больцмана, которая в рамках кинетической теории описывает распространение и взаимодействие частиц трех типов. Данная модель представляет собой разностную схему второго порядка для уравнений гидродинамики. Ранее было показано, что одномерная кинетическая решеточная модель уравнения Больцмана с внешней силой в пределе малых длин свободного пробега также эквивалентна одномерным уравнениям гемодинамики для эластичных сосудов, эквивалентность можно установить, используя разложение Чепмена – Энскога. Внешняя сила в модели отвечает за возможность регулировки функциональной зависимости между площадью просвета сосуда и приложенного к стенке рассматриваемого сосуда давления. Таким образом, меняя форму внешней силы, можно моделировать практически произвольные эластичные свойства стенок сосудов. В настоящей работе рассмотрены постановки физиологически интересных граничных условий для решеточных уравнений Больцмана в приложениях к задачам течения крови в сети эластичных сосудов. Разобраны следующие граничные условия: для давления и потока крови на входе сосудистой сети, условия для давления и потоков крови в точке бифуркации сосудов, условия отражения (соответствуют полной окклюзии сосуда) и поглощения волн на концах сосудов (эти условия соответствуют прохождению волны без искажений), а также условия типа RCR, представляющие собой схему, аналогичную электрическим цепям и состоящую из двух резисторов (соответствующих импедансу сосуда, на конце которого ставятся граничные условия, а также силам трения крови в микроциркуляторном русле) и одного конденсатора (описывающего эластичные свойства артериол). Проведено численное моделирование, рассмотрена задача о распространении крови в сети из трех сосудов, на входе сети ставятся условияна входящий поток крови, на концах сети ставятсяу словия типа RCR. Решения сравниваются с эталонными, в качестве которых выступают результаты численного счета на основе разностной схемы Маккормака второго порядка (без вязких членов), показано, что оба подхода дают практически идентичные результаты.

    Ilyin O.V.
    Boundary conditions for lattice Boltzmann equations in applications to hemodynamics
    Computer Research and Modeling, 2020, v. 12, no. 4, pp. 865-882

    We consider a one-dimensional three velocity kinetic lattice Boltzmann model, which represents a secondorder difference scheme for hydrodynamic equations. In the framework of kinetic theory this system describes the propagation and interaction of three types of particles. It has been shown previously that the lattice Boltzmann model with external virtual force is equivalent at the hydrodynamic limit to the one-dimensional hemodynamic equations for elastic vessels, this equivalence can be achieved with use of the Chapman – Enskog expansion. The external force in the model is responsible for the ability to adjust the functional dependence between the lumen area of the vessel and the pressure applied to the wall of the vessel under consideration. Thus, the form of the external force allows to model various elastic properties of the vessels. In the present paper the physiological boundary conditions are considered at the inlets and outlets of the arterial network in terms of the lattice Boltzmann variables. We consider the following boundary conditions: for pressure and blood flow at the inlet of the vascular network, boundary conditions for pressure and blood flow for the vessel bifurcations, wave reflection conditions (correspond to complete occlusion of the vessel) and wave absorption at the ends of the vessels (these conditions correspond to the passage of the wave without distortion), as well as RCR-type conditions, which are similar to electrical circuits and consist of two resistors (corresponding to the impedance of the vessel, at the end of which the boundary conditions are set and the friction forces in microcirculatory bed) and one capacitor (describing the elastic properties of arterioles). The numerical simulations were performed: the propagation of blood in a network of three vessels was considered, the boundary conditions for the blood flow were set at the entrance of the network, RCR boundary conditions were stated at the ends of the network. The solutions to lattice Boltzmann model are compared with the benchmark solutions (based on numerical calculations for second-order McCormack difference scheme without viscous terms), it is shown that the both approaches give very similar results.

  10. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Горбачёв Р.А.
    Разработка и исследование алгоритма выделения признаков в публикациях Twitter для задачи классификации с известной разметкой
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 171-183

    Посты социальных сетей играют важную роль в отражении ситуации на финансовом рынке, а их анализ является мощным инструментом ведения торговли. В статье описан результат исследования влияния деятельности социальных медиа на движение финансового рынка. Сначала отбирается топ инфлюенсеров, активность которых считается авторитетной в криптовалютном сообществе. Сообщения в Twitter используются в качестве данных. Подобные тексты обычно сильно зашумлены, так как включают сленг и сокращения, поэтому представлены методы подготовки первичных текстовых данных, включающих в себя обработку Stanza, регулярными выражениями. Рассмотрено два подхода представления момента времени в формате текстовых данных. Так исследуется влияние либо одного твита, либо целого пакета, состоящего из твитов, собранных за определенный период времени. Также рассмотрен статистический подход в виде частотного анализа, введены метрики, способные отразить значимость того или иного слова при выявлении зависимости между изменением цены и постами в Twitter. Частотный анализ подразумевает исследование распределений встречаемости различных слов и биграмм в тексте для положительного, отрицательного либо общего трендов. Для построения разметки изменения на рынке перерабатываются в бинарный вектор с помощью различных параметров, задавая таким образом задачу бинарной классификации. Параметры для свечей Binance подбираются для лучшего описания движения рынка криптовалюты, их вариативность также исследуется в данной статье. Оценка эмоционального окраса текстовых данных изучается с помощью Stanford Core NLP. Результат статистического анализа представляет непосредственно практический интерес, так как предполагает выбор признаков для дальнейшей бинарной или мультиклассовой задач классификации. Представленные методы анализа текста способствуют повышению точности моделей, решающих задачи обработки естественного языка, с помощью отбора слов, улучшения качества векторизации. Такие алгоритмы зачастую используются в автоматизированных торговых стратегиях для предсказания цены актива, тренда ее движения.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Gorbachev R.A.
    Development of and research on an algorithm for distinguishing features in Twitter publications for a classification problem with known markup
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 171-183

    Social media posts play an important role in demonstration of financial market state, and their analysis is a powerful tool for trading. The article describes the result of a study of the impact of social media activities on the movement of the financial market. The top authoritative influencers are selected. Twitter posts are used as data. Such texts usually include slang and abbreviations, so methods for preparing primary text data, including Stanza, regular expressions are presented. Two approaches to the representation of a point in time in the format of text data are considered. The difference of the influence of a single tweet or a whole package consisting of tweets collected over a certain period of time is investigated. A statistical approach in the form of frequency analysis is also considered, metrics defined by the significance of a particular word when identifying the relationship between price changes and Twitter posts are introduced. Frequency analysis involves the study of the occurrence distributions of various words and bigrams in the text for positive, negative or general trends. To build the markup, changes in the market are processed into a binary vector using various parameters, thus setting the task of binary classification. The parameters for Binance candlesticks are sorted out for better description of the movement of the cryptocurrency market, their variability is also explored in this article. Sentiment is studied using Stanford Core NLP. The result of statistical analysis is relevant to feature selection for further binary or multiclass classification tasks. The presented methods of text analysis contribute to the increase of the accuracy of models designed to solve natural language processing problems by selecting words, improving the quality of vectorization. Such algorithms are often used in automated trading strategies to predict the price of an asset, the trend of its movement.

Pages: « first previous next last »

Indexed in Scopus

Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU

The journal is included in the Russian Science Citation Index

The journal is included in the RSCI

International Interdisciplinary Conference "Mathematics. Computing. Education"