Результаты поиска по 'обработка данных':
Найдено статей: 126
  1. Садовых А., Иванов В.
    Улучшение DevSecOps с помощью непрерывного анализа и тестирования требований безопасности
    Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1687-1702

    DevSecOps требует интеграции безопасности на каждом этапе разработки программного обеспечения для обеспечения безопасных и соответствующих требованиям приложений. Традиционные методы тестирования безопасности, часто выполняемые на поздних этапах разработки, недостаточны для решения задач, связанных с непрерывной интеграцией и непрерывной доставкой (CI/CD), особенно в сложных, критически важных секторах, таких как промышленная автоматизация. В данной статье мы предлагаем подход, который автоматизирует анализ и тестирование требований безопасности путем встраивания проверки требований в конвейер CI/CD. Наш метод использует инструмент ARQAN для сопоставления высокоуровневых требований безопасности с Руководствами по технической реализации безопасности (STIGs) с помощью семантического поиска, а также RQCODE для формализации этих требований в виде кода, предоставляя тестируемые и поддающиеся исполнению руководства по безопасности. Мы внедрили ARQAN и RQCODE в рамках CI/CD, интегрировав их с GitHub Actions для обеспечения проверки безопасности в реальномврем ени и автоматической проверки соответствия. Наш подход поддерживает стандарты безопасности, такие как IEC 62443, и автоматизирует оценку безопасности, начиная с этапа планирования, улучшая прослеживаемость и согласованность практик безопасности на протяжении всего конвейера. Предварительная оценка этого подхода в сотрудничестве с компанией по промышленной автоматизации показывает, что он эффективно охватывает критические требования безопасности, достигая автоматического соответствия 66,15% руководств STIG, относящихся к платформе Windows 10. Обратная связь от отраслевых специалистов подчеркивает его практичность: 85% требований безопасности сопоставлены с конкретными рекомендациями STIG, и 62% из этих требований имеют соответствующие тестируемые реализации в RQCODE. Эта оценка подчеркивает потенциал подхода для сдвига проверки безопасности на более ранние этапы разработки, способствуя более устойчивому и безопасному жизненному циклу DevSecOps.

    Sadovykh A., Ivanov V.
    Enhancing DevSecOps with continuous security requirements analysis and testing
    Computer Research and Modeling, 2024, v. 16, no. 7, pp. 1687-1702

    The fast-paced environment of DevSecOps requires integrating security at every stage of software development to ensure secure, compliant applications. Traditional methods of security testing, often performed late in the development cycle, are insufficient to address the unique challenges of continuous integration and continuous deployment (CI/CD) pipelines, particularly in complex, high-stakes sectors such as industrial automation. In this paper, we propose an approach that automates the analysis and testing of security requirements by embedding requirements verification into the CI/CD pipeline. Our method employs the ARQAN tool to map high-level security requirements to Security Technical Implementation Guides (STIGs) using semantic search, and RQCODE to formalize these requirements as code, providing testable and enforceable security guidelines.We implemented ARQAN and RQCODE within a CI/CD framework, integrating them with GitHub Actions for realtime security checks and automated compliance verification. Our approach supports established security standards like IEC 62443 and automates security assessment starting from the planning phase, enhancing the traceability and consistency of security practices throughout the pipeline. Evaluation of this approach in collaboration with an industrial automation company shows that it effectively covers critical security requirements, achieving automated compliance for 66.15% of STIG guidelines relevant to the Windows 10 platform. Feedback from industry practitioners further underscores its practicality, as 85% of security requirements mapped to concrete STIG recommendations, with 62% of these requirements having matching testable implementations in RQCODE. This evaluation highlights the approach’s potential to shift security validation earlier in the development process, contributing to a more resilient and secure DevSecOps lifecycle.

  2. Хельвас А.В., Панкратов К.К., Афанасенко Т.С., Гаджимирзаев Ш.М., Саидов А.А., Пашков Р.А., Стрельникова С.А.
    Моделирование полностью роботизированного склада со стеллажами глубокого хранения
    Компьютерные исследования и моделирование, 2026, т. 18, № 2, с. 423-438

    В данной статье рассматривается модель полностью роботизированного склада с глубокими стеллажами, предназначенного для хранения коробочных товаров. Основное внимание уделено оптимизации работы склада за счет дискретного мультиагентного моделирования движения шаттлов, выполняющих задачи по отгрузке и размещению коробок. Авторы исследуют различные стратегии размещения товаров в зонах склада, включая алгоритмы NCPA (Nearest Channel Positioning Algorithm), MECGP (Most Empty Channel Group Placement) и MFCGP (Most Filled Channel Group Placement), а также анализируют оптимальные схемы маршрутизации для заданной топологии.

    Ключевым аспектом работы является определение оптимального количества шаттлов, обеспечивающего максимальную производительность склада. Результаты моделирования показывают, что увеличение числа роботов свыше 15 не приводит к значительному росту эффективности из-за учащения коллизий на пересечениях маршрутов. Кроме того, исследована динамика заполнения склада в течение 24 часов, что позволило выявить оптимальный уровень загруженности хранилища.

    Разработанная модель позволяет не только оценивать производительность склада, но и оптимизировать распределение задач между роботами, минимизируя время обработки заказов. В перспективе планируется внедрение методов машинного обучения для дальнейшего улучшения управления складскими процессами.

    Khelvas A.V., Pankratov K.K., Afanasenko T.S., Gadzhimirzayev Sh.M., Saidov A.A., Pashkov R.A., Strelnikova S.A.
    Simulation of fully automated warehouse with deep storage racks
    Computer Research and Modeling, 2026, v. 18, no. 2, pp. 423-438

    This article presents a model of a fully automated warehouse with deep storage racks designed for boxed goods storage. The study focuses on optimizing warehouse operations through discrete multiagent simulation of shuttle movements for pallet loading and unloading tasks. The authors investigate various product placement strategies, including the Nearest Channel Positioning Algorithm (NCPA), Most Empty Channel Group Placement (MECGP), andMost Filled Channel Group Placement (MFCGP), while analyzing optimal routing schemes for the given warehouse topology.

    A key contribution is determining the optimal number of shuttles to maximize warehouse throughput. Simulation results demonstrate that increasing the number of robots beyond 15 does not significantly improve efficiency due to increased route collisions. The study also examines 24-hour warehouse occupancy dynamics, revealing optimal storage utilization levels.

    The developed model enables performance evaluation and optimization of task distribution among robots to minimize order processing time. Future research directions include implementing machine learning techniques to further enhance warehouse management systems.

  3. Мусаев А.А., Григорьев Д.А.
    Обзор современных технологий извлечения знаний из текстовых сообщений
    Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1291-1315

    Решение общей проблемы информационного взрыва связано с системами автоматической обработки цифровых данных, включая их распознавание, сортировку, содержательную обработку и представление в виде, приемлемом для восприятия человеком. Естественным решением является создание интеллектуальных систем извлечения знаний из неструктурированной информации. При этом явные успехи в области обработки структурированных данных контрастируют со скромными достижениями в области анализа неструктурированной информации, в частности в задачах обработки текстовых документов. В настоящее время данное направление находится в стадии интенсивных исследований и разработок. Данная работа представляет собой системный обзор международных и отечественных публикаций, посвященных ведущему тренду в области автоматической обработки потоков текстовой информации, а именно интеллектуальному анализу текстов или Text Mining (TM). Рассмотрены основные задачи и понятия TM, его место в области проблемы искусственного интеллекта, а также указаны сложности при обработке текстов на естественном языке (NLP), обусловленные слабой структурированностью и неоднозначностью лингвистической ин- формации. Описаны стадии предварительной обработки текстов, их очистка и селекция признаков, которые, наряду с результатами морфологического, синтаксического и семантического анализа, являются компонентами TM. Процесс интеллектуального анализа текстов представлен как отображение множества текстовых документов в «знания», т.е. в очищенную от избыточности и шума совокупность сведений, необходимых для решения конкретной прикладной задачи. На примере задачи трейдинга продемонстрирована формализация принятия торгового решения, основанная на совокупности аналитических рекомендаций. Типичными примерами TM являются задачи и технологии информационного поиска (IR), суммаризации текста, анализа тональности, классификации и кластеризации документов и т. п. Общим вопросом для всех методов TM является выбор типа словоформ и их производных, используемых для распознавания контента в последовательностях символов NL. На примере IR рассмотрены типовые алгоритмы поиска, основанные на простых словоформах, фразах, шаблонах и концептах, а также более сложные технологии, связанные с дополнением шаблонов синтаксической и семантической информацией. В общем виде дано описание механизмов NLP: морфологический, синтаксический, семантический и прагматический анализ. Приведен сравнительный анализ современных инструментов TM, позволяющий осуществить выбор платформы, исходя из особенности решаемой задачи и практических навыков пользователя.

    Musaev A.A., Grigoriev D.A.
    Extracting knowledge from text messages: overview and state-of-the-art
    Computer Research and Modeling, 2021, v. 13, no. 6, pp. 1291-1315

    In general, solving the information explosion problem can be delegated to systems for automatic processing of digital data. These systems are intended for recognizing, sorting, meaningfully processing and presenting data in formats readable and interpretable by humans. The creation of intelligent knowledge extraction systems that handle unstructured data would be a natural solution in this area. At the same time, the evident progress in these tasks for structured data contrasts with the limited success of unstructured data processing, and, in particular, document processing. Currently, this research area is undergoing active development and investigation. The present paper is a systematic survey on both Russian and international publications that are dedicated to the leading trend in automatic text data processing: Text Mining (TM). We cover the main tasks and notions of TM, as well as its place in the current AI landscape. Furthermore, we analyze the complications that arise during the processing of texts written in natural language (NLP) which are weakly structured and often provide ambiguous linguistic information. We describe the stages of text data preparation, cleaning, and selecting features which, alongside the data obtained via morphological, syntactic, and semantic analysis, constitute the input for the TM process. This process can be represented as mapping a set of text documents to «knowledge». Using the case of stock trading, we demonstrate the formalization of the problem of making a trade decision based on a set of analytical recommendations. Examples of such mappings are methods of Information Retrieval (IR), text summarization, sentiment analysis, document classification and clustering, etc. The common point of all tasks and techniques of TM is the selection of word forms and their derivatives used to recognize content in NL symbol sequences. Considering IR as an example, we examine classic types of search, such as searching for word forms, phrases, patterns and concepts. Additionally, we consider the augmentation of patterns with syntactic and semantic information. Next, we provide a general description of all NLP instruments: morphological, syntactic, semantic and pragmatic analysis. Finally, we end the paper with a comparative analysis of modern TM tools which can be helpful for selecting a suitable TM platform based on the user’s needs and skills.

  4. Алпатов А.В., Петерс Е.А., Пасечнюк Д.А., Райгородский А.М.
    Стохастическая оптимизация в задаче цифрового предыскажения сигнала
    Компьютерные исследования и моделирование, 2022, т. 14, № 2, с. 399-416

    В данной статье осуществляется сравнение эффективности некоторых современных методов и практик стохастической оптимизации применительно к задаче цифрового предыскажения сигнала (DPD), которое является важной составляющей процесса обработки сигнала на базовых станциях, обеспечивающих беспроводную связь. В частности, рассматривается два круга вопросов о возможностях применения стохастических методов для обучения моделей класса Винера – Гаммерштейна в рамках подхода минимизации эмпирического риска: касательно улучшения глубины и скорости сходимости данного метода оптимизации и относительно близости самой постановки задачи (выбранной модели симуляции) к наблюдаемому в действительности поведению устройства. Так, в первой части этого исследования внимание будет сосредоточено на вопросе о нахождении наиболее эффективного метода оптимизации и дополнительных к нему модификаций. Во второй части предлагается новая квази-онлайн-постановка задачи и, соответственно, среда для тестирования эффективности методов, благодаря которым результаты численного моделирования удается привести в соответствие с поведением реального прототипа устройства DPD. В рамках этой новой постановки далее осуществляется повторное тестирование некоторых избранных практик, более подробно рассмотренных в первой части исследования, и также обнаруживаются и подчеркиваются преимущества нового лидирующего метода оптимизации, оказывающегося теперь также наиболее эффективным и в практических тестах. Для конкретной рассмотренной модели максимально достигнутое улучшение глубины сходимости составило 7% в стандартном режиме и 5% в онлайн-постановке (при том что метрика сама по себе имеет логарифмическую шкалу). Также благодаря дополнительным техникам оказывается возможным сократить время обучения модели DPD вдвое, сохранив улучшение глубины сходимости на 3% и 6% для стандартного и онлайн-режимов соответственно. Все сравнения производятся с методом оптимизации Adam, который был отмечен как лучший стохастический метод для задачи DPD из рассматриваемых в предшествующей работе [Pasechnyuk et al., 2021], и с методом оптимизации Adamax, который оказывается наиболее эффективным в предлагаемом онлайн-режиме.

    Alpatov A.V., Peters E.A., Pasechnyuk D.A., Raigorodsky A.M.
    Stochastic optimization in digital pre-distortion of the signal
    Computer Research and Modeling, 2022, v. 14, no. 2, pp. 399-416

    In this paper, we test the performance of some modern stochastic optimization methods and practices with respect to the digital pre-distortion problem, which is a valuable part of processing signal on base stations providing wireless communication. In the first part of our study, we focus on the search for the best performing method and its proper modifications. In the second part, we propose the new, quasi-online, testing framework that allows us to fit our modeling results with the behavior of real-life DPD prototype, retest some selected of practices considered in the previous section and approve the advantages of the method appearing to be the best under real-life conditions. For the used model, the maximum achieved improvement in depth is 7% in the standard regime and 5% in the online regime (metric itself is of logarithmic scale). We also achieve a halving of the working time preserving 3% and 6% improvement in depth for the standard and online regime, respectively. All comparisons are made to the Adam method, which was highlighted as the best stochastic method for DPD problem in [Pasechnyuk et al., 2021], and to the Adamax method, which is the best in the proposed online regime.

  5. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Горбачёв Р.А.
    Разработка и исследование алгоритма выделения признаков в публикациях Twitter для задачи классификации с известной разметкой
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 171-183

    Посты социальных сетей играют важную роль в отражении ситуации на финансовом рынке, а их анализ является мощным инструментом ведения торговли. В статье описан результат исследования влияния деятельности социальных медиа на движение финансового рынка. Сначала отбирается топ инфлюенсеров, активность которых считается авторитетной в криптовалютном сообществе. Сообщения в Twitter используются в качестве данных. Подобные тексты обычно сильно зашумлены, так как включают сленг и сокращения, поэтому представлены методы подготовки первичных текстовых данных, включающих в себя обработку Stanza, регулярными выражениями. Рассмотрено два подхода представления момента времени в формате текстовых данных. Так исследуется влияние либо одного твита, либо целого пакета, состоящего из твитов, собранных за определенный период времени. Также рассмотрен статистический подход в виде частотного анализа, введены метрики, способные отразить значимость того или иного слова при выявлении зависимости между изменением цены и постами в Twitter. Частотный анализ подразумевает исследование распределений встречаемости различных слов и биграмм в тексте для положительного, отрицательного либо общего трендов. Для построения разметки изменения на рынке перерабатываются в бинарный вектор с помощью различных параметров, задавая таким образом задачу бинарной классификации. Параметры для свечей Binance подбираются для лучшего описания движения рынка криптовалюты, их вариативность также исследуется в данной статье. Оценка эмоционального окраса текстовых данных изучается с помощью Stanford Core NLP. Результат статистического анализа представляет непосредственно практический интерес, так как предполагает выбор признаков для дальнейшей бинарной или мультиклассовой задач классификации. Представленные методы анализа текста способствуют повышению точности моделей, решающих задачи обработки естественного языка, с помощью отбора слов, улучшения качества векторизации. Такие алгоритмы зачастую используются в автоматизированных торговых стратегиях для предсказания цены актива, тренда ее движения.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Gorbachev R.A.
    Development of and research on an algorithm for distinguishing features in Twitter publications for a classification problem with known markup
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 171-183

    Social media posts play an important role in demonstration of financial market state, and their analysis is a powerful tool for trading. The article describes the result of a study of the impact of social media activities on the movement of the financial market. The top authoritative influencers are selected. Twitter posts are used as data. Such texts usually include slang and abbreviations, so methods for preparing primary text data, including Stanza, regular expressions are presented. Two approaches to the representation of a point in time in the format of text data are considered. The difference of the influence of a single tweet or a whole package consisting of tweets collected over a certain period of time is investigated. A statistical approach in the form of frequency analysis is also considered, metrics defined by the significance of a particular word when identifying the relationship between price changes and Twitter posts are introduced. Frequency analysis involves the study of the occurrence distributions of various words and bigrams in the text for positive, negative or general trends. To build the markup, changes in the market are processed into a binary vector using various parameters, thus setting the task of binary classification. The parameters for Binance candlesticks are sorted out for better description of the movement of the cryptocurrency market, their variability is also explored in this article. Sentiment is studied using Stanford Core NLP. The result of statistical analysis is relevant to feature selection for further binary or multiclass classification tasks. The presented methods of text analysis contribute to the increase of the accuracy of models designed to solve natural language processing problems by selecting words, improving the quality of vectorization. Such algorithms are often used in automated trading strategies to predict the price of an asset, the trend of its movement.

  6. Богданов А.В., Тхурейн Киав Л.
    Хранилища баз данных в обработке в облаке
    Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 493-498

    Хранение — это существенная и дорогая часть облачных вычислений как с точки зрения требований сети, так и организации доступа к данным, поэтому выбор архитектуры хранения может быть критическим для любого приложения. В этой работе мы сможем посмотреть на типы облачных архитектур для обработки и хранения данных, основанных на доказанной технологии хранения в сети масштаба пред- приятия. Преимущество облачных вычислений — это способность визуализировать и разделять ресурсы среди различных приложений для наилучшего использования сервера. Мы обсуждаем и оцениваем распределенную обработку данных, архитектуры баз данных для облачных вычислений и очередь баз данных в локальной сети и для условий реального времени.

    Bogdanov A.V., Thurein Kyaw L.
    Storage database in cloud processing
    Computer Research and Modeling, 2015, v. 7, no. 3, pp. 493-498

    Storage is the essential and expensive part of cloud computation both from the point of view of network requirements and data access organization. So the choice of storage architecture can be crucial for any application. In this article we can look at the types of cloud architectures for data processing and data storage based on the proven technology of enterprise storage. The advantage of cloud computing is the ability to virtualize and share resources among different applications for better server utilization. We are discussing and evaluating distributed data processing, database architectures for cloud computing and database query in the local network and for real time conditions.

    Views (last year): 3.
  7. Матвеев А.В.
    Моделирование кинетики радиофармпрепаратов с изотопами йода в задачах ядерной медицины
    Компьютерные исследования и моделирование, 2020, т. 12, № 4, с. 883-905

    Радиофармацевтические препараты, меченные радиоизотопами йода, в настоящее время широко применяются в визуализирующих и невизуализирующих методах ядерной медицины. При оценке результатов радионуклидных исследований структурно-функционального состояния органов и тканей существенную роль приобретает параллельное моделирование кинетики радиофармпрепарата в организме. Сложность такого моделирования заключается в двух противоположных аспектах. С одной стороны, в чрезмерном упрощении анатомо-физиологических особенностей организма при разбиении его на компартменты, что может приводить к потере или искажению значимой для клинической диагностики информации, с другой — в излишнем учете всех возможных взаимосвязей функционирования органов и систем, что, наоборот, приведет к появлению избыточного количества абсолютно бесполезных для клинической интерпретации математических данных, либо модель становится вообще неразрешимой. В нашей работе вырабатывается единый подход к построению математических моделей кинетики радиофармпрепаратов с изотопами йода в организме человека при диагностических и терапевтических процедурах ядерной медицины. На основе данного подхода разработаны трех- и четырехкамерные фармакокинетические модели и созданы соответствующие им расчетные программы на языке программирования C++ для обработки и оценки результатов радионуклидной диагностики и терапии. Предложены различные способы идентификации модельных параметров на основе количественных данных радионуклидных исследований функционального состояния жизненно важных органов. Приведены и проанализированы результаты фармакокинетического моделирования при радионуклидной диагностике печени, почек и щитовидной железы с помощью йодсодержащих радиофармпрепаратов. С использованием клинико-диагностических данных определены индивидуальные фармакокинетические параметры транспорта разных радиофармпрепаратов в организме (транспортные константы, периоды полувыведения, максимальная активность в органе и время ее достижения). Показано, что фармакокинетические характеристики для каждого пациента являются сугубо индивидуальными и не могут быть описаны усредненными кинетическими параметрами. В рамках трех фармакокинетических моделей получены и проанализированы зависимости «активность – время» для разных органов и тканей, в том числе для тканей, в которых активность радиофармпрепарата невозможно или затруднительно измерить клиническими методами. Также обсуждаются особенности и результаты моделирования и дозиметрического планирования радиойодтерапии щитовидной железы. Показано, что значения поглощенных радиационных доз очень чувствительны к кинетическим параметрам камерной модели — транспортным константам. Поэтому при индивидуальном дозиметрическом планировании радиойодтерапии следует уделять особое внимание получению точных количественных данных ультразвукового исследования и радиометрии щитовидной железы и на их основе идентификации параметров моделирования. Работа основана на принципах и методах фармакокинетики. Для численного решения систем дифференциальных уравнений фармакокинетических моделей мы использовали методы Рунге–Кутты и метод Розенброка. Для нахождения минимума функции нескольких переменных при идентификации параметров моделирования использовался метод Хука–Дживса.

    Matveev A.V.
    Modeling the kinetics of radiopharmaceuticals with iodine isotopes in nuclear medicine problems
    Computer Research and Modeling, 2020, v. 12, no. 4, pp. 883-905

    Radiopharmaceuticals with iodine radioisotopes are now widely used in imaging and non-imaging methods of nuclear medicine. When evaluating the results of radionuclide studies of the structural and functional state of organs and tissues, parallel modeling of the kinetics of radiopharmaceuticals in the body plays an important role. The complexity of such modeling lies in two opposite aspects. On the one hand, excessive simplification of the anatomical and physiological characteristics of the organism when splitting it to the compartments that may result in the loss or distortion of important clinical diagnosis information, on the other – excessive, taking into account all possible interdependencies of the functioning of the organs and systems that, on the contrary, will lead to excess amount of absolutely useless for clinical interpretation of the data or the mathematical model becomes even more intractable. Our work develops a unified approach to the construction of mathematical models of the kinetics of radiopharmaceuticals with iodine isotopes in the human body during diagnostic and therapeutic procedures of nuclear medicine. Based on this approach, three- and four-compartment pharmacokinetic models were developed and corresponding calculation programs were created in the C++ programming language for processing and evaluating the results of radionuclide diagnostics and therapy. Various methods for identifying model parameters based on quantitative data from radionuclide studies of the functional state of vital organs are proposed. The results of pharmacokinetic modeling for radionuclide diagnostics of the liver, kidney, and thyroid using iodine-containing radiopharmaceuticals are presented and analyzed. Using clinical and diagnostic data, individual pharmacokinetic parameters of transport of different radiopharmaceuticals in the body (transport constants, half-life periods, maximum activity in the organ and the time of its achievement) were determined. It is shown that the pharmacokinetic characteristics for each patient are strictly individual and cannot be described by averaged kinetic parameters. Within the framework of three pharmacokinetic models, “Activity–time” relationships were obtained and analyzed for different organs and tissues, including for tissues in which the activity of a radiopharmaceutical is impossible or difficult to measure by clinical methods. Also discussed are the features and the results of simulation and dosimetric planning of radioiodine therapy of the thyroid gland. It is shown that the values of absorbed radiation doses are very sensitive to the kinetic parameters of the compartment model. Therefore, special attention should be paid to obtaining accurate quantitative data from ultrasound and thyroid radiometry and identifying simulation parameters based on them. The work is based on the principles and methods of pharmacokinetics. For the numerical solution of systems of differential equations of the pharmacokinetic models we used Runge–Kutta methods and Rosenbrock method. The Hooke–Jeeves method was used to find the minimum of a function of several variables when identifying modeling parameters.

  8. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Горбачёв Р.А.
    Разработка и исследование алгоритмов машинного обучения для решения задачи классификации в публикациях Twitter
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 185-195

    Посты в социальных сетях способны как предсказывать движение финансового рынка, так и в некоторых случаях даже определять его направление. Анализ постов в Twitter способствует прогнозированию цен на криптовалюту. Специфика рассматриваемого сообщества заключается в особенной лексике. Так, в постах используются сленговые выражения, аббревиатуры и сокращения, наличие которых затрудняет векторизацию текстовых данных, в следствие чего рассматриваются методы предобработки такие, как лемматизация Stanza и применение регулярных выражений. В этой статье описываются простейшие модели машинного обучения, которые могут работать, несмотря на такие проблемы, как нехватка данных и короткие сроки прогнозирования. Решается задача бинарной текстовой классификации, в условиях которой слово рассматривается как элемент бинарного вектора единицы данных. Базисные слова определяются на основе частотного анализа упоминаний того или иного слова. Разметка составляется на основе свечей Binance с варьируемыми параметрами для более точного описания тренда изменения цены. В работе вводятся метрики, отражающие распределение слов в зависимости от их принадлежности к положительному или отрицательному классам. Для решения задачи классификации использовались dense-модель с подобранными при помощи Keras Tuner параметрами, логистическая регрессия, классификатор случайного леса, наивный байесовский классификатор, способный работать с малочисленной выборкой, что весьма актуально для нашей задачи, и метод k-ближайших соседей. Было проведено сравнение построенных моделей на основе метрики точности предсказанных меток. В ходе исследования было выяснено, что наилучшим подходом является использование моделей, которые предсказывают ценовые движения одной монеты. Наши модели имеют дело с постами, содержащими упоминания проекта LUNA, которого на данный момент уже не существует. Данный подход к решению бинарной классификации текстовых данных широко применяется для предсказания цены актива, тренда ее движения, что часто используется в автоматизированной торговле.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Gorbachev R.A.
    Development of and research on machine learning algorithms for solving the classification problem in Twitter publications
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 185-195

    Posts on social networks can both predict the movement of the financial market, and in some cases even determine its direction. The analysis of posts on Twitter contributes to the prediction of cryptocurrency prices. The specificity of the community is represented in a special vocabulary. Thus, slang expressions and abbreviations are used in posts, the presence of which makes it difficult to vectorize text data, as a result of which preprocessing methods such as Stanza lemmatization and the use of regular expressions are considered. This paper describes created simplest machine learning models, which may work despite such problems as lack of data and short prediction timeframe. A word is considered as an element of a binary vector of a data unit in the course of the problem of binary classification solving. Basic words are determined according to the frequency analysis of mentions of a word. The markup is based on Binance candlesticks with variable parameters for a more accurate description of the trend of price changes. The paper introduces metrics that reflect the distribution of words depending on their belonging to a positive or negative classes. To solve the classification problem, we used a dense model with parameters selected by Keras Tuner, logistic regression, a random forest classifier, a naive Bayesian classifier capable of working with a small sample, which is very important for our task, and the k-nearest neighbors method. The constructed models were compared based on the accuracy metric of the predicted labels. During the investigation we recognized that the best approach is to use models which predict price movements of a single coin. Our model deals with posts that mention LUNA project, which no longer exist. This approach to solving binary classification of text data is widely used to predict the price of an asset, the trend of its movement, which is often used in automated trading.

  9. Скворцова Д.А., Чувильгин Е.Л., Смирнов А.В., Романов Н.О.
    Разработка гибридной имитационной модели сборочного цеха
    Компьютерные исследования и моделирование, 2023, т. 15, № 5, с. 1359-1379

    В представленной работе разработана гибридная имитационная модель сборочного цеха в среде AnyLogic, которая позволяет подбирать оптимальные параметры производственной системы. Для построения гибридной модели использовались подходы, объединяющие дискретно-событийное моделирование и агентное в единую модель с интегрирующим взаимодействием. В рамках данной работы описан механизм функционирования сложной производственной системы, состоящей из нескольких участников-агентов. Каждому агенту соответствует класс, в котором задается определенный набор параметров агента. В имитационной модели были учтены три основные группы операции, выполняющиеся последовательно, определена логика работы с забракованными комплектами. Процесс сборки изделия представляет собой процесс, протекающий в многофазной разомкнутой системе массового обслуживания с ожиданием. Также есть признаки замкнутой системы — потоки брака для повторной обработки. При создании распределительной системы в сегменте окончательного контроля используются законы выполнения заявок в очереди типа FIFO. Для функциональной оценки производственной системы в имитационной модели включены несколько функциональных переменных, описывающих количество готовых изделий, среднее время подготовки изделий, количество и доля брака, результат моделирования для проведения исследований, а также функциональные переменные, в которых будут отображаться расчетные коэффициенты использования. Были проведены серии экспериментов по моделированию с целью изучения влияния поведения агентов системы на общие показатели эффективности производственной системы. В ходе эксперимента было установлено, что на показатель среднего времени подготовки изделия основное влияние оказывают такие параметры, как средняя скорость подачи комплекта заготовки, среднее время выполнения операций. На заданном промежутке ограничений удалось подобрать оптимальный набор параметров, при котором удалось достичь наиболее эффективной работы сборочной линии. Данный эксперимент подтверждает основной принцип агентного моделирования: децентрализованные агенты вносят личный вклад и оказывают влияние на работу всей моделируемой системы в целом. Вре зультате проведенных экспериментов, благодаря подбору оптимального набора параметров, удалось улучшить основные показатели функционирования сборочного цеха, а именно: увеличить показатель производительности на 60%; снизить показатель средней продолжительности сборки изделия на 38%.

    Skvortsova D.A., Chuvilgin E.L., Smirnov A.V., Romanov N.O.
    Development of a hybrid simulation model of the assembly shop
    Computer Research and Modeling, 2023, v. 15, no. 5, pp. 1359-1379

    In the presented work, a hybrid optimal simulation model of an assembly shop in the AnyLogic environment has been developed, which allows you to select the parameters of production systems. To build a hybrid model of the investigative approach, discrete-event modeling and aggressive modeling are combined into a single model with an integrating interaction. Within the framework of this work, a mechanism for the development of a production system consisting of several participants-agents is described. An obvious agent corresponds to a class in which a set of agent parameters is specified. In the simulation model, three main groups of operations performed sequentially were taken into account, and the logic for working with rejected sets was determined. The product assembly process is a process that occurs in a multi-phase open-loop system of redundant service with waiting. There are also signs of a closed system — scrap flows for reprocessing. When creating a distribution system in the segment, it is mandatory to use control over the execution of requests in a FIFO queue. For the functional assessment of the production system, the simulation model includes several functional functions that describe the number of finished products, the average time of preparation of products, the number and percentage of rejects, the simulation result for the study, as well as functional variables in which the calculated utilization factors will be used. A series of modeling experiments were carried out in order to study the behavior of the agents of the system in terms of the overall performance indicators of the production system. During the experiment, it was found that the indicator of the average preparation time of the product is greatly influenced by such parameters as: the average speed of the set of products, the average time to complete operations. At a given limitation interval, we managed to select a set of parameters that managed to achieve the largest possible operation of the assembly line. This experiment implements the basic principle of agent-based modeling — decentralized agents make a personal contribution and affect the operation of the entire simulated system as a whole. As a result of the experiments, thanks to the selection of a large set of parameters, it was possible to achieve high performance indicators of the assembly shop, namely: to increase the productivity indicator by 60%; reduce the average assembly time of products by 38%.

  10. Малков С.Ю., Давыдова О.И.
    Модернизация как глобальный процесс: опыт математического моделирования
    Компьютерные исследования и моделирование, 2021, т. 13, № 4, с. 859-873

    В статье проведен анализ эмпирических данных по долгосрочной демографической и экономической динамике стран мира за период с начала XIX века по настоящее время. В качестве показателей, характеризующих долгосрочную демографическую и экономическую динамику стран мира, были выбраны данные по численности населения и ВВП ряда стран мира за период 1500–2016 годов. Страны выбирались таким образом, чтобы в их число вошли представители с различным уровнем развития (развитые и развивающиеся страны), а также страны из различных регионов мира (Северная Америка, Южная Америка, Европа, Азия, Африка). Для моделирования и обработки данных использована специально разработанная математическая модель. Представленная модель является автономной системой дифференциальных уравнений, которая описывает процессы социально-экономической модернизации, в том числе процесс перехода от аграрного общества к индустриальному и постиндустриальному. В модель заложена идея о том, что процесс модернизации начинается с возникновения в традиционном обществе инновационного сектора, развивающегося на основе новых технологий. Население из традиционного сектора постепенно перемещается в инновационный сектор. Модернизация завершается, когда большая часть населения переходит в инновационный сектор.

    При работе с моделью использовались статистические методы обработки данных, методы Big Data, включая иерархическую кластеризацию. С помощью разработанного алгоритма на базе метода случайного спуска были идентифицированы параметры модели и проведена ее верификация на основе эмпирических рядов, а также проведено тестирование модели с использованием статистических данных, отражающих изменения, наблюдаемые в развитых и развивающихся странах в период происходящей в течение последних столетий модернизации. Тестирование модели продемонстрировало ее высокое качество — отклонения расчетных кривых от статистических данных, как правило, небольшие и происходят в периоды войн и экономических кризисов. Проведенный анализ статистических данных по долгосрочной демографической и экономической динамике стран мира позволил определить общие закономерности и формализовать их в виде математической модели. Модель будет использоваться с целью прогноза демографической и экономической динамики в различных странах мира.

    Malkov S.Yu., Davydova O.I.
    Modernization as a global process: the experience of mathematical modeling
    Computer Research and Modeling, 2021, v. 13, no. 4, pp. 859-873

    The article analyzes empirical data on the long-term demographic and economic dynamics of the countries of the world for the period from the beginning of the 19th century to the present. Population and GDP of a number of countries of the world for the period 1500–2016 were selected as indicators characterizing the long-term demographic and economic dynamics of the countries of the world. Countries were chosen in such a way that they included representatives with different levels of development (developed and developing countries), as well as countries from different regions of the world (North America, South America, Europe, Asia, Africa). A specially developed mathematical model was used for modeling and data processing. The presented model is an autonomous system of differential equations that describes the processes of socio-economic modernization, including the process of transition from an agrarian society to an industrial and post-industrial one. The model contains the idea that the process of modernization begins with the emergence of an innovative sector in a traditional society, developing on the basis of new technologies. The population is gradually moving from the traditional sector to the innovation sector. Modernization is completed when most of the population moves to the innovation sector.

    Statistical methods of data processing and Big Data methods, including hierarchical clustering were used. Using the developed algorithm based on the random descent method, the parameters of the model were identified and verified on the basis of empirical series, and the model was tested using statistical data reflecting the changes observed in developed and developing countries during the period of modernization taking place over the past centuries. Testing the model has demonstrated its high quality — the deviations of the calculated curves from statistical data are usually small and occur during periods of wars and economic crises. Thus, the analysis of statistical data on the long-term demographic and economic dynamics of the countries of the world made it possible to determine general patterns and formalize them in the form of a mathematical model. The model will be used to forecast demographic and economic dynamics in different countries of the world.

Pages: « first previous next last »

Indexed in Scopus

Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU

The journal is included in the Russian Science Citation Index

The journal is included in the RSCI

International Interdisciplinary Conference "Mathematics. Computing. Education"