All issues
- 2025 Vol. 17
- 2024 Vol. 16
- 2023 Vol. 15
- 2022 Vol. 14
- 2021 Vol. 13
- 2020 Vol. 12
- 2019 Vol. 11
- 2018 Vol. 10
- 2017 Vol. 9
- 2016 Vol. 8
- 2015 Vol. 7
- 2014 Vol. 6
- 2013 Vol. 5
- 2012 Vol. 4
- 2011 Vol. 3
- 2010 Vol. 2
- 2009 Vol. 1
-
Оценивание параметров моделей временных рядов с марковскими переключениями режимов
Компьютерные исследования и моделирование, 2018, т. 10, № 6, с. 903-918В работе рассматривается задача оценивания параметров временных рядов, описываемых регрессионными моделями с марковскими переключениями двух режимов в случайные моменты времени и независимыми гауссовскими шумами. Для решения предлагается вариант EM-алгоритма, основанный на итерационной процедуре, в ходе которой происходит чередование оценивания параметров регрессии при заданной последовательности переключений режимов и оценивания последовательности переключений при заданных параметрах моделей регрессии. В отличие от известных методов оценивания параметров регрессий с марковскими переключениями режимов, которые основаны на вычислении апостериорных вероятностей дискретных состояний последовательности переключений, в работе находятся оптимальные по критерию максимума апостериорной вероятности оценки процесса переключений. В результате предлагаемый алгоритм оказывается более простым и требует меньшее количество расчетов. Компьютерное моделирование позволяет выявить факторы, влияющие на точность оценивания. К таким факторам относятся число наблюдений, количество неизвестных параметров регрессии, степень их различия в разных режимах работы, а также величина отношения сигнала к шуму, которую в моделях регрессии можно связать с величиной коэффициента детерминации. Предложенный алгоритм применяется для задачи оценивания параметров в моделях регрессии для доходности индекса РТС в зависимости от доходностей индекса S&P 500 и акций «Газпрома» за период с 2013 года по 2018 год. Проводится сравнение оценок параметров, найденных с помощью предлагаемого алгоритма, с оценками, которые формируются с использованием эконометрического пакета EViews, и с оценками обычного метода наименьших квадратов без учета переключений режимов. Учет переключений позволяет получить более точное представление о структуре статистической зависимости исследуемых переменных. В моделях с переключениями рост отношения сигнала к шуму приводит к тому, что уменьшаются различия в оценках, вырабатываемых предлагаемым алгоритмом и с помощью программы EViews.
Ключевые слова: оценивание параметров, модели регрессии, модели с марковскими переключениями, функция правдоподобия, метод максимума правдоподобия, дисперсия шума, отношение сигнала к шуму.
Estimation of models parameters for time series with Markov switching regimes
Computer Research and Modeling, 2018, v. 10, no. 6, pp. 903-918Views (last year): 36.The paper considers the problem of estimating the parameters of time series described by regression models with Markov switching of two regimes at random instants of time with independent Gaussian noise. For the solution, we propose a variant of the EM algorithm based on the iterative procedure, during which an estimation of the regression parameters is performed for a given sequence of regime switching and an evaluation of the switching sequence for the given parameters of the regression models. In contrast to the well-known methods of estimating regression parameters in the models with Markov switching, which are based on the calculation of a posteriori probabilities of discrete states of the switching sequence, in the paper the estimates are calculated of the switching sequence, which are optimal by the criterion of the maximum of a posteriori probability. As a result, the proposed algorithm turns out to be simpler and requires less calculations. Computer modeling allows to reveal the factors influencing accuracy of estimation. Such factors include the number of observations, the number of unknown regression parameters, the degree of their difference in different modes of operation, and the signal-to-noise ratio which is associated with the coefficient of determination in regression models. The proposed algorithm is applied to the problem of estimating parameters in regression models for the rate of daily return of the RTS index, depending on the returns of the S&P 500 index and Gazprom shares for the period from 2013 to 2018. Comparison of the estimates of the parameters found using the proposed algorithm is carried out with the estimates that are formed using the EViews econometric package and with estimates of the ordinary least squares method without taking into account regimes switching. The account of regimes switching allows to receive more exact representation about structure of a statistical dependence of investigated variables. In switching models, the increase in the signal-to-noise ratio leads to the fact that the differences in the estimates produced by the proposed algorithm and using the EViews program are reduced.
-
Случайный лес факторов риска как прогностический инструмент неблагоприятных событий в клинической медицине
Компьютерные исследования и моделирование, 2025, т. 17, № 5, с. 987-1004Целью исследования являются разработка ансамблевого метода машинного обучения, обеспечивающего построение интерпретируемых прогностических моделей, и его апробация на примере прогнозирования внутригоспитальной летальности (ВГЛ) у больных инфарктом миокарда с подъемом сегмента ST (ИМпST).
Проведено ретроспективное когортное исследование по данным 5446 электронных историй болезни пациентов с ИМпST, которым выполнялось чрескожное коронарное вмешательство (ЧКВ). Было выделено две группы лиц, первую изк оторых составили 335 (6,2%) больных, умерших в стационаре, вторую — 5111 (93,8%) — с благоприятным исходом лечения. Пул потенциальных предикторов был сформирован с помощью методов математической статистики. С помощью методов мультиметрической категоризации (минимизация p-value, максимизация площади под ROC-кривой-AUC и результаты анализа shap-value), деревьев решений и многофакторной логистической регрессии (МЛР) предикторы были преобразованы в факторы риска ВГЛ. Для разработки прогностических моделей ВГЛ использовали МЛР, случайный лес факторов риска (СЛФР), стохастический градиентный бустинг (XGboost), случай- ный лес, методы Adaptive boosting, Gradient Boosting, Light Gradient-Boosting Machine, Categorical Boosting (CatBoost), Explainable Boosting Machine и Stacking.
Авторами разработан метод СЛФР, который обобщает результаты прогноза модифицированных деревьев решений, выделяет факторы риска и ранжирует их по интенсивности влияния на вероятность развития неблагоприятного события. СЛФР позволяет разрабатывать модели с высоким прогностическим потенциалом (AUC = 0,908), сопоста- вимым с моделями CatBoost и Stacking (AUC: 0,904 и 0,908 соответственно). Метод СЛФР может рассматриваться в качестве важного инструмента для клинического обоснования результатов прогноза и стать основой для разработки высокоточных интерпретируемых моделей.
Ключевые слова: ансамблевые методы машинного обучения, факторы риска, категоризация непрерывных переменных, аддитивное объяснение Шепли, интерпретируемые модели машинного обучения.
Random forest of risk factors as a predictive tool for adverse events in clinical medicine
Computer Research and Modeling, 2025, v. 17, no. 5, pp. 987-1004The aim of study was to develop an ensemble machine learning method for constructing interpretable predictive models and to validate it using the example of predicting in-hospital mortality (IHM) in patients with ST-segment elevation myocardial infarction (STEMI).
A retrospective cohort study was conducted using data from 5446 electronic medical records of STEMI patients who underwent percutaneous coronary intervention (PCI). Patients were divided into two groups: 335 (6.2%) patients who died during hospitalization and 5111 (93.8%) patients with a favourable in-hospital outcome. A pool of potential predictors was formed using statistical methods. Through multimetric categorization (minimizing p-values, maximizing the area under the ROC curve (AUC), and SHAP value analysis), decision trees, and multivariable logistic regression (MLR), predictors were transformed into risk factors for IHM. Predictive models for IHM were developed using MLR, Random Forest Risk Factors (RandFRF), Stochastic Gradient Boosting (XGboost), Random Forest (RF), Adaptive boosting, Gradient Boosting, Light Gradient-Boosting Machine, Categorical Boosting (CatBoost), Explainable Boosting Machine and Stacking methods.
Authors developed the RandFRF method, which integrates the predictive outcomes of modified decision trees, identifies risk factors and ranks them based on their contribution to the risk of adverse outcomes. RandFRF enables the development of predictive models with high discriminative performance (AUC 0.908), comparable to models based on CatBoost and Stacking (AUC 0.904 and 0.908, respectively). In turn, risk factors provide clinicians with information on the patient’s risk group classification and the extent of their impact on the probability of IHM. The risk factors identified by RandFRF can serve not only as rationale for the prediction results but also as a basis for developing more accurate models.
-
Разработка и исследование алгоритмов машинного обучения для решения задачи классификации в публикациях Twitter
Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 185-195Посты в социальных сетях способны как предсказывать движение финансового рынка, так и в некоторых случаях даже определять его направление. Анализ постов в Twitter способствует прогнозированию цен на криптовалюту. Специфика рассматриваемого сообщества заключается в особенной лексике. Так, в постах используются сленговые выражения, аббревиатуры и сокращения, наличие которых затрудняет векторизацию текстовых данных, в следствие чего рассматриваются методы предобработки такие, как лемматизация Stanza и применение регулярных выражений. В этой статье описываются простейшие модели машинного обучения, которые могут работать, несмотря на такие проблемы, как нехватка данных и короткие сроки прогнозирования. Решается задача бинарной текстовой классификации, в условиях которой слово рассматривается как элемент бинарного вектора единицы данных. Базисные слова определяются на основе частотного анализа упоминаний того или иного слова. Разметка составляется на основе свечей Binance с варьируемыми параметрами для более точного описания тренда изменения цены. В работе вводятся метрики, отражающие распределение слов в зависимости от их принадлежности к положительному или отрицательному классам. Для решения задачи классификации использовались dense-модель с подобранными при помощи Keras Tuner параметрами, логистическая регрессия, классификатор случайного леса, наивный байесовский классификатор, способный работать с малочисленной выборкой, что весьма актуально для нашей задачи, и метод k-ближайших соседей. Было проведено сравнение построенных моделей на основе метрики точности предсказанных меток. В ходе исследования было выяснено, что наилучшим подходом является использование моделей, которые предсказывают ценовые движения одной монеты. Наши модели имеют дело с постами, содержащими упоминания проекта LUNA, которого на данный момент уже не существует. Данный подход к решению бинарной классификации текстовых данных широко применяется для предсказания цены актива, тренда ее движения, что часто используется в автоматизированной торговле.
Ключевые слова: криптовалюты, Twitter, машинное обучение, обработка естественного языка, векторизация, dense модель, логистическая регрессия, случайный лес, KNN, наивный байесовский классификатор.
Development of and research on machine learning algorithms for solving the classification problem in Twitter publications
Computer Research and Modeling, 2023, v. 15, no. 1, pp. 185-195Posts on social networks can both predict the movement of the financial market, and in some cases even determine its direction. The analysis of posts on Twitter contributes to the prediction of cryptocurrency prices. The specificity of the community is represented in a special vocabulary. Thus, slang expressions and abbreviations are used in posts, the presence of which makes it difficult to vectorize text data, as a result of which preprocessing methods such as Stanza lemmatization and the use of regular expressions are considered. This paper describes created simplest machine learning models, which may work despite such problems as lack of data and short prediction timeframe. A word is considered as an element of a binary vector of a data unit in the course of the problem of binary classification solving. Basic words are determined according to the frequency analysis of mentions of a word. The markup is based on Binance candlesticks with variable parameters for a more accurate description of the trend of price changes. The paper introduces metrics that reflect the distribution of words depending on their belonging to a positive or negative classes. To solve the classification problem, we used a dense model with parameters selected by Keras Tuner, logistic regression, a random forest classifier, a naive Bayesian classifier capable of working with a small sample, which is very important for our task, and the k-nearest neighbors method. The constructed models were compared based on the accuracy metric of the predicted labels. During the investigation we recognized that the best approach is to use models which predict price movements of a single coin. Our model deals with posts that mention LUNA project, which no longer exist. This approach to solving binary classification of text data is widely used to predict the price of an asset, the trend of its movement, which is often used in automated trading.
-
Прогнозирование демографических и макроэкономических показателей в распределенной модели мировой динамики
Компьютерные исследования и моделирование, 2023, т. 15, № 3, с. 757-779Разработана динамическая макромодельмиров ой динамики. В модели мир разбит на 19 регионов по географическому принципу согласно классификации Организации объединенных наций. Внутреннее развитие регионов описывается уравнениями разностного типа для демографических и экономических индикаторов, таких как численностьнас еления, валовой продукт, валовое накопление. Межрегиональные взаимодействия представляют собой агрегированные торговые потоки от региона к региону и описываются регрессионными уравнениями. В качестве регрессоров использовались время, валовой продукт экспортера и валовой продукт импортера. Рассматривалосьчеты ре типа: временная парная регрессия — зависимость торгового потока от времени, экспортная функция — зависимостьд оли торгового потока в валовом продукте экспортера от валового продукта импортера, импортная функция — зависимостьд оли торгового потока в валовой продукции импортера от валового продукта экспортера, множественная регрессия — зависимостьт оргового потока от валовых продуктов экспортера и импортера. Для каждого типа применялосьд ва вида функциональной зависимости: линейная и логарифмически-линейная, всего исследовано восемьв ариантов торгового уравнения. Проведено сравнение качества регрессионных моделей по коэффициенту детерминации. Расчеты показывают, что модель удовлетворительно аппроксимирует динамику монотонно меняющихся показателей. Проанализирована динамика немонотонных торговых потоков, для их аппроксимации предложено три вида функциональной зависимости от времени. Показано, что с 10%-й погрешностью множество внешнеторговых рядов может бытьприб лижено пространством семи главных компонент. Построен прогноз автономного развития регионов и глобальной динамики до 2040 года.
Ключевые слова: мировая динамика, математическое моделирование, макроэкономика, внешняя торговля, временные ряды, регрессионный анализ, прогноз.
Forecasting demographic and macroeconomic indicators in a distributed global model
Computer Research and Modeling, 2023, v. 15, no. 3, pp. 757-779The paper present a dynamic macro model of world dynamics. The world is divided into 19 geographic regions in the model. The internal development of the regions is described by regression equations for demographic and economic indicators (Population, Gross Domestic Product, Gross Capital Formation). The bilateral trade flows from region to region describes interregional interactions and represented the trade submodel. Time, the gross product of the exporter and the gross product of the importer were used as regressors. Four types were considered: time pair regression — dependence of trade flow on time, export function — dependence of the share of trade flow in the gross product of the exporter on the gross product of the importer, import function — dependence of the share of trade flow in the gross product of the importer on the gross product of the exporter, multiple regression — dependence of trade flow on the gross products of the exporter and importer. Two types of functional dependence were used for each type: linear and log-linear, in total eight variants of the trading equation were studied. The quality of regression models is compared by the coefficient of determination. By calculations the model satisfactorily approximates the dynamics of monotonically changing indicators. The dynamics of non-monotonic trade flows is analyzed, three types of functional dependence on time are proposed for their approximation. It is shown that the number of foreign trade series can be approximated by the space of seven main components with a 10% error. The forecast of regional development and global dynamics up to 2040 is constructed.
-
К вопросу выбора структуры многофакторной регрессионной модели на примере анализа факторов выгорания творческих работников
Компьютерные исследования и моделирование, 2021, т. 13, № 1, с. 265-274В статье обсуждается проблема влияния целей исследования на структуру многофакторной модели регрессионного анализа (в частности, на реализацию процедуры снижения размерности модели). Демонстрируется, как приведение спецификации модели множественной регрессии в соответствие целям исследования отражается на выборе методов моделирования. Сравниваются две схемы построения модели: первая не позволяет учесть типологию первичных предикторов и характер их влияния на результативные признаки, вторая схема подразумевает этап предварительного разбиения исходных предикторов на группы (в соответствии с целями исследования). На примере решения задачи анализа причин выгорания творческих работников показана важность этапа качественного анализа и систематизации априори отобранных факторов, который реализуется не вычислительными средствами, а за счет привлечения знаний и опыта специалистов в изучаемой предметной области.
Представленный пример реализации подхода к определению спецификации регрессионной модели сочетает формализованные математико-статистические процедуры и предшествующий им этап классификации первичных факторов. Наличие указанного этапа позволяет объяснить схему управляющих (корректирующих) воздействий (смягчение стиля руководства и усиление одобрения приводят к снижению проявлений тревожности и стресса, что, в свою очередь, снижает степень выраженности эмоционального истощения участников коллектива). Предварительная классификация также позволяет избежать комбинирования в одной главной компоненте управляемых и неуправляемых, регулирующих и управляемых признаков-факторов, которое могло бы ухудшить интерпретируемость синтезированных предикторов.
На примере конкретной задачи показано, что отбор факторов-регрессоров — это процесс, требующий индивидуального решения. В рассмотренном случае были последовательно использованы: систематизация признаков, корреляционный анализ, метод главных компонент, регрессионный анализ. Первые три метода позволили существенно сократить размерность задачи, что не повлияло на достижение цели, для которой эта задача была поставлена: были показаны существенные меры управляющего воздействия на коллектив, позволяющие снизить степень эмоционального выгорания его участников.
Ключевые слова: многофакторный статистический анализ, систематизация предикторов, методы снижения размерности, модель анализа профессионального выгорания.
On the question of choosing the structure of a multivariate regression model on the example of the analysis of burnout factors of artists
Computer Research and Modeling, 2021, v. 13, no. 1, pp. 265-274The article discusses the problem of the influence of the research goals on the structure of the multivariate model of regression analysis (in particular, on the implementation of the procedure for reducing the dimension of the model). It is shown how bringing the specification of the multiple regression model in line with the research objectives affects the choice of modeling methods. Two schemes for constructing a model are compared: the first does not allow taking into account the typology of primary predictors and the nature of their influence on the performance characteristics, the second scheme implies a stage of preliminary division of the initial predictors into groups, in accordance with the objectives of the study. Using the example of solving the problem of analyzing the causes of burnout of creative workers, the importance of the stage of qualitative analysis and systematization of a priori selected factors is shown, which is implemented not by computing means, but by attracting the knowledge and experience of specialists in the studied subject area. The presented example of the implementation of the approach to determining the specification of the regression model combines formalized mathematical and statistical procedures and the preceding stage of the classification of primary factors. The presence of this stage makes it possible to explain the scheme of managing (corrective) actions (softening the leadership style and increasing approval lead to a decrease in the manifestations of anxiety and stress, which, in turn, reduces the severity of the emotional exhaustion of the team members). Preclassification also allows avoiding the combination in one main component of controlled and uncontrolled, regulatory and controlled feature factors, which could worsen the interpretability of the synthesized predictors. On the example of a specific problem, it is shown that the selection of factors-regressors is a process that requires an individual solution. In the case under consideration, the following were consistently used: systematization of features, correlation analysis, principal component analysis, regression analysis. The first three methods made it possible to significantly reduce the dimension of the problem, which did not affect the achievement of the goal for which this task was posed: significant measures of controlling influence on the team were shown. allowing to reduce the degree of emotional burnout of its participants.
-
Прогнозирование розничной торговли на высокочастотных обезличенных данных
Компьютерные исследования и моделирование, 2023, т. 15, № 6, с. 1713-1734Развитие технологий определяет появление данных с высокой детализацией во времени и пространстве, что расширяет возможности анализа, позволяя рассматривать потребительские решения и конкурентное поведение предприятий во всем их многообразии, с учетом контекста территории и особенностей временных периодов. Несмотря на перспективность таких исследований, в настоящее время в научной литературе они представлены ограниченно, что определяется их особенностями. С целью их раскрытия в статье обращается внимание на ключевые проблемы, возникающие при работе с обезличенными высокочастотными данными, аккумулируемыми фискальными операторами, и направления их решения, проводится спектр тестов, направленный на выявление возможности моделирования изменений потребления во времени и пространстве. Особенности нового вида данных рассмотрены на примере реальных обезличенных данных, полученных от оператора фискальных данных «Первый ОФД» (АО «Энергетические системы и коммуникации»). Показано, что одновременно со спектром свойственных высокочастотным данным проблем существуют недостатки, связанные с процессом формирования данных на стороне продавцов, требующие более широкого применения инструментов интеллектуального анализа данных. На рассматриваемых данных проведена серия статистических тестов, включая тест на наличие ложной регрессии, ненаблюдаемых эффектов в остатках модели, последовательной корреляции и кросс-секционной зависимости остатков панельной модели, авторегрессии первого порядка в случайных эффектах, сериальной корреляции на первых разностях панельных данных и др. Наличие пространственной автокорреляции данных тестировалось с помощью модифицированных тестов множителей Лагранжа. Проведенные тесты показали наличие последовательной корреляции и пространственной зависимости данных, обуславливающих целесообразность применения методов панельного и пространственного анализа применительно к высокочастотным данным, аккумулируемым фискальными операторами. Построенные модели позволили обосновать пространственную связь роста продаж и ее зависимость от дня недели. Ограничением для повышения предсказательной возможности построенных моделей и последующего их усложнения, за счет включения объясняющих факторов, стало отсутствие в открытом доступе статистики, сгруппированной в необходимой детализации во времени и пространстве, что определяет актуальность формирования баз высокочастотных географически структурированных данных.
Ключевые слова: фискальные данные, обезличенные высокочастотные данные, оператор фискальных данных, пространственная регрессия на панельных данных.
Retail forecasting on high-frequency depersonalized data
Computer Research and Modeling, 2023, v. 15, no. 6, pp. 1713-1734Technological development determines the emergence of highly detailed data in time and space, which expands the possibilities of analysis, allowing us to consider consumer decisions and the competitive behavior of enterprises in all their diversity, taking into account the context of the territory and the characteristics of time periods. Despite the promise of such studies, they are currently limited in the scientific literature. This is due to the range of problems, the solution of which is considered in this paper. The article draws attention to the complexity of the analysis of depersonalized high-frequency data and the possibility of modeling consumption changes in time and space based on them. The features of the new type of data are considered on the example of real depersonalized data received from the fiscal data operator “First OFD” (JSC “Energy Systems and Communications”). It is shown that along with the spectrum of problems inherent in high-frequency data, there are disadvantages associated with the process of generating data on the side of the sellers, which requires a wider use of data mining tools. A series of statistical tests were carried out on the data under consideration, including a Unit-Root Test, test for unobserved individual effects, test for serial correlation and for cross-sectional dependence in panels, etc. The presence of spatial autocorrelation of the data was tested using modified tests of Lagrange multipliers. The tests carried out showed the presence of a consistent correlation and spatial dependence of the data, which determine the expediency of applying the methods of panel and spatial analysis in relation to high-frequency data accumulated by fiscal operators. The constructed models made it possible to substantiate the spatial relationship of sales growth and its dependence on the day of the week. The limitation for increasing the predictive ability of the constructed models and their subsequent complication, due to the inclusion of explanatory factors, was the lack of open access statistics grouped in the required detail in time and space, which determines the relevance of the formation of high-frequency geographically structured data bases.
Indexed in Scopus
Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU
The journal is included in the Russian Science Citation Index
The journal is included in the RSCI
International Interdisciplinary Conference "Mathematics. Computing. Education"




