Результаты поиска по 'анализ данных':
Найдено статей: 311
  1. Воронцова Д.В., Исаева М.В., Меньшиков И.А., Орлов К.Ю., Бернадотт А.К.
    Частотные, временные и пространственные изменения электроэнцефалограммы после COVID-19 при выполнении простого речевого задания
    Компьютерные исследования и моделирование, 2023, т. 15, № 3, с. 691-701

    Используя анализ данных и применение нейронных сетей в нашей работе, мы выявили закономерности электрической активности мозга, характеризующие COVID-19. Нас интересовали частотные, временные и пространственные паттерны электрической активности у людей, перенесших COVID-19. Мы обнаружили преобладание паттернов $\alpha$-ритма в левом полушарии у здоровых людей по сравнению с людьми, переболевшими COVID-19. Более того, мы наблюдаем значительное снижение вклада левого полушария в области речевого центра у людей, перенесших COVID-19, при выполнении речевых заданий. Наши результаты показывают, что сигнал у здоровых людей более пространственно локализован и синхронизирован между полушариями при выполнении задач по сравнению с людьми, перенесшими COVID-19. Мы также наблюдали снижение низких частот в обоих полушариях после COVID-19. Электроэнцефалографические (ЭЭГ) паттерны COVID-19 обнаруживаются в необычной частотной области. То, что обычно считается шумом в ЭЭГ-данных, несет в себе информацию, по которой можно определить, переболел ли человек COVID-19. Эти паттерны можно интерпретировать как признаки десинхронизации полушарий, преждевременного старения мозга и стресса при выполнении простых задач по сравнению с людьми без COVID-19 в анамнезе. В нашей работе мы показали применимость нейронных сетей для выявления долгосрочных последствий COVID-19 на данные ЭЭГ. Кроме того, наши данные подтвердили гипотезу о тяжести последствий COVID-19, обнаруженных по ЭЭГ-данным. Представленные результаты функциональной активности мозга позволяют использовать методы машинного обучения на простых неинвазивных интерфейсах «мозг–компьютер» для выявления пост-COVID-синдрома и прогресса в нейрореабилитации.

    Vorontsova D.V., Isaeva M.V., Menshikov I.A., Orlov K.Y., Bernadotte A.
    Frequency, time, and spatial electroencephalogram changes after COVID-19 during a simple speech task
    Computer Research and Modeling, 2023, v. 15, no. 3, pp. 691-701

    We found a predominance of α-rhythm patterns in the left hemisphere in healthy people compared to people with COVID-19 history. Moreover, we observe a significant decrease in the left hemisphere contribution to the speech center area in people who have undergone COVID-19 when performing speech tasks.

    Our findings show that the signal in healthy subjects is more spatially localized and synchronized between hemispheres when performing tasks compared to people who recovered from COVID-19. We also observed a decrease in low frequencies in both hemispheres after COVID-19.

    EEG-patterns of COVID-19 are detectable in an unusual frequency domain. What is usually considered noise in electroencephalographic (EEG) data carries information that can be used to determine whether or not a person has had COVID-19. These patterns can be interpreted as signs of hemispheric desynchronization, premature brain ageing, and more significant brain strain when performing simple tasks compared to people who did not have COVID-19.

    In our work, we have shown the applicability of neural networks in helping to detect the long-term effects of COVID-19 on EEG-data. Furthermore, our data following other studies supported the hypothesis of the severity of the long-term effects of COVID-19 detected on the EEG-data of EEG-based BCI. The presented findings of functional activity of the brain– computer interface make it possible to use machine learning methods on simple, non-invasive brain–computer interfaces to detect post-COVID syndrome and develop progress in neurorehabilitation.

  2. Шахгельдян К.И., Куксин Н.С., Домжалов И.Г., Пак Р.Л., Гельцер Б.И.
    Случайный лес факторов риска как прогностический инструмент неблагоприятных событий в клинической медицине
    Компьютерные исследования и моделирование, 2025, т. 17, № 5, с. 987-1004

    Целью исследования являются разработка ансамблевого метода машинного обучения, обеспечивающего построение интерпретируемых прогностических моделей, и его апробация на примере прогнозирования внутригоспитальной летальности (ВГЛ) у больных инфарктом миокарда с подъемом сегмента ST (ИМпST).

    Проведено ретроспективное когортное исследование по данным 5446 электронных историй болезни пациентов с ИМпST, которым выполнялось чрескожное коронарное вмешательство (ЧКВ). Было выделено две группы лиц, первую изк оторых составили 335 (6,2%) больных, умерших в стационаре, вторую — 5111 (93,8%) — с благоприятным исходом лечения. Пул потенциальных предикторов был сформирован с помощью методов математической статистики. С помощью методов мультиметрической категоризации (минимизация p-value, максимизация площади под ROC-кривой-AUC и результаты анализа shap-value), деревьев решений и многофакторной логистической регрессии (МЛР) предикторы были преобразованы в факторы риска ВГЛ. Для разработки прогностических моделей ВГЛ использовали МЛР, случайный лес факторов риска (СЛФР), стохастический градиентный бустинг (XGboost), случай- ный лес, методы Adaptive boosting, Gradient Boosting, Light Gradient-Boosting Machine, Categorical Boosting (CatBoost), Explainable Boosting Machine и Stacking.

    Авторами разработан метод СЛФР, который обобщает результаты прогноза модифицированных деревьев решений, выделяет факторы риска и ранжирует их по интенсивности влияния на вероятность развития неблагоприятного события. СЛФР позволяет разрабатывать модели с высоким прогностическим потенциалом (AUC = 0,908), сопоста- вимым с моделями CatBoost и Stacking (AUC: 0,904 и 0,908 соответственно). Метод СЛФР может рассматриваться в качестве важного инструмента для клинического обоснования результатов прогноза и стать основой для разработки высокоточных интерпретируемых моделей.

    Shakhgeldyan K.I., Kuksin N.S., Domzhalov I.G., Pak R.L., Geltser B.I.
    Random forest of risk factors as a predictive tool for adverse events in clinical medicine
    Computer Research and Modeling, 2025, v. 17, no. 5, pp. 987-1004

    The aim of study was to develop an ensemble machine learning method for constructing interpretable predictive models and to validate it using the example of predicting in-hospital mortality (IHM) in patients with ST-segment elevation myocardial infarction (STEMI).

    A retrospective cohort study was conducted using data from 5446 electronic medical records of STEMI patients who underwent percutaneous coronary intervention (PCI). Patients were divided into two groups: 335 (6.2%) patients who died during hospitalization and 5111 (93.8%) patients with a favourable in-hospital outcome. A pool of potential predictors was formed using statistical methods. Through multimetric categorization (minimizing p-values, maximizing the area under the ROC curve (AUC), and SHAP value analysis), decision trees, and multivariable logistic regression (MLR), predictors were transformed into risk factors for IHM. Predictive models for IHM were developed using MLR, Random Forest Risk Factors (RandFRF), Stochastic Gradient Boosting (XGboost), Random Forest (RF), Adaptive boosting, Gradient Boosting, Light Gradient-Boosting Machine, Categorical Boosting (CatBoost), Explainable Boosting Machine and Stacking methods.

    Authors developed the RandFRF method, which integrates the predictive outcomes of modified decision trees, identifies risk factors and ranks them based on their contribution to the risk of adverse outcomes. RandFRF enables the development of predictive models with high discriminative performance (AUC 0.908), comparable to models based on CatBoost and Stacking (AUC 0.904 and 0.908, respectively). In turn, risk factors provide clinicians with information on the patient’s risk group classification and the extent of their impact on the probability of IHM. The risk factors identified by RandFRF can serve not only as rationale for the prediction results but also as a basis for developing more accurate models.

  3. Рисник Д.В., Левич А.П., Булгаков Н.Г., Бикбулатов Э.С., Бикбулатова Е.М., Ершов Ю.В., Конюхов И.В., Корнева Л.Г., Лазарева В.И., Литвинов А.С., Максимов В.Н., Мамихин С.В., Осипов В.А., Отюкова Н.Г., Поддубный С.А., Пырина И.Л., Соколова Е.А., Степанова И.Э., Фурсова П.В., Цельмович О.Л.
    Поиск связей между биологическими и физико-химическими характеристиками экосистемы Рыбинского водохранилища. Часть 2. Детерминационный анализ
    Компьютерные исследования и моделирование, 2013, т. 5, № 2, с. 271-292

    На основании данных по содержанию пигментов фитопланктона, интенсивности флуоресценции проб и некоторым физико-химическим характеристикам вод Рыбинского водохранилища проведен поиск связи между биологическими и физико-химическими характеристиками. Исследованы методы описания связи между качественными классами характеристик, основанные на прогнозе качественных значений одной характеристики по качественным значениям другой. Найдены границы качественных классов исследуемых характеристик.

    Risnik D.V., Levich A.P., Bulgakov N.G., Bikbulatov E.S., Bikbulatova E.M., Ershov Y.V., Konuhov I.V., Korneva L.G., Lazareva V.I., Litvinov A.S., Maksimov V.N., Mamihin S.V., Osipov V.A., Otyukova N.G., Poddubnii S.A., Pirina I.L., Sokolova E.A., Stepanova I.E., Fursova P.V., Celmovich O.L.
    Searching for connections between biological and physico-chemical characteristics of Rybinsk reservoir ecosystem. Part 2. Determination analysis
    Computer Research and Modeling, 2013, v. 5, no. 2, pp. 271-292

    Based on contents of phytoplankton pigments, fluorescence samples and some physico-chemical characteristics of the Rybinsk reservoir waters, searching for connections between biological and physicalchemical characteristics is working out. The methods of describing of connections between qualitative classes of characteristics, based on forecast of quality values of one characteristics by quality values of another one, are studied. The borders of quality classes of studied characteristics are found.

    Views (last year): 2. Citations: 3 (RSCI).
  4. Молчанов А.Г., Ольчев А.В.
    Модель газообмена СО2 сфагнового верхового болота
    Компьютерные исследования и моделирование, 2016, т. 8, № 2, с. 369-377

    На основе анализа данных измерений потоков СО2 на двух примыкающих участках неосушенного сфагнового верхового болота (сосняке кустарничково-сфагновом и кустарничково-сфагновом болоте с редкой сосной) в Московской области построена модель, описывающая зависимость газообмена СО2 верхового болота от приходящей суммарной солнечной радиации, влажности почвы и температуры воздуха. Исследования проводились во второй половине вегетационного периода при уровне болотных вод ниже 30 см. На основе данных измерений выявлена ведущая роль влажности почвы как фактора, определяющего интенсивность фотосинтеза и дыхания сфагнума и почвы. Построенная модель позволяет объяснить от 71 % до 74 % изменчивости газообмена СО2 исследуемого болота.

     

    Molchanov A.G., Olchev A.V.
    Model of CO2 exchange in a sphagnum peat bog
    Computer Research and Modeling, 2016, v. 8, no. 2, pp. 369-377

    A simple model was developed to describe the dependence of net CO2 exchange in a sphagnum peat bog as a function of incoming solar radiation, air temperature, and soil moisture. It was parameterized using the field measurement data from two neighboring sites in an undisturbed peat bog (the pine mire with shrub and sphagnum and the shrub-sphagnum mire with rare pine) in Moscow Region. Measurements were conducted during the second part of the growing season, when the groundwater level was below 30 cm. It was shown that is a key parameter influencing the photosynthesis and respiration rates of a sphagnum moss and peat soil. The developed model allows to explain from 71 % to 74 % of the variation of CO2 exchange in the peat bog.

    Views (last year): 1. Citations: 3 (RSCI).
  5. Цибулин В.Г., Хосаева З.Х.
    Математическая модель дифференциации общества с социальной напряженностью
    Компьютерные исследования и моделирование, 2019, т. 11, № 5, с. 999-1012

    В статье моделируется развитие во времени многопартийной политической системы с учетом социальной напряженности. Предлагается система нелинейных дифференциальных уравнений относительно долей приверженцев партий и дополнительной скалярной переменной, характеризующей величину напряженности в обществе. Изменение доли каждой партии пропорционально текущему значению, умноженному на коэффициент, который состоит из притока беспартийных, перетоков членов из конкурирующих партий и убыли вследствие роста социальной напряженности. Напряженность прирастает пропорционально долям партий и снижается при их отсутствии. Число партий фиксировано, в модели отсутствуют механизмы объединения существующих или рождения новых партий.

    Для исследования модели использован подход, основанный на выделении условий, при которых данная задача относится к классу косимметричных систем. Это позволяет проанализировать мультистабильность возможных динамических процессов и их разрушение при нарушении косимметрии. Существование косимметрии для системы дифференциальных уравнений обеспечивается наличием дополнительных связей на параметры, и при этом возможно возникновение непрерывных семейств стационарных и нестационарных решений. Для анализа сценариев нарушения косимметрии применяется подход на основе селективной функции. В случае с одной политической партией мультистабильности нет, каждому набору параметров соответствует только одно устойчивое решение. Для системы из двух партий показано, что возможны два семейства равновесий, а также семейство предельных циклов. Представлены результаты численных экспериментов, демонстрирующие разрушение семейств и реализацию различных сценариев, приводящих к стабилизации политической системы с сосуществованием обеих партий или к исчезновению одной из партий, когда часть населения перестает поддерживать одну из партий и становится безразличной.

    Рассматриваемая модель может быть использована для прогнозирования межпартийной борьбы во время предвыборной кампании. В этом случае необходимо учитывать зависимость коэффициентов системы от времени.

    Tsybulin V.G., Khosaeva Z.K.
    Mathematical model of political differentiation under social tension
    Computer Research and Modeling, 2019, v. 11, no. 5, pp. 999-1012

    We comsider a model of the dynamics a political system of several parties, accompanied and controlled by the growth of social tension. A system of nonlinear ordinary differential equations is proposed with respect to fractions and an additional scalar variable characterizing the magnitude of tension in society the change of each party is proportional to the current value multiplied by a coefficient that consists of an influx of novice, a flow from competing parties, and a loss due to the growth of social tension. The change in tension is made up of party contributions and own relaxation. The number of parties is fixed, there are no mechanisms in the model for combining existing or the birth of new parties.

    To study of possible scenarios of the dynamic processes of the model we derive an approach based on the selection of conditions under which this problem belongs to the class of cosymmetric systems. For the case of two parties, it is shown that in the system under consideration may have two families of equilibria, as well as a family of limit cycles. The existence of cosymmetry for a system of differential equations is ensured by the presence of additional constraints on the parameters, and in this case, the emergence of continuous families of stationary and nonstationary solutions is possible. To analyze the scenarios of cosymmetry breaking, an approach based on the selective function is applied. In the case of one political party, there is no multistability, one stable solution corresponds to each set of parameters. For the case of two parties, it is shown that in the system under consideration may have two families of equilibria, as well as a family of limit cycles. The results of numerical experiments demonstrating the destruction of the families and the implementation of various scenarios leading to the stabilization of the political system with the coexistence of both parties or to the disappearance of one of the parties, when part of the population ceases to support one of the parties and becomes indifferent are presented.

    This model can be used to predict the inter-party struggle during the election campaign. In this case necessary to take into account the dependence of the coefficients of the system on time.

  6. Русяк И.Г., Тененев В.А.
    Моделирование баллистики артиллерийского выстрела с учетом пространственного распределения параметров и противодавления
    Компьютерные исследования и моделирование, 2020, т. 12, № 5, с. 1123-1147

    В работе приводится сравнительный анализ результатов, полученных при различных подходах к моделированию процесса артиллерийского выстрела. В этой связи дана постановка основной задачи внутренней баллистики и ее частного случая задачи Лагранжа в осредненных параметрах, где в рамках допущений термодинамического подхода впервые учтены распределения давления и скорости газа по заснарядному пространству для канала переменного сечения. Представлена также постановка задачи Лагранжа в рамках газодинамического подхода, учитывающего пространственное (одномерное и двумерное осесимметричное) изменение характеристик внутрибаллистического процесса. Для численного решения системы газодинамических уравнений Эйлера применяется метод контрольного объема. Параметры газа на границах контрольных объемов опреде- ляются с использованием автомодельного решения задачи о распаде произвольного разрыва. На базе метода Годунова предложена модификация схемы Ошера, позволяющая реализовать алгоритм численного расчета со вторым порядком точности по координате и времени. Проведено сравнение решений, полученных в рамках термодинамического и газодинамического подходов, при различных параметрах заряжания. Изучено влияние массы снаряда и уширения камеры на распределение внутрибаллистических параметров выстрела и динамику движения снаряда. Показано, что термодинамический подход, по сравнению с газодинамическим подходом, приводит к систематическому завышению расчетной дульной скорости снаряда во всем исследованном диапазоне изменения параметров, при этом различие по дульной скорости может достигать 35 %. В то же время расхождение результатов, полученных в рамках одномерной и двумерной газодинамических моделей выстрела в этом же диапазоне изменения параметров, составляет не более 1.3 %.

    Дана пространственная газодинамическая постановка задачи о противодавлении, описывающая изменение давления перед ускоряющимся снарядом при его движении по каналу ствола. Показано, что учет формы передней части снаряда в рамках двумерной осесимметричной постановки задачи приводит к существенному различию полей давления за фронтом ударной волны по сравнению с решением в рамках одномерной постановки задачи, где форму передней части снаряда учесть невозможно. Сделан вывод, что это может существенно повлиять на результаты моделирования баллистики выстрела при высоких скоростях метания.

    Rusyak I.G., Tenenev V.A.
    Modeling of ballistics of an artillery shot taking into account the spatial distribution of parameters and backpressure
    Computer Research and Modeling, 2020, v. 12, no. 5, pp. 1123-1147

    The paper provides a comparative analysis of the results obtained by various approaches to modeling the process of artillery shot. In this connection, the main problem of internal ballistics and its particular case of the Lagrange problem are formulated in averaged parameters, where, within the framework of the assumptions of the thermodynamic approach, the distribution of pressure and gas velocity over the projectile space for a channel of variable cross section is taken into account for the first time. The statement of the Lagrange problem is also presented in the framework of the gas-dynamic approach, taking into account the spatial (one-dimensional and two-dimensional axisymmetric) changes in the characteristics of the ballistic process. The control volume method is used to numerically solve the system of Euler gas-dynamic equations. Gas parameters at the boundaries of control volumes are determined using a selfsimilar solution to the Riemann problem. Based on the Godunov method, a modification of the Osher scheme is proposed, which allows to implement a numerical calculation algorithm with a second order of accuracy in coordinate and time. The solutions obtained in the framework of the thermodynamic and gas-dynamic approaches are compared for various loading parameters. The effect of projectile mass and chamber broadening on the distribution of the ballistic parameters of the shot and the dynamics of the projectile motion was studied. It is shown that the thermodynamic approach, in comparison with the gas-dynamic approach, leads to a systematic overestimation of the estimated muzzle velocity of the projectile in the entire range of parameters studied, while the difference in muzzle velocity can reach 35%. At the same time, the discrepancy between the results obtained in the framework of one-dimensional and two-dimensional gas-dynamic models of the shot in the same range of change in parameters is not more than 1.3%.

    A spatial gas-dynamic formulation of the backpressure problem is given, which describes the change in pressure in front of an accelerating projectile as it moves along the barrel channel. It is shown that accounting the projectile’s front, considered in the two-dimensional axisymmetric formulation of the problem, leads to a significant difference in the pressure fields behind the front of the shock wave, compared with the solution in the framework of the onedimensional formulation of the problem, where the projectile’s front is not possible to account. It is concluded that this can significantly affect the results of modeling ballistics of a shot at high shooting velocities.

  7. Шмидт Ю.Д., Ивашина Н.В., Озерова Г.П.
    Моделирование межрегиональных миграционных потоков клеточными автоматами
    Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1467-1483

    В статье исследуется проблема разработки и обоснования наиболее адекватного инструментария для прогнозирования величины и структуры межрегиональных миграционных потоков. Миграционные процессы оказывают значительное влияние на численность и демографическую структуру населения территорий, состояние и сбалансированность региональных и локальных рынков труда. Для анализа миграционных процессов и оценки их последствий необходим экономикоатематический инструментарий, позволяющий с необходимой точностью моделировать миграционные процессы и потоки для различных территорий. Рассмотрены существующие подходы и методы моделирования миграционных процессов с анализом их преимуществ и недостатков. Отмечается, что для реализации многих из этих методов необходим большой массив агрегированных статистических данных, который не всегда имеется в наличии и не характеризует поведение мигрантов на локальном уровне, на котором принимается решение о переезде на новое место жительства. Это существенно влияет на возможность применения соответствующих методов моделирования миграционных процессов и точность прогнозов величины и структуры миграционных потоков.

    В работе разработана и апробирована на данных Приморского края модель клеточного автомата для моделирования межрегиональных миграционных потоков, реализующая интеграцию модели миграционного поведения домашних хозяйств в условиях ограниченной рациональности в общую модель миграционного потока территории. Для реализации модели миграционного поведения домашних хозяйств в условиях ограниченной рациональности предложен интегральный индекс привлекательности регионов с экономической, социальной и экологической составляющими. Для оценки прогностической способности разработанной модели проведено ее сравнение с существующими моделями клеточных автоматов, используемыми для прогнозирования межрегиональных миграционных потоков. Для этих целей был использован метод вневыборочного прогнозирования, который показал статистически значимое превосходство предложенной модели, которая позволяет получать прогнозы и количественные характеристики миграционных потоков территорий на основе реального миграционного поведения домашних хозяйств на локальном уровне с учетом условий их проживания и поведенческих мотивов.

    Shmidt Y.D., Ivashina N.V., Ozerova G.P.
    Modelling interregional migration flows by the cellular automata
    Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1467-1483

    The article dwells upon investigating the issue of the most adequate tools developing and justifying to forecast the interregional migration flows value and structure. Migration processes have a significant impact on the size and demographic structure of the population of territories, the state and balance of regional and local labor markets.

    To analyze the migration processes and to assess their impact an economic-mathematical tool is required which would be instrumental in modelling the migration processes and flows for different areas with the desired precision. The current methods and approaches to the migration processes modelling, including the analysis of their advantages and disadvantages, were considered. It is noted that to implement many of these methods mass aggregated statistical data is required which is not always available and doesn’t characterize the migrants behavior at the local level where the decision to move to a new dwelling place is made. This has a significant impact on the ability to apply appropriate migration processes modelling techniques and on the projection accuracy of the migration flows magnitude and structure.

    The cellular automata model for interregional migration flows modelling, implementing the integration of the households migration behavior model under the conditions of the Bounded Rationality into the general model of the area migration flow was developed and tested based on the Primorye Territory data. To implement the households migration behavior model under the conditions of the Bounded Rationality the integral attractiveness index of the regions with economic, social and ecological components was proposed in the work.

    To evaluate the prognostic capacity of the developed model, it was compared with the available cellular automata models used to predict interregional migration flows. The out of sample prediction method which showed statistically significant superiority of the proposed model was applied for this purpose. The model allows obtaining the forecasts and quantitative characteristics of the areas migration flows based on the households real migration behaviour at the local level taking into consideration their living conditions and behavioural motives.

  8. Краснов Ф.В., Смазневич И.С., Баскакова Е.Н.
    Метод контрастного семплирования для предсказания библиографических ссылок
    Компьютерные исследования и моделирование, 2021, т. 13, № 6, с. 1317-1336

    В работе рассматривается задача поиска в научной статье фрагментов с недостающими библиографическими ссылками с помощью автоматической бинарной классификации. Для обучения модели предложен метод контрастного семплирования, новшеством которого является рассмотрение контекста ссылки с учетом границ фрагмента, максимально влияющего на вероятность нахождения в нем библиографической ссылки. Обучающая выборка формировалась из автоматически размеченных семплов — фрагментов из трех предложений с метками классов «без ссылки» и «со ссылкой», удовлетворяющих требованию контрастности: семплы разных классов дистанцируются в исходном тексте. Пространство признаков строилось автоматически по статистике встречаемости термов и расширялось за счет конструирования дополнительных признаков — выделенных в тексте сущностей ФИО, чисел, цитат и аббревиатур.

    Проведена серия экспериментов на архивах научных журналов «Правоприменение» (273 статьи) и «Журнал инфектологии» (684 статьи). Классификация осуществлялась моделями Nearest Neighbours, RBF SVM, Random Forest, Multilayer Perceptron, с подбором оптимальных гиперпараметров для каждого классификатора.

    Эксперименты подтвердили выдвинутую гипотезу. Наиболее высокую точность показал нейросетевой классификатор (95%), уступающий по скорости линейному, точность которого при контрастном семплировании также оказалась высока (91–94 %). Полученные значения превосходят результаты, опубликованные для задач NER и анализа тональности на данных со сравнимыми характеристиками. Высокая вычислительная эффективность предложенного метода позволяет встраивать его в прикладные системы и обрабатывать документы в онлайн-режиме.

    Krasnov F.V., Smaznevich I.S., Baskakova E.N.
    Bibliographic link prediction using contrast resampling technique
    Computer Research and Modeling, 2021, v. 13, no. 6, pp. 1317-1336

    The paper studies the problem of searching for fragments with missing bibliographic links in a scientific article using automatic binary classification. To train the model, we propose a new contrast resampling technique, the innovation of which is the consideration of the context of the link, taking into account the boundaries of the fragment, which mostly affects the probability of presence of a bibliographic links in it. The training set was formed of automatically labeled samples that are fragments of three sentences with class labels «without link» and «with link» that satisfy the requirement of contrast: samples of different classes are distanced in the source text. The feature space was built automatically based on the term occurrence statistics and was expanded by constructing additional features — entities (names, numbers, quotes and abbreviations) recognized in the text.

    A series of experiments was carried out on the archives of the scientific journals «Law enforcement review» (273 articles) and «Journal Infectology» (684 articles). The classification was carried out by the models Nearest Neighbors, RBF SVM, Random Forest, Multilayer Perceptron, with the selection of optimal hyperparameters for each classifier.

    Experiments have confirmed the hypothesis put forward. The highest accuracy was reached by the neural network classifier (95%), which is however not as fast as the linear one that showed also high accuracy with contrast resampling (91–94%). These values are superior to those reported for NER and Sentiment Analysis on comparable data. The high computational efficiency of the proposed method makes it possible to integrate it into applied systems and to process documents online.

  9. Игнатьев Н.А., Тулиев У.Ю.
    Семантическая структуризация текстовых документов на основе паттернов сущностей естественного языка
    Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1185-1197

    Рассматривается технология создания паттернов из слов (понятий) естественного языка по текстовым данным в модели «мешок слов». Паттерны применяются для снижения размерности исходного пространства в описании документов и поиска семантически связанных слов по темам. Процесс снижения размерности реализуется через формирование по паттернам латентных признаков. Исследуется многообразие структур отношений документов для разбиения их на темы в латентном пространстве.

    Считается, что заданное множество документов (объектов) разделено на два непересекающихся класса, для анализа которых необходимо использовать общий словарь. Принадлежность слов к общему словарю изначально неизвестна. Объекты классов рассматриваются в ситуации оппозиции друг к другу. Количественные параметры оппозиционности определяются через значения устойчивости каждого признака и обобщенные оценки объектов по непересекающимся наборам признаков.

    Для вычисления устойчивости используются разбиения значений признаков на непересекающиеся интервалы, оптимальные границы которых определяются по специальному критерию. Максимум устойчивости достигается при условии, что в границах каждого интервала содержатся значения одного из двух классов.

    Состав признаков в наборах (паттернах из слов) формируется из упорядоченной по значениям устойчивости последовательности. Процесс формирования паттернов и латентных признаков на их основе реализуется по правилам иерархической агломеративной группировки.

    Набор латентных признаков используется для кластерного анализа документов по метрическим алгоритмам группировки. В процессе анализа применяется коэффициент контентной аутентичности на основе данных о принадлежности документов к классам. Коэффициент является численной характеристикой доминирования представителей классов в группах.

    Для разбиения документов на темы предложено использовать объединение групп по отношению их центров. В качестве закономерностей по каждой теме рассматривается упорядоченная по частоте встречаемости последовательность слов из общего словаря.

    Приводятся результаты вычислительного эксперимента на коллекциях авторефератов научных диссертаций. Сформированы последовательности слов из общего словаря по четырем темам.

    Ignatev N.A., Tuliev U.Y.
    Semantic structuring of text documents based on patterns of natural language entities
    Computer Research and Modeling, 2022, v. 14, no. 5, pp. 1185-1197

    The technology of creating patterns from natural language words (concepts) based on text data in the bag of words model is considered. Patterns are used to reduce the dimension of the original space in the description of documents and search for semantically related words by topic. The process of dimensionality reduction is implemented through the formation of patterns of latent features. The variety of structures of document relations is investigated in order to divide them into themes in the latent space.

    It is considered that a given set of documents (objects) is divided into two non-overlapping classes, for the analysis of which it is necessary to use a common dictionary. The belonging of words to a common vocabulary is initially unknown. Class objects are considered as opposition to each other. Quantitative parameters of oppositionality are determined through the values of the stability of each feature and generalized assessments of objects according to non-overlapping sets of features.

    To calculate the stability, the feature values are divided into non-intersecting intervals, the optimal boundaries of which are determined by a special criterion. The maximum stability is achieved under the condition that the boundaries of each interval contain values of one of the two classes.

    The composition of features in sets (patterns of words) is formed from a sequence ordered by stability values. The process of formation of patterns and latent features based on them is implemented according to the rules of hierarchical agglomerative grouping.

    A set of latent features is used for cluster analysis of documents using metric grouping algorithms. The analysis applies the coefficient of content authenticity based on the data on the belonging of documents to classes. The coefficient is a numerical characteristic of the dominance of class representatives in groups.

    To divide documents into topics, it is proposed to use the union of groups in relation to their centers. As patterns for each topic, a sequence of words ordered by frequency of occurrence from a common dictionary is considered.

    The results of a computational experiment on collections of abstracts of scientific dissertations are presented. Sequences of words from the general dictionary on 4 topics are formed.

  10. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Горбачёв Р.А.
    Разработка и исследование алгоритмов машинного обучения для решения задачи классификации в публикациях Twitter
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 185-195

    Посты в социальных сетях способны как предсказывать движение финансового рынка, так и в некоторых случаях даже определять его направление. Анализ постов в Twitter способствует прогнозированию цен на криптовалюту. Специфика рассматриваемого сообщества заключается в особенной лексике. Так, в постах используются сленговые выражения, аббревиатуры и сокращения, наличие которых затрудняет векторизацию текстовых данных, в следствие чего рассматриваются методы предобработки такие, как лемматизация Stanza и применение регулярных выражений. В этой статье описываются простейшие модели машинного обучения, которые могут работать, несмотря на такие проблемы, как нехватка данных и короткие сроки прогнозирования. Решается задача бинарной текстовой классификации, в условиях которой слово рассматривается как элемент бинарного вектора единицы данных. Базисные слова определяются на основе частотного анализа упоминаний того или иного слова. Разметка составляется на основе свечей Binance с варьируемыми параметрами для более точного описания тренда изменения цены. В работе вводятся метрики, отражающие распределение слов в зависимости от их принадлежности к положительному или отрицательному классам. Для решения задачи классификации использовались dense-модель с подобранными при помощи Keras Tuner параметрами, логистическая регрессия, классификатор случайного леса, наивный байесовский классификатор, способный работать с малочисленной выборкой, что весьма актуально для нашей задачи, и метод k-ближайших соседей. Было проведено сравнение построенных моделей на основе метрики точности предсказанных меток. В ходе исследования было выяснено, что наилучшим подходом является использование моделей, которые предсказывают ценовые движения одной монеты. Наши модели имеют дело с постами, содержащими упоминания проекта LUNA, которого на данный момент уже не существует. Данный подход к решению бинарной классификации текстовых данных широко применяется для предсказания цены актива, тренда ее движения, что часто используется в автоматизированной торговле.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Gorbachev R.A.
    Development of and research on machine learning algorithms for solving the classification problem in Twitter publications
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 185-195

    Posts on social networks can both predict the movement of the financial market, and in some cases even determine its direction. The analysis of posts on Twitter contributes to the prediction of cryptocurrency prices. The specificity of the community is represented in a special vocabulary. Thus, slang expressions and abbreviations are used in posts, the presence of which makes it difficult to vectorize text data, as a result of which preprocessing methods such as Stanza lemmatization and the use of regular expressions are considered. This paper describes created simplest machine learning models, which may work despite such problems as lack of data and short prediction timeframe. A word is considered as an element of a binary vector of a data unit in the course of the problem of binary classification solving. Basic words are determined according to the frequency analysis of mentions of a word. The markup is based on Binance candlesticks with variable parameters for a more accurate description of the trend of price changes. The paper introduces metrics that reflect the distribution of words depending on their belonging to a positive or negative classes. To solve the classification problem, we used a dense model with parameters selected by Keras Tuner, logistic regression, a random forest classifier, a naive Bayesian classifier capable of working with a small sample, which is very important for our task, and the k-nearest neighbors method. The constructed models were compared based on the accuracy metric of the predicted labels. During the investigation we recognized that the best approach is to use models which predict price movements of a single coin. Our model deals with posts that mention LUNA project, which no longer exist. This approach to solving binary classification of text data is widely used to predict the price of an asset, the trend of its movement, which is often used in automated trading.

Pages: « first previous next last »

Indexed in Scopus

Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU

The journal is included in the Russian Science Citation Index

The journal is included in the RSCI

International Interdisciplinary Conference "Mathematics. Computing. Education"