All issues
- 2024 Vol. 16
- 2023 Vol. 15
- 2022 Vol. 14
- 2021 Vol. 13
- 2020 Vol. 12
- 2019 Vol. 11
- 2018 Vol. 10
- 2017 Vol. 9
- 2016 Vol. 8
- 2015 Vol. 7
- 2014 Vol. 6
- 2013 Vol. 5
- 2012 Vol. 4
- 2011 Vol. 3
- 2010 Vol. 2
- 2009 Vol. 1
-
Методы прогнозирования и модели распространения заболеваний
Компьютерные исследования и моделирование, 2013, т. 5, № 5, с. 863-882Число работ, посвященных прогнозированию инфекционной заболеваемости, стремительно растет по мере появления статистики, позволяющей провести анализ. В настоящей статье представлен обзор основных решений, доступных сегодня для формирования как краткосрочных, так и долгосрочных проекций заболеваемости; указаны их ограничения и возможности практического применения. Рассмотрены традиционные методы анализа временных рядов — регрессионные и авторегрессионные модели; подходы, опирающиеся на машинное обучение — байесовские сети и искусственные нейронные сети; рассуждения на основе прецедентов; техники, базирующиеся на решении задачи фильтрации. Перечислены важнейшие направления разработки математических моделей распространения заболевания: классические аналитические модели, детерминированные и стохастические, а также современные имитационные модели, сетевые и агентные.
Ключевые слова: прогнозирование заболеваемости, поточечные оценки, регрессионные модели, АРПСС, скрытые марковские модели, метод аналогий, экспоненциальное сглаживание, SIR, модель Барояна–Рвачева, клеточные автоматы, популяционные модели, агентные модели.
Forecasting methods and models of disease spread
Computer Research and Modeling, 2013, v. 5, no. 5, pp. 863-882Views (last year): 71. Citations: 19 (RSCI).The number of papers addressing the forecasting of the infectious disease morbidity is rapidly growing due to accumulation of available statistical data. This article surveys the major approaches for the shortterm and the long-term morbidity forecasting. Their limitations and the practical application possibilities are pointed out. The paper presents the conventional time series analysis methods — regression and autoregressive models; machine learning-based approaches — Bayesian networks and artificial neural networks; case-based reasoning; filtration-based techniques. The most known mathematical models of infectious diseases are mentioned: classical equation-based models (deterministic and stochastic), modern simulation models (network and agent-based).
-
Нейронечеткая модель формирования нечетких правил для оценки состояния объектов в условиях неопределенности
Компьютерные исследования и моделирование, 2019, т. 11, № 3, с. 477-492В данной статье решается задача построения нейронечеткой модели формирования нечетких правил и их использования для оценки состояния объектов в условиях неопределенности. Традиционные методы математической статистики или имитационного моделирования не позволяют строить адекватные модели объектов в указанных условиях. Поэтому в настоящее время решение многих задач основано на использовании технологий интеллектуального моделирования с применением методов нечеткой логики. Традиционный подход к построению нечетких систем связан с необходимостью привлечения эксперта для формулирования нечетких правил и задания используемых в них функций принадлежности. Для устранения этого недостатка актуальна автоматизация формирования нечетких правил на основе методов и алгоритмов машинного обучения. Одним из подходов к решению данной задачи является построение нечеткой нейронной сети и обучение ее на данных, характеризующих исследуемый объект. Реализация этого подхода потребовала выбора вида нечетких правил с учетом особенностей обрабатываемых данных. Кроме того, потребовалась разработка алгоритма логического вывода на правилах выбранного вида. Этапы алгоритма определяют число слоев в структуре нечеткой нейронной сети и их функциональность. Разработан алгоритм обучения нечеткой нейронной сети. После ее обучения производится формирование системы нечетко-продукционных правил. На базе разработанного математического обеспечения реализован программный комплекс. На его основе проведены исследования по оценке классифицирующей способности формируемых нечетких правил на примере анализа данных из UCI Machine Learning Repository. Результаты исследований показали, что классифицирующая способность сформированных нечетких правил не уступает по точности другим методам классификации. Кроме того, алгоритм логического вывода на нечетких правилах позволяет успешно производить классификацию при отсутствии части исходных данных. С целью апробации произведено формирование нечетких правил для решения задачи по оценке состояния водоводов в нефтяной отрасли. На основе исходных данных по 303 водоводам сформирована база из 342 нечетких правил. Их практическая апробация показала высокую эффективность в решении поставленной задачи.
Ключевые слова: нейронечеткая модель, нечеткая нейронная сеть, нечетко-продукционное правило, формирование базы знаний, оценка состояния объекта.
Neuro-fuzzy model of fuzzy rules formation for objects state evaluation in conditions of uncertainty
Computer Research and Modeling, 2019, v. 11, no. 3, pp. 477-492Views (last year): 12.This article solves the problem of constructing a neuro-fuzzy model of fuzzy rules formation and using them for objects state evaluation in conditions of uncertainty. Traditional mathematical statistics or simulation modeling methods do not allow building adequate models of objects in the specified conditions. Therefore, at present, the solution of many problems is based on the use of intelligent modeling technologies applying fuzzy logic methods. The traditional approach of fuzzy systems construction is associated with an expert attraction need to formulate fuzzy rules and specify the membership functions used in them. To eliminate this drawback, the automation of fuzzy rules formation, based on the machine learning methods and algorithms, is relevant. One of the approaches to solve this problem is to build a fuzzy neural network and train it on the data characterizing the object under study. This approach implementation required fuzzy rules type choice, taking into account the processed data specificity. In addition, it required logical inference algorithm development on the rules of the selected type. The algorithm steps determine the number and functionality of layers in the fuzzy neural network structure. The fuzzy neural network training algorithm developed. After network training the formation fuzzyproduction rules system is carried out. Based on developed mathematical tool, a software package has been implemented. On its basis, studies to assess the classifying ability of the fuzzy rules being formed have been conducted using the data analysis example from the UCI Machine Learning Repository. The research results showed that the formed fuzzy rules classifying ability is not inferior in accuracy to other classification methods. In addition, the logic inference algorithm on fuzzy rules allows successful classification in the absence of a part of the initial data. In order to test, to solve the problem of assessing oil industry water lines state fuzzy rules were generated. Based on the 303 water lines initial data, the base of 342 fuzzy rules was formed. Their practical approbation has shown high efficiency in solving the problem.
-
Нейросетевая реконструкция треков частиц для внутреннего CGEM-детектораэк сперимента BESIII
Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1361-1381Реконструкция траекторий заряженных частиц в трековых детекторах является ключевой проблемой анализа экспериментальных данных для физики высоких энергий и ядерной физики. Поток данных в современных экспериментах растет день ото дня, и традиционные методы трекинга уже не в состоянии соответствовать этим объемам данных по скорости обработки. Для решения этой проблемы нами были разработаны два нейросетевых алгоритма, использующих методы глубокого обучения, для локальной (каждый трек в отдельности) и глобальной (все треки в событии) реконструкции треков применительно к данным трекового GEM-детектора эксперимента BM@N ОИЯИ. Преимущество глубоких нейронных сетей обусловлено их способностью к обнаружению скрытых нелинейных зависимостей в данных и возможностью параллельного выполнения операций линейной алгебры, лежащих в их основе.
В данной статье приведено описание исследования по обобщению этих алгоритмов и их адаптации к применению для внутреннего поддетектора CGEM (BESIII ИФВЭ, Пекин). Нейросетевая модель RDGraphNet для глобальной реконструкции треков, разработанная на основе реверсного орграфа, успешно адаптирована. После обучения на модельных данных тестирование показало обнадеживающие результаты: для распознавания треков полнота (recall) составила 98% и точность (precision) — 86%. Однако адаптация «локальной» нейросетевой модели TrackNETv2 потребовала учета специфики цилиндрического детектора CGEM (BESIII), состоящего всего из трех детектирующих слоев, и разработки дополнительного нейроклассификатора для отсева ложных треков. Полученная программа TrackNETv2.1 протестирована в отладочном режиме. Значение полноты на первом этапе обработки составило 99%. После применения классификатора точность составила 77%, при незначительном снижении показателя полноты до 94%. Данные результаты предполагают дальнейшее совершенствование модели локального трекинга.
Ключевые слова: реконструкция треков, GEM-детекторы, глубокое обучение, сверточные нейронные сети, графовые нейросети.
Tracking on the BESIII CGEM inner detector using deep learning
Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1361-1381The reconstruction of charged particle trajectories in tracking detectors is a key problem in the analysis of experimental data for high energy and nuclear physics.
The amount of data in modern experiments is so large that classical tracking methods such as Kalman filter can not process them fast enough. To solve this problem, we have developed two neural network algorithms of track recognition, based on deep learning architectures, for local (track by track) and global (all tracks in an event) tracking in the GEM tracker of the BM@N experiment at JINR (Dubna). The advantage of deep neural networks is the ability to detect hidden nonlinear dependencies in data and the capability of parallel execution of underlying linear algebra operations.
In this work we generalize these algorithms to the cylindrical GEM inner tracker of BESIII experiment. The neural network model RDGraphNet for global track finding, based on the reverse directed graph, has been successfully adapted. After training on Monte Carlo data, testing showed encouraging results: recall of 98% and precision of 86% for track finding.
The local neural network model TrackNETv2 was also adapted to BESIII CGEM successfully. Since the tracker has only three detecting layers, an additional neuro-classifier to filter out false tracks have been introduced. Preliminary tests demonstrated the recall value at the first stage of 99%. After applying the neuro-classifier, the precision was 77% with a slight decrease of the recall to 94%. This result can be improved after the further model optimization.
-
Подходы к обработке изображений в системе поддержки принятия решений центра автоматизированной фиксации административных правонарушений дорожного движения
Компьютерные исследования и моделирование, 2021, т. 13, № 2, с. 405-415В статье предлагается ряд подходов к обработке изображений в системе поддержки принятия решений (СППР) центра автоматизированной фиксации административных правонарушений дорожного движения (ЦАФАП). Основной задачей данной СППР является помощь человеку-оператору в получении точной информации о государственном регистрационном знаке (ГРЗ) и модели транспортного средства (ТС) на основании изображений, полученных с комплексов фотовидеофиксации (ФВФ). В статье предложены подходы к распознаванию ГРЗ и марки/модели ТС на изображении, основанные на современных нейросетевых моделях. Для распознавания ГРЗ использована нейросетевая модель LPRNet с дополнительно введенным Spatial Transformer Layer для предобработки изображения. Для автоматического определения марки/модели ТС на изображении использована нейросетевая архитектура ResNeXt-101-32x8d. Предложен подход к формированию обучающей выборки для нейросетевой модели распознавания ГРЗ, основанный на методах компьютерного зрения и алгоритмах машинного обучения. В данном подходе использован алгоритм SIFT для нахождения ключевых точек изображения с ГРЗ и вычисления их дескрипторов, а для удаления точек-выбросов использован алгоритм DBSCAN. Точность распознавания ГРЗ на тестовой выборке составила 96 %. Предложен подход к повышению производительности процедур дообучения и распознавания марки/модели ТС, основанный на использовании новой архитектуры сверточной нейронной сети с «заморозкой» весовых коэффициентов сверточных слоев, дополнительным сверточным слоем распараллеливания процесса классификации и множеством бинарных классификаторов на выходе. Применение новой архитектуры позволило на несколько порядков уменьшить время дообучения нейросетевой модели распознавания марки/модели ТС с итоговой точностью классификации, близкой к 99 %. Предложенные подходы были апробированы и внедрены в СППР ЦАФАП Республики Татарстан.
Ключевые слова: система поддержки принятия решений, изображение, компьютерное зрение, нейронные сети.
Approaches for image processing in the decision support system of the center for automated recording of administrative offenses of the road traffic
Computer Research and Modeling, 2021, v. 13, no. 2, pp. 405-415We suggested some approaches for solving image processing tasks in the decision support system (DSS) of the Center for Automated Recording of Administrative Offenses of the Road Traffic (CARAO). The main task of this system is to assist the operator in obtaining accurate information about the vehicle registration plate and the vehicle brand/model based on images obtained from the photo and video recording systems. We suggested the approach for vehicle registration plate recognition and brand/model classification on the images based on modern neural network models. LPRNet neural network model supplemented by Spatial Transformer Layer was used to recognize the vehicle registration plate. The ResNeXt-101-32x8d neural network model was used to classify for vehicle brand/model. We suggested the approach to construct the training set for the neural network of vehicle registration plate recognition. The approach is based on computer vision methods and machine learning algorithms. The SIFT algorithm was used to detect and describe local features on images with the vehicle registration plate. DBSCAN clustering was used to detect and delete outliers in such local features. The accuracy of vehicle registration plate recognition was 96% on the testing set. We suggested the approach to improve the efficiency of using the ResNeXt-101-32x8d model at additional training and classification stages. The approach is based on the new architecture of convolutional neural networks with “freezing” weight coefficients of convolutional layers, an additional convolutional layer for parallelizing the classification process, and a set of binary classifiers at the output. This approach significantly reduced the time of additional training of neural network when new vehicle brand/model classification was needed. The final accuracy of vehicle brand/model classification was 99% on the testing set. The proposed approaches were tested and implemented in the DSS of the CARAO of the Republic of Tatarstan.
-
Применение алгоритма Random Forest для построения локального оператора, уточняющего результаты расчетов в задачах внешней аэродинамики
Компьютерные исследования и моделирование, 2021, т. 13, № 4, с. 761-778При моделировании турбулентных течений неизбежно приходится сталкиваться с выбором между точностью и скоростью проведения расчетов. Так, DNS- и LES-модели позволяют проводить более точные расчеты, но являются более вычислительно затратными, чем RANS-модели. Поэтому сейчас RANS- модели являются наиболее часто используемыми при проведении практических расчетов. Но и расчеты с применением RANS-моделей могут быть значительно вычислительно затратными для задач со сложной геометрией или при проведении серийных расчетов по причине необходимости разрешения пристенного слоя. Существуют подходы, позволяющие значительно ускорить вычисления для RANS-моделей. Например, пристеночные функции или методы, основанные на декомпозиции расчетной области. Тем не менее они неизбежно теряют в точности за счет упрощения модели в пристенной области. Для того чтобы одновременно получить и вычислительно эффективную и более точную модель, может быть построена суррогатная модель на основании упрощенной модели и с использованием знаний о предыдущих расчетах, полученных более точной моделью, например из некоторых результатов серийных расчетов.
В статье строится оператор перехода, позволяющий по результатам расчетов менее точной модели получить поле течения как при применении более точной модели. В данной работе результаты расчетов, полученные с помощью менее точной модели Спаларта–Аллмараса с применением пристенной декомпозиции, уточняются на основании расчетов схожих течений, полученных с помощью базовой модели Спаларта–Аллмараса с подробным разрешением пристенной области, с помощью методов машинного обучения. Оператор перехода от уточняемой модели к базовой строится локальным образом. То есть для уточнения результатов расчета в каждой точке расчетной области используются значения переменных пространства признаков (сами переменные поля и их производные) в этой точке. Для построения оператора используется алгоритм Random Forest. Эффективность и точность построенной суррогатной модели демонстрируется на примере двумерной задачи сверхзвукового турбулентного обтекания угла сжатия при различных числах Рейнольдса. Полученный оператор применяется к решению задач интерполяции и экстраполяции по числу Рейнольдса, также рассматривается топологический случай — интерполяция и экстраполяция по величине угла сжатия $\alpha$.
Ключевые слова: пристенная декомпозиция, пристенные функции, вычислительная аэродинамика, случайный лес, машинное обучение, турбулентность.
Application of Random Forest to construct a local operator for flow fields refinement in external aerodynamics problems
Computer Research and Modeling, 2021, v. 13, no. 4, pp. 761-778Numerical modeling of turbulent flows requires finding the balance between accuracy and computational efficiency. For example, DNS and LES models allow to obtain more accurate results, comparing to RANS models, but are more computationally expensive. Because of this, modern applied simulations are mostly performed with RANS models. But even RANS models can be computationally expensive for complex geometries or series simulations due to the necessity of resolving the boundary layer. Some methods, such as wall functions and near-wall domain decomposition, allow to significantly improve the speed of RANS simulations. However, they inevitably lose precision due to using a simplified model in the near-wall domain. To obtain a model that is both accurate and computationally efficient, it is possible to construct a surrogate model based on previously made simulations using the precise model.
In this paper, an operator is constructed that allows reconstruction of the flow field obtained by an accurate model based on the flow field obtained by the simplified model. Spalart–Allmaras model with approximate nearwall domain decomposition and Spalart–Allmaras model resolving the near-wall region are taken as the simplified and the base models respectively. The operator is constructed using a local approach, i. e. to reconstruct a point in the flow field, only features (flow variables and their derivatives) at this point in the field are used. The operator is constructed using the Random Forest algorithm. The efficiency and accuracy of the obtained surrogate model are demonstrated on the supersonic flow over a compression corner with different values for angle $\alpha$ and Reynolds number. The investigation has been conducted into interpolation and extrapolation both by $Re$ and $\alpha$.
-
Эмпирическая проверка теории институциональных матриц методами интеллектуального анализа данных
Компьютерные исследования и моделирование, 2015, т. 7, № 4, с. 923-939Цель настоящего исследования состояла в установлении достоверной взаимосвязи показателей внешней среды и уровня освоенности территорий с характером доминирующих в странах институциональных матриц. Среди индикаторов внешних условий представлены как исходные статистические показатели, напрямую полученные из баз данных открытого доступа, так и сложные интегральные показатели, сформированные путем применения метода главных компонент. Оценка точности распознавания стран с доминированием X- или Y-институциональных матриц по перечисленным показателям проводилась с помощью ряда методов, основанных на машинном обучении. Была выявлена высокая информативность таких показателей, как освоенность территории, амплитуда осадков, летние и зимние температуры, уровень рисков.
Ключевые слова: теория институциональных матриц, машинное обучение.
Empirical testing of institutional matrices theory by data mining
Computer Research and Modeling, 2015, v. 7, no. 4, pp. 923-939The paper has a goal to identify a set of parameters of the environment and infrastructure with the most significant impact on institutional-matrices that dominate in different countries. Parameters of environmental conditions includes raw statistical indices, which were directly derived from the databases of open access, as well as complex integral indicators that were by method of principal components. Efficiency of discussed parameters in task of dominant institutional matrices type recognition (X or Y type) was evaluated by a number of methods based on machine learning. It was revealed that greatest informational content is associated with parameters characterizing risk of natural disasters, level of urbanization and the development of transport infrastructure, the monthly averages and seasonal variations of temperature and precipitation.
Keywords: institutional matrices theory, machine learning.Views (last year): 7. Citations: 13 (RSCI). -
Математическая модель биометрической системы распознавания по радужной оболочке глаза
Компьютерные исследования и моделирование, 2020, т. 12, № 3, с. 629-639Автоматическое распознавание личности по биометрическому признаку основано на уникальных особенностях или характеристиках людей. Процесс биометрической идентификации представляет собой формирование эталонных шаблонов и сравнение их с новыми входными данными. Алгоритмы распознавания по рисунку радужной оболочки глаза показали на практике высокую точность и малый процент ошибок идентификации. Преимущества радужки над другими биометрическими признаками определяется ее большей степенью свободы (около 249 степеней свободы), избыточной плотностью уникальных признаков и постоянностью во времени. Высокий уровень достоверности распознавания очень важен, потому что позволяет выполнять поиск по большим базам данных и работать в режиме идентификации один-ко-многим, в отличии от режима проверки один-к-одному, который применим дляне большого количества сравнений. Любая биометрическая система идентификации является вероятностной. Для описания качественных характеристик распознавания применяются: точность распознавания, вероятность ложного доступа и вероятность ложного отказа доступа. Эти характеристики позволяют сравнивать методы распознавания личности между собой и оценивать поведение системы в каких-либо условиях. В этой статье объясняется математическая модель биометрической идентификации по радужной оболочке глаза, ее характеристики и анализируются результаты сравнения модели с реальным процессом распознавания. Для решения этой задачи проводится обзор существующих методов идентификации по радужной оболочке глаза, основанных на различных способах формирования вектора уникальных признаков. Описывается разработанный программный комплекс на языке Python, который строит вероятностные распределения и генерирует большие наборы тестовых данных, которые могут быть использованы в том числе для обучения нейронной сети принятия решения об идентификации. В качестве практического применения модели предложен алгоритм синергии нескольких методов идентификации личности по радужной оболочке глаза, позволяющий увеличить качественные характеристики системы, в сравнении с применением каждого метода отдельно.
Ключевые слова: биометрическаяс истема, радужнаяо болочка, математическаям одель, коэффициент ложного доступа, коэффициент ложного отказа доступа.
Mathematical model of the biometric iris recognition system
Computer Research and Modeling, 2020, v. 12, no. 3, pp. 629-639Automatic recognition of personal identity by biometric features is based on unique peculiarities or characteristics of people. Biometric identification process consist in making of reference templates and comparison with new input data. Iris pattern recognition algorithms presents high accuracy and low identification errors percent on practice. Iris pattern advantages over other biometric features are determined by its high degree of freedom (nearly 249), excessive density of unique features and constancy. High recognition reliability level is very important because it provides search in big databases. Unlike one-to-one check mode that is applicable only to small calculation count it allows to work in one-to-many identification mode. Every biometric identification system appears to be probabilistic and qualitative characteristics description utilizes such parameters as: recognition accuracy, false acceptance rate and false rejection rate. These characteristics allows to compare identity recognition methods and asses the system performance under any circumstances. This article explains the mathematical model of iris pattern biometric identification and its characteristics. Besides, there are analyzed results of comparison of model and real recognition process. To make such analysis there was carried out the review of existing iris pattern recognition methods based on different unique features vector. The Python-based software package is described below. It builds-up probabilistic distributions and generates large test data sets. Such data sets can be also used to educate the identification decision making neural network. Furthermore, synergy algorithm of several iris pattern identification methods was suggested to increase qualitative characteristics of system in comparison with the use of each method separately.
-
Применение ансамбля нейросетей и методов статистической механики для предсказания связывания пептида с главным комплексом гистосовместимости
Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1383-1395Белки главного комплекса гистосовместимости (ГКГС) играют ключевую роль в работе адаптивной иммунной системы, и определение связывающихся с ними пептидов — важный шаг в разработке вакцин и понимании механизмов аутоиммунных заболеваний. На сегодняшний день существует ряд методов для предсказания связывания определенной аллели ГКГС с пептидом. Одним из лучших таких методов является NetMHCpan-4.0, основанный на ансамбле искусственных нейронных сетей. В данной работе представлена методология качественного улучшения архитектуры нейронной сети, лежащей в основе NetMHCpan-4.0. Предлагаемый метод использует технику построения ансамбля и добавляет в качестве входных данных оценку модели Поттса, взятой из статистической механики и являющейся обобщением модели Изинга. В общем случае модельо тражает взаимодействие спинов в кристаллической решетке. Применительно к задаче белок-пептидного взаимодействия вместо спинов используются типы аминокислот, находящихся в кармане связывания. В предлагаемом методе модель Поттса используется для более всестороннего представления физической природы взаимодействия полипептидных цепей, входящих в состав комплекса. Для оценки взаимодействия комплекса «ГКГС + пептид» нами используется двумерная модель Поттса с 20 состояниями (соответствующими основным аминокислотам). Решая обратную задачу с использованием данных об экспериментально подтвержденных взаимодействующих парах, мы получаем значения параметров модели Поттса, которые затем применяем для оценки новой пары «ГКГС + пептид», и дополняем этим значением входные данные нейронной сети. Такой подход, в сочетании с техникой построения ансамбля, позволяет улучшитьт очность предсказания, по метрике положительной прогностической значимости (PPV), по сравнению с базовой моделью.
Ключевые слова: главный комплекс гистосовместимости, аффинностьсв язывания, нейронная сеть, машинное обучение, модельП оттса.
Ensemble building and statistical mechanics methods for MHC-peptide binding prediction
Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1383-1395The proteins of the Major Histocompatibility Complex (MHC) play a key role in the functioning of the adaptive immune system, and the identification of peptides that bind to them is an important step in the development of vaccines and understanding the mechanisms of autoimmune diseases. Today, there are a number of methods for predicting the binding of a particular MHC allele to a peptide. One of the best such methods is NetMHCpan-4.0, which is based on an ensemble of artificial neural networks. This paper presents a methodology for qualitatively improving the underlying neural network underlying NetMHCpan-4.0. The proposed method uses the ensemble construction technique and adds as input an estimate of the Potts model taken from static mechanics, which is a generalization of the Ising model. In the general case, the model reflects the interaction of spins in the crystal lattice. Within the framework of the proposed method, the model is used to better represent the physical nature of the interaction of proteins included in the complex. To assess the interaction of the MHC + peptide complex, we use a two-dimensional Potts model with 20 states (corresponding to basic amino acids). Solving the inverse problem using data on experimentally confirmed interacting pairs, we obtain the values of the parameters of the Potts model, which we then use to evaluate a new pair of MHC + peptide, and supplement this value with the input data of the neural network. This approach, combined with the ensemble construction technique, allows for improved prediction accuracy, in terms of the positive predictive value (PPV) metric, compared to the baseline model.
-
Методика имитационного моделирования на основе обучающих данных для двухфазного течения в гетерогенной пористой среде
Компьютерные исследования и моделирование, 2021, т. 13, № 4, с. 779-792Классические численные методы, применяемые для предсказания эволюции гидродинамических систем, предъявляют высокие требования к вычислительным ресурсам и накладывают ограничения на число вариантов геолого-гидродинамических моделей, расчет эволюции состояний которых возможно осуществлять в практических условиях. Одним из перспективных подходов к разработке эвристических оценок, которые могли бы ускорить рассмотрение вариантов гидродинамических моделей, является имитационное моделирование на основе обучающих данных. В рамках этого подхода методы машинного обучения используются для настройки весов искусственной нейронной сети (ИНС), предсказывающей состояние физической системы в заданный момент времени на основе начальных условий. В данной статье описаны оригинальная архитектура ИНС и специфическая процедура обучения, формирующие эвристическую модель двухфазного течения в гетерогенной пористой среде. Основанная на ИНС модель с приемлемой точностью предсказывает состояния расчетных блоков моделируемой системы в произвольный момент времени (с известными ограничениями) на основе только начальных условий: свойств гетерогенной проницаемости среды и размещения источников и стоков. Предложенная модель требует на порядки меньшего процессорного времени в сравнении с классическим численным методом, который послужил критерием оценки эффективности обученной модели. Архитектура ИНС включает ряд подсетей, обучаемых в различных комбинациях на нескольких наборах обучающих данных. Для обучения ИНС в рамках многоэтапной процедуры применены техники состязательного обучения и переноса весов из обученной модели.
Ключевые слова: имитационное моделирование, нейросетевые модели физических процессов, суррогатное моделирование, гидродинамика, пористая среда, сверточные нейронные сети, состязательное обучение.
Data-driven simulation of a two-phase flow in heterogenous porous media
Computer Research and Modeling, 2021, v. 13, no. 4, pp. 779-792The numerical methods used to simulate the evolution of hydrodynamic systems require the considerable use of computational resources thus limiting the number of possible simulations. The data-driven simulation technique is one promising approach to the development of heuristic models, which may speed up the study of such models. In this approach, machine learning methods are used to tune the weights of an artificial neural network that predicts the state of a physical system at a given point in time based on initial conditions. This article describes an original neural network architecture and a novel multi-stage training procedure which create a heuristic model of a two-phase flow in a heterogeneous porous medium. The neural network-based model predicts the states of the grid cells at an arbitrary timestep (within the known constraints), taking in only the initial conditions: the properties of the heterogeneous permeability of the medium and the location of sources and sinks. The proposed model requires orders of magnitude less processor time in comparison with the classical numerical method, which served as a criterion for evaluating the effectiveness of the trained model. The proposed architecture includes a number of subnets trained in various combinations on several datasets. The techniques of adversarial training and weight transfer are utilized.
-
Мониторинг распространения борщевика Сосновского с использованием алгоритма машинного обучения «случайный лес» в Google Earth Engine
Компьютерные исследования и моделирование, 2022, т. 14, № 6, с. 1357-1370Изучение спектрального отклика растений на основе данных, собранных с помощью дистанционного зондирования, имеет большой потенциал для решения реальных проблем в различных областях исследований. В этом исследовании мы использовали спектральные свойства для идентификации инвазивного растения — борщевика Сосновского — по спутниковым снимкам. Борщевик Сосновского — инвазивное растение, которое наносит много вреда людям, животным и экосистеме в целом. Мы использовали выборочные данные о геолокации мест произрастания борщевика в Московской области, собранные с 2018 по 2020 год, и спутниковые снимки Sentinel-2 для спектрального анализа с целью его обнаружения на снимках. Мы развернули модель машинного обучения Random Forest (RF) на облачной платформе Google Earth Engine (GEE). Алгоритм обучается на наборе данных, состоящем из 12 каналов спутниковых снимков Sentinel-2, цифровой модели рельефа и некоторых спектральных индексов, которые используются в алгоритме в качестве параметров. Используемый подход заключается в выявлении биофизических параметров борщевика Сосновского по его коэффициентам отражения с уточнением радиочастотной модели непосредственно по набору данных. Наши результаты наглядно демонстрируют насколько сочетание методов дистанционного зондирования и машинного обучения может помочь в обнаружении борщевика и контроле его инвазивного распространения. Наш подход обеспечивает высокую точность обнаружения очагов произрастания борщевика Сосновского, составляющую 96,93 %.
Ключевые слова: борщевик Сосновского, инвазивные растения, Google Earth Engine, машинное обучение, случайный лес.
Monitoring the spread of Sosnowskyi’s hogweed using a random forest machine learning algorithm in Google Earth Engine
Computer Research and Modeling, 2022, v. 14, no. 6, pp. 1357-1370Examining the spectral response of plants from data collected using remote sensing has a lot of potential for solving real-world problems in different fields of research. In this study, we have used the spectral property to identify the invasive plant Heracleum sosnowskyi Manden from satellite imagery. H. sosnowskyi is an invasive plant that causes many harms to humans, animals and the ecosystem at large. We have used data collected from the years 2018 to 2020 containing sample geolocation data from the Moscow Region where this plant exists and we have used Sentinel-2 imagery for the spectral analysis towards the aim of detecting it from the satellite imagery. We deployed a Random Forest (RF) machine learning model within the framework of Google Earth Engine (GEE). The algorithm learns from the collected data, which is made up of 12 bands of Sentinel-2, and also includes the digital elevation together with some spectral indices, which are used as features in the algorithm. The approach used is to learn the biophysical parameters of H. sosnowskyi from its reflectances by fitting the RF model directly from the data. Our results demonstrate how the combination of remote sensing and machine learning can assist in locating H. sosnowskyi, which aids in controlling its invasive expansion. Our approach provides a high detection accuracy of the plant, which is 96.93%.
Indexed in Scopus
Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU
The journal is included in the Russian Science Citation Index
The journal is included in the RSCI
International Interdisciplinary Conference "Mathematics. Computing. Education"