All issues
- 2026 Vol. 18
- 2025 Vol. 17
- 2024 Vol. 16
- 2023 Vol. 15
- 2022 Vol. 14
- 2021 Vol. 13
- 2020 Vol. 12
- 2019 Vol. 11
- 2018 Vol. 10
- 2017 Vol. 9
- 2016 Vol. 8
- 2015 Vol. 7
- 2014 Vol. 6
- 2013 Vol. 5
- 2012 Vol. 4
- 2011 Vol. 3
- 2010 Vol. 2
- 2009 Vol. 1
-
Автоматизация построения банков высококачественных концептов с использованием больших языковых моделей и мультимодальных метрик
Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1555-1567Интерпретируемость моделей глубокого обучения стала центром исследований, особенно в таких областях, как здравоохранение и финансы. Модели с «бутылочным горлышком», используемые для выявления концептов, стали перспективным подходом для достижения прозрачности и интерпретируемости за счет использования набора известных пользователю понятий в качестве промежуточного представления перед слоем предсказания. Однако ручное аннотирование понятий не затруднено из-за больших затрат времени и сил. В нашей работе мы исследуем потенциал больших языковых моделей (LLM) для создания высококачественных банков концептов и предлагаем мультимодальную метрику для оценки качества генерируемых концептов. Мы изучили три ключевых вопроса: способность LLM генерировать банки концептов, сопоставимые с существующими базами знаний, такими как ConceptNet, достаточность унимодального семантического сходства на основе текста для оценки ассоциаций концептов с метками, а также эффективность мультимодальной информации для количественной оценки качества генерации концептов по сравнению с унимодальным семантическим сходством концепт-меток. Наши результаты показывают, что мультимодальные модели превосходят унимодальные подходы в оценке сходства между понятиями и метками. Более того, сгенерированные нами концепты для наборов данных CIFAR-10 и CIFAR-100 превосходят те, что были получены из ConceptNet и базовой модели, что демонстрирует способность LLM генерировать высококачественные концепты. Возможность автоматически генерировать и оценивать высококачественные концепты позволит исследователям работать с новыми наборами данных без дополнительных усилий.
Ключевые слова: интерпретируемость, большие языковые модели, нейросети с «бутылочным горлышком», машинное обучение.
Automating high-quality concept banks: leveraging LLMs and multimodal evaluation metrics
Computer Research and Modeling, 2024, v. 16, no. 7, pp. 1555-1567Interpretability in recent deep learning models has become an epicenter of research particularly in sensitive domains such as healthcare, and finance. Concept bottleneck models have emerged as a promising approach for achieving transparency and interpretability by leveraging a set of humanunderstandable concepts as an intermediate representation before the prediction layer. However, manual concept annotation is discouraged due to the time and effort involved. Our work explores the potential of large language models (LLMs) for generating high-quality concept banks and proposes a multimodal evaluation metric to assess the quality of generated concepts. We investigate three key research questions: the ability of LLMs to generate concept banks comparable to existing knowledge bases like ConceptNet, the sufficiency of unimodal text-based semantic similarity for evaluating concept-class label associations, and the effectiveness of multimodal information in quantifying concept generation quality compared to unimodal concept-label semantic similarity. Our findings reveal that multimodal models outperform unimodal approaches in capturing concept-class label similarity. Furthermore, our generated concepts for the CIFAR-10 and CIFAR-100 datasets surpass those obtained from ConceptNet and the baseline comparison, demonstrating the standalone capability of LLMs in generating highquality concepts. Being able to automatically generate and evaluate high-quality concepts will enable researchers to quickly adapt and iterate to a newer dataset with little to no effort before they can feed that into concept bottleneck models.
-
Объяснимый искусственный интеллект: принципы, методы и применение
Компьютерные исследования и моделирование, 2026, т. 18, № 2, с. 211-241Объяснимый искусственный интеллект (Explainable AI, XAI) представляет собой область искусственного интеллекта, направленную на создание методов и инструментов для генерации интерпретируемых и понятных для человека объяснений решений ИИ. Актуальность объяснимости моделей возрастает по мере внедрения искусственного интеллекта в критически важные сферы (медицина, финансы, юриспруденция), где непрозрачность алгоритмов может приводить к серьезным последствиям для пользователей и общества. В работе представлен аналитический обзор современного состояния области XAI, охватывающий теоретические основы, методологию и практические применения.
Рассматриваемые методы объяснимого ИИ были отобраны и систематизированы на основе многоуровневой классификации методов XAI по постановке задачи (цель, целевая аудитория, тип данных), методологии (стадия применения, модель-специфичность, методы, масштаб) и форме результата (представление, презентация, метрики оценки).
Проведен сравнительный анализ методов объяснимого ИИ для различных областей применения. Для классического машинного обучения детально рассмотрены SHAP и LIME с выявлением их теоретических оснований, вычислительных характеристик и ограничений. Для компьютерного зрения систематизированы градиентные методы (SmoothGrad, Integrated Gradients), методы визуализации активаций (Grad-CAM, Grad-CAM++), методы на основе возмущений (RISE, Occlusion) и концептуальные объяснения (TCAV, Network Dissection). Особое внимание уделено специфике применения XAI к обработке естественного языка и большим языковым моделям, включая анализ достоверности цепочек размышлений (Chain-of-Thought), естественно-языковых объяснений и методов на основе графов атрибуции. Выделены фундаментальные ограничения существующих подходов к объяснимости LLM и определены направления дальнейших исследований.
Результаты обзора демонстрируют, что методы XAI достигли значительной зрелости в области классического машинного обучения и компьютерного зрения, однако применение к большим языковым моделям остается открытой исследовательской проблемой, требующей разработки новых парадигм объяснения.
Ключевые слова: объяснимый искусственный интеллект, XAI, интерпретируемость, прозрачность моделей, машинное обучение, глубокое обучение, большие языковые модели.
Explainable artificial intelligence: principles, methods and applications
Computer Research and Modeling, 2026, v. 18, no. 2, pp. 211-241Explainable Artificial Intelligence (XAI) is a field of artificial intelligence aimed at creating methods and tools for generating interpretable and human-understandable explanations of AI decisions. The relevance of model explainability increases with the deployment of artificial intelligence in critical domains (healthcare, finance, law), where algorithmic opacity can lead to serious consequences for users and society. This work presents an analytical review of the current state of the XAI field, covering theoretical foundations, methodology, and practical applications.
The examined explainable AI methods were selected and systematized based on a multi-level classification of XAI methods by problem formulation (goal, target audience, data type), methodology (application stage, model-specificity, methods, scale), and result form (representation, presentation, evaluation metrics).
A comparative analysis of explainable AI methods for various application domains is conducted. For classical machine learning, SHAP and LIME are examined in detail, revealing their theoretical foundations, computational characteristics, and limitations. For computer vision, gradient-based methods (SmoothGrad, Integrated Gradients), activation visualization methods (Grad-CAM, Grad-CAM++), perturbation-based methods (RISE, Occlusion), and conceptual explanations (TCAV, Network Dissection) are systematized. Special attention is paid to the specifics of applying XAI to natural language processing and large language models, including analysis of the faithfulness of Chain-of-Thought reasoning, natural language explanations, and attribution graph methods. Fundamental limitations of existing approaches to LLM explainability are identified and directions for future research are defined.
The review results demonstrate that XAI methods have reached significant maturity in classical machine learning and computer vision, however, their application to large language models remains an open research problem requiring the development of new explanation paradigms.
-
Стохастическая формализация газодинамической иерархии
Компьютерные исследования и моделирование, 2022, т. 14, № 4, с. 767-779Математические модели газовой динамики и ее вычислительная индустрия, на наш взгляд, далеки от совершенства. Мы посмотрим на эту проблематику с точки зрения ясной вероятностной микромодели газа из твердых сфер, опираясь как на теорию случайных процессов, так и на классическую кинетическую теорию в терминах плотностей функций распределения в фазовом пространстве; а именно, построим сначала систему нелинейных стохастических дифференциальных уравнений (СДУ), а затем обобщенное случайное и неслучайное интегро-дифференциальное уравнение Больцмана с учетом корреляций и флуктуаций. Ключевыми особенностями исходной модели являются случайный характер интенсивности скачкообразной меры и ее зависимость от самого процесса.
Кратко напомним переход ко все более грубым мезо-макроприближениям в соответствии с уменьшением параметра обезразмеривания, числа Кнудсена. Получим стохастические и неслучайные уравнения, сначала в фазовом пространстве (мезомодель в терминах СДУ по винеров- ским мерам и уравнения Колмогорова – Фоккера – Планка), а затем в координатном пространстве (макроуравнения, отличающиеся от системы уравнений Навье – Стокса и систем квазигазодинамики). Главным отличием этого вывода является более точное осреднение по скорости благодаря аналитическому решению стохастических дифференциальных уравнений по винеровской мере, в виде которых представлена промежуточная мезомодель в фазовом пространстве. Такой подход существенно отличается от традиционного, использующего не сам случайный процесс, а его функцию распределения. Акцент ставится на прозрачности допущений при переходе от одного уровня детализации к другому, а не на численных экспериментах, в которых содержатся дополнительные погрешности аппроксимации.
Теоретическая мощь микроскопического представления макроскопических явлений важна и как идейная опора методов частиц, альтернативных разностным и конечно-элементным.
Ключевые слова: уравнение Больцмана, уравнение Колмогорова – Фоккера – Планка, уравнение Навье – Стокса, уравнения стохастической газодинамики и квазигазодинамики, стохастические дифференциальные уравнения по бернуллиевой и винеровской мерам, методы частиц.
Stochastic formalization of the gas dynamic hierarchy
Computer Research and Modeling, 2022, v. 14, no. 4, pp. 767-779Mathematical models of gas dynamics and its computational industry, in our opinion, are far from perfect. We will look at this problem from the point of view of a clear probabilistic micro-model of a gas from hard spheres, relying on both the theory of random processes and the classical kinetic theory in terms of densities of distribution functions in phase space, namely, we will first construct a system of nonlinear stochastic differential equations (SDE), and then a generalized random and nonrandom integro-differential Boltzmann equation taking into account correlations and fluctuations. The key feature of the initial model is the random nature of the intensity of the jump measure and its dependence on the process itself.
Briefly recall the transition to increasingly coarse meso-macro approximations in accordance with a decrease in the dimensionalization parameter, the Knudsen number. We obtain stochastic and non-random equations, first in phase space (meso-model in terms of the Wiener — measure SDE and the Kolmogorov – Fokker – Planck equations), and then — in coordinate space (macro-equations that differ from the Navier – Stokes system of equations and quasi-gas dynamics systems). The main difference of this derivation is a more accurate averaging by velocity due to the analytical solution of stochastic differential equations with respect to the Wiener measure, in the form of which an intermediate meso-model in phase space is presented. This approach differs significantly from the traditional one, which uses not the random process itself, but its distribution function. The emphasis is placed on the transparency of assumptions during the transition from one level of detail to another, and not on numerical experiments, which contain additional approximation errors.
The theoretical power of the microscopic representation of macroscopic phenomena is also important as an ideological support for particle methods alternative to difference and finite element methods.
-
Исследование индивидуально-ориентированных механизмов динамики одновидовой популяции с помощью логических детерминированных клеточных автоматов
Компьютерные исследования и моделирование, 2015, т. 7, № 6, с. 1279-1293Исследование логических детерминированных клеточноавтоматных моделей популяционной динамики позволяет выявлять детальные индивидуально-ориентированные механизмы функционирования экосистем. Выявление таких механизмов актуально в связи с проблемами, возникающими вследствие переэксплуатации природных ресурсов, загрязнения окружающей среды и изменения климата. Классические модели популяционной динамики имеют феноменологическую природу, так как являются «черными ящиками». Феноменологические модели принципиально затрудняют исследование локальных механизмов функционирования экосистем. Мы исследовали роль плодовитости и длительности восстановления ресурсов в механизмах популяционного роста, используя четыре модели экосистемы с одним видом. Эти модели являются логическими детерминированными клеточными автоматами и основаны на физической аксиоматике возбудимой среды с восстановлением. Было выявлено, что при увеличении времени восстановления ресурсов экосистемы происходит катастрофическая гибель популяции. Показано также, что большая плодовитость ускоряет исчезновения популяции. Исследованные механизмы важны для понимания механизмов устойчивого развития экосистем и сохранения биологического разнообразия. Обсуждаются перспективы представленного модельного подхода как метода прозрачного многоуровневого моделирования сложных систем.
Ключевые слова: популяционная динамика, клеточные автоматы, сложные системы, популяционные катастрофы, автоволны.
Investigation of individual-based mechanisms of single-species population dynamics by logical deterministic cellular automata
Computer Research and Modeling, 2015, v. 7, no. 6, pp. 1279-1293Views (last year): 16. Citations: 3 (RSCI).Investigation of logical deterministic cellular automata models of population dynamics allows to reveal detailed individual-based mechanisms. The search for such mechanisms is important in connection with ecological problems caused by overexploitation of natural resources, environmental pollution and climate change. Classical models of population dynamics have the phenomenological nature, as they are “black boxes”. Phenomenological models fundamentally complicate research of detailed mechanisms of ecosystem functioning. We have investigated the role of fecundity and duration of resources regeneration in mechanisms of population growth using four models of ecosystem with one species. These models are logical deterministic cellular automata and are based on physical axiomatics of excitable medium with regeneration. We have modeled catastrophic death of population arising from increasing of resources regeneration duration. It has been shown that greater fecundity accelerates population extinction. The investigated mechanisms are important for understanding mechanisms of sustainability of ecosystems and biodiversity conservation. Prospects of the presented modeling approach as a method of transparent multilevel modeling of complex systems are discussed.
-
Биогидрохимический портрет Белого моря
Компьютерные исследования и моделирование, 2018, т. 10, № 1, с. 125-160Биогидрохимический портрет Белого моря построен с помощью расчетов на CNPSi-модели по систематизированным среднемноголетним наблюдениям (среднемесячные гидрометеорологические, гидрохимические и гидробиологические параметры морской среды). Также в расчетах использована уточненная информация о выносе в морские акватории биогенных веществ со стоком основных рекритоков (Нива, Онега, Северная Двина, Мезень, Кемь, Кереть). Параметры морской среды — значения температуры, освещенности, прозрачности, биогенной нагрузки. Для девяти районов моря (заливы Кандалакшский, Онежский, Двинский, Мезенский, Соловецкие о-ва, Бассейн, Горло, Воронка, губа Чупа) характеристики портрета моря включают: изменение в течение года концентраций органических и минеральных соединений биогенных элементов (С, N, P, Si), биомассы организмов низших трофических звеньев (гетеротрофные бактерии, диатомовый фитопланктон, растительноядный и хищный зоопланктон) и другие показатели (скорости изменения концентраций веществ и биомасс организмов, внутренние и внешние потоки веществ, балансы отдельных веществ и биогенных элементов в целом). Расчетные по среднемноголетним данным показатели состояния морской среды (температура воды, соотношения минеральных фракций N < P) и доминирующего диатомового фитопланктона в море (обилие, продукция, биомасса, содержание хлорофилла а) сравнивали с результатами отдельных съемок (за 1972–1991 и 2007–2012 гг.) по районам моря. При очевидных отличиях способов оценки значений показателей (по наблюдениям — аналитические методы, а при расчетах на модели — вычисления по соответствующим уравнениям) отмечена близость расчетных показателей состояния фитопланктона приведенным в литературе данным по фитопланктону Белого моря. Так, литературные оценки годовой продукции диатомовых водорослей в Белом море находятся в пределах 1.5–3 млн т С (при продолжительности вегетации 180 сут), а по расчетам она составляет ~2 и 3.5 млн т С при принимаемых периодах вегетации в 150 и 180 сут соответственно.
Ключевые слова: экосистема Белого моря, биогенные вещества (БВ), гетеротрофный бактериопланктон, диатомовый фитопланктон, растительноядный и хищный зоопланктон, детрит, трофическая цепь, CNPSi-модель биотрансформации БВ, экологический портрет Белого моря, сравнение наблюдаемых и расчетных показателей диатомовых водорослей (обилие, продукция, биомасса, хлорофилл а).
Biohydrochemical portrait of the White Sea
Computer Research and Modeling, 2018, v. 10, no. 1, pp. 125-160The biohydrochemical portrait of the White Sea is constructed on the CNPSi-model calculations based on long-term mean annual observations (average monthly hydrometeorological, hydrochemical and hydrobiological parameters of the marine environment) as well as on updated information on the nutrient input to the sea with the runoff of the main river tributaries (Niva, Onega, Northern Dvina, Mezen, Kem, Keret). Parameters of the marine environment are temperature, light, transparency, and biogenic load. Ecological characteristics of the sea “portrait” were calculated for nine marine areas (Kandalaksha, Onega, Dvinsky, Mezensky Bays, Solovetsky Islands, Basin, Gorlot, Voronka, Chupa Bay), these are: the concentration changes of organic and mineral compounds of biogenic elements (C, N, P, Si), the biomass of organisms of the lower trophic level (heterotrophic bacteria, diatomic phytoplankton, herbivorous and predatory zooplankton) and other ones (rates of substance concentration and organism biomass changes, internal and external substance flows, balances of individual substances and nutrients as a whole). Parameters of the marine environment state (water temperature, ratio of mineral fractions N < P) and dominant diatom phytoplankton in the sea (abundance, production, biomass, chlorophyll content a) were calculated and compared with the results of individual surveys (for 1972–1991 and 2007–2012) of the White Sea water areas. The methods for estimating the values of these parameters from observations and calculations differ, however, the calculated values of the phytoplankton state are comparable with the measurements and are similar to the data given in the literature. Therefore, according to the literature data, the annual production of diatoms in the White Sea is estimated at 1.5–3 million tons C (at a vegetation period of 180 days), and according to calculations it is ~2 and 3.5 million tons C for vegetation period of 150 and 180 days respectively.
Keywords: White Sea ecosystem, nutrients, heterotrophic bacterioplankton, diatom phytoplankton, herbivorous and predatory zooplankton, detritus, trophic chain, CNPSi-model of nutrient biotransformation, ecological portrait of the White Sea, the comparison of the observed and calculated parameters of diatoms (abundance, products, biomass, chlorophyll a).Views (last year): 15. Citations: 1 (RSCI). -
О допустимой интенсивности лазерного излучения в оптической системе и о технологии измерения коэффициента поглощения его мощности
Компьютерные исследования и моделирование, 2021, т. 13, № 5, с. 1025-1044Лазерное повреждение прозрачных твердых тел является основным фактором, ограничивающим выходную мощность лазерных систем. Для лазерных дальномеров наиболее вероятной причиной разрушения элементов оптической системы (линз, зеркал), реально, как правило, несколько запыленных, является не оптический пробой в результате лавинной ионизации, а такое тепловое воздействие на пылинку, осевшую на элементе оптической системы (ЭОС), которое приводит к ее возгоранию. Именно возгорание пылинки инициирует процесс повреждения ЭОС.
Рассматриваемая модель этого процесса учитывает нелинейный закон теплового излучения Стефана – Больцмана и бесконечное тепловое воздействие периодического излучения на ЭОСи пылинку. Эта модель описывается нелинейной системой дифференциальных уравнений для двух функций: температуры ЭОСи температуры пылинки. Доказывается, что в силу накапливающего воздействия периодического теплового воздействия процесс достиже- ния температуры возгорания пылинки происходит практически при любых априори возможных изменениях в этом процессе теплофизических параметров ЭОСи пылинки, а также коэффициентов теплообмена между ними и окружающим их воздухом. Усреднение этих параметров по переменным, относящимся как к объему, так и к поверхностям пылинки и ЭОС, корректно при указанных в работе естественных ограничениях. А благодаря рассмотрению задачи (включая численные результаты) в безразмерных единицах измерения, охвачен весь реально значимый спектр теплофизических параметров.
Проведенное тщательное математическое исследование соответствующей нелинейной системы дифференциальных уравнений впервые позволило для общего случая теплофизических параметров и характеристик теплового воздействия периодического лазерного излучения найти формулу для значения той допустимой интенсивности излучения, которая не приводит к разрушению ЭОСв результате возгорания пылинки, осевшей на ЭОС. Найденное в работе для общего случая теоретическое значение допустимой интенсивности в частном случае данных лазерного комплекса обсерватории в г. Грассе (на юге Франции) практически соответствует полученному там экспериментальному значению.
Наряду с решением основной задачи получена в качестве побочного результата формула для коэффициента поглощения мощности лазерного излучения элементом оптической системы, выраженная в терминах четырех безразмерных параметров: относительной интенсивности лазерного излучения, относительной освещенности ЭОС, относительного коэффициента теплоотдачи от ЭОСк окружающему его воздуху и относительной установившейся температуры ЭОС.
Ключевые слова: элемент оптической системы, тепловое разрушение, интенсивность лазерного излучения, коэффициент поглощения мощности лазерного излучения.
On the permissible intensity of laser radiation in the optical system and on the technology for measuring the absorption coefficient of its power
Computer Research and Modeling, 2021, v. 13, no. 5, pp. 1025-1044Laser damage to transparent solids is a major limiting factor output power of laser systems. For laser rangefinders, the most likely destruction cause of elements of the optical system (lenses, mirrors) actually, as a rule, somewhat dusty, is not an optical breakdown as a result of avalanche, but such a thermal effect on the dust speck deposited on an element of the optical system (EOS), which leads to its ignition. It is the ignition of a speck of dust that initiates the process of EOS damage.
The corresponding model of this process leading to the ignition of a speck of dust takes into account the nonlinear Stefan –Boltzmann law of thermal radiation and the infinite thermal effect of periodic radiation on the EOS and the speck of dust. This model is described by a nonlinear system of differential equations for two functions: the EOS temperature and the dust particle temperature. It is proved that due to the accumulating effect of periodic thermal action, the process of reaching the dust speck ignition temperature occurs almost at any a priori possible changes in this process of the thermophysical parameters of the EOS and the dust speck, as well as the heat exchange coefficients between them and the surrounding air. Averaging these parameters over the variables related to both the volume and the surfaces of the dust speck and the EOS is correct under the natural constraints specified in the paper. The entire really significant spectrum of thermophysical parameters is covered thanks to the use of dimensionless units in the problem (including numerical results).
A thorough mathematical study of the corresponding nonlinear system of differential equations made it possible for the first time for the general case of thermophysical parameters and characteristics of the thermal effect of periodic laser radiation to find a formula for the value of the permissible radiation intensity that does not lead to the destruction of the EOS as a result of the ignition of a speck of dust deposited on the EOS. The theoretical value of the permissible intensity found in the general case in the special case of the data from the Grasse laser ranging station (south of France) almost matches that experimentally observed in the observatory.
In parallel with the solution of the main problem, we derive a formula for the power absorption coefficient of laser radiation by an EOS expressed in terms of four dimensionless parameters: the relative intensity of laser radiation, the relative illumination of the EOS, the relative heat transfer coefficient from the EOS to the surrounding air, and the relative steady-state temperature of the EOS.
-
Автоматизированная проверка соответствия соглашений об обработке данных регламенту по защите данных
Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1667-1685В современном мире соблюдение нормативных требований по защите данных, таких как GDPR, является ключевым для организаций. Другой важной проблемой, выявленной при анализе, является то, что соблюдение осложняется сложностью правовых документов и постоянными изменениями в регулировании. В данной статье описываются способы, с помощью которых NLP (обработка естественного языка) способствует упрощению соблюдения GDPR путем автоматического сканирования на соответствие, оценки политик конфиденциальности и повышения уровня прозрачности. Работа не ограничивается исследованием применения NLP для работы с политиками конфиденциальности и улучшения понимания обмена данными с третьими сторонами, но также проводит предварительные исследования для оценки различий между несколькими моделями NLP. В статье описывается реализация и исполнение моделей для выявления той, которая демонстрирует наилучшую производительность по эффективности и скорости автоматизации процесса проверки соответствия и анализа политики конфиденциальности. Кроме того, в исследовании обсуждаются возможности использования автоматических инструментов и анализа данных для соблюдения GDPR, например, создание машиночитаемых моделей, которые помогают в оценке соответствия. Среди моделей, оцененных в нашем исследовании, SBERT показала лучшие результаты на уровне политики с точностью 0,57, прецизионностью 0,78, полнотой 0,83 и F1-метрикой 0,80. Модель BERT продемонстрировала наивысшую производительность на уровне предложений, достигнув точности 0,63, прецизионности 0,70, полноты 0,50 и F1-метрики 0,55. Таким образом, данная статья подчеркивает важность NLP в помощи организациям преодолеть трудности соблюдения GDPR, создавая дорожную карту к более ориентированному на клиента режиму защиты данных. В этом отношении, сравнивая предварительные исследования и демонстрируя производительность лучших моделей, работа способствует усилению мер по соблюдению и защите прав личности в киберпространстве.
Ключевые слова: аудит соответствия, NLP (обработка естественного языка), DPA (соглашение об обработке данных), GDPR (общий регламент по защите данных), конфиденциальность, SBERT, BERT, GPT.
NLP-based automated compliance checking of data processing agreements against General Data Protection Regulation
Computer Research and Modeling, 2024, v. 16, no. 7, pp. 1667-1685As it stands in the contemporary world, compliance with regulations concerning data protection such as GDPR is central to organizations. Another important issue analysis identified is the fact that compliance is hampered by the fact that legal documents are often complex and that regulations are ever changing. This paper aims to describe the ways in which NLP aids in keeping GDPR compliance effortless through automated scanning for compliance, evaluating privacy policies, and increasing the level of transparency. The work does not only limit to exploring the application of NLP for dealing with the privacy policies and facilitate better understanding of the third-party data sharing but also proceed to perform the preliminary studies to evaluate the difference of several NLP models. They implement and execute the models to distinguish the one that performs the best based on the efficiency and speed at which it automates the process of compliance verification and analyzing the privacy policy. Moreover, some of the topics discussed in the research deal with the possibility of using automatic tools and data analysis to GDPR, for instance, generation of the machine readable models that assist in evaluation of compliance. Among the evaluated models from our studies, SBERT performed best at the policy level with an accuracy of 0.57, precision of 0.78, recall of 0.83, and F1-score of 0.80. BERT showed the highest performance at the sentence level, achieving an accuracy of 0.63, precision of 0.70, recall of 0.50, and F1-score of 0.55. Therefore, this paper emphasizes the importance of NLP to help organizations overcome the difficulties of GDPR compliance, create a roadmap to a more client-oriented data protection regime. In this regard, by comparing preliminary studies done in the test and showing the performance of the better model, it helps enhance the measures taken in compliance and fosters the defense of individual rights in the cyberspace.
Indexed in Scopus
Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU
The journal is included in the Russian Science Citation Index
The journal is included in the RSCI
International Interdisciplinary Conference "Mathematics. Computing. Education"




