All issues
- 2024 Vol. 16
- 2023 Vol. 15
- 2022 Vol. 14
- 2021 Vol. 13
- 2020 Vol. 12
- 2019 Vol. 11
- 2018 Vol. 10
- 2017 Vol. 9
- 2016 Vol. 8
- 2015 Vol. 7
- 2014 Vol. 6
- 2013 Vol. 5
- 2012 Vol. 4
- 2011 Vol. 3
- 2010 Vol. 2
- 2009 Vol. 1
-
Синтез структуры организованных систем как центральная проблема эволюционной кибернетики
Компьютерные исследования и моделирование, 2023, т. 15, № 5, с. 1103-1124В статье рассматриваются подходы к эволюционному моделированию синтеза организованных систем и анализируются методологические проблемы эволюционных вычислений этого направления. На основе анализа работ по эволюционной кибернетике, теории эволюции, теории систем и синергетике сделан вывод о наличии открытых проблем в задачах формализации синтеза организованных систем и моделирования их эволюции. Показано, что теоретической основой для практики эволюционного моделирования являются положения синтетической теории эволюции. Рассмотрено использование виртуальной вычислительной среды для машинного синтеза алгоритмов решения задач. На основе полученных в процессе моделирования результатов сделан вывод о наличии ряда условий, принципиально ограничивающих применимость методов генетического программирования в задачах синтеза функциональных структур. К основным ограничениям относятся необходимость для фитнес-функции отслеживать поэтапное приближение к решению задачи и неприменимость данного подхода к задачам синтеза иерархически организованных систем. Отмечено, что результаты, полученные в практике эволюционного моделирования в целом за все время его существования, подтверждают вывод о принципиальной ограниченности возможностей генетического программирования при решении задач синтеза структуры организованных систем. В качестве источников принципиальных трудностей для машинного синтеза системных структур указаны отсутствие направлений для градиентного спуска при структурном синтезе и отсутствие закономерности случайного появления новых организованных структур. Сделан вывод об актуальности рассматриваемых проблем для теории биологической эволюции. Обосновано положение о биологической специфике практически возможных путей синтеза структуры организованных систем. В качестве теоретической интерпретации обсуждаемой проблемы предложено рассматривать системно-эволюционную концепцию П.К. Анохина. Процесс синтеза функциональных структур рассматривается в этом контексте как адаптивная реакция организмов на внешние условия, основанная на их способности к интегративному синтезу памяти, потребностей и информации о текущих условиях. Приведены результаты актуальных исследований, свидетельствующие в пользу данной интерпретации. Отмечено, что физические основы биологической интегративности могут быть связаны с явлениями нелокальности и несепарабельности, характерными для квантовых систем. Отмечена связь рассматриваемой в данной работе проблематики с проблемой создания сильного искусственного интеллекта.
Ключевые слова: эволюционное моделирование, кибернетика, теория систем, теория эволюции, генетические алгоритмы, искусственный интеллект.
Synthesis of the structure of organised systems as central problem of evolutionary cybernetics
Computer Research and Modeling, 2023, v. 15, no. 5, pp. 1103-1124The article provides approaches to evolutionary modelling of synthesis of organised systems and analyses methodological problems of evolutionary computations of this kind. Based on the analysis of works on evolutionary cybernetics, evolutionary theory, systems theory and synergetics, we conclude that there are open problems in formalising the synthesis of organised systems and modelling their evolution. The article emphasises that the theoretical basis for the practice of evolutionary modelling is the principles of the modern synthetic theory of evolution. Our software project uses a virtual computing environment for machine synthesis of problem solving algorithms. In the process of modelling, we obtained the results on the basis of which we conclude that there are a number of conditions that fundamentally limit the applicability of genetic programming methods in the tasks of synthesis of functional structures. The main limitations are the need for the fitness function to track the step-by-step approach to the solution of the problem and the inapplicability of this approach to the problems of synthesis of hierarchically organised systems. We note that the results obtained in the practice of evolutionary modelling in general for the whole time of its existence, confirm the conclusion the possibilities of genetic programming are fundamentally limited in solving problems of synthesizing the structure of organized systems. As sources of fundamental difficulties for machine synthesis of system structures the article points out the absence of directions for gradient descent in structural synthesis and the absence of regularity of random appearance of new organised structures. The considered problems are relevant for the theory of biological evolution. The article substantiates the statement about the biological specificity of practically possible ways of synthesis of the structure of organised systems. As a theoretical interpretation of the discussed problem, we propose to consider the system-evolutionary concept of P.K.Anokhin. The process of synthesis of functional structures in this context is an adaptive response of organisms to external conditions based on their ability to integrative synthesis of memory, needs and information about current conditions. The results of actual studies are in favour of this interpretation. We note that the physical basis of biological integrativity may be related to the phenomena of non-locality and non-separability characteristic of quantum systems. The problems considered in this paper are closely related to the problem of creating strong artificial intelligence.
-
Иерархический метод математического моделирования стохастических тепловых процессов в сложных электронных системах
Компьютерные исследования и моделирование, 2019, т. 11, № 4, с. 613-630В работе развивается иерархический метод математического и компьютерного моделирования интервально-стохастических тепловых процессов в сложных электронных системах различного назначения. Разработанная концепция иерархического структурирования отражает как конструктивную иерархию сложной электронной системы, так и иерархию математических моделей процессов теплообмена. Тепловые процессы, учитывающие разнообразные физические явления в сложных электронных системах, описываются системами стохастических, нестационарных и нелинейных дифференциальных уравнений в частных производных, и в силу этого их компьютерное моделирование наталкивается на значительные вычислительные трудности даже с применением суперкомпьютеров. Иерархический метод позволяет избежать указанных трудностей. Иерархическая структура конструкции электронной системы в общем случае характеризуется пятью уровнями: 1 уровень — активные элементы ЭС (микросхемы, электро-, радиоэлементы); 2 уровень — электронный модуль; 3 уровень — панель, объединяющая множество электронных модулей; 4 уровень — блок панелей; 5 уровень — стойка, установленная в стационарном или подвижном помещении. Иерархия моделей и моделирования стохастических тепловых процессов строится в порядке, обратном иерархической структуре конструкции электронной системы, при этом моделирование интервально-стохастических тепловых процессов осуществляется посредством получения уравнений для статистических мер. Разработанный в статье иерархический метод позволяет учитывать принципиальные особенности тепловых процессов, такие как стохастический характер тепловых, электрических и конструктивных факторов при производстве, сборке и монтаже электронных систем, стохастический разброс условий функционирования и окружающей среды, нелинейные зависимости от температуры факторов теплообмена, нестационарный характер тепловых процессов. Полученные в статье уравнения для статистических мер стохастических тепловых процессов представляют собой систему 14-ти нестационарных нелинейных дифференциальных уравнений первого порядка в обыкновенных производных, решение которых легко реализуется на современных компьютерах существующими численными методами. Рассмотрены результаты применения метода при компьютерном моделировании стохастических тепловых процессов в электронной системе. Иерархический метод применяется на практике при тепловом проектировании реальных электронных систем и создании современных конкурентоспособных устройств.
Ключевые слова: стохастический, тепловой процесс, статистические меры, математическое моделирование, электронные системы.
Hierarchical method for mathematical modeling of stochastic thermal processes in complex electronic systems
Computer Research and Modeling, 2019, v. 11, no. 4, pp. 613-630Views (last year): 3.A hierarchical method of mathematical and computer modeling of interval-stochastic thermal processes in complex electronic systems for various purposes is developed. The developed concept of hierarchical structuring reflects both the constructive hierarchy of a complex electronic system and the hierarchy of mathematical models of heat exchange processes. Thermal processes that take into account various physical phenomena in complex electronic systems are described by systems of stochastic, unsteady, and nonlinear partial differential equations and, therefore, their computer simulation encounters considerable computational difficulties even with the use of supercomputers. The hierarchical method avoids these difficulties. The hierarchical structure of the electronic system design, in general, is characterized by five levels: Level 1 — the active elements of the ES (microcircuits, electro-radio-elements); Level 2 — electronic module; Level 3 — a panel that combines a variety of electronic modules; Level 4 — a block of panels; Level 5 — stand installed in a stationary or mobile room. The hierarchy of models and modeling of stochastic thermal processes is constructed in the reverse order of the hierarchical structure of the electronic system design, while the modeling of interval-stochastic thermal processes is carried out by obtaining equations for statistical measures. The hierarchical method developed in the article allows to take into account the principal features of thermal processes, such as the stochastic nature of thermal, electrical and design factors in the production, assembly and installation of electronic systems, stochastic scatter of operating conditions and the environment, non-linear temperature dependencies of heat exchange factors, unsteady nature of thermal processes. The equations obtained in the article for statistical measures of stochastic thermal processes are a system of 14 non-stationary nonlinear differential equations of the first order in ordinary derivatives, whose solution is easily implemented on modern computers by existing numerical methods. The results of applying the method for computer simulation of stochastic thermal processes in electron systems are considered. The hierarchical method is applied in practice for the thermal design of real electronic systems and the creation of modern competitive devices.
-
Теоретико-игровая модель согласования интересов при инновационном развитии корпорации
Компьютерные исследования и моделирование, 2016, т. 8, № 4, с. 673-684Исследуются динамические теоретико-игровые модели инновационного развития корпорации. Предлагаемые модели основаны на согласовании частных и общественных интересов агентов. Предполагается, что структура интересов каждого агента включает как частную (личные интересы), так и общественную (интересы компании в целом, в первую очередь отражающие необходимость ее инновационного развития) составляющие. Агенты могут делить персональные ресурсы между этими направлениями. Динамика системы описывается не дифференциальным, а разностным уравнением. При исследовании предложенной модели инновационного развития используются имитация и метод перебора областей допустимых управлений субъектов с некоторым шагом. Основной вклад работы — сравнительный анализ эффективности методов иерархического управления для информационных регламентов Штакельберга/Гермейера при принуждении/побуждении (четыре регламента) с помощью индексов системной согласованности. Предлагаемая модель носит универсальный характер и может быть использована для научно обоснованной поддержки ПИР компаний всех отраслей экономики. Специфика конкретной компании учитывается в ходе идентификации модели (определения конкретных классов ис- пользуемых в модели функций и числовых значений параметров), которая представляет собой отдельную сложную задачу и предполагает анализ системы официальной отчетности компании и применение экспертных оценок ее специалистов. Приняты следующие предположения относительно информационного регламента иерархической игры: все игроки используют программные стратегии; ведущий выбирает и сообщает ведомым экономические управления либо административные управления, которые могут быть только функциями времени (игры Штакельберга) либо зависеть также от управлений ведомых (игры Гермейера); при известных стратегиях ведущего ведомые одновременно и независимо выбирают свои стратегии, что приводит к равновесию Нэша в игре ведомых. За конечное число итераций предложенный алгоритм имитационного моделирования позволяет построить приближенное решение модели или сделать вывод, что равновесия не существует. Достоверность и эффективность предложенного алгоритма следуют из свойств методов сценариев и прямого упорядоченного перебора с постоянным шагом. Получен ряд содержательных выводов относительно сравнительной эффективности методов иерархического управления инновациями.
Ключевые слова: игра Гермейера, игра Штакельберга, иерархия, имитационное моделирование, инновационное развитие, побуждение, принуждение.
Game-theoretic model of coordinations of interests at innovative development of corporations
Computer Research and Modeling, 2016, v. 8, no. 4, pp. 673-684Views (last year): 9. Citations: 6 (RSCI).Dynamic game theoretic models of the corporative innovative development are investigated. The proposed models are based on concordance of private and public interests of agents. It is supposed that the structure of interests of each agent includes both private (personal interests) and public (interests of the whole company connected with its innovative development first) components. The agents allocate their personal resources between these two directions. The system dynamics is described by a difference (not differential) equation. The proposed model of innovative development is studied by simulation and the method of enumeration of the domains of feasible controls with a constant step. The main contribution of the paper consists in comparative analysis of efficiency of the methods of hierarchical control (compulsion or impulsion) for information structures of Stackelberg or Germeier (four structures) by means of the indices of system compatibility. The proposed model is a universal one and can be used for a scientifically grounded support of the programs of innovative development of any economic firm. The features of a specific company are considered in the process of model identification (a determination of the specific classes of model functions and numerical values of its parameters) which forms a separate complex problem and requires an analysis of the statistical data and expert estimations. The following assumptions about information rules of the hierarchical game are accepted: all players use open-loop strategies; the leader chooses and reports to the followers some values of administrative (compulsion) or economic (impulsion) control variables which can be only functions of time (Stackelberg games) or depend also on the followers’ controls (Germeier games); given the leader’s strategies all followers simultaneously and independently choose their strategies that gives a Nash equilibrium in the followers’ game. For a finite number of iterations the proposed algorithm of simulation modeling allows to build an approximate solution of the model or to conclude that it doesn’t exist. A reliability and efficiency of the proposed algorithm follow from the properties of the scenario method and the method of a direct ordered enumeration with a constant step. Some comprehensive conclusions about the comparative efficiency of methods of hierarchical control of innovations are received.
-
Зависимость работы организации от ее организационной структуры в ходе неожиданных и тлеющих кризисов
Компьютерные исследования и моделирование, 2016, т. 8, № 4, с. 685-706В работе описана математическая модель функционирования организации с иерархической структурой управления на ранней стадии кризиса. Особенность развития этой стадии кризиса заключается в наличии так называемых сигналов раннего предупреждения, которые несут информацию о приближении нежелательного явления. Сотрудники организации способны улавливать эти сигналы и на их основе подготавливать ее к наступлению кризиса. Эффективность такой подготовки зависит как от параметров организации, так и от параметров кризисного явления. Предлагаемая в статье имитационная агентная модель реализована на языке программирования Java. Эта модель используется по методу Монте-Карло для сравнения децентрализованных и централизованных организационных структур, функционирующих в ходе неожиданных и тлеющих кризисов. Централизованными мы называем структуры с большим количеством уровней иерархии и малым количеством подчиненных у каждого руководителя, а децентрализованными — структуры с малым количеством уровней иерархии и большим количеством подчиненных у каждого руководителя. Под неожиданным кризисом понимается кризис со скоротечной ранней стадией и малым количеством слабых сигналов, а под тлеющим кризисом — кризис с длительной ранней стадией и большим количеством сигналов, не всегда несущих важную информацию. Эффективность функционирования организации на ранней стадии кризиса измеряется по двум параметрам: проценту сигналов раннего предупреждения, по которым были приняты решения для подготовки организации, и доле времени, отведенного руководителем организации на работу с сигналами. По результатам моделирования выявлено, что централизованные организации обрабатывают больше сигналов раннего предупреждения при тлеющих кризисах, а децентрализованные — при неожиданных кризисах. С другой стороны, занятость руководителя организации в ходе неожиданных кризисов выше для децентрализованных организаций, а в ходе тлеющих кризисов — для централизованных. В итоге, ни один из двух классов организаций не является более эффективным в ходе изученных типов кризисов сразу по обоим параметрам. Полученные в работе результаты проверены на устойчивость по параметрам, описывающим организацию и сотрудников.
Ключевые слова: кризис, антикризисное управление, слабые сигналы, математическое моделирование, имитационное моделирование, агентное моделирование, организационные структуры, метод Монте-Карло.
Relation between performance of organization and its structure during sudden and smoldering crises
Computer Research and Modeling, 2016, v. 8, no. 4, pp. 685-706Views (last year): 2. Citations: 2 (RSCI).The article describes a mathematical model that simulates performance of a hierarchical organization during an early stage of a crisis. A distinguished feature of this stage of crisis is presence of so called early warning signals containing information on the approaching event. Employees are capable of catching the early warnings and of preparing the organization for the crisis based on the signals’ meaning. The efficiency of the preparation depends on both parameters of the organization and parameters of the crisis. The proposed simulation agentbased model is implemented on Java programming language and is used for conducting experiments via Monte- Carlo method. The goal of the experiments is to compare how centralized and decentralized organizational structures perform during sudden and smoldering crises. By centralized organizations we assume structures with high number of hierarchy levels and low number of direct reports of every manager, while decentralized organizations mean structures with low number of hierarchy levels and high number of direct reports of every manager. Sudden crises are distinguished by short early stage and low number of warning signals, while smoldering crises are defined as crises with long lasting early stage and high number of warning signals not necessary containing important information. Efficiency of the organizational performance during early stage of a crisis is measured by two parameters: percentage of early warnings which have been acted upon in order to prepare organization for the crisis, and time spent by top-manager on working with early warnings. As a result, we show that during early stage of smoldering crises centralized organizations process signals more efficiently than decentralized organizations, while decentralized organizations handle early warning signals more efficiently during early stage of sudden crises. However, occupation of top-managers during sudden crises is higher in decentralized organizations and it is higher in centralized organizations during smoldering crises. Thus, neither of the two classes of organizational structures is more efficient by the two parameters simultaneously. Finally, we conduct sensitivity analysis to verify the obtained results.
-
Моделирование предкрахового поведения цен на иерархически организованном финансовом рынке
Компьютерные исследования и моделирование, 2011, т. 3, № 2, с. 215-222Рассматривается иерархическая модель, предложенная Джохансеном и Сорнеттом, описывающая механизм возникновения логопериодических колебаний, предшествующих финансовым крахам, и проводится ее численный анализ. Предлагаются обобщения данной модели на основе введения зависимость степени влияния агентов друг на друга от ультраметрического расстояния между ними. Наибольшее внимание уделяется вопросу об универсальности критической точки, который исследуется с помощью построения распределений точек краха при различном числе агентов.
Ключевые слова: математическое моделирование, логопериодические колебания и степенной рост, ультраметрическое расстояние, иерархические структуры, финансовые крахи.
Modeling the behavior proceeding market crash in a hierarchically organized financial market
Computer Research and Modeling, 2011, v. 3, no. 2, pp. 215-222Views (last year): 1.We consider the hierarchical model of financial crashes introduced by A. Johansen and D. Sornette which reproduces the log-periodic power law behavior of the price before the critical point. In order to build the generalization of this model we introduce the dependence of an influence exponent on an ultrametric distance between agents. Much attention is being paid to a problem of critical point universality which is investigated by comparison of probability density functions of the crash times corresponding to systems with various total numbers of agents.
-
Программный комплекс для численного моделирования движения систем многих тел
Компьютерные исследования и моделирование, 2024, т. 16, № 1, с. 161-174В настоящей работе решается задача численного моделирования движения механических систем, состоящих из твердых тел с произвольными массово-инерционными характеристиками. Предполагается, что рассматриваемые системы являются пространственными и могут содержать замкнутые кинематические цепи. Движение системы происходит под действием внешних и внутренних сил достаточно произвольного вида.
Моделирование движения механической системы производится полностью автоматически при помощи вычислительного алгоритма, состоящего из трех основных этапов. На первом этапе на основе задаваемых пользователем начальных данных выполняется построение графа механической системы, представляющего ее иерархическую структуру. На втором этапе происходит вывод дифференциально-алгебраических уравнений движения системы. Для вывода уравнений движения используется так называемый метод шарнирных координат. Отличительной чертой данного метода является сравнительно небольшое количество получаемых уравнений движения, что позволяет повысить производительность вычислений. На третьем этапе выполняются численное интегрирование уравнений движения и вывод результатов моделирования.
Указанный алгоритм реализован в виде программного комплекса, содержащего систему символьной математики, библиотеку графов, механический решатель, библиотеку численных методов и пользовательский интерфейс.
Ключевые слова: компьютерное моделирование, виртуальное прототипирование, цифровые двойники, механика систем многих тел, метод шарнирных координат.
Software complex for numerical modeling of multibody system dynamics
Computer Research and Modeling, 2024, v. 16, no. 1, pp. 161-174This work deals with numerical modeling of motion of the multibody systems consisting of rigid bodies with arbitrary masses and inertial properties. We consider both planar and spatial systems which may contain kinematic loops.
The numerical modeling is fully automatic and its computational algorithm contains three principal steps. On step one a graph of the considered mechanical system is formed from the userinput data. This graph represents the hierarchical structure of the mechanical system. On step two the differential-algebraic equations of motion of the system are derived using the so-called Joint Coordinate Method. This method allows to minimize the redundancy and lower the number of the equations of motion and thus optimize the calculations. On step three the equations of motion are integrated numerically and the resulting laws of motion are presented via user interface or files.
The aforementioned algorithm is implemented in the software complex that contains a computer algebra system, a graph library, a mechanical solver, a library of numerical methods and a user interface.
-
Семантическая структуризация текстовых документов на основе паттернов сущностей естественного языка
Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1185-1197Рассматривается технология создания паттернов из слов (понятий) естественного языка по текстовым данным в модели «мешок слов». Паттерны применяются для снижения размерности исходного пространства в описании документов и поиска семантически связанных слов по темам. Процесс снижения размерности реализуется через формирование по паттернам латентных признаков. Исследуется многообразие структур отношений документов для разбиения их на темы в латентном пространстве.
Считается, что заданное множество документов (объектов) разделено на два непересекающихся класса, для анализа которых необходимо использовать общий словарь. Принадлежность слов к общему словарю изначально неизвестна. Объекты классов рассматриваются в ситуации оппозиции друг к другу. Количественные параметры оппозиционности определяются через значения устойчивости каждого признака и обобщенные оценки объектов по непересекающимся наборам признаков.
Для вычисления устойчивости используются разбиения значений признаков на непересекающиеся интервалы, оптимальные границы которых определяются по специальному критерию. Максимум устойчивости достигается при условии, что в границах каждого интервала содержатся значения одного из двух классов.
Состав признаков в наборах (паттернах из слов) формируется из упорядоченной по значениям устойчивости последовательности. Процесс формирования паттернов и латентных признаков на их основе реализуется по правилам иерархической агломеративной группировки.
Набор латентных признаков используется для кластерного анализа документов по метрическим алгоритмам группировки. В процессе анализа применяется коэффициент контентной аутентичности на основе данных о принадлежности документов к классам. Коэффициент является численной характеристикой доминирования представителей классов в группах.
Для разбиения документов на темы предложено использовать объединение групп по отношению их центров. В качестве закономерностей по каждой теме рассматривается упорядоченная по частоте встречаемости последовательность слов из общего словаря.
Приводятся результаты вычислительного эксперимента на коллекциях авторефератов научных диссертаций. Сформированы последовательности слов из общего словаря по четырем темам.
Ключевые слова: тематическое моделирование, иерархическая агломеративная группировка, онтология, общий словарь, контентная аутентичность.
Semantic structuring of text documents based on patterns of natural language entities
Computer Research and Modeling, 2022, v. 14, no. 5, pp. 1185-1197The technology of creating patterns from natural language words (concepts) based on text data in the bag of words model is considered. Patterns are used to reduce the dimension of the original space in the description of documents and search for semantically related words by topic. The process of dimensionality reduction is implemented through the formation of patterns of latent features. The variety of structures of document relations is investigated in order to divide them into themes in the latent space.
It is considered that a given set of documents (objects) is divided into two non-overlapping classes, for the analysis of which it is necessary to use a common dictionary. The belonging of words to a common vocabulary is initially unknown. Class objects are considered as opposition to each other. Quantitative parameters of oppositionality are determined through the values of the stability of each feature and generalized assessments of objects according to non-overlapping sets of features.
To calculate the stability, the feature values are divided into non-intersecting intervals, the optimal boundaries of which are determined by a special criterion. The maximum stability is achieved under the condition that the boundaries of each interval contain values of one of the two classes.
The composition of features in sets (patterns of words) is formed from a sequence ordered by stability values. The process of formation of patterns and latent features based on them is implemented according to the rules of hierarchical agglomerative grouping.
A set of latent features is used for cluster analysis of documents using metric grouping algorithms. The analysis applies the coefficient of content authenticity based on the data on the belonging of documents to classes. The coefficient is a numerical characteristic of the dominance of class representatives in groups.
To divide documents into topics, it is proposed to use the union of groups in relation to their centers. As patterns for each topic, a sequence of words ordered by frequency of occurrence from a common dictionary is considered.
The results of a computational experiment on collections of abstracts of scientific dissertations are presented. Sequences of words from the general dictionary on 4 topics are formed.
-
Оценка качества кластеризации панельных данных с использованием методов Монте-Карло (на примере данных российской региональной экономики)
Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1501-1513В работе рассматривается метод исследования панельных данных, основанный на использовании агломеративной иерархической кластеризации — группировки объектов на основании сходства и разли- чия их признаков в иерархию вложенных друг в друга кластеров. Применялись 2 альтернативных способа вычисления евклидовых расстояний между объектами — расстояния между усредненными по интервалу наблюдений значениями и расстояния с использованием данных за все рассматриваемые годы. Сравнивались 3 альтернативных метода вычисления расстояний между кластерами. В первом случае таким расстоянием считается расстояние между ближайшими элементами из двух кластеров, во втором — среднее по парам элементов, в третьем — расстояние между наиболее удаленными элементами. Исследована эффективность использования двух индексов качества кластеризации — индекса Данна и Силуэта для выбора оптимального числа кластеров и оценки статистической значимости полученных решений. Способ оценивания статистической достоверности кластерной структуры заключался в сравнении качества кластеризации, на реальной выборке с качеством кластеризаций на искусственно сгенерированных выборках панельных данных с теми же самыми числом объектов, признаков и длиной рядов. Генерация производилась из фиксированного вероятностного распределения. Использовались способы симуляции, имитирующие гауссов белый шум и случайное блуждание. Расчеты с индексом Силуэт показали, что случайное блуждание характеризуется не только ложной регрессией, но и ложной кластеризацией. Кластеризация принималась достоверной для данного числа выделенных кластеров, если значение индекса на реальной выборке оказывалось больше значения 95%-ного квантиля для искусственных данных. В качестве выборки реальных данных использован набор временных рядов показателей, характеризующих производство в российских регионах. Для этих данных только Силуэт показывает достоверную кластеризацию на уровне $p < 0.05$. Расчеты также показали, что значения индексов для реальных данных в целом ближе к значениям для случайных блужданий, чем для белого шума, но имеют значимые отличия и от тех, и от других. Визуально можно выделить скопления близко расположенных друг от друга в трехмерном признаковом пространстве точек, выделяемые также в качестве кластеров применяемым алгоритмом иерархической кластеризации.
Assessing the validity of clustering of panel data by Monte Carlo methods (using as example the data of the Russian regional economy)
Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1501-1513The paper considers a method for studying panel data based on the use of agglomerative hierarchical clustering — grouping objects based on the similarities and differences in their features into a hierarchy of clusters nested into each other. We used 2 alternative methods for calculating Euclidean distances between objects — the distance between the values averaged over observation interval, and the distance using data for all considered years. Three alternative methods for calculating the distances between clusters were compared. In the first case, the distance between the nearest elements from two clusters is considered to be distance between these clusters, in the second — the average over pairs of elements, in the third — the distance between the most distant elements. The efficiency of using two clustering quality indices, the Dunn and Silhouette index, was studied to select the optimal number of clusters and evaluate the statistical significance of the obtained solutions. The method of assessing statistical reliability of cluster structure consisted in comparing the quality of clustering on a real sample with the quality of clustering on artificially generated samples of panel data with the same number of objects, features and lengths of time series. Generation was made from a fixed probability distribution. At the same time, simulation methods imitating Gaussian white noise and random walk were used. Calculations with the Silhouette index showed that a random walk is characterized not only by spurious regression, but also by “spurious clustering”. Clustering was considered reliable for a given number of selected clusters if the index value on the real sample turned out to be greater than the value of the 95% quantile for artificial data. A set of time series of indicators characterizing production in the regions of the Russian Federation was used as a sample of real data. For these data only Silhouette shows reliable clustering at the level p < 0.05. Calculations also showed that index values for real data are generally closer to values for random walks than for white noise, but it have significant differences from both. Since three-dimensional feature space is used, the quality of clustering was also evaluated visually. Visually, one can distinguish clusters of points located close to each other, also distinguished as clusters by the applied hierarchical clustering algorithm.
Indexed in Scopus
Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU
The journal is included in the Russian Science Citation Index
The journal is included in the RSCI
International Interdisciplinary Conference "Mathematics. Computing. Education"