All issues
- 2024 Vol. 16
- 2023 Vol. 15
- 2022 Vol. 14
- 2021 Vol. 13
- 2020 Vol. 12
- 2019 Vol. 11
- 2018 Vol. 10
- 2017 Vol. 9
- 2016 Vol. 8
- 2015 Vol. 7
- 2014 Vol. 6
- 2013 Vol. 5
- 2012 Vol. 4
- 2011 Vol. 3
- 2010 Vol. 2
- 2009 Vol. 1
- Views (last year): 4.
-
Семантическая структуризация текстовых документов на основе паттернов сущностей естественного языка
Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1185-1197Рассматривается технология создания паттернов из слов (понятий) естественного языка по текстовым данным в модели «мешок слов». Паттерны применяются для снижения размерности исходного пространства в описании документов и поиска семантически связанных слов по темам. Процесс снижения размерности реализуется через формирование по паттернам латентных признаков. Исследуется многообразие структур отношений документов для разбиения их на темы в латентном пространстве.
Считается, что заданное множество документов (объектов) разделено на два непересекающихся класса, для анализа которых необходимо использовать общий словарь. Принадлежность слов к общему словарю изначально неизвестна. Объекты классов рассматриваются в ситуации оппозиции друг к другу. Количественные параметры оппозиционности определяются через значения устойчивости каждого признака и обобщенные оценки объектов по непересекающимся наборам признаков.
Для вычисления устойчивости используются разбиения значений признаков на непересекающиеся интервалы, оптимальные границы которых определяются по специальному критерию. Максимум устойчивости достигается при условии, что в границах каждого интервала содержатся значения одного из двух классов.
Состав признаков в наборах (паттернах из слов) формируется из упорядоченной по значениям устойчивости последовательности. Процесс формирования паттернов и латентных признаков на их основе реализуется по правилам иерархической агломеративной группировки.
Набор латентных признаков используется для кластерного анализа документов по метрическим алгоритмам группировки. В процессе анализа применяется коэффициент контентной аутентичности на основе данных о принадлежности документов к классам. Коэффициент является численной характеристикой доминирования представителей классов в группах.
Для разбиения документов на темы предложено использовать объединение групп по отношению их центров. В качестве закономерностей по каждой теме рассматривается упорядоченная по частоте встречаемости последовательность слов из общего словаря.
Приводятся результаты вычислительного эксперимента на коллекциях авторефератов научных диссертаций. Сформированы последовательности слов из общего словаря по четырем темам.
Ключевые слова: тематическое моделирование, иерархическая агломеративная группировка, онтология, общий словарь, контентная аутентичность.
Semantic structuring of text documents based on patterns of natural language entities
Computer Research and Modeling, 2022, v. 14, no. 5, pp. 1185-1197The technology of creating patterns from natural language words (concepts) based on text data in the bag of words model is considered. Patterns are used to reduce the dimension of the original space in the description of documents and search for semantically related words by topic. The process of dimensionality reduction is implemented through the formation of patterns of latent features. The variety of structures of document relations is investigated in order to divide them into themes in the latent space.
It is considered that a given set of documents (objects) is divided into two non-overlapping classes, for the analysis of which it is necessary to use a common dictionary. The belonging of words to a common vocabulary is initially unknown. Class objects are considered as opposition to each other. Quantitative parameters of oppositionality are determined through the values of the stability of each feature and generalized assessments of objects according to non-overlapping sets of features.
To calculate the stability, the feature values are divided into non-intersecting intervals, the optimal boundaries of which are determined by a special criterion. The maximum stability is achieved under the condition that the boundaries of each interval contain values of one of the two classes.
The composition of features in sets (patterns of words) is formed from a sequence ordered by stability values. The process of formation of patterns and latent features based on them is implemented according to the rules of hierarchical agglomerative grouping.
A set of latent features is used for cluster analysis of documents using metric grouping algorithms. The analysis applies the coefficient of content authenticity based on the data on the belonging of documents to classes. The coefficient is a numerical characteristic of the dominance of class representatives in groups.
To divide documents into topics, it is proposed to use the union of groups in relation to their centers. As patterns for each topic, a sequence of words ordered by frequency of occurrence from a common dictionary is considered.
The results of a computational experiment on collections of abstracts of scientific dissertations are presented. Sequences of words from the general dictionary on 4 topics are formed.
-
Многокритериальный метрический анализ данных при моделировании человеческого капитала
Компьютерные исследования и моделирование, 2020, т. 12, № 5, с. 1223-1245В статье описываетсявы числимаям одель человека в информационной экономике и демонстрируется многокритериальный оптимизационный подход к метрическому анализу модельных данных. Традиционный подход к идентификации и исследованию модели предполагает идентификацию модели по временным рядам и прогнозирование дальнейшей динамики ряда. Однако этот подход неприменим к моделям, некоторые важнейшие переменные которых не наблюдаютсяя вно, и известны только некоторые типичные границы или особенности генеральной совокупности. Такая ситуация часто встречается в социальных науках, что делает модели сугубо теоретическими. Чтобы избежать этого, для (неявной) идентификации и изучения таких моделей предлагается использовать метод метрического анализа данных (MMDA), основанный на построении и анализе метрических сетей Колмогорова – Шеннона, аппроксимирующих генеральную совокупность данных модельной генерации в многомерном пространстве социальных характеристик. С помощью этого метода идентифицированы коэффициенты модели и изучены особенности ее фазовых траекторий. Представленнаяв статье модель рассматривает человека как субъекта, обрабатывающего информацию, включая его информированность и когнитивные способности. Составлены пожизненные индексы человеческого капитала: креативного индивида (обобщающего когнитивные способности) и продуктивного (обобщает объем освоенной человеком информации). Поставлена задача их многокритериальной (двухкритериальной) оптимизации с учетом ожидаемой продолжительности жизни. Такой подход позволяет выявить и экономически обосновать требования к системе образования и социализации (информационному окружению) человека до достиженияим взрослого возраста. Показано, что в поставленной оптимизационной задаче возникает Парето-граница, причем ее тип зависит от уровня смертности: при высокой продолжительности жизни доминирует одно решение, в то время как для более низкой продолжительности жизни существуют различные типы Парето-границы. В частности, в случае России применим принцип Парето: значительное увеличение креативного человеческого капитала индивида возможно за счет небольшого сниженияпр одуктивного человеческого капитала (обобщение объема освоенной человеком информации). Показано, что рост продолжительности жизни делает оптимальным компетентностный подход, ориентированный на развитие когнитивных способностей, в то время как при низкой продолжительности жизни предпочтительнее знаниевый подход.
Ключевые слова: многокритериальнаяоп тимизация, метрические сети, визуализация данных, человеческое развитие, идентификациям одели, метод достижимых целей, интерактивные карты решений, человеческий капитал, метрический анализ данных.
Multicriterial metric data analysis in human capital modelling
Computer Research and Modeling, 2020, v. 12, no. 5, pp. 1223-1245The article describes a model of a human in the informational economy and demonstrates the multicriteria optimizational approach to the metric analysis of model-generated data. The traditional approach using the identification and study involves the model’s identification by time series and its further prediction. However, this is not possible when some variables are not explicitly observed and only some typical borders or population features are known, which is often the case in the social sciences, making some models pure theoretical. To avoid this problem, we propose a method of metric data analysis (MMDA) for identification and study of such models, based on the construction and analysis of the Kolmogorov – Shannon metric nets of the general population in a multidimensional space of social characteristics. Using this method, the coefficients of the model are identified and the features of its phase trajectories are studied. In this paper, we are describing human according to his role in information processing, considering his awareness and cognitive abilities. We construct two lifetime indices of human capital: creative individual (generalizing cognitive abilities) and productive (generalizing the amount of information mastered by a person) and formulate the problem of their multi-criteria (two-criteria) optimization taking into account life expectancy. This approach allows us to identify and economically justify the new requirements for the education system and the information environment of human existence. It is shown that the Pareto-frontier exists in the optimization problem, and its type depends on the mortality rates: at high life expectancy there is one dominant solution, while for lower life expectancy there are different types of Paretofrontier. In particular, the Pareto-principle applies to Russia: a significant increase in the creative human capital of an individual (summarizing his cognitive abilities) is possible due to a small decrease in the creative human capital (summarizing awareness). It is shown that the increase in life expectancy makes competence approach (focused on the development of cognitive abilities) being optimal, while for low life expectancy the knowledge approach is preferable.
Indexed in Scopus
Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU
The journal is included in the Russian Science Citation Index
The journal is included in the RSCI
International Interdisciplinary Conference "Mathematics. Computing. Education"