Результаты поиска по 'тематическое моделирование':
Найдено статей: 38
  1. От редакции
    Компьютерные исследования и моделирование, 2023, т. 15, № 5, с. 1099-1101
    Editor’s note
    Computer Research and Modeling, 2023, v. 15, no. 5, pp. 1099-1101
  2. От редакции
    Компьютерные исследования и моделирование, 2023, т. 15, № 6, с. 1415-1418
    Editor’s note
    Computer Research and Modeling, 2023, v. 15, no. 6, pp. 1415-1418
  3. От редакции
    Компьютерные исследования и моделирование, 2024, т. 16, № 2, с. 245-248
    Editor’s note
    Computer Research and Modeling, 2024, v. 16, no. 2, pp. 245-248
  4. Воронцов К.В., Потапенко А.А.
    Регуляризация, робастность и разреженность вероятностных тематических моделей
    Компьютерные исследования и моделирование, 2012, т. 4, № 4, с. 693-706

    Предлагается обобщенное семейство вероятностных тематических моделей коллекций текстовых документов, в котором эвристики регуляризации, сэмплирования, частого обновления параметров, робастности относительно шума и фона могут включаться независимо друг от друга в любых сочетаниях, порождая как известные модели PLSA, LDA, CVB0, SWB, так и новые. Показано, что робастная тематическая модель на основе PLSA, разделяющая термины на тематические, шумовые и фоновые, не нуждается в регуляризации и обеспечивает разреженность искомых дискретных распределений тем в документах и терминов в темах.

    Vorontsov K.V., Potapenko A.A.
    Regularization, robustness and sparsity of probabilistic topic models
    Computer Research and Modeling, 2012, v. 4, no. 4, pp. 693-706

    We propose a generalized probabilistic topic model of text corpora which can incorporate heuristics of Bayesian regularization, sampling, frequent parameters update, and robustness in any combinations. Wellknown models PLSA, LDA, CVB0, SWB, and many others can be considered as special cases of the proposed broad family of models. We propose the robust PLSA model and show that it is more sparse and performs better that regularized models like LDA.

    Views (last year): 25. Citations: 12 (RSCI).
  5. Калашников С.В., Кривощапов А.А., Митин А.Л., Николаев Н.В.
    Расчетные исследования аэродинамических характеристик тематической модели летательного аппарата схемы «летающее крыло» с помощью программного комплекса FlowVision
    Компьютерные исследования и моделирование, 2017, т. 9, № 1, с. 67-74

    Модернизация методики аэродинамического эксперимента на современном уровне подразумевает создание математических моделей аэродинамических труб (электронных АДТ), предназначенных для вычислительного сопровождения экспериментальных исследований. Применение электронных АДТ в перспективе способно обеспечить получение достоверных аэродинамических характеристик летательных аппаратов по результатам исследования их моделей в аэродинамических трубах, согласования результатов, полученных на разных экспериментальных установках, сравнения расчетов моделей в безграничном потоке с учетом влияния подвесных устройств и границ потока в рабочей части экспериментальной установки.

    Решение данной задачи требует создания научного задела, что, в свою очередь, подразумевает выполнение экспериментальных методических исследований и обширного комплекса расчетных исследований на основе численного решения осредненных по Рейнольдсу уравнений Навье–Стокса с применением суперкомпьютерных технологий. При этом на различных этапах расчетных исследований необходимо моделировать не только летательный аппарат, но и комплексную геометрию рабочей части аэродинамической трубы и подвесных устройств, что требует дополнительных методических расчетов. Также определенные трудности может представлять моделирование ламинарно-турбулентного перехода на поверхности модели, который в большинстве случаев имеет место в условиях эксперимента.

    В данной работе представлены результаты расчетов аэродинамических характеристик тематической модели летательного аппарата схемы «летающее крыло» в безграничном потоке при разных углах атаки, полученные в рамках первого этапа работы по созданию математической модели рабочей части аэродинамической трубы Т-102 ЦАГИ. Расчеты выполнялись с использованием двухпараметрической k–ε модели турбулентности со специальными пристеночными функциями, приспособленными для расчета отрывных течений. В рамках данной работы исследовались основные продольные аэродинамические характеристики, было выполнено сравнение с результатами экспериментальных исследований в аэродинамической трубе Т-102 ЦАГИ с учетом погрешностей.

    Kalashnikov S.V., Krivoschapov A.A., Mitin A.L., Nikolaev N.V.
    Computational investigation of aerodynamic performance of the generic flying-wing aircraft model using FlowVision computational code
    Computer Research and Modeling, 2017, v. 9, no. 1, pp. 67-74

    Modern approach to modernization of the experimental techniques involves design of mathematical models of the wind-tunnel, which are also referred to as Electronic of Digital Wind-Tunnels. They are meant to supplement experimental data with computational analysis. Using Electronic Wind-Tunnels is supposed to provide accurate information on aerodynamic performance of an aircraft basing on a set of experimental data, to obtain agreement between data from different test facilities and perform comparison between computational results for flight conditions and data with the presence of support system and test section.

    Completing this task requires some preliminary research, which involves extensive wind-tunnel testing as well as RANS-based computational research with the use of supercomputer technologies. At different stages of computational investigation one may have to model not only the aircraft itself but also the wind-tunnel test section and the model support system. Modelling such complex geometries will inevitably result in quite complex vertical and separated flows one will have to simulate. Another problem is that boundary layer transition is often present in wind-tunnel testing due to quite small model scales and therefore low Reynolds numbers.

    In the current article the first stage of the Electronic Wind-Tunnel design program is covered. This stage involves computational investigation of aerodynamic characteristics of the generic flying-wing UAV model previously tested in TsAGI T-102 wind-tunnel. Since this stage is preliminary the model was simulated without taking test-section and support system geometry into account. The boundary layer was considered to be fully turbulent.

    For the current research FlowVision computational code was used because of its automatic grid generation feature and stability of the solver when simulating complex flows. A two-equation k–ε turbulence model was used with special wall functions designed to properly capture flow separation. Computed lift force and drag force coefficients for different angles-of-attack were compared to the experimental data.

    Views (last year): 10. Citations: 1 (RSCI).
  6. Галочкина Т.В., Вольперт В.А.
    Математическое моделирование распространения тромбина в процессе свертывания крови
    Компьютерные исследования и моделирование, 2017, т. 9, № 3, с. 469-486

    В случае повреждения сосуда или контакта плазмы крови с чужеродной поверхностью запускается цепь химических реакций (каскад свертывания), ведущая к формированию кровяного сгустка (тромба), основу которого составляют волокна фибрина. Ключевым компонентом каскада свертывания крови является фермент тромбин, катализирующий образование фибрина из фибриногена. Распределение концентрации тромбина определяет пространственно-временную динамику формирования кровяного сгустка. Контактный путь активации системы свертывания запускает реакцию образования тромбина в ответ на контакт с отрицательно заряженной поверхностью. Если концентрация тромбина, произведенного на этом этапе, достаточно велика, дальнейшее образование тромбина идет за счет положительных обратных связей каскада свертывания. В результате тромбин распространяется в плазме, что приводит к расщеплению фибриногена и формированию тромба. Профиль концентрации и скорость распространения тромбина в плазме постоянны и не зависят от того, как было активировано свертывание.

    Подобное поведение системы свертывания хорошо описывается решениями типа бегущей волны в системе уравнений «реакция – диффузия» на концентрации факторов крови, принимающих участие в каскаде свертывания. В настоящей работе проводится подробный анализма тематической модели, описывающей основные реакции каскада свертывания. Формулируются необходимые и достаточные условия существования решений системы типа бегущей волны. Для рассмотренной модели существование таких решений является эквивалентным существованию волновых решений упрощенной модели, полученной с помощью квазистационарного приближения и состоящей из одного уравнения, описывающего динамику концентрации тромбина.

    Упрощенная модель также позволяет нам получить аналитические оценки скорости распространения волны тромбина в рассматриваемых моделях. Скорость бегущей волны для одного уравнения была оценена с использованием метода узкой зоны реакции и с помощью кусочно-линейного приближения. Полученные формулы дают хорошее приближение скорости распространения волны тромбина как в упрощенной, так и в исходной модели.

    Galochkina T.V., Volpert V.A.
    Mathematical modeling of thrombin propagation during blood coagulation
    Computer Research and Modeling, 2017, v. 9, no. 3, pp. 469-486

    In case of vessel wall damage or contact of blood plasma with a foreign surface, the chain of chemical reactions called coagulation cascade is launched that leading to the formation of a fibrin clot. A key enzyme of the coagulation cascade is thrombin, which catalyzes formation of fibrin from fibrinogen. The distribution of thrombin concentration in blood plasma determines spatio-temporal dynamics of clot formation. Contact pathway of blood coagulation triggers the production of thrombin in response to the contact with a negatively charged surface. If the concentration of thrombin generated at this stage is large enough, further production of thrombin takes place due to positive feedback loops of the coagulation cascade. As a result, thrombin propagates in plasma cleaving fibrinogen that results in the clot formation. The concentration profile and the speed of propagation of thrombin are constant and do not depend on the type of the initial activator.

    Such behavior of the coagulation system is well described by the traveling wave solutions in a system of “reaction – diffusion” equations on the concentration of blood factors involved in the coagulation cascade. In this study, we carried out detailed analysis of the mathematical model describing the main reaction of the intrinsic pathway of coagulation cascade.We formulate necessary and sufficient conditions of the existence of the traveling wave solutions. For the considered model the existence of such solutions is equivalent to the existence of the wave solutions in the simplified one-equation model describing the dynamics of thrombin concentration derived under the quasi-stationary approximation.

    Simplified model also allows us to obtain analytical estimate of the thrombin propagation rate in the considered model. The speed of the traveling wave for one equation is estimated using the narrow reaction zone method and piecewise linear approximation. The resulting formulas give a good approximation of the velocity of propagation of thrombin in the simplified, as well as in the original model.

    Views (last year): 10. Citations: 1 (RSCI).
  7. Игнатьев Н.А., Тулиев У.Ю.
    Семантическая структуризация текстовых документов на основе паттернов сущностей естественного языка
    Компьютерные исследования и моделирование, 2022, т. 14, № 5, с. 1185-1197

    Рассматривается технология создания паттернов из слов (понятий) естественного языка по текстовым данным в модели «мешок слов». Паттерны применяются для снижения размерности исходного пространства в описании документов и поиска семантически связанных слов по темам. Процесс снижения размерности реализуется через формирование по паттернам латентных признаков. Исследуется многообразие структур отношений документов для разбиения их на темы в латентном пространстве.

    Считается, что заданное множество документов (объектов) разделено на два непересекающихся класса, для анализа которых необходимо использовать общий словарь. Принадлежность слов к общему словарю изначально неизвестна. Объекты классов рассматриваются в ситуации оппозиции друг к другу. Количественные параметры оппозиционности определяются через значения устойчивости каждого признака и обобщенные оценки объектов по непересекающимся наборам признаков.

    Для вычисления устойчивости используются разбиения значений признаков на непересекающиеся интервалы, оптимальные границы которых определяются по специальному критерию. Максимум устойчивости достигается при условии, что в границах каждого интервала содержатся значения одного из двух классов.

    Состав признаков в наборах (паттернах из слов) формируется из упорядоченной по значениям устойчивости последовательности. Процесс формирования паттернов и латентных признаков на их основе реализуется по правилам иерархической агломеративной группировки.

    Набор латентных признаков используется для кластерного анализа документов по метрическим алгоритмам группировки. В процессе анализа применяется коэффициент контентной аутентичности на основе данных о принадлежности документов к классам. Коэффициент является численной характеристикой доминирования представителей классов в группах.

    Для разбиения документов на темы предложено использовать объединение групп по отношению их центров. В качестве закономерностей по каждой теме рассматривается упорядоченная по частоте встречаемости последовательность слов из общего словаря.

    Приводятся результаты вычислительного эксперимента на коллекциях авторефератов научных диссертаций. Сформированы последовательности слов из общего словаря по четырем темам.

    Ignatev N.A., Tuliev U.Y.
    Semantic structuring of text documents based on patterns of natural language entities
    Computer Research and Modeling, 2022, v. 14, no. 5, pp. 1185-1197

    The technology of creating patterns from natural language words (concepts) based on text data in the bag of words model is considered. Patterns are used to reduce the dimension of the original space in the description of documents and search for semantically related words by topic. The process of dimensionality reduction is implemented through the formation of patterns of latent features. The variety of structures of document relations is investigated in order to divide them into themes in the latent space.

    It is considered that a given set of documents (objects) is divided into two non-overlapping classes, for the analysis of which it is necessary to use a common dictionary. The belonging of words to a common vocabulary is initially unknown. Class objects are considered as opposition to each other. Quantitative parameters of oppositionality are determined through the values of the stability of each feature and generalized assessments of objects according to non-overlapping sets of features.

    To calculate the stability, the feature values are divided into non-intersecting intervals, the optimal boundaries of which are determined by a special criterion. The maximum stability is achieved under the condition that the boundaries of each interval contain values of one of the two classes.

    The composition of features in sets (patterns of words) is formed from a sequence ordered by stability values. The process of formation of patterns and latent features based on them is implemented according to the rules of hierarchical agglomerative grouping.

    A set of latent features is used for cluster analysis of documents using metric grouping algorithms. The analysis applies the coefficient of content authenticity based on the data on the belonging of documents to classes. The coefficient is a numerical characteristic of the dominance of class representatives in groups.

    To divide documents into topics, it is proposed to use the union of groups in relation to their centers. As patterns for each topic, a sequence of words ordered by frequency of occurrence from a common dictionary is considered.

    The results of a computational experiment on collections of abstracts of scientific dissertations are presented. Sequences of words from the general dictionary on 4 topics are formed.

  8. Ирхин И.А., Булатов В.Г., Воронцов К.В.
    Аддитивная регуляризация тематических моделей с быстрой векторизацией текста
    Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1515-1528

    Задача вероятностного тематического моделирования заключается в том, чтобы по заданной коллекции текстовых документов найти две матрицы: матрицу условных вероятностей тем в документах и матрицу условных вероятностей слов в темах. Каждый документ представляется в виде мультимножества слов, то есть предполагается, что для выявления тематики документа не важен порядок слов в нем, а важна только их частота. При таком предположении задача сводится к вычислению низкорангового неотрицательного матричного разложения, наилучшего по критерию максимума правдоподобия. Данная задача имеет в общем случае бесконечное множество решений, то есть является некорректно поставленной. Для регуляризации ее решения к логарифму правдоподобия добавляется взвешенная сумма оптимизационных критериев, с помощью которых формализуются дополнительные требования к модели. При моделировании больших текстовых коллекций хранение первой матрицы представляется нецелесообразным, поскольку ее размер пропорционален числу документов в коллекции. В то же время тематические векторные представления документов необходимы для решения многих задач текстовой аналитики — информационного поиска, кластеризации, классификации, суммаризации текстов. На практике тематический вектор вычисляется для каждого документа по необходимости, что может потребовать десятков итераций по всем словам документа. В данной работе предлагается способ быстрого вычисления тематического вектора для произвольного текста, требующий лишь одной итерации, то есть однократного прохода по всем словам документа. Для этого в модель вводится дополнительное ограничение в виде уравнения, позволяющего вычислять первую матрицу через вторую за линейное время. Хотя формально данное ограничение не является оптимизационным критерием, фактически оно выполняет роль регуляризатора и может применяться в сочетании с другими критериями в рамках теории аддитивной регуляризации тематических моделей ARTM. Эксперименты на трех свободно доступных текстовых коллекциях показали, что предложенный метод улучшает качество модели по пяти оценкам качества, характеризующим разреженность, различность, информативность и когерентность тем. Для проведения экспериментов использовались библиотеки с открытымк одомB igARTM и TopicNet.

    Irkhin I.A., Bulatov V.G., Vorontsov K.V.
    Additive regularizarion of topic models with fast text vectorizartion
    Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1515-1528

    The probabilistic topic model of a text document collection finds two matrices: a matrix of conditional probabilities of topics in documents and a matrix of conditional probabilities of words in topics. Each document is represented by a multiset of words also called the “bag of words”, thus assuming that the order of words is not important for revealing the latent topics of the document. Under this assumption, the problem is reduced to a low-rank non-negative matrix factorization governed by likelihood maximization. In general, this problem is ill-posed having an infinite set of solutions. In order to regularize the solution, a weighted sum of optimization criteria is added to the log-likelihood. When modeling large text collections, storing the first matrix seems to be impractical, since its size is proportional to the number of documents in the collection. At the same time, the topical vector representation (embedding) of documents is necessary for solving many text analysis tasks, such as information retrieval, clustering, classification, and summarization of texts. In practice, the topical embedding is calculated for a document “on-the-fly”, which may require dozens of iterations over all the words of the document. In this paper, we propose a way to calculate a topical embedding quickly, by one pass over document words. For this, an additional constraint is introduced into the model in the form of an equation, which calculates the first matrix from the second one in linear time. Although formally this constraint is not an optimization criterion, in fact it plays the role of a regularizer and can be used in combination with other regularizers within the additive regularization framework ARTM. Experiments on three text collections have shown that the proposed method improves the model in terms of sparseness, difference, logLift and coherence measures of topic quality. The open source libraries BigARTM and TopicNet were used for the experiments.

Pages: « first previous

Indexed in Scopus

Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU

The journal is included in the Russian Science Citation Index

The journal is included in the RSCI

International Interdisciplinary Conference "Mathematics. Computing. Education"