All issues
- 2024 Vol. 16
- 2023 Vol. 15
- 2022 Vol. 14
- 2021 Vol. 13
- 2020 Vol. 12
- 2019 Vol. 11
- 2018 Vol. 10
- 2017 Vol. 9
- 2016 Vol. 8
- 2015 Vol. 7
- 2014 Vol. 6
- 2013 Vol. 5
- 2012 Vol. 4
- 2011 Vol. 3
- 2010 Vol. 2
- 2009 Vol. 1
-
О разложении матриц при помощи метода стохастического градиентного спуска в приложении к задаче направляемой классификации микрочипов
Компьютерные исследования и моделирование, 2013, т. 5, № 2, с. 131-140Многомерные данные, при использовании значительно большего количества признаков относительно меньшего числа наблюдений, порождают хорошо известную проблему переопределённой задачи. В связи с этим, представляется целесообразным описание данных в терминах меньшего числа мета-признаков, которые вычисляются при помощи так называемых матричных факторизаций. Такие факторизации способствуют уменьшению случайного шума при сохранении наиболее существенной информации. Три новых и взаимосвязанных метода предложены в этой статье: 1) факторизационный механизм градиентного спуска с двумя (согласно размерности микрочипа) гибкими и адаптируемыми параметрами обучения, включая явные формулы их автоматического пересчета, 2) непараметрический критерий для отбора количества факторов, и 3) неотрицательная модификация градиентной факторизации, которая не требует дополнительных вычислительных затрат в сравнении с базовой моделью. Мы иллюстрируем эффективность предложенных методов в приложении к задаче направляемой классификации данных в области биоинформатики.
Ключевые слова: матричная факторизация, ненаправляемое обучение, количество факторов, непараметрический критерий, неотрицательность, оставить одного извне, классификация.
On the stochastic gradient descent matrix factorization in application to the supervised classification of microarrays
Computer Research and Modeling, 2013, v. 5, no. 2, pp. 131-140Citations: 4 (RSCI).Microarray datasets are highly dimensional, with a small number of collected samples in comparison to thousands of features. This poses a significant challenge that affects the interpretation, applicability and validation of the analytical results. Matrix factorizations have proven to be a useful method for describing data in terms of a small number of meta-features, which reduces noise, while still capturing the essential features of the data. Three novel and mutually relevant methods are presented in this paper: 1) gradient-based matrix factorization with two adaptive learning rates (in accordance with the number of factor matrices) and their automatic updates; 2) nonparametric criterion for the selection of the number of factors; and 3) nonnegative version of the gradient-based matrix factorization which doesn't require any extra computational costs in difference to the existing methods. We demonstrate effectiveness of the proposed methods to the supervised classification of gene expression data.
-
Представление инвариантной меры неприводимой цепи Маркова с дискретным временем и конечным пространством состояний множеством обратно ориентированных деревьев
Компьютерные исследования и моделирование, 2015, т. 7, № 2, с. 221-226Рассмотрена задача нахождения инвариантной меры неприводимой цепи Маркова с дискретным временем и конечным пространством состояний. Для такой цепи Маркова существует и единственна инвариантная мера, определенная с точностью до умножения на константу. Для каждого состояния эта инвариантная мера получена в виде суммы $n^{n−2}$ неотрицательных слагаемых, где $n$ — число состояний. Каждое слагаемое является произведением $n − 1$ условных вероятностей перехода. В стандартном представлении цепи Маркова ориентированным графом каждому состоянию ставится в соответствие вершина графа, а условной вероятности перехода — ориентированное ребро. В этом представлении каждое слагаемое в рассматриваемом выражении для инвариантной меры некоторого состояния взаимно-однозначно соответствует обратно ориентированному дереву с корнем в вершине, являющейся образом рассматриваемого состояния. Ребра ориентированы по направлению к корню. Дерево включает все вершины — образы состояний. Каждое слагаемое является произведением всех тех и только тех условных вероятностей перехода, образами которых являются ориентированные ребра соответствующего дерева.
Representation of an invariant measure of irreducible discrete-time Markov chain with a finite state space by a set of opposite directed trees
Computer Research and Modeling, 2015, v. 7, no. 2, pp. 221-226Views (last year): 1.A problem of finding of an invariant measure of irreducible discrete-time Markov chain with a finite state space is considered. There is a unique invariant measure for such Markov chain that can be multiplied by an arbitrary constant. A representation of a Markov chain by a directed graph is considered. Each state is represented by a vertex, and each conditional transition probability is represented by a directed edge. It is proved that an invariant measure for each state is a sum of $n^{n−2}$ non-negative summands, where $n$ is a cardinality of state space. Each summand is a product of $n − 1$ conditional transition probabilities and is represented by an opposite directed tree that includes all vertices. The root represents the considered state. The edges are directed to the root. This result leads to methods of analyses and calculation of an invariant measure that is based on a graph theory.
-
О некоторых стохастических методах зеркального спуска для условных задач онлайн-оптимизации
Компьютерные исследования и моделирование, 2019, т. 11, № 2, с. 205-217Задача выпуклой онлайн-оптимизации естественно возникают в случаях, когда имеет место обновления статистической информации. Для задач негладкой оптимизации хорошо известен метод зеркального спуска. Зеркальный спуск — это расширение субградиентного метода для решения негладких выпуклых задач оптимизации на случай неевкидова расстояния. Работа посвящена стохастическим аналогам недавно предложенных методов зеркального спуска для задач выпуклой онлайн-оптимизации с выпуклыми липшицевыми (вообще говоря, негладкими) функциональными ограничениями. Это означает, что вместо (суб)градиента целевого функционала и функционального ограничения мы используем их стохастические (суб)градиенты. Точнее говоря, допустим, что на замкнутом подмножестве $n$-мерного векторного пространства задано $N$ выпуклых липшицевых негладких функционалов. Рассматривается задача минимизации среднего арифметического этих функционалов с выпуклым липшицевым ограничением. Предложены два метода для решения этой задачи с использованием стохастических (суб)градиентов: адаптивный (не требует знания констант Липшица ни для целевого функционала, ни для ограничения), а также неадаптивный (требует знания константы Липшица для целевого функционала и ограничения). Отметим, что разрешено вычислять стохастический (суб)градиент каждого целевого функционала только один раз. В случае неотрицательного регрета мы находим, что количество непродуктивных шагов равно $O$($N$), что указывает на оптимальность предложенных методов. Мы рассматриваем произвольную прокс-структуру, что существенно для задач принятия решений. Приведены результаты численных экспериментов, позволяющие сравнить работу адаптивного и неадаптивного методов для некоторых примеров. Показано, что адаптивный метод может позволить существенно улучшить количество найденного решения.
Ключевые слова: задача выпуклой онлайн-оптимизации, негладкая задача условной оптимизации, адаптивный зеркальный спуск, липшицев функционал, стохастический (суб)градиент.
On some stochastic mirror descent methods for constrained online optimization problems
Computer Research and Modeling, 2019, v. 11, no. 2, pp. 205-217Views (last year): 42.The problem of online convex optimization naturally occurs in cases when there is an update of statistical information. The mirror descent method is well known for non-smooth optimization problems. Mirror descent is an extension of the subgradient method for solving non-smooth convex optimization problems in the case of a non-Euclidean distance. This paper is devoted to a stochastic variant of recently proposed Mirror Descent methods for convex online optimization problems with convex Lipschitz (generally, non-smooth) functional constraints. This means that we can still use the value of the functional constraint, but instead of (sub)gradient of the objective functional and the functional constraint, we use their stochastic (sub)gradients. More precisely, assume that on a closed subset of $n$-dimensional vector space, $N$ convex Lipschitz non-smooth functionals are given. The problem is to minimize the arithmetic mean of these functionals with a convex Lipschitz constraint. Two methods are proposed, for solving this problem, using stochastic (sub)gradients: adaptive method (does not require knowledge of Lipschitz constant neither for the objective functional, nor for the functional of constraint) and non-adaptivemethod (requires knowledge of Lipschitz constant for the objective functional and the functional of constraint). Note that it is allowed to calculate the stochastic (sub)gradient of each functional only once. In the case of non-negative regret, we find that the number of non-productive steps is $O$($N$), which indicates the optimality of the proposed methods. We consider an arbitrary proximal structure, which is essential for decisionmaking problems. The results of numerical experiments are presented, allowing to compare the work of adaptive and non-adaptive methods for some examples. It is shown that the adaptive method can significantly improve the number of the found solutions.
-
Параллельный метод вложенных дискретных трещин для моделирования течений в трещиноватых пористых средах
Компьютерные исследования и моделирование, 2021, т. 13, № 4, с. 735-745В данной работе рассматривается параллельный метод решения задач однофазной фильтрации в трещиноватой пористой среде, основанный на представлении трещин вложенными в расчетную сетку поверхностями и называемый в литературе моделью (или методом) вложенных дискретных трещин. В рамках модели пористая среда и крупные трещины представляются в виде двух независимых континуумов. Отличительной особенностью рассматриваемого подхода является то, что расчетная сетка не перестраивается под положение трещин, при этом для каждой ячейки, пересекаемой трещиной, вводится дополнительная степень свободы. Дискретизация потоков между введенными континуумами трещин и пористой среды использует преднасчитанные характеристики пересечения поверхностей трещин с трехмерной расчетной сеткой. При этом дискретизация потоков внутри пористой среды не зависит от потоков между континуумами. Это позволяет интегрировать модель в уже существующие симуляторы многофазных течений в пористых коллекторах и при этом точно описывать поведение течений вблизи трещин.
Ранее автором был предложен монотонный метод вложенных дискретных трещин, основанный на применении метода конечных объемов с нелинейными схемами дискретизации потоков внутри пористой среды: монотонной двухточечной схемы или компактной многоточечной схемы с дискретным принципом максимума. Было доказано, что дискретное решение полученной нелинейной задачи для системы «пористая среда + трещины» сохраняет неотрицательность или удовлетворяет дискретному принципу максимума в зависимости от выбора схемы дискретизации.
Данная работа является продолжением предыдущих исследований. Предложенный метод был параллелизован с помощью программной платформы INMOST и протестирован. Были использованы такие возможности INMOST, как сбалансированное распределение сетки по процессорам, масштабируемые методы решения разреженных распределенных систем линейных уравнений и другие. Были проведены параллельные расчеты, демонстрирующие хорошую масштабируемость при увеличении числа процессоров.
Ключевые слова: трещиноватые пористые среды, модель вложенных дискретных трещин, параллельные вычисления.
Parallel embedded discrete fracture method for flows in fractured porous media
Computer Research and Modeling, 2021, v. 13, no. 4, pp. 735-745In this work, parallel method for solving single-phase flow problems in a fractured porous media is considered. Method is based on the representation of fractures by surfaces embedded into the computational mesh, and known as the embedded discrete fracture model. Porous medium and fractures are represented as two independent continua within the model framework. A distinctive feature of the considered approach is that fractures do not modify the computational grid, while an additional degree of freedom is introduced for each cell intersected by the fracture. Discretization of fluxes between fractures and porous medium continua uses the pre-calculated intersection characteristics of fracture surfaces with a three-dimensional computational grid. The discretization of fluxes inside a porous medium does not depend on flows between continua. This allows the model to be integrated into existing multiphase flow simulators in porous reservoirs, while accurately describing flow behaviour near fractures.
Previously, the author proposed monotonic modifications of the model using nonlinear finite-volume schemes for the discretization of the fluxes inside the porous medium: a monotonic two-point scheme or a compact multi-point scheme with a discrete maximum principle. It was proved that the discrete solution of the obtained nonlinear problem preserves non-negativity or satisfies the discrete maximum principle, depending on the choice of the discretization scheme.
This work is a continuation of previous studies. The previously proposed monotonic modification of the model was parallelized using the INMOST open-source software platform for parallel numerical modelling. We used such features of the INMOST as a balanced grid distribution among processors, scalable methods for solving sparse distributed systems of linear equations, and others. Parallel efficiency was demonstrated experimentally.
-
Аддитивная регуляризация тематических моделей с быстрой векторизацией текста
Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1515-1528Задача вероятностного тематического моделирования заключается в том, чтобы по заданной коллекции текстовых документов найти две матрицы: матрицу условных вероятностей тем в документах и матрицу условных вероятностей слов в темах. Каждый документ представляется в виде мультимножества слов, то есть предполагается, что для выявления тематики документа не важен порядок слов в нем, а важна только их частота. При таком предположении задача сводится к вычислению низкорангового неотрицательного матричного разложения, наилучшего по критерию максимума правдоподобия. Данная задача имеет в общем случае бесконечное множество решений, то есть является некорректно поставленной. Для регуляризации ее решения к логарифму правдоподобия добавляется взвешенная сумма оптимизационных критериев, с помощью которых формализуются дополнительные требования к модели. При моделировании больших текстовых коллекций хранение первой матрицы представляется нецелесообразным, поскольку ее размер пропорционален числу документов в коллекции. В то же время тематические векторные представления документов необходимы для решения многих задач текстовой аналитики — информационного поиска, кластеризации, классификации, суммаризации текстов. На практике тематический вектор вычисляется для каждого документа по необходимости, что может потребовать десятков итераций по всем словам документа. В данной работе предлагается способ быстрого вычисления тематического вектора для произвольного текста, требующий лишь одной итерации, то есть однократного прохода по всем словам документа. Для этого в модель вводится дополнительное ограничение в виде уравнения, позволяющего вычислять первую матрицу через вторую за линейное время. Хотя формально данное ограничение не является оптимизационным критерием, фактически оно выполняет роль регуляризатора и может применяться в сочетании с другими критериями в рамках теории аддитивной регуляризации тематических моделей ARTM. Эксперименты на трех свободно доступных текстовых коллекциях показали, что предложенный метод улучшает качество модели по пяти оценкам качества, характеризующим разреженность, различность, информативность и когерентность тем. Для проведения экспериментов использовались библиотеки с открытымк одомB igARTM и TopicNet.
Ключевые слова: автоматическая обработка текстов, обучение без учителя, тематическое моделирование, аддитивная регуляризация тематических моделей, EM-алгоритм, PLSA, LDA, ARTM, BigARTM, TopicNet.
Additive regularizarion of topic models with fast text vectorizartion
Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1515-1528The probabilistic topic model of a text document collection finds two matrices: a matrix of conditional probabilities of topics in documents and a matrix of conditional probabilities of words in topics. Each document is represented by a multiset of words also called the “bag of words”, thus assuming that the order of words is not important for revealing the latent topics of the document. Under this assumption, the problem is reduced to a low-rank non-negative matrix factorization governed by likelihood maximization. In general, this problem is ill-posed having an infinite set of solutions. In order to regularize the solution, a weighted sum of optimization criteria is added to the log-likelihood. When modeling large text collections, storing the first matrix seems to be impractical, since its size is proportional to the number of documents in the collection. At the same time, the topical vector representation (embedding) of documents is necessary for solving many text analysis tasks, such as information retrieval, clustering, classification, and summarization of texts. In practice, the topical embedding is calculated for a document “on-the-fly”, which may require dozens of iterations over all the words of the document. In this paper, we propose a way to calculate a topical embedding quickly, by one pass over document words. For this, an additional constraint is introduced into the model in the form of an equation, which calculates the first matrix from the second one in linear time. Although formally this constraint is not an optimization criterion, in fact it plays the role of a regularizer and can be used in combination with other regularizers within the additive regularization framework ARTM. Experiments on three text collections have shown that the proposed method improves the model in terms of sparseness, difference, logLift and coherence measures of topic quality. The open source libraries BigARTM and TopicNet were used for the experiments.
Indexed in Scopus
Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU
The journal is included in the Russian Science Citation Index
The journal is included in the RSCI
International Interdisciplinary Conference "Mathematics. Computing. Education"