All issues
- 2024 Vol. 16
- 2023 Vol. 15
- 2022 Vol. 14
- 2021 Vol. 13
- 2020 Vol. 12
- 2019 Vol. 11
- 2018 Vol. 10
- 2017 Vol. 9
- 2016 Vol. 8
- 2015 Vol. 7
- 2014 Vol. 6
- 2013 Vol. 5
- 2012 Vol. 4
- 2011 Vol. 3
- 2010 Vol. 2
- 2009 Vol. 1
-
Регуляризация, робастность и разреженность вероятностных тематических моделей
Компьютерные исследования и моделирование, 2012, т. 4, № 4, с. 693-706Предлагается обобщенное семейство вероятностных тематических моделей коллекций текстовых документов, в котором эвристики регуляризации, сэмплирования, частого обновления параметров, робастности относительно шума и фона могут включаться независимо друг от друга в любых сочетаниях, порождая как известные модели PLSA, LDA, CVB0, SWB, так и новые. Показано, что робастная тематическая модель на основе PLSA, разделяющая термины на тематические, шумовые и фоновые, не нуждается в регуляризации и обеспечивает разреженность искомых дискретных распределений тем в документах и терминов в темах.
Ключевые слова: компьютерныйана лиз текстов, тематическое моделирование, вероятностныйла тентный семантическийана лиз, EM-алгоритм, латентное размещение Дирихле, сэмплирование Гиббса, байесовская регуляризация, перплексия, робастность.
Regularization, robustness and sparsity of probabilistic topic models
Computer Research and Modeling, 2012, v. 4, no. 4, pp. 693-706Views (last year): 25. Citations: 12 (RSCI).We propose a generalized probabilistic topic model of text corpora which can incorporate heuristics of Bayesian regularization, sampling, frequent parameters update, and robustness in any combinations. Wellknown models PLSA, LDA, CVB0, SWB, and many others can be considered as special cases of the proposed broad family of models. We propose the robust PLSA model and show that it is more sparse and performs better that regularized models like LDA.
-
Задачи и методы автоматического построения графа цитирований по коллекции научных документов
Компьютерные исследования и моделирование, 2012, т. 4, № 4, с. 707-719Задача автоматического построения графа цитирования по коллекции научных документов сводится к решению последовательности задач распознавания. Рассматриваются методы решения, их адаптация и объединение в технологическую цепочку, приводятся результаты вычислительных экспериментов для некоторых задач.
Ключевые слова: компьютерныйана лиз текстов, граф цитирований, библиография, метаописания, мэтчинг, связывание, разметка, сегментация.
Automated citation graph building from a corpora of scientific documents
Computer Research and Modeling, 2012, v. 4, no. 4, pp. 707-719Views (last year): 5. Citations: 1 (RSCI).In this paper the problem of automated building of a citation graph from a collection of scientific documents is considered as a sequence of machine learning tasks. The overall data processing technology is described which consists of six stages: preprocessing, metainformation extraction, bibliography lists extraction, splitting bibliography lists into separate bibliography records, standardization of each bibliography record, and record linkage. The goal of this paper is to provide a survey of approaches and algorithms suitable for each stage, motivate the choice of the best combination of algorithms, and adapt some of them for multilingual bibliographies processing. For some of the tasks new algorithms and heuristics are proposed and evaluated on the mixed English and Russian documents corpora.
Indexed in Scopus
Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU
The journal is included in the Russian Science Citation Index
The journal is included in the RSCI
International Interdisciplinary Conference "Mathematics. Computing. Education"