Результаты поиска по 'скользящий контроль':
Найдено статей: 3
  1. Бахвалов Ю.Н., Копылов И.В.
    Обучение и оценка обобщающей способности методов интерполяции
    Компьютерные исследования и моделирование, 2015, т. 7, № 5, с. 1023-1031

    В данной статье исследуются методы машинного обучения с определенным видом решающего правила. К ним относятся интерполяция по методу обратно взвешенных расстояний, метод интерполяции радиальными базисными функциями, метод многомерной интерполяции и аппроксимации на основе теории случайных функций, кригинг. Показано, что для данных методов существует способ быстрого переобучения «модели» при добавлении новых данных к существующим. Под «моделью» понимается построенная по обучающим данным интерполирующая или аппроксимирующая функция. Данный подход позволяет уменьшить вычислительную сложность построения обновленной «модели» с $O(n^3)$ до $O(n^2)$. Также будет исследована возможность быстрого оценивания обобщающих возможностей «модели» на обучающей выборке при помощи метода скользящего контроля leave-one-out cross-validation, устранив главный недостаток такого подхода — необходимость построения новой «модели» при каждом удалении элемента из обучающей выборки.

    Bakhvalov Y.N., Kopylov I.V.
    Training and assessment the generalization ability of interpolation methods
    Computer Research and Modeling, 2015, v. 7, no. 5, pp. 1023-1031

    We investigate machine learning methods with a certain kind of decision rule. In particular, inverse-distance method of interpolation, method of interpolation by radial basis functions, the method of multidimensional interpolation and approximation, based on the theory of random functions, the last method of interpolation is kriging. This paper shows a method of rapid retraining “model” when adding new data to the existing ones. The term “model” means interpolating or approximating function constructed from the training data. This approach reduces the computational complexity of constructing an updated “model” from $O(n^3)$ to $O(n^2)$. We also investigate the possibility of a rapid assessment of generalizing opportunities “model” on the training set using the method of cross-validation leave-one-out cross-validation, eliminating the major drawback of this approach — the necessity to build a new “model” for each element which is removed from the training set.

    Views (last year): 7. Citations: 5 (RSCI).
  2. В данной статье исследуется метод машинного обучения на основе теории случайных функций. Одной из основных проблем данного метода является то, что вид решающего правила модели метода, построенной на данных обучающей выборки, становится более громоздким при увеличении количества примеров выборки. Решающее правило модели является наиболее вероятной реализацией случайной функции и представляется в виде многочлена с количеством слагаемых, равным количеству обучающих элементов выборки. В статье будет показано, что для рассматриваемого метода существует быстрый способ сокращения обучающей выборки и, соответственно, вида решающего правила. Уменьшение примеров обучающей выборки происходит за счет поиска и удаления малоинформативных (слабых) элементов, которые незначительно влияют на итоговый вид решающей функции, и шумовых элементов выборки. Для каждого $(x_i,y_i)$-го элемента выборки было введено понятие значимости, выражающееся величиной отклонения оцененного значения решающей функции модели в точке $x_i$, построенной без $i$-го элемента, от реального значения $y_i$. Будет показана возможность косвенного использования найденных слабых элементов выборки при обучении модели метода, что позволяет не увеличивать количество слагаемых в полученной решающей функции. Также в статье будут описаны проведенные эксперименты, в которых показано, как изменение количества обучающих данных влияет на обобщающую способность решающего правила модели в задаче классификации.

    This article explores a method of machine learning based on the theory of random functions. One of the main problems of this method is that decision rule of a model becomes more complicated as the number of training dataset examples increases. The decision rule of the model is the most probable realization of a random function and it's represented as a polynomial with the number of terms equal to the number of training examples. In this article we will show the quick way of the number of training dataset examples reduction and, accordingly, the complexity of the decision rule. Reducing the number of examples of training dataset is due to the search and removal of weak elements that have little effect on the final form of the decision function, and noise sampling elements. For each $(x_i,y_i)$-th element sample was introduced the concept of value, which is expressed by the deviation of the estimated value of the decision function of the model at the point $x_i$, built without the $i$-th element, from the true value $y_i$. Also we show the possibility of indirect using weak elements in the process of training model without increasing the number of terms in the decision function. At the experimental part of the article, we show how changed amount of data affects to the ability of the method of generalizing in the classification task.

    Views (last year): 5.
  3. Борисова Л.Р., Кузнецова А.В., Сергеева Н.В., Сенько О.В.
    Применение методов машинного обучения для сравнения компаний Арктической зоны РФ по экономическим критериям в соответствии с рейтингом Полярного индекса
    Компьютерные исследования и моделирование, 2020, т. 12, № 1, с. 201-215

    В работе проведен сравнительный анализ предприятий Арктической зоны Российской Федерации (АЗ РФ) по экономическим показателям в соответствии с рейтингом Полярного индекса. В исследование включены числовые данные 193 предприятий, находящихся в АЗ РФ. Применены методы машинного обучения, как стандартные, из открытых ресурсов, так и собственные оригинальные методы — метод оптимально достоверных разбиений (ОДР), метод статистически взвешенных синдромов (СВС). Проведено разбиение с указанием максимального значения функционала качества, в данном исследовании использовалось простейшее семейство разнообразных одномерных разбиений с одной-единственной граничной точкой, а также семейство различных двумерных разбиений с одной граничной точкой по каждой из двух объединяющих переменных. Перестановочные тесты позволяют не только оценивать достоверность данных выявленных закономерностей, но и исключать из множества выявленных закономерностей разбиения с избыточной сложностью.

    Использование метода ОДР на одномерных показателях выявило закономерности, которые связывают номер класса с экономическими показателями. Также в приведенном исследовании представлены закономерности, которые выявлены в рамках простейшей одномерной модели с одной граничной точкой и со значимостью не хуже чем $p < 0.001$.

    Для достоверной оценки подобной диагностической способности использовали так называемый метод скользящего контроля. В результате этих исследований был выделен целый набор методов, которые обладали достаточной эффективностью.

    Коллективный метод по результатам нескольких методов машинного обучения показал высокую значимость экономических показателей для разделения предприятий в соответствии с рейтингом Полярного индекса.

    Наше исследование доказало и показало, что те предприятия, которые вошли в топ рейтинга Полярного индекса, в целом распознаются по финансовым показателям среди всех компаний Арктической зоны. Вместе с тем представляется целесообразным включение в анализ также экологических и социальных факторов.

    Borisova L.R., Kuznetsova A.V., Sergeeva N.V., Sen'ko O.V.
    Comparison of Arctic zone RF companies with different Polar Index ratings by economic criteria with the help of machine learning tools
    Computer Research and Modeling, 2020, v. 12, no. 1, pp. 201-215

    The paper presents a comparative analysis of the enterprises of the Arctic Zone of the Russian Federation (AZ RF) on economic indicators in accordance with the rating of the Polar index. This study includes numerical data of 193 enterprises located in the AZ RF. Machine learning methods are applied, both standard, from open source, and own original methods — the method of Optimally Reliable Partitions (ORP), the method of Statistically Weighted Syndromes (SWS). Held split, indicating the maximum value of the functional quality, this study used the simplest family of different one-dimensional partition with a single boundary point, as well as a collection of different two-dimensional partition with one boundary point on each of the two combining variables. Permutation tests allow not only to evaluate the reliability of the data of the revealed regularities, but also to exclude partitions with excessive complexity from the set of the revealed regularities. Patterns connected the class number and economic indicators are revealed using the SDT method on one-dimensional indicators. The regularities which are revealed within the framework of the simplest one-dimensional model with one boundary point and with significance not worse than p < 0.001 are also presented in the given study. The so-called sliding control method was used for reliable evaluation of such diagnostic ability. As a result of these studies, a set of methods that had sufficient effectiveness was identified. The collective method based on the results of several machine learning methods showed the high importance of economic indicators for the division of enterprises in accordance with the rating of the Polar index. Our study proved and showed that those companies that entered the top Rating of the Polar index are generally recognized by financial indicators among all companies in the Arctic Zone. However it would be useful to supplement the list of indicators with ecological and social criteria.

Indexed in Scopus

Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU

The journal is included in the Russian Science Citation Index

The journal is included in the RSCI

International Interdisciplinary Conference "Mathematics. Computing. Education"