Результаты поиска по 'отбор признаков':
Найдено статей: 8
  1. От редакции
    Компьютерные исследования и моделирование, 2021, т. 13, № 1, с. 5-8
    Editor's note
    Computer Research and Modeling, 2021, v. 13, no. 1, pp. 5-8
  2. От редакции
    Компьютерные исследования и моделирование, 2024, т. 16, № 2, с. 245-248
    Editor’s note
    Computer Research and Modeling, 2024, v. 16, no. 2, pp. 245-248
  3. Многомерные данные, при использовании значительно большего количества признаков относительно меньшего числа наблюдений, порождают хорошо известную проблему переопределённой задачи. В связи с этим, представляется целесообразным описание данных в терминах меньшего числа мета-признаков, которые вычисляются при помощи так называемых матричных факторизаций. Такие факторизации способствуют уменьшению случайного шума при сохранении наиболее существенной информации. Три новых и взаимосвязанных метода предложены в этой статье: 1) факторизационный механизм градиентного спуска с двумя (согласно размерности микрочипа) гибкими и адаптируемыми параметрами обучения, включая явные формулы их автоматического пересчета, 2) непараметрический критерий для отбора количества факторов, и 3) неотрицательная модификация градиентной факторизации, которая не требует дополнительных вычислительных затрат в сравнении с базовой моделью. Мы иллюстрируем эффективность предложенных методов в приложении к задаче направляемой классификации данных в области биоинформатики.

    Microarray datasets are highly dimensional, with a small number of collected samples in comparison to thousands of features. This poses a significant challenge that affects the interpretation, applicability and validation of the analytical results. Matrix factorizations have proven to be a useful method for describing data in terms of a small number of meta-features, which reduces noise, while still capturing the essential features of the data. Three novel and mutually relevant methods are presented in this paper: 1) gradient-based matrix factorization with two adaptive learning rates (in accordance with the number of factor matrices) and their automatic updates; 2) nonparametric criterion for the selection of the number of factors; and 3) nonnegative version of the gradient-based matrix factorization which doesn't require any extra computational costs in difference to the existing methods. We demonstrate effectiveness of the proposed methods to the supervised classification of gene expression data.

    Citations: 4 (RSCI).
  4. В работе рассматривается комплексный подход к моделированию динамики генетической структуры и численности естественной популяции. Набор динамических моделей с различными типами естественного отбора применен для описания возможного механизма закрепления наблюдаемого в настоящее время генетического разнообразия по размеру помета в прибрежных, континентальных и искусственных популяциях песцов (Alopex lagopus, семейство Canidae, порядок Carnivora). Наиболее интересные результаты удалось получить на основе модели популяции, включающей две стадии развития; при этом анализировалась динамика генетической структуры популяции по генотипам, соответствующим различным репродуктивным способностям и выживаемостям детенышей на ранней стадии жизненного цикла, определяемым одним диаллельным геном. Эта модель позволяет получить мономорфизм по рассматриваемому признаку в популяциях прибрежных песцов, где пищевые ресурсы практически постоянны, и установление полиморфизма с циклическими колебаниями численности и частот аллелей рассматриваемого гена в континентальных популяциях, где происходят регулярные всплески численности грызунов — основного компонента пищи. В искусственных популяциях в результате селективного отбора, осуществляемого фермерами с целью увеличения репродуктивного успеха производителей, рассматриваемый ген оказывается плейотропным (т. е. определяющим выживаемость особей как на ранней, так и на поздней стадии жизненного цикла); применение соответствующей модели (с отбором по плейотропныму гену) позволяет получить адекватную скорость вытеснения аллеля, обуславливающего производство пометов малого размера.

    This paper considers the integrated approach to modeling the dynamics of genetic structure and the number of natural population. A set of dynamic models with different types of natural selection is used to describe a possible mechanism for the fixing of a genetic diversity in size of the litter in coastal, continental and farmed populations of arctic fox (Alopex lagopus, Canidae, Carnivora) observed now. The most interesting results have been obtained with the model of population consisting of two stages of development. At that with the frame of this model a dynamics of population genetic structure on genotypes was analyzed to consider different reproductive abilities and fitnesses of pups on the early stage of lifecycle which defined by the single diallelic gene. This model allows to receive a monomorphism for coastal populations of arctic fox, where food resources are practically constant. As well the model allows polymorphism with cyclical fluctuations in the number and frequency of the gene in the continental populations due to regular fluctuating of rodent number, the major component of its food. In farmed populations by selective selection carried out by farmers to increase the reproductive success, this gene is a pleiotropic one (i. e., determining the survival rate of individuals both early and late stages of their life cycle); so an application of appropriate model (with the selection of pleiotropic gene) allows to get an adequate rate of elimination for small litters allele.

    Views (last year): 7. Citations: 5 (RSCI).
  5. Бистабильность обнаруживается во множестве прикладных и теоретических исследований биологических систем (популяций, сообществ). В простейшем случае бистабильность проявляется в сосуществовании двух альтернативных устойчивых состояний равновесия системы, выбор между которыми зависит от начальных условий. Наличие бистабильности в простых моделях может привести к появлению квадростабильности при усложнении моделей, например при учете генетической, возрастной и пространственной структуры. Это обнаруживается в разных моделях и весьма разных содержательных задачах и, как правило, приводит к весьма интересным, часто контринтуитивным выводам. Обзору таких ситуаций посвящена данная работа. В ней рассмотрены бифуркации, приводящие к би- и квадростабильности в математических моделях следующих биологических объектов: система двух миграционно связанных популяций, находящихся под действием естественного отбора, все генетическое разнообразие которых представлено единственным диаллельным локусом с существенной разницей в приспособленностях для гомо- и гетерозигот; система двух миграционно связанных лимитированных популяций, описываемых моделью Базыкина или моделью Рикера; популяция с двумя стадиями развития и плотностно-зависимой регуляцией рождаемости, которая либо определяется только плотностью, либо дополнительно зависит от генетической структуры смежных поколений. Обнаружено, что все перечисленные модели имеют схожие сценарии рождения состояний равновесий, которые соответствуют формированию пространственно-временной неоднородности либо дифференциации особей разных поколений по признакам (первичной генетической дивергенции). Показано, что такая неоднородность является следствием локальной бистабильности и появляется в результате комбинации бифуркации вил (удвоения периода) и седло-узловой бифуркации.

    Frisman E.Y., Kulakov M.P.
    From local bi- and quadro-stability to space-time inhomogeneity: a review of mathematical models and meaningful conclusions
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 75-109

    Bistability is a fundamental property of nonlinear systems and is found in many applied and theoretical studies of biological systems (populations and communities). In the simplest case it is expressed in the coexistence of diametrically opposed alternative stable equilibrium states of the system, and which of them will be achieved depends on the initial conditions. Bistability in simple models can lead to quad-stability as models become more complex, for example, when adding genetic, age and spatial structure. This occurs in different models from completely different subject area and leads to very interesting, often counterintuitive conclusions. In this article, we review such situations. The paper deals with bifurcations leading to bi- and quad-stability in mathematical models of the following biological objects. The first one is the system of two populations coupled by migration and under the action of natural selection, in which all genetic diversity is associated with a single diallelic locus with a significant difference in fitness for homo- and heterozygotes. The second is the system of two limited populations described by the Bazykin model or the Ricker model and coupled by migration. The third is a population with two age stages and density-dependent regulation of birth rate which is determined either only by population density, or additionally depends on the genetic structure of adjacent generations. We found that all these models have similar scenarios for the birth of equilibrium states that correspond to the formation of spatiotemporal inhomogeneity or to the differentiation by phenotypes of individuals from different age stages. Such inhomogeneity is a consequence of local bistability and appears as a result of a combination of pitchfork bifurcation (period doubling) and saddle-node bifurcation.

  6. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Захарова Е.М.
    Разработка и исследование жесткого алгоритма анализа публикаций в Twitter и их влияния на движение рынка криптовалют
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 157-170

    Посты в социальных сетях являются важным индикатором, отображающим положение активов на финансовом рынке. В статье описывается жесткое решение задачи классификации для определения влияния активности в социальных сетях на движение финансового рынка. Отбираются аккаунты авторитетных в сообществе крипто-трейдеров-инфлюенсеров. В качестве данных используются специальные пакеты сообщений, которые состоят из текстовых постов, взятых из Twitter. Приведены способы предобработки текста, заключающиеся в лемматизации Stanza и применении регулярных выражений, для очищения зашумленных текстов, особенностью которых является многочисленное употребление сленговых слов и сокращений. Решается задача бинарной классификации, где слово рассматривается как элемент вектора единицы данных. Для более точного описания криптовалютной активности ищутся наилучшие параметры разметки для обработки свечей Binance. Методы выявления признаков, необходимых для точного описания текстовых данных и последующего процесса установления зависимости, представлены в виде машинного обучения и статистического анализа. В качестве первого используется отбор признаков на основе критерия информативности, который применяется при разбиении решающего дерева на поддеревья. Такой подход реализован в модели случайного леса и актуален для задачи выбора значимых для «стрижки деревьев» признаков. Второй же основан на жестком составлении бинарного вектора в ходе грубой проверки наличия либо отсутствия слова в пакете и подсчете суммы элементов этого вектора. Затем принимается решение в зависимости от преодоления этой суммой порогового значения, базирующегося на уровне, предварительно подобранном с помощью анализа частотного распределения упоминаний слова. Алгоритм, используемый для решения проблемы, был назван бенчмарком и проанализирован в качестве инструмента. Подобные алгоритмы часто используются в автоматизированных торговых стратегиях. В процессе исследования также описаны наблюдения влияния часто встречающихся в тексте слов, которые используются в качестве базиса размерностью 2 и 3 при векторизации.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Zakharova E.M.
    Development of and research into a rigid algorithm for analyzing Twitter publications and its influence on the movements of the cryptocurrency market
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 157-170

    Social media is a crucial indicator of the position of assets in the financial market. The paper describes the rigid solution for the classification problem to determine the influence of social media activity on financial market movements. Reputable crypto traders influencers are selected. Twitter posts packages are used as data. The methods of text, which are characterized by the numerous use of slang words and abbreviations, and preprocessing consist in lemmatization of Stanza and the use of regular expressions. A word is considered as an element of a vector of a data unit in the course of solving the problem of binary classification. The best markup parameters for processing Binance candles are searched for. Methods of feature selection, which is necessary for a precise description of text data and the subsequent process of establishing dependence, are represented by machine learning and statistical analysis. First, the feature selection is used based on the information criterion. This approach is implemented in a random forest model and is relevant for the task of feature selection for splitting nodes in a decision tree. The second one is based on the rigid compilation of a binary vector during a rough check of the presence or absence of a word in the package and counting the sum of the elements of this vector. Then a decision is made depending on the superiority of this sum over the threshold value that is predetermined previously by analyzing the frequency distribution of mentions of the word. The algorithm used to solve the problem was named benchmark and analyzed as a tool. Similar algorithms are often used in automated trading strategies. In the course of the study, observations of the influence of frequently occurring words, which are used as a basis of dimension 2 and 3 in vectorization, are described as well.

  7. Макаров И.С., Баганцова Е.Р., Яшин П.А., Ковалёва М.Д., Горбачёв Р.А.
    Разработка и исследование алгоритма выделения признаков в публикациях Twitter для задачи классификации с известной разметкой
    Компьютерные исследования и моделирование, 2023, т. 15, № 1, с. 171-183

    Посты социальных сетей играют важную роль в отражении ситуации на финансовом рынке, а их анализ является мощным инструментом ведения торговли. В статье описан результат исследования влияния деятельности социальных медиа на движение финансового рынка. Сначала отбирается топ инфлюенсеров, активность которых считается авторитетной в криптовалютном сообществе. Сообщения в Twitter используются в качестве данных. Подобные тексты обычно сильно зашумлены, так как включают сленг и сокращения, поэтому представлены методы подготовки первичных текстовых данных, включающих в себя обработку Stanza, регулярными выражениями. Рассмотрено два подхода представления момента времени в формате текстовых данных. Так исследуется влияние либо одного твита, либо целого пакета, состоящего из твитов, собранных за определенный период времени. Также рассмотрен статистический подход в виде частотного анализа, введены метрики, способные отразить значимость того или иного слова при выявлении зависимости между изменением цены и постами в Twitter. Частотный анализ подразумевает исследование распределений встречаемости различных слов и биграмм в тексте для положительного, отрицательного либо общего трендов. Для построения разметки изменения на рынке перерабатываются в бинарный вектор с помощью различных параметров, задавая таким образом задачу бинарной классификации. Параметры для свечей Binance подбираются для лучшего описания движения рынка криптовалюты, их вариативность также исследуется в данной статье. Оценка эмоционального окраса текстовых данных изучается с помощью Stanford Core NLP. Результат статистического анализа представляет непосредственно практический интерес, так как предполагает выбор признаков для дальнейшей бинарной или мультиклассовой задач классификации. Представленные методы анализа текста способствуют повышению точности моделей, решающих задачи обработки естественного языка, с помощью отбора слов, улучшения качества векторизации. Такие алгоритмы зачастую используются в автоматизированных торговых стратегиях для предсказания цены актива, тренда ее движения.

    Makarov I.S., Bagantsova E.R., Iashin P.A., Kovaleva M.D., Gorbachev R.A.
    Development of and research on an algorithm for distinguishing features in Twitter publications for a classification problem with known markup
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 171-183

    Social media posts play an important role in demonstration of financial market state, and their analysis is a powerful tool for trading. The article describes the result of a study of the impact of social media activities on the movement of the financial market. The top authoritative influencers are selected. Twitter posts are used as data. Such texts usually include slang and abbreviations, so methods for preparing primary text data, including Stanza, regular expressions are presented. Two approaches to the representation of a point in time in the format of text data are considered. The difference of the influence of a single tweet or a whole package consisting of tweets collected over a certain period of time is investigated. A statistical approach in the form of frequency analysis is also considered, metrics defined by the significance of a particular word when identifying the relationship between price changes and Twitter posts are introduced. Frequency analysis involves the study of the occurrence distributions of various words and bigrams in the text for positive, negative or general trends. To build the markup, changes in the market are processed into a binary vector using various parameters, thus setting the task of binary classification. The parameters for Binance candlesticks are sorted out for better description of the movement of the cryptocurrency market, their variability is also explored in this article. Sentiment is studied using Stanford Core NLP. The result of statistical analysis is relevant to feature selection for further binary or multiclass classification tasks. The presented methods of text analysis contribute to the increase of the accuracy of models designed to solve natural language processing problems by selecting words, improving the quality of vectorization. Such algorithms are often used in automated trading strategies to predict the price of an asset, the trend of its movement.

  8. В статье обсуждается проблема влияния целей исследования на структуру многофакторной модели регрессионного анализа (в частности, на реализацию процедуры снижения размерности модели). Демонстрируется, как приведение спецификации модели множественной регрессии в соответствие целям исследования отражается на выборе методов моделирования. Сравниваются две схемы построения модели: первая не позволяет учесть типологию первичных предикторов и характер их влияния на результативные признаки, вторая схема подразумевает этап предварительного разбиения исходных предикторов на группы (в соответствии с целями исследования). На примере решения задачи анализа причин выгорания творческих работников показана важность этапа качественного анализа и систематизации априори отобранных факторов, который реализуется не вычислительными средствами, а за счет привлечения знаний и опыта специалистов в изучаемой предметной области.

    Представленный пример реализации подхода к определению спецификации регрессионной модели сочетает формализованные математико-статистические процедуры и предшествующий им этап классификации первичных факторов. Наличие указанного этапа позволяет объяснить схему управляющих (корректирующих) воздействий (смягчение стиля руководства и усиление одобрения приводят к снижению проявлений тревожности и стресса, что, в свою очередь, снижает степень выраженности эмоционального истощения участников коллектива). Предварительная классификация также позволяет избежать комбинирования в одной главной компоненте управляемых и неуправляемых, регулирующих и управляемых признаков-факторов, которое могло бы ухудшить интерпретируемость синтезированных предикторов.

    На примере конкретной задачи показано, что отбор факторов-регрессоров — это процесс, требующий индивидуального решения. В рассмотренном случае были последовательно использованы: систематизация признаков, корреляционный анализ, метод главных компонент, регрессионный анализ. Первые три метода позволили существенно сократить размерность задачи, что не повлияло на достижение цели, для которой эта задача была поставлена: были показаны существенные меры управляющего воздействия на коллектив, позволяющие снизить степень эмоционального выгорания его участников.

    The article discusses the problem of the influence of the research goals on the structure of the multivariate model of regression analysis (in particular, on the implementation of the procedure for reducing the dimension of the model). It is shown how bringing the specification of the multiple regression model in line with the research objectives affects the choice of modeling methods. Two schemes for constructing a model are compared: the first does not allow taking into account the typology of primary predictors and the nature of their influence on the performance characteristics, the second scheme implies a stage of preliminary division of the initial predictors into groups, in accordance with the objectives of the study. Using the example of solving the problem of analyzing the causes of burnout of creative workers, the importance of the stage of qualitative analysis and systematization of a priori selected factors is shown, which is implemented not by computing means, but by attracting the knowledge and experience of specialists in the studied subject area. The presented example of the implementation of the approach to determining the specification of the regression model combines formalized mathematical and statistical procedures and the preceding stage of the classification of primary factors. The presence of this stage makes it possible to explain the scheme of managing (corrective) actions (softening the leadership style and increasing approval lead to a decrease in the manifestations of anxiety and stress, which, in turn, reduces the severity of the emotional exhaustion of the team members). Preclassification also allows avoiding the combination in one main component of controlled and uncontrolled, regulatory and controlled feature factors, which could worsen the interpretability of the synthesized predictors. On the example of a specific problem, it is shown that the selection of factors-regressors is a process that requires an individual solution. In the case under consideration, the following were consistently used: systematization of features, correlation analysis, principal component analysis, regression analysis. The first three methods made it possible to significantly reduce the dimension of the problem, which did not affect the achievement of the goal for which this task was posed: significant measures of controlling influence on the team were shown. allowing to reduce the degree of emotional burnout of its participants.

Indexed in Scopus

Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU

The journal is included in the Russian Science Citation Index

The journal is included in the RSCI

International Interdisciplinary Conference "Mathematics. Computing. Education"