All issues
- 2024 Vol. 16
- 2023 Vol. 15
- 2022 Vol. 14
- 2021 Vol. 13
- 2020 Vol. 12
- 2019 Vol. 11
- 2018 Vol. 10
- 2017 Vol. 9
- 2016 Vol. 8
- 2015 Vol. 7
- 2014 Vol. 6
- 2013 Vol. 5
- 2012 Vol. 4
- 2011 Vol. 3
- 2010 Vol. 2
- 2009 Vol. 1
-
Модель формирования первичных поведенческих паттернов с адаптивным поведением на основе использования комбинации случайного поиска и опыта
Компьютерные исследования и моделирование, 2016, т. 8, № 6, с. 941-950В работе предложен адаптивный алгоритм, моделирующий процесс формирования начальных поведенческих навыков на примере системы «глаза–манипулятор» анимата. Ситуация формирования начальных поведенческих навыков возникает, например, когда ребенок осваивает управление своими руками на основе понимания связи между исходно неидентифицированными пятнами на сетчатке своих глаз и положением реального предмета. Поскольку навыки управления телом не «вшиты» исходно в головной и спинной мозг на уровне инстинктов, то человеческому ребенку, как и большинству детенышей других млекопитающих, приходится осваивать эти навыки в режиме поискового поведения. Поисковое поведение начинается с метода проб и ошибок в чистом виде, затем его вклад постепенно уменьшается по мере освоения своего тела и окружающей среды. Поскольку образцов правильного поведения на этом этапе развития организм не имеет, то единственным способом выделения правильных навыков является положительное подкрепление при достижении цели. Ключевой особенностью предлагаемого алгоритма является фиксация в режиме импринтинга только завершающих действий, которые привели к успеху, или, что очень важно, привели к уже знакомой запечатленной ситуации, однозначно приводящей к успеху. Со временем непрерывная цепочка правильных действий удлиняется — максимально используется предыдущий позитивный опыт, а негативный «забывается» и не используется. Тем самым наблюдается постепенная замена случайного поиска целенаправленными действиями, что наблюдается и у реальных детенышей.
Тем самым алгоритм способен устанавливать соответствие между закономерностями окружающего мира и «внутренними ощущениями», внутренним состоянием самого анимата. В предлагаемой модели анимата использовалось 2 типа нейросетей: 1) нейросеть NET1, на вход которой подавались текущие положения кисти руки и целевой точки, а на выходе — двигательные команды, направляющие «кисть» манипулятора анимата к целевой точке; 2) нейросеть NET2, которая на входе получала координаты цели и текущей координаты «кисти», а на выходе формировала значение вероятности того, что анимату уже «знакома» эта ситуация и он «знает», как на нее реагировать. Благодаря такой архитектуре у анимата есть возможность опираться на «опыт» нейросети в распознанных ситуациях, когда отклик от сети NET2 близок к 1, и, с другой стороны, запускать случайный поиск, когда опыта функционирования в этой области зрительного поля у анимата нет (отклик NET2 близок к 0).
Model of formation of primary behavioral patterns with adaptive behavior based on the combination of random search and experience
Computer Research and Modeling, 2016, v. 8, no. 6, pp. 941-950Views (last year): 6. Citations: 2 (RSCI).In this paper, we propose an adaptive algorithm that simulates the process of forming the initial behavioral skills on the example of the system ‘eye-arm’ animat. The situation is the formation of the initial behavioral skills occurs, for example, when a child masters the management of their hands by understanding the relationship between baseline unidentified spots on the retina of his eye and the position of the real object. Since the body control skills are not ‘hardcoded’ initially in the brain and the spinal cord at the level of instincts, the human child, like most young of other mammals, it is necessary to develop these skills in search behavior mode. Exploratory behavior begins with trial and error and then its contribution is gradually reduced as the development of the body and its environment. Since the correct behavior patterns at this stage of development of the organism does not exist for now, then the only way to select the right skills is a positive reinforcement to achieve the objective. A key feature of the proposed algorithm is to fix in the imprinting mode, only the final action that led to success, and that is very important, led to the familiar imprinted situation clearly leads to success. Over time, the continuous chain is lengthened right action — maximum use of previous positive experiences and negative ‘forgotten’ and not used.
Thus there is the gradual replacement of the random search purposeful actions that observed in the real young. Thus, the algorithm is able to establish a correspondence between the laws of the world and the ‘inner feelings’, the internal state of the animat. The proposed animat model was used 2 types of neural networks: 1) neural network NET1 to the input current which is fed to the position of the brush arms and the target point, and the output of motor commands, directing ‘brush’ manipulator animat to the target point; 2) neural network NET2 is received at the input of target coordinates and the current coordinates of the ‘brush’ and the output value is formed likelihood that the animat already ‘know’ this situation, and he ‘knows’ how to react to it. With this architecture at the animat has to rely on the ‘experience’ of neural networks to recognize situations where the response from NET2 network of close to 1, and on the other hand, run a random search, when the experience of functioning in this area of the visual field in animat not (response NET2 close to 0).
-
Простейшая поведенческая модель формирования импринта
Компьютерные исследования и моделирование, 2014, т. 6, № 5, с. 793-802Формирование адекватных поведенческих паттернов в условиях неизвестного окружения осуществляется через поисковое поведение. При этом быстрейшее формирование приемлемого паттерна представляется более предпочтительным, чем долгая выработка совершенного паттерна, через многократное воспроизведение обучающей ситуации. В экстремальных ситуациях наблюдается явление импринтирования — мгновенного запечатления поведенческого паттерна, обеспечившего выживание особи. В данной работе предложены гипотеза и модель импринта, когда обученная по единственному успешному поведенческому паттерну нейронная сеть анимата демонстрирует эффективное функционирование. Реалистичность модели оценена путем проверки устойчивости воспроизведения поведенческого паттерна к возмущениям ситуации запуска импринта.
Simple behavioral model of imprint formation
Computer Research and Modeling, 2014, v. 6, no. 5, pp. 793-802Views (last year): 5. Citations: 2 (RSCI).Formation of adequate behavioral patterns in condition of the unknown environment carried out through exploratory behavior. At the same time the rapid formation of an acceptable pattern is more preferable than a long elaboration perfect pattern through repeat play learning situation. In extreme situations, phenomenon of imprinting is observed — instant imprinting of behavior pattern, which ensure the survival of individuals. In this paper we propose a hypothesis and imprint model when trained on a single successful pattern of virtual robot's neural network demonstrates the effective functioning. Realism of the model is estimated by checking the stability of playback behavior pattern to perturbations situation imprint run.
Indexed in Scopus
Full-text version of the journal is also available on the web site of the scientific electronic library eLIBRARY.RU
The journal is included in the Russian Science Citation Index
The journal is included in the RSCI
International Interdisciplinary Conference "Mathematics. Computing. Education"