Правила поведения
<<  Много правил поведения Есть на свете без сомнения Правила поведения пассажиров в школьном автобусе  >>
Модели адаптивного поведения - задел исследований когнитивной эволюции
Модели адаптивного поведения - задел исследований когнитивной эволюции
Предмет исследований Анализ процесса когнитивной эволюции
Предмет исследований Анализ процесса когнитивной эволюции
Почему важно исследовать когнитивную эволюцию
Почему важно исследовать когнитивную эволюцию
Тезис: моделирование когнитивной эволюции – направление главного удара
Тезис: моделирование когнитивной эволюции – направление главного удара
Как вести исследования
Как вести исследования
Искусственная Жизнь "жизнь, какой она могла бы в принципе быть"
Искусственная Жизнь "жизнь, какой она могла бы в принципе быть"
Адаптивное Поведение From Animal to Animat – модели адаптивного
Адаптивное Поведение From Animal to Animat – модели адаптивного
Исследователи адаптивного поведения
Исследователи адаптивного поведения
Исследователи адаптивного поведения
Исследователи адаптивного поведения
Исследователи адаптивного поведения
Исследователи адаптивного поведения
Исследователи адаптивного поведения
Исследователи адаптивного поведения
Исследователи адаптивного поведения
Исследователи адаптивного поведения
Робот АРНЭ (Л
Робот АРНЭ (Л
Робот АРНЭ (Л
Робот АРНЭ (Л
Модель "Кузнечик"
Модель "Кузнечик"
Агенты в одномерной клеточной среде
Агенты в одномерной клеточной среде
Мотивации агентов
Мотивации агентов
Нейронная сеть агента
Нейронная сеть агента
Результаты моделирования
Результаты моделирования
Схема управления агента без мотиваций
Схема управления агента без мотиваций
Схема управления агента c мотивациями
Схема управления агента c мотивациями
Выводы по модели "Кузнечик"
Выводы по модели "Кузнечик"
Развитие модели "Кузнечик" Возникновение иерархии целей (М
Развитие модели "Кузнечик" Возникновение иерархии целей (М
Исходная структура целей
Исходная структура целей
Эволюционно сформированная иерархия целей (М
Эволюционно сформированная иерархия целей (М
Проект "Мозг Анимата"
Проект "Мозг Анимата"
Функциональная система по П.К. Анохину
Функциональная система по П.К. Анохину
Архитектура системы управления анимата
Архитектура системы управления анимата
Нейросетевые адаптивные критики
Нейросетевые адаптивные критики
Обучение с подкреплением
Обучение с подкреплением
Схема V-критика
Схема V-критика
Работа V-критика
Работа V-критика
Алгоритм V-критика
Алгоритм V-критика
Обучение V-критика
Обучение V-критика
Структура ФС
Структура ФС
Работа ФС, обычный режим
Работа ФС, обычный режим
Работа ФС, чрезвычайный режим
Работа ФС, чрезвычайный режим
Надзор сверху
Надзор сверху
Дилемма стабильности/пластичности
Дилемма стабильности/пластичности
Какова могла бы быть первая реализация «Мозга анимата»
Какова могла бы быть первая реализация «Мозга анимата»
Эволюционно сформированная иерархия целей (М
Эволюционно сформированная иерархия целей (М
План исследований на 2 года
План исследований на 2 года
Контуры плана исследований на 20 лет
Контуры плана исследований на 20 лет
Литература
Литература
Некоторые ссылки
Некоторые ссылки
Ассоциация Нейроинформатики
Ассоциация Нейроинформатики

Презентация на тему: «Модели адаптивного поведения - задел исследований когнитивной эволюции». Автор: V.G. Redko. Файл: «Модели адаптивного поведения - задел исследований когнитивной эволюции.ppt». Размер zip-архива: 702 КБ.

Модели адаптивного поведения - задел исследований когнитивной эволюции

содержание презентации «Модели адаптивного поведения - задел исследований когнитивной эволюции.ppt»
СлайдТекст
1 Модели адаптивного поведения - задел исследований когнитивной эволюции

Модели адаптивного поведения - задел исследований когнитивной эволюции

Редько В.Г. Институт оптико-нейронных технологий РАН

Предмет исследований Почему важно исследовать когнитивную эволюцию. Как вести исследования Каков задел этих исследований Модель «Кузнечик» - возникновение целенаправленности Проект «Мозг Анимата» Проект программы исследований на ближайшие 20 лет (в порядке обсуждения)

2 Предмет исследований Анализ процесса когнитивной эволюции

Предмет исследований Анализ процесса когнитивной эволюции

3 Почему важно исследовать когнитивную эволюцию

Почему важно исследовать когнитивную эволюцию

Эта задача интересна с естественнонаучной точки зрения Исследования когнитивной эволюции могут стать научной основой для разработок искусственного интеллекта Эти исследования важны с философской, эпистемологической точки зрения – они могут способствовать прояснению проблемы применимости нашего человеческого мышления в познании природы Эти исследования важны с социальной точки зрения – они должны способствовать развитию научного миропонимания, научной культуры человеческого сообщества

4 Тезис: моделирование когнитивной эволюции – направление главного удара

Тезис: моделирование когнитивной эволюции – направление главного удара

когнитивных наук

Аргументация: Интеллект, мышление, логика - основа когнитивных, познавательных способностей человека «Зри в корень» - надо разобраться, как эти способности произошли Наиболее естественный подход к анализу причин происхождения интеллекта - анализ когнитивной эволюции, эволюции познавательных свойств биологических организмов с помощью математических и компьютерных моделей

5 Как вести исследования

Как вести исследования

Проследить весь путь биологической эволюции от простейших до человека, анализируя c помощью математических и компьютерных моделей, как на этом пути возникали свойства познания закономерностей природы в результате развития систем управления адаптивным поведением организмов. Важно исследовать именно функции поведения, архитектуры и принципы работы когнитивных «устройств», не акцентируя особое внимание на биологической элементной базе (молекулы, нейроны,…). Разумно использовать задел направлений исследований «Искусственная жизнь» и, особенно, «Адаптивное поведение»

6 Искусственная Жизнь "жизнь, какой она могла бы в принципе быть"

Искусственная Жизнь "жизнь, какой она могла бы в принципе быть"

Первая конференция: Лос-Аламос, 1987 г. (К. Лэнгтон). Основная цель – понять и промоделировать формальные принципы организации биологической жизни. К. Лэнгтон: “основное предположение искусственной жизни состоит в том, что «логическая форма» организма может быть отделена от материальной основы его конструкции”. Сторонники направления "Искусственная жизнь" часто считают, что они исследуют более общие формы жизни, чем те, которые существуют на Земле. Т.е. изучается жизнь, какой она могла бы в принципе быть ("life-as-it-could-be"), а не обязательно та жизнь, какой мы ее знаем ("life-as-we-know-it"). Предшественники: автоматы М.Л. Цетлина, проект "Животное" М.М. Бонгарда

7 Адаптивное Поведение From Animal to Animat – модели адаптивного

Адаптивное Поведение From Animal to Animat – модели адаптивного

поведения животного и робота

Первая конференция: Париж, 1990 г. (Ж.-А. Мейер, С. Вильсон) Основной подход – конструирование и исследование искусственных (в виде компьютерной программы или робота) "организмов" (аниматов, агентов), способных приспосабливаться к внешней среде. ANIMAL + ROBOT = ANIMAT Программа-минимум – исследовать архитектуры и принципы функционирования, которые позволяют животным или роботам жить и действовать в переменной внешней среде. Программа-максимум – попытаться проанализировать эволюцию когнитивных способностей животных и эволюционное происхождение человеческого интеллекта. Предшественник: книга Гаазе-Рапопорт М.Г., Поспелов Д.А. От амебы до робота: модели поведения. М.: Наука, 1987

8 Исследователи адаптивного поведения

Исследователи адаптивного поведения

AnimatLab (Париж, руководитель – один из инициаторов анимат-подхода Ж.-А. Мейер) Широкий спектр исследований адаптивных роботов и адаптивного поведения животных. Подход AnimatLab предполагает, что система управления анимата может формироваться и модифицироваться посредством 1) обучения, 2) индивидуального развития (онтогенеза) и 3) эволюции. http://animatlab.lip6.fr/index.en.html

9 Исследователи адаптивного поведения

Исследователи адаптивного поведения

Лаборатория искусственного интеллекта в университете Цюриха (руководитель Рольф Пфейфер) Основной подход – познание природы интеллекта путем его создания ("understanding by building"). Подход включает в себя 1) построение моделей биологических систем, 2) исследование общих принципов естественного интеллекта животных и человека, 3) использование этих принципов при конструировании роботов и других искусственных интеллектуальных систем. Pfeifer R., Scheier C., Understanding Intelligence. MIT Press, 1999. http://www.ifi.unizh.ch/groups/ailab/

10 Исследователи адаптивного поведения

Исследователи адаптивного поведения

Лаборатория искусственной жизни и роботики в Институте когнитивных наук и технологий (Рим, руководитель Стефано Нолфи) Исследования в области эволюционной роботики и принципов формирования адаптивного поведения. Nolfi S., Floreano D. Evolutionary Robotics: The Biology, Intelligence, and Technology of Self-Organizing Machines. Cambridge, MA: MIT Press/Bradford Books, 2000. http://gral.ip.rm.cnr.it/

11 Исследователи адаптивного поведения

Исследователи адаптивного поведения

Лаборатория искусственного интеллекта в Массачусетском технологическом институте (Родни Брукс) Исследования широкого спектра интеллектуальных и адаптивных систем, включая создание интеллектуальных роботов. Brooks R.A. Cambrian Intelligence: The Early History of the New AI. MIT Press, 1999. http://www.ai.mit.edu/

12 Исследователи адаптивного поведения

Исследователи адаптивного поведения

В.А. Непомнящих. Моделирование спонтанной активности животных на основе анимат-подхода А.А. Жданов. Схемы и модели автономного адаптивного управления на базе аппарата эмоций. Накопление знаний - одна главных компонент адаптивного управления А.И. Самарин. Самообучающиеся роботы (с 1970-х годов) К.В. Анохин. Нейробиологические подходы к исследованию аниматов Л.А. Станкевич. Первые в России антропоморфные роботы. Нейрологические архитектуры систем управления гуманоидных роботов на базе когнитивных агентов В.Г. Редько, М.С. Бурцев, О.П. Мосалов. Модели адаптивного поведения на базе эволюционных и нейросетевых подходов

13 Робот АРНЭ (Л

Робот АРНЭ (Л

А.Станкевич, СПГТУ, ОАО «Новая ЭРА», С-Петербург)

Первый в России антропоморфный робот АРНЭ (Антропоморфный робот организации Новая ЭРА), 2003 г. 61 кг , 123 см.

14 Робот АРНЭ (Л

Робот АРНЭ (Л

А.Станкевич, СПГТУ, ОАО «Новая ЭРА», С-Петербург)

15 Модель "Кузнечик"

Модель "Кузнечик"

Эволюционное формирование целенаправленного адаптивного поведения (М.С. Бурцев, Р.В. Гусарев, В.Г.Редько, 2000)

Имеется популяция агентов (искусственных организмов), имеющих потребность энергии и потребность размножения. Популяция эволюционирует в одномерной клеточной среде, в клетках может вырастать трава (пища агентов). Каждый агент имеет внутренний энергетический ресурс R , который пополняется при съедании травы и уменьшается при выполнении каких-либо действий. Уменьшение ресурса до нуля приводит к смерти агента. Агенты могут скрещиваться, рождая новых агентов. Потребности характеризуется количественно мотивациями. Поведение агента управляется однослойной нейронной сетью. Действия агента: 1) "отдыхать", 2) двигаться (на одну клетку) вправо или влево, 3) прыгать через несколько клеток, 4) питаться, 5) скрещиваться. Веса синапсов нейронной сети, управляющей поведением агента, составляют геном агента.

16 Агенты в одномерной клеточной среде

Агенты в одномерной клеточной среде

17 Мотивации агентов

Мотивации агентов

18 Нейронная сеть агента

Нейронная сеть агента

НС - система управления агента, 9 входов, 7 действий 63 веса синапсов - геном агента Оптимизация нейронной сети - эволюционным путем

19 Результаты моделирования

Результаты моделирования

1- агенты без мотиваций, 2 - агенты с мотивациями

20 Схема управления агента без мотиваций

Схема управления агента без мотиваций

21 Схема управления агента c мотивациями

Схема управления агента c мотивациями

22 Выводы по модели "Кузнечик"

Выводы по модели "Кузнечик"

Мотивации играют важную роль в исследованных эволюционных процессах. Популяция агентов с мотивациями имеет значительные эволюционные преимущества по сравнению с популяцией агентов без мотиваций. Управление поведением агента без мотиваций можно рассматривать как набор простых инстинктов, а управление агентом с мотивациями – как иерархическую систему управления, состоящую из двух уровней: уровня простых инстинктов и метауровня, обусловленного мотивациями. Возникновение этого метауровня аналогично переходу от простых рефлексов к сложным.

23 Развитие модели "Кузнечик" Возникновение иерархии целей (М

Развитие модели "Кузнечик" Возникновение иерархии целей (М

С. Бурцев, 2002)

Простой анимат в 2D клеточной среде

Действия анимата: двигаться вперед, поворачиваться направо или налево, есть, размножаться, бороться с другими аниматами. Система управления анимата - однослойная нейронная сеть, оптимизируемая эволюционным методом.

Анимат в клеточной среде. Стрелка показывает направление вперед, кружки - поле зрения анимата

24 Исходная структура целей

Исходная структура целей

25 Эволюционно сформированная иерархия целей (М

Эволюционно сформированная иерархия целей (М

С. Бурцев)

26 Проект "Мозг Анимата"

Проект "Мозг Анимата"

Версия на основе адаптивных критиков (В.Г. Редько, Д.В. Прохоров, К.В. Анохин, М.С. Бурцев, 2004)

Предшественники: П. К. Анохин, М.М. Бонгард и др. (проект «Животное»), Е.А.Умрюхин, В.Б. Швырков Данная версия - развитие первого варианта проекта «Мозг Анимата» (К.В. Анохин, М.С. Бурцев, И.Ю. Зарайская, А.О. Лукашев, В.Г. Редько, 2002) Первая версия основывалась на нейросетях, обучаемых методом обратного распространения ошибки. Такие нейросети обеспечивали прогнозы результатов действий.

27 Функциональная система по П.К. Анохину

Функциональная система по П.К. Анохину

28 Архитектура системы управления анимата

Архитектура системы управления анимата

ФС1, ФС2, … соответствуют ведущим потребностям: питание, размножение, безопасность, накопление знаний

29 Нейросетевые адаптивные критики

Нейросетевые адаптивные критики

Критики - ветвь обучения с подкреплением, один из методов приближенного динамического программирования Критик – блок системы управления, который оценивает качество ее работы.

Понятие "критик" ввел Бернард Видроу, 1973. Он и его коллеги применили метод критиков к простой карточной игре и показали, что обучение с критиком позволяет найти оптимальную стратегию игры путём проб и ошибок, без использования учителя.

Теория адаптивных критиков была развита в работах Пола Вербоса, Ричарда Саттона, Эндрью Барто, Данила Прохорова, Дональда Вюнша.

30 Обучение с подкреплением

Обучение с подкреплением

Цель анимата – максимизировать суммарную награду ?k rt+k+1 , получаемую за длительный период времени. В процессе обучения анимат формирует политику (policy). Политика определяет выбор (детерминированный или вероятностный) действия в зависимости от ситуации. Обучение с подкреплением может рассматриваться как развитие автоматной теории адаптации (М.Л. Цетлин и др.)

T = 1,2,… st – текущая ситуация, at – действие анимата, rt – подкрепление (положительное или отрицательное)

31 Схема V-критика

Схема V-критика

S(t) - ситуация spri(t+?) - прогноз ? - шаг по времени ai(t) - i-е действие V(S) - оценка качества (оценка суммарной награды) ситуации S

Critic и model - многослойные нейронные сети, блок critic показан для двух последовательных тактов времени

32 Работа V-критика

Работа V-критика

Задача V-критика - максимизировать суммарную награду:

, t = t0 , t1, t2 ,…

Модель делает прогноз следующего состояния Spri(t+?) для всех возможных действий ai , i =1,2,…, na . Каждое действие кодируется определенной комбинацией входов. Критик делает оценку V (S) величины R(t) для текущего состояния S(t), для всех прогнозируемых состояний Spri(t+?) и для следующего состояния S(t+?). V (S) - оценка качества ситуации S

33 Алгоритм V-критика

Алгоритм V-критика

1. Модель делает прогноз Spri(t+?) 2. Критик оценивает V (S(t)), V (Spri(t+?)) 3. Применяется ? - жадное правило и выбирается действие ak: k = arg maxi{ V(Spri(t+?))} с вероятностью 1- ? , k выбирается произвольно с вероятностью ?. 4. Действие ak выполняется

5. Оценивается подкрепление r(t). Происходит переход к следующему такту времени t+?. Критик оценивает V (S(t+?)). 6. Оценивается ошибка временной разности ?(t) = r(t) + ?V (S(t+?)) - V (S(t)) . 7. Обучаются Модель и Критик

34 Обучение V-критика

Обучение V-критика

Обучение проводится путем подстройки весов синапсов Модели и Критика градиентным методом Обучение Модели (уточнение прогноза): ?WM = ?M gradWM(Sprk(t+?))T(S(t+?)-Sprk(t+?)). Обучение Критика (уточнение оценок качества ситуации): ?WC = ?C ?(t) gradWС(V (t)) , WM , и WC - набор весов нейронных сетей Модели и Критика, ?M , ?C - параметры скоростей обучения.

35 Структура ФС

Структура ФС

36 Работа ФС, обычный режим

Работа ФС, обычный режим

В каждый момент времени активна только одна ФС. Часть действий - команды активизации суб-систем. 1. ФС активизируется командой от супер-системы. 2. Работают Модель и Критик, выбирается действие. 3. Если действие - команда на эффекторы, то ? = ?min , если действие - команда суб-системе, то ? > ?min. . 4. Оценивается подкрепление r(t) , проводится обучение. 5. Посылается отчет суперсистеме о завершении работы.

37 Работа ФС, чрезвычайный режим

Работа ФС, чрезвычайный режим

Чрезвычайный режим осуществляется, если прогноз существенно отличается от результата: || Sprk(tj) - S(tj) || > ? > 0. В этом случае считаем, что резко увеличивается поисковая деятельность анимата: возрастает интенсивность случайного поиска в данной ФС и ее суб-системах. Кроме того, возможна генерация и отбор новых случайных функциональных систем (суб-систем данной ФС), аналогично селекции нейронных групп в теории нейродарвинизма Г. Эдельмана. Возвращение в обычный режим происходит после нахождения удачного решения. Обучение в обычном режиме – тонкая настройка системы управления анимата, чрезвычайный режим – грубый поиск адекватного поведения в неожиданных ситуациях.

38 Надзор сверху

Надзор сверху

В данную схему управления поведением анимата несложно включить процедуру прерывания верхними уровнями работы нижних уровней иерархии функциональных систем, с помощью специальных связей между ФС. Например, если в ФС1, отвечающую за безопасность, поступил сигнал, характеризующий серьезную опасность для жизни анимата, а анимат занимался поиском "пищи" в дереве решений, "возглавляемом" ФС2, то ФС1 имеет право прервать работу ФС2 и дать команду на избежание опасности.

39 Дилемма стабильности/пластичности

Дилемма стабильности/пластичности

Если работа какой-либо ФС была надежно проверена, то естественно сделать копию данной ФС с нулевыми значениями параметров поиска и обучения ? , ?M , ?C и записать эту копию в долговременную память. Долговременная версия ФС имеет приоритет перед кратковременной, но если прогнозы долговременной ФС начинают отличаться от результатов, то управление передается обратно кратковременной ФС.

40 Какова могла бы быть первая реализация «Мозга анимата»

Какова могла бы быть первая реализация «Мозга анимата»

Простой анимат в 2D клеточной среде (М.С. Бурцев)

Действия анимата: двигаться вперед, поворачиваться направо или налево, есть, размножаться, бороться с другими аниматами. Система управления анимата - однослойная нейронная сеть, оптимизируемая эволюционным методом. Возникает естественная иерархия целей и подцелей.

Анимат в клеточной среде. Стрелка показывает направление вперед, кружки - поле зрения анимата

41 Эволюционно сформированная иерархия целей (М

Эволюционно сформированная иерархия целей (М

С. Бурцев)

42 План исследований на 2 года

План исследований на 2 года

Разработка схем и моделей адаптивного поведения на базе проекта «Мозг Анимата» Анализ целостного адаптивного поведения простых агентов, имеющих естественные потребности: питания, размножения, безопасности. Воспроизведение схем иерархического управления, полученных путем эволюционного моделирования М.С. Бурцевым. Исследование принципов обучения анимата на основе адаптивных критиков с переключаемыми режимами а) грубого стохастического поиска и б) тонкой подстройки параметров системы управления анимата путем градиентной подстройки весов нейросетей. Решение дилеммы «стабильность/пластичность» с помощью адаптивных критиков, ответственных за кратковременную и долговременную память. Анализ «интеллектуальных изобретений» биологической эволюции (привыкание, условные рефлексы, …) на основе исследований проекта «Мозг анимата».

43 Контуры плана исследований на 20 лет

Контуры плана исследований на 20 лет

Разработка схем и моделей адаптивного поведения на базе проекта «Мозг Анимата» Исследование перехода от физического уровня обработки информации в нервной системе животных к уровню обобщенных образов, уровню понятий (аналогов слов) Исследование процессов формирования причинной связи в памяти животных. Например, связи между условным стимулом (УС) и следующим за ним безусловным стимулом (БС). Анализ роли прогнозов в адаптивном поведении Исследование процессов формирования логических выводов в «сознании» животных. {УС, УС --> БС} => БС – аналог modus ponens Исследование коммуникаций, процессов возникновения языка

44 Литература

Литература

Редько В.Г. Эволюционная кибернетика. М.: Наука, 2001, 156 с. Непомнящих В.А. Поиск общих принципов адаптивного поведения живых организмов и аниматов // Новости искусственного интеллекта. 2002. N. 2. С. 48-53. Sutton R., Barto A. Reinforcement Learning: An Introduction. – Cambridge: MIT Press, 1998. Learning and Approximate Dynamic Programming, IEEE Press, July, 2004. Red'ko V.G. Evolution of cognition: Towards the theory of origin of human logic // Foundations of Science. 2000, Vol.5. N. 3. PP. 323-338. Редько В.Г., Прохоров Д.В. Нейросетевые адаптивные критики // "Нейроинформатика-2004". Часть 2. С.77-84.

45 Некоторые ссылки

Некоторые ссылки

Сайт В.Г. Редько: http://www.keldysh.ru/pages/BioCyber/ Лекции «Эволюционная кибернетика» (1999): http://www.keldysh.ru/pages/BioCyber/Lectures.html Сайт М.С. Бурцева: http://mbur.narod.ru/ Сайт Д.В. Прохорова: http://mywebpages.comcast.net/dvp/ Сайт Р. Саттона: http://www.cs.ualberta.ca/~sutton/sutton.html Sutton R., Barto A. Reinforcement Learning: An Introduction: http://www.cs.ualberta.ca/~sutton/book/the-book.html Подборка наших последних публикаций: http://wsni2003.narod.ru/RFFI/Project.htm Данная презентация (800 Кбайт): http://wsni2003.narod.ru/TMP/RedkoCog.ppt http://wsni2003.narod.ru/TMP/RedkoCog.zip

46 Ассоциация Нейроинформатики

Ассоциация Нейроинформатики

Ассоциация Нейроинформатики -- клуб ученых-нейросетевиков, в основном с физ.-мат. образованием. Ежегодные конференции по Нейроинформатике в МИФИ Семинар «Нейроинтеллект» на Национальных конференциях по Искусственному интеллекту (КИИ-2002, 2004). Сборник «От моделей поведения к искусственному интеллекту» -- на базе круглых столов и рабочих совещаний Нейроинформатики-2002, 2003: http://www.keldysh.ru/pages/BioCyber/RT/Papers.htm http://www.keldysh.ru/pages/BioCyber/Letters/Letters.htm http://wsni2003.narod.ru http://rtni2003.narod.ru

«Модели адаптивного поведения - задел исследований когнитивной эволюции»
http://900igr.net/prezentacija/psikhologija/modeli-adaptivnogo-povedenija-zadel-issledovanij-kognitivnoj-evoljutsii-112321.html
cсылка на страницу

Правила поведения

6 презентаций о правилах поведения
Урок

Психология

42 темы
Слайды
900igr.net > Презентации по психологии > Правила поведения > Модели адаптивного поведения - задел исследований когнитивной эволюции