ИИ Google тренируется на «Мести Монтесумы»
Наука и техника
ИИ Google тренируется на «Мести Монтесумы»
16:15 08.06.2016
478
Рассказать друзьям

Ранее сообщалось, что в корпорации Google допускают вероятность бунта роботов и готовятся его предотвратить. На днях поисковик опубликовал документ,  в котором подробно расписана работа его подразделения Deep Mind по созданию «кнопки стоп», которая отменит бунт роботов.

Речь шла о защитной программной платформе, которая не даст искусственному разуму выяснить, как можно предотвратить или вызвать вымирание человечества вне зависимости от его действий.

«Процедура безопасного завершения работы может пригодиться для восстановления контроля над роботом, который ведёт себя ненадлежащим образом, поможет выйти из щекотливой ситуации или стать временным средством достижения той или иной цели», — пишут исследователи, работающие над соданием «стоп-кнопки».

При этом специалисты Deep Mind не скрывают, что существует ещё немало нерешённых задач на пути ко внедрению защитной системы. 

Отметим, что именно DeepMind создала компьютерную программу AlphaGo, которая победила в древнекитайскую игру го чемпиона Европы по этой дисциплине Фаня Хуэя. Причём сделала это с разгромным счетом 5:0. В этом событии нет, на первый взгляд, ничего странного: ранее компьютер уже побеждал человека в шашки и шахматы. Но дело в том, что в го почти никак нельзя перебрать все возможные комбинации. Поэтому ИИ сложно предсказать дальнейший вариант развития событий. До конца года интеллект сыграет с другим чемпионом.

Месть Монтесумы

Когда «Месть Монтесумы» появилась в 1984 году, игра считалась одной из самых сложных видеоигр на игровой консоли. Теперь, при обучении машин исследователи ИИ создали алгоритм, который на самом деле мотивирует героя этой классической видеоигры в некоторых очень важных аспектах и это удивительно эффективно.

Любой, кто когда-либо играл в «Месть Монтесумы» знает, каким разочарованием эта игра может быть. Авторы нового исследования описали проблемы следующим образом:

«„Месть Монтесумы“, печально известная её враждебной неумолимой средой: агент [Panama Joe] должен перемещаться по лабиринту, состоящему из различных ячеек, каждая из которых заполнена ловушками. Эти места расположены на разном расстоянии друг от друга, что делает практически невозможным прохождение её для новичков. Эта старинная игра трудна для людей, не говоря уже об искусственном интеллекте. На сегодняшний день она занимает сотни миллионов отдельных кадров для ИИ, чтобы достичь даже малейших уровней производительности, и в лучшем случае они способны пройти только две или три ячейки — из 72».

DeepMind, подразделение компании Google, пытается пройти игру в течение довольно продолжительного времени. В прошлом году Google объявила, что её система Deep Q была способна победить 49 игр Atari, просто наблюдая за ними. Но «Месть Монтесумы» представляет собой полностью иную задачу. Как сообщили в Wired в то время, Deep Q была неспособна достичь любого рода прогресса в игре, тем самым увеличив счёт на ноль. Вопрос, как отметил Дэйв Гершгорн в Popular Science, заключается в том, что для того, чтобы преуспеть в этой игре, игроки должны спланировать, как очистить комнату, а после выполнить этот план».

С этой целью, и в своей последней попытке, наконец, создать агента, который может, по крайней мере, частично преуспеть в «Мести Монтесумы», исследователи DeepMind наделили Панаму Джо тем, что называется «внутренней мотивацией».

В основном, главный герой нашего цифрового приключения обучается, чтобы решить каждый уровень аналогично тому, как люди делают это, и делается это с помощью нововведения — на основе вознаграждения. Панама Джо «мотивирован» не только, чтобы выиграть игру, но и исследовать больше игры. В каждом эпизоде ​​он пробует что-то другое, и это часто порождает новые решения и в конечном счёте — успех.

Конечно, Джо на самом деле не обладает самосознанием, как человек. Скорее всего, он проходит через стимулы серии цифровых наград. Это помогает ему учиться быстрее.

В одном примере (видео выше) Панаме Джо на самом деле удаётся решить весь уровень всего за четыре попытки. И в сравнительном анализе агентов, запрограммированных с использованием и без этого так называемого искусственного любопытства, внутренне мотивированый Джо исследовал 15 номеров из 24, в то время как немотивированный Джо исследовал только два.

Работая таким образом, в так называемых аркадных Learning Environments, исследователи надеются произвести алгоритмы, которые могут быть применены к реальному миру. В будущем, подобные мотивации, может, помогут роботам и другим автономным устройствам навигации и исследовать их миры подобным образом.

Читайте также: Google работает над новым типом алгоритма под названием «мысленные векторы»

Google работает над новым типом алгоритма под названием «мысленные векторы

Фото: elitefon.ru

Интересное в разделах на сайте
Перлини української класики (збірник)
Леся Українка Іван Якович Франко Михайло Михайлович Коцюбинський Тарас Григорьевич Шевченко Василь Стефаник Микола Хвильовий Григорій Квітка-Основ’яненко Iван Нечуй-Левицький