ШІ Google тренується на «Помсті Монтесуми»
Наука і техніка
ШІ Google тренується на «Помсті Монтесуми»
16:15 08.06.2016
477
Розповісти друзям

Раніше повідомлялося, що у корпорації Google допускають імовірність бунту роботів і готуються його запобігти. Днями пошуковик опублікував документ, в якому детально розписана робота його підрозділу Deep Mind по створенню «кнопки стоп», яка скасує бунт роботів.

Йдеться про захисну програмну платформу, яка не дасть штучному розуму з'ясувати, як можна запобігти або викликати вимирання людства незалежно від його дій.

«Процедура безпечного завершення роботи може стати в нагоді для відновлення контролю над роботом, який веде себе неналежним чином, допоможе вийти з делікатної ситуації або стати тимчасовим засобом досягнення тієї чи іншої мети», — пишуть дослідники, що працюють над створенням «стоп-кнопки».

При цьому фахівці Deep Mind не приховують, що існує ще чимало невирішених завдань на шляху до впровадження захисної системи.

Помста Монтесуми

Коли «Помста Монтесуми» з'явилася в 1984 році, гра вважалася однією з найскладніших відеоігор на ігровій консолі. Тепер, при навчанні машин дослідники ШІ створили алгоритм, який насправді мотивує героя цієї класичної відеоігри в деяких дуже важливих аспектах і це дивно ефективно.

Той, хто коли-небудь грав в «Помсту Монтесуми» знає, яким розчаруванням ця гра може бути насправді. Автори нового дослідження описали проблеми наступним чином:

«„Помста Монтесуми“ сумно відома її ворожим невблаганним середовищем: агент [Panama Joe] повинен переміщатися лабіринтом, що складається з різних кімнаток, кожна з яких заповнена кількістю пасток. Ці місця розташовані на різній відстані одна від одної, що робить практично неможливим пройти її для новачків. Ця старовинна гра важка для людей, не кажучи вже про штучний інтелект. На сьогоднішній день вона займає сотні мільйонів окремих кадрів для ШІ, щоб досягти навіть найменших рівнів продуктивності, і в кращому випадку вони здатні пройти тільки два або три осередки — з 72».

DeepMind, підрозділ компанії Google, намагається пройти гру протягом досить тривалого часу. У минулому році Google оголосила, що її система Deep Q була здатна перемогти 49 ігор Atari, просто спостерігаючи за ними. Але «Помста Монтесуми» являє собою повністю інше завдання. Як повідомили в Wired в той час, Deep Q була нездатна досягти будь-якого роду прогресу в грі, тим самим збільшивши рахунок на нуль. Питання, як зазначив Дейв Гершгорн в Popular Science, полягає в тому, що для того, щоб досягти успіху в цій грі, гравці повинні спланувати, як очистити кімнату, а після виконати цей план».

З цією метою, і в своїй останній спробі, нарешті, створити агента, який може, принаймні, частково досягти успіху в «Помсті Монтесуми», дослідники DeepMind наділили Панаму Джо тим, що називається «внутрішньою мотивацією».

В основному, головний герой цифрової пригоди навчається, щоб вирішити кожен рівень аналогічно тому, як люди роблять це, і робиться це за допомогою новизни — на основі винагороди. Панама Джо «мотивований» не тільки, щоб виграти гру, але і досліджувати більше гри. У кожному епізоді він пробує щось інше, і це часто породжує нові рішення і в кінцевому рахунку — успіх.

Звичайно, Джо насправді не володіє самосвідомістю, як людина. Швидше за все, він проходить через стимули серії цифрових нагород. Це допомагає йому вчитися швидше.

В одному прикладі (відео вище) Панамі Джо насправді вдається вирішити весь рівень всього за чотири спроби. І в порівняльному аналізі агентів, запрограмованих з використанням і без цього так званої штучної цікавості, внутрішньо вмотивований Джо досліджував 15 номерів з 24, в той час як невмотивований Джо досліджував тільки два.

Працюючи таким чином, в так званих аркадних Learning Environments, дослідники сподіваються зробити алгоритми, які можуть бути застосовані до реального світу. В майбутньому, подібні мотивації, може, допоможуть роботам і іншим автономним пристроям навігації і досліджувати їх світи подібним чином.

Читайте також: Google працює над новим типом алгоритму під назвою «вектори думки»

Google работает над новым типом алгоритма под названием «мысленные векторы

Цікаве в розділах на сайті
Перлини української класики (збірник)
Леся Українка Іван Якович Франко Михайло Михайлович Коцюбинський Тарас Григорьевич Шевченко Василь Стефаник Микола Хвильовий Григорій Квітка-Основ’яненко Iван Нечуй-Левицький
Бриджит Джонс 3
2016, Великобритания, Ирландия, США, Франция