Сейчас читают

Ученые разработали самообучающийся ИИ, способный играть во все игры

Опубликовано 07 декабрь 2018.

Создатели революционной самообучающейся системы искусственного разума AlphaGo Zero сообщили о появлении новой версии этой машины, способной самостоятельно учиться играть в любую настольную игру и обыгрывать человека. Ее описание было представлено в журнале Science.

"Люди учились играть в шахматы, го, сёги и многие другие игры сотни и тысячи лет. AlphaZero самостоятельно достигла вершин мастерства во всех этих играх без какой-либо помощи с нашей стороны. Моя мечта — создать такую же систему, которая бы не просто умела играть, но и решать повседневные задачи, к примеру, создавала бы новые лекарства", — заявил Дэвид Сильвер (David Silver), главный разработчик компании DeepMind.

Глубины разума

Система ИИ AlphaGo была разработана Дэвидом Сильвером и его коллегами в конце 2014 года, и ее работа была "протестирована" на чемпионе Европы Фане Хое (Fan Hui), который проиграл все пять матчей машине. В марте 2016 года AlphaGo победил чемпиона мира по го, Ли Седола, в серии из пяти матчей, только один из которых завершился победой человека.

Сильвер и его коллеги смогли достичь этих успехов, построив свой ИИ на базе не одной, а сразу двух нейронных сетей – особых алгоритмов, имитирующих работу цепочек нейронов в мозге человека. Одна из них отвечает за оценку текущей позиции на доске, а вторая использует результаты анализа, подготовленные первой сетью, для того чтобы выбирать следующий шаг.
Следующим логическим шагом в развитии AlphaGo стала ликвидация главного недостатка всех существующих сегодня нейросетей и систем искусственного интеллекта – необходимости обучать их тому, что они должны делать, используя огромные архивы данных, вручную обработанные человеком, или при непосредственном участии человека, как это происходило на первых этапах развития AlphaGo.

Сильвер и его команда решили эту задачу, создав принципиально новую нейронную сеть, которая базируется на так называемых алгоритмах обучения с подкреплением. Эта нейросеть, в отличие от ее звездного предшественника, который изначально обучался в играх с добровольцами и имел некоторые встроенные примитивные стратегии игры, начала свою работу с состояния абсолютного новичка с нулевым багажом знаний.

Иными словами, ей были известны лишь правила игры в го, начальные условия и условия победы, и затем компьютер самостоятельно учился играть в эту древнекитайскую стратегию, играя сам с собой и действуя методом проб и ошибок. Единственным ограничением в ее работе было максимальное время на обдумывание хода – оно составляло примерно 0,4 секунды.

После каждой подобной игры, система ИИ анализировала все свои ходы и запоминала те, которые приближали одну из ее "половинок" ее к победе, и заносила в своеобразный "черный список" те шаги, которые были откровенно проигрышными. Используя эти данные, нейросеть перестраивала себя, постепенно достигнув того уровня, на который вышла первая версия AlphaGo перед серией игр с Ли Седолом.

Переход на алгоритмы самообучения не только позволил AlphaGo Zero превзойти уровень своей предшественницы и обыграть ее со счетом 100-0, но и улучшил многие другие аспекты ее работы. В частности, процесс ее обучения занял всего три дня и примерно пять миллионов игр, что было на порядок меньше запросов первой версии ИИ.

Путь к совершенству

Успешное завершение экспериментов с AlphaGo Zero заставило Сильвера и его команду задуматься о том, можно ли применить аналогичную нейросеть для завоевания короны чемпиона в других типах стратегических и настольных игр.

Для этого ученые встроили в AlphaGo Zero еще один новый элемент – эвристические алгоритмы случайного поиска решений, а также код, учитывавший существование ничьи в некоторых играх. Вдобавок, новая версия "альфы" непрерывно совершенствовала свою структуру, а не обновлялась этапами, как ее предшественница.

Эти относительно простые изменения, как показали дальнейшие опыты, значительно повысили скорость самообучения этой системы искусственного разума и превратили ее в универсальную машину, способную играть во все виды настольных стратегий.

Ее работу ученые проверили на трех типах игр – го, обычных шахматах и их японской разновидности, сёги. Во всех трех случаях новое детище Сильвера достигло уровня гроссмейстера меньше чем за миллион игр, достигнув почти человеческой избирательности при выборе возможных ходов всего за 9-12 часов тренировок для шахмат, и за 13 дней для го.

Еще раньше она обыграла самые совершенные компьютерные программы, играющие в эти игры – алгоритм Stockfish "сдался" на четвертый час тренировки AlphaZero, а система Elmo, текущий чемпион в сёги, протянул всего два часа. И наконец, первая версия AlphaGo начала уступать ее "внуку" примерно на 30 часу его обучения.

Следующими "жертвами" AlphaZero, как отметили ученые, могут стать "настоящие" компьютерные игры, такие как Starcraft II и Dota 2. Взятие чемпионства в подобных киберспортивных дисциплинах, по их мнению, откроет дорогу для проникновения самообучающихся ИИ в менее формализуемые области науки, культуры и техники.

Новости СМИ2