Ученые создали самообучающийся ИИ, способный играть во все игры

МОСКВА, 6 дек – РИА Новости. Разработчики революционной самообучающейся системы искусственного разума AlphaGo Zero объявили о создании новой версии этой машины, способной самостоятельно учиться играть в любую настольную игру и обыгрывать человека. Ее описание было представлено в журнале Science.

«Люди учились играть в шахматы, го, сёги и многие другие игры сотни и тысячи лет. AlphaZero самостоятельно достигла вершин мастерства во всех этих играх без какой-либо помощи с нашей стороны. Моя мечта — создать такую же систему, которая бы не просто умела играть, но и решать повседневные задачи, к примеру, создавала бы новые лекарства», — заявил Дэвид Сильвер (David Silver), главный разработчик компании DeepMind.

Глубины разума

Система ИИ AlphaGo была разработана Дэвидом Сильвером и его коллегами в конце 2014 года, и ее работа была «протестирована» на чемпионе Европы Фане Хое (Fan Hui), который проиграл все пять матчей машине. В марте 2016 года AlphaGo победил чемпиона мира по го, Ли Седола, в серии из пяти матчей, только один из которых завершился победой человека.Сильвер и его коллеги смогли достичь этих успехов, построив свой ИИ на базе не одной, а сразу двух нейронных сетей – особых алгоритмов, имитирующих работу цепочек нейронов в мозге человека. Одна из них отвечает за оценку текущей позиции на доске, а вторая использует результаты анализа, подготовленные первой сетью, для того чтобы выбирать следующий шаг.

Следующим логическим шагом в развитии AlphaGo стала ликвидация главного недостатка всех существующих сегодня нейросетей и систем искусственного интеллекта – необходимости обучать их тому, что они должны делать, используя огромные архивы данных, вручную обработанные человеком, или при непосредственном участии человека, как это происходило на первых этапах развития AlphaGo.

Сильвер и его команда решили эту задачу, создав принципиально новую нейронную сеть, которая базируется на так называемых алгоритмах обучения с подкреплением. Эта нейросеть, в отличие от ее звездного предшественника, который изначально обучался в играх с добровольцами и имел некоторые встроенные примитивные стратегии игры, начала свою работу с состояния абсолютного новичка с нулевым багажом знаний.

Ее работу ученые проверили на трех типах игр – го, обычных шахматах и их японской разновидности, сёги. Во всех трех случаях новое детище Сильвера достигло уровня гроссмейстера меньше чем за миллион игр, достигнув почти человеческой избирательности при выборе возможных ходов всего за 9-12 часов тренировок для шахмат, и за 13 дней для го.Еще раньше она обыграла самые совершенные компьютерные программы, играющие в эти игры – алгоритм Stockfish «сдался» на четвертый час тренировки AlphaZero, а система Elmo, текущий чемпион в сёги, протянул всего два часа. И наконец, первая версия AlphaGo начала уступать ее «внуку» примерно на 30 часу его обучения.Следующими «жертвами» AlphaZero, как отметили ученые, могут стать «настоящие» компьютерные игры, такие как Starcraft II и Dota 2. Взятие чемпионства в подобных киберспортивных дисциплинах, по их мнению, откроет дорогу для проникновения самообучающихся ИИ в менее формализуемые области науки, культуры и техники.

Иными словами, ей были известны лишь правила игры в го, начальные условия и условия победы, и затем компьютер самостоятельно учился играть в эту древнекитайскую стратегию, играя сам с собой и действуя методом проб и ошибок. Единственным ограничением в ее работе было максимальное время на обдумывание хода – оно составляло примерно 0,4 секунды.После каждой подобной игры, система ИИ анализировала все свои ходы и запоминала те, которые приближали одну из ее «половинок» ее к победе, и заносила в своеобразный «черный список» те шаги, которые были откровенно проигрышными. Используя эти данные, нейросеть перестраивала себя, постепенно достигнув того уровня, на который вышла первая версия AlphaGo перед серией игр с Ли Седолом.Переход на алгоритмы самообучения не только позволил AlphaGo Zero превзойти уровень своей предшественницы и обыграть ее со счетом 100-0, но и улучшил многие другие аспекты ее работы. В частности, процесс ее обучения занял всего три дня и примерно пять миллионов игр, что было на порядок меньше запросов первой версии ИИ.

Путь к совершенству

Успешное завершение экспериментов с AlphaGo Zero заставило Сильвера и его команду задуматься о том, можно ли применить аналогичную нейросеть для завоевания короны чемпиона в других типах стратегических и настольных игр.Для этого ученые встроили в AlphaGo Zero еще один новый элемент – эвристические алгоритмы случайного поиска решений, а также код, учитывавший существование ничьи в некоторых играх. Вдобавок, новая версия «альфы» непрерывно совершенствовала свою структуру, а не обновлялась этапами, как ее предшественница.Эти относительно простые изменения, как показали дальнейшие опыты, значительно повысили скорость самообучения этой системы искусственного разума и превратили ее в универсальную машину, способную играть во все виды настольных стратегий.

Источник 

Автор публикации

не в сети 1 неделя

СТАС

4
Комментарии: 0Публикации: 218Регистрация: 19-09-2017

Добавить комментарий

Войти с помощью: 
Авторизация
*
*
Войти с помощью: 
Регистрация
*
*
*
Пароль не введен
*
Войти с помощью: 
Генерация пароля