27.11.2021
Наш канал в Telegram: https://t.me/berzaru

Искусственный интеллект научился побеждать в играх, изучая их правила с нуля

MuZero DeepMind

Программа с искусственным интеллектом MuZero стартапа DeepMind научилась одинаково хорошо играть как в шахматы, так и в компьютерные игры. Это удалось ей благодаря способности учить правила игры с нуля и при этом планировать свои действия. Статью с описанием достижения опубликовал научный журнал Nature.

Стартап DeepMind, который раньше был частью компании Google, уже много лет лидирует в разработке систем «игрового» искусственного интеллекта на основе глубинных нейросетей и методов машинного обучения. Пять лет назад они стали известны всему миру благодаря AlphaGo – первой программе на основе искусственного интеллекта, которая обыграла чемпиона Европы по игре в древнекитайскую настольную игру Го, которую раньше считали слишком сложной для компьютеров.

Новая версия этой программы, AlphaZero, научилась совершенствоваться без участия человека, играя сама с собой. Она освоила и другие игры – обычные и японские шахматы, компьютерную стратегию Starcraft II и шутер Quake 3 Arena.

Подобных успехов учёные добились благодаря тому, что их программы основываются сразу на двух нейронных сетях – компьютерных алгоритмах, которые имитируют работу цепочек нейронов в мозге человека. Одна из этих нейросетей оценивает текущую позицию игрока на доске или поле, а вторая использует результаты первой, чтобы выбирать следующий шаг и ускорять расчёты, отсеивая невозможные варианты.

В последние два года глава DeepMind Дэвид Сильвер и его коллеги попытаются адаптировать эти подходы для создания искусственного интеллекта, который смог бы играть в «Пакмэна» и другие классические компьютерные игры, которые появились в 1970 и 1980 годах для первых компьютеров. В начале 2020 года они решили эту задачу. Но их программа Agent57 не смогла научиться играть в Го и шахматы на гроссмейстерском уровне из-за того, что не могла планировать свои действия.

Другая программа DeepMind – MuZero – лишена этого недостатка. Она может отслеживать закономерности в том, что происходит во время игры при совершении тех или иных действий и использовать эти наблюдения, чтобы «придумывать» стратегию поведения и планировать действия, которые помогают ей предсказывать, что будет происходить в игре. Программа непрерывно меняет эту модель поведения и корректирует её с каждым событием в игровом мире. Благодаря этому MuZero может приспосабливаться к изменениям в нём.

Первые опыты с относительно простой версией MuZero, которая может «думать» на пять шагов вперёд, показали, что она достигла уровня AlphaZero в шахматах, Го и других настольных играх, а также превзошла все существующие нейросети, кроме Agent57, при игре в «Пакмэна» и почти все остальные компьютерные игры. Для этого ей нужно было всего 12 часов тренировок и 800 миллионов игровых сессий.

Учёные предполагают, что подобный подход можно использовать не только для создания программ для игр, но и для решения сложных задач в реальном мире, которые невозможно идеально воспроизводить в виртуальной реальности.