Обучение ИИ в играх может привести к нахождению ошибок

Ранее в этом году прошёл конкурс The OpenAI Retro Contest в области обучения искуственного интеллекта. Участникам необходимо было создать алгоритм действий для ИИ, который должен был пройти оригинальный Sonic the Hedgehog, набрав максимальное количество очков.

Благодаря исследованию выяснилось, что ИИ в некоторых ситуациях способен находить эксплойты в игре и пользоваться быстрыми переходами. Кроме того, в игре Qbert компьютер обнаружил баг, благодаря которому ИИ удалось заставить игру набирать очки.

В игре NERO 2000-ых годов исследование ИИ также показало, что компьютер способен находить лазейки в игровом движке. В одном конкретном матче роботы эволюционировали, чтобы найти способ выбраться из стен, построенных игроками. Компьютер начал ходить туда-сюда, пока не обнаружил эксплойт.

Что касается конкурса Retro Contest, то на участие в нем записались 934 команды, но лишь 229 представили свои результаты в таблице лидеров. Авторы выбрали 10 лучших и представили для прохождения 11 пользовательских уровней. Результаты выносились на основе трёх попыток.

Победу одержала команда из Китая — Dharmaraja. Обучение ИИ основано на нескольких правилах: использование RGB-изображения вместо оттенков серого и применение слега расширенного пространства действий с частыми комбинациями кнопок. Кроме этих изменений, Dharmaraja использовала DeepMimic и обнаружение объектов с использованием машинного обучения YOLO.

Источник: shazoo.ru