Команда OpenAI опубликовала результаты исследования машинного обучения с подкреплением, основанного на вознаграждении за правильные предсказания. Учёные представили метод тренировки ИИ-агентов RND (Random Network Distillation). При сохранении современных показателей эффективности он помогает модели проходить игру Montezuma’s Revenge лучше человека, причём без опоры на демонстрационные видео или доступа к дополнительным данным о механике игры.
Вызов Montezuma’s Revenge
В Montezuma’s Revenge игрок бродит по лабиринту, собирая сокровища, ключи к разным комнатам и избегая ловушек. Команда DeepMind также обучала ИИ справляться с этой игрой, но другим способом — с помощью YouTube-роликов, на которых Montezuma’s Revenge проходили люди. Нейросеть «просматривала» их и брала на вооружение выигрышные ходы и тактики.
OpenAI хотела, чтобы агенты справлялись самостоятельно, движимые внутренним мотивом исследовать окружающую среду. Однако обычные «любопытные» ИИ-агенты плохо справляются с задачей сбора целевых артефактов и решением загадок.
Проблема «любопытства»
В предыдущем исследовании команда OpenAI представила метод обучения с подкреплением за правильное предсказание будущего — реализация «любопытства». Однако у него обнаружились слабости. К примеру, ИИ-агент застывал перед экраном, на котором бессистемно менялись кадры. Модель не могла предсказать, что произойдёт дальше, поэтому оставалась прикованной к такому телевизору.
Эту проблему исследователи решили с помощью метода RND. Простыми словами, он заставляет ИИ «интересоваться» случайными предметами на экране и таким образом отвлекаться от телевизионного шума.
Системы вознаграждения RND
Исследователи OpenAI объединили внутреннюю систему подкреплений с внешней, которая основана на разновидности обучающего алгоритма Proximal Policy Optimization. Это мотивирует ИИ не только исследовать игровой мир, но и получать очки за сбор артефактов и избегание препятствий.
С помощью RND ИИ-агенты не только прошли первый уровень Montezuma’s Revenge, но и сделали это лучше человека. Они набирали около 10 тысяч очков за девять заходов, тогда как у людей средний показатель — 4 тысячи.
Учёные планируют развивать этот метод — анализировать способы, которыми ИИ исследует мир, комбинировать их, а также тренировать ИИ-агентов в средах, не предлагающих наград, и пробовать переносить этот опыт на целевые игры.
Искусственное «любопытство» развивает не только OpenAI. В октябре 2018 года несколько компаний и университетов начали разрабатывать самообучаемый ИИ — Curious Minded Machine. Они рассчитывают, что модель сама будет познавать мир, искать способы взаимодействия с объектами в нём, а в будущем — помогать человеку принимать более эффективные решения.
Источник: