1 Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина), ул. Профессора Попова, 5, г. Санкт-Петербург, 197376, Россия Статья посвящена разработке и исследованию алгоритмов машинного обучения в задаче обучения интеллектуаль-ных агентов в среде Atari, представляющей эмуляцию игровой консоли Atari2600 при помощи платформы OpenAI Gym. Основные цели исследования -описание и сравнение современных алгоритмов обучения с подкреплением в различных ситуациях, выявление их достоинств и недостатков, а также формирование предложений по повышению эффективности этих алгоритмов.Авторы описывают математическую модель задачи обучения с подкреплением в виде марковского процесса при-нятия решений и формируют критерий оптимальности системы. Отдельно отмечены особенности, характерные для среды Atari.Описаны принцип работы существующих решений, а также использующиеся в них инструменты. Рассмотрены базовый подход Q-обучения и его известная модификация с использованием нейронной сети. Представлена идея ал-горитма на основе градиента по стратегиям. Дано описание подхода алгоритмов типа «актор-критик», а также рас-смотрена его асинхронная многопоточная версия. Все рассмотренные алгоритмы описаны в виде псевдокода.Предложен способ повышения эффективности обучения с помощью выделения признаков. Разработан алгоритм генерации вектора признаков на основе распознавания образов. Описаны этапы формирования вектора признаков и его использования в процессе обучения.Алгоритмы реализованы, проведен эксперимент с их использованием. Выполнен сравнительный анализ результа-тов и получены выводы об эффективности алгоритмов. Предложены идеи по дальнейшему увеличению скорости и качества обучения интеллектуальных агентов.
Ключевые слова: Atari, интеллектуальные агенты, обучение с подкреплением, Q-обучение, градиент по страте-гиям, асинхронный актор-критик, распознавание образов, выделение признаков.Интеллектуальными агентами принято назы-вать самообучающиеся программы, способные иг-рать в классические и видеоигры. Согласно [1], «агентом является все, что может рассматриваться как воспринимающее свою среду с помощью дат-чиков и воздействующее на эту среду с помощью исполнительных механизмов». Интеллектуальные агенты способны моделировать поведение чело-века в задачах сбора и обработки информации, при этом они могут активно перемещаться внутри ин-формационного пространства в направлении цели.Одной из платформ, позволяющих проводить разработку и исследование алгоритмов машинного обучения, является OpenAI Gym, включающая в себя возможность эмуляции игровой консоли Atari2600. В качестве входных данных среда Atari предоставляет последовательность изображений экрана размера 210×160 пикселей, а также общий игровой счет и индикатор победы или поражения. На основе описанных входных данных агент дол-жен выбрать одно из возможных действий с помо-щью обучения с подкреплением -машинное обу-чение, направленное на решение задачи принятия решения о выборе действия в заданной ситуации таким образом, чтобы максимизировать выгоду...