1 Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина), ул. Профессора Попова, 5, г. Санкт-Петербург, 197376, Россия Статья посвящена разработке и исследованию алгоритмов машинного обучения в задаче обучения интеллектуаль-ных агентов в среде Atari, представляющей эмуляцию игровой консоли Atari2600 при помощи платформы OpenAI Gym. Основные цели исследования -описание и сравнение современных алгоритмов обучения с подкреплением в различных ситуациях, выявление их достоинств и недостатков, а также формирование предложений по повышению эффективности этих алгоритмов.Авторы описывают математическую модель задачи обучения с подкреплением в виде марковского процесса при-нятия решений и формируют критерий оптимальности системы. Отдельно отмечены особенности, характерные для среды Atari.Описаны принцип работы существующих решений, а также использующиеся в них инструменты. Рассмотрены базовый подход Q-обучения и его известная модификация с использованием нейронной сети. Представлена идея ал-горитма на основе градиента по стратегиям. Дано описание подхода алгоритмов типа «актор-критик», а также рас-смотрена его асинхронная многопоточная версия. Все рассмотренные алгоритмы описаны в виде псевдокода.Предложен способ повышения эффективности обучения с помощью выделения признаков. Разработан алгоритм генерации вектора признаков на основе распознавания образов. Описаны этапы формирования вектора признаков и его использования в процессе обучения.Алгоритмы реализованы, проведен эксперимент с их использованием. Выполнен сравнительный анализ результа-тов и получены выводы об эффективности алгоритмов. Предложены идеи по дальнейшему увеличению скорости и качества обучения интеллектуальных агентов. Ключевые слова: Atari, интеллектуальные агенты, обучение с подкреплением, Q-обучение, градиент по страте-гиям, асинхронный актор-критик, распознавание образов, выделение признаков.Интеллектуальными агентами принято назы-вать самообучающиеся программы, способные иг-рать в классические и видеоигры. Согласно [1], «агентом является все, что может рассматриваться как воспринимающее свою среду с помощью дат-чиков и воздействующее на эту среду с помощью исполнительных механизмов». Интеллектуальные агенты способны моделировать поведение чело-века в задачах сбора и обработки информации, при этом они могут активно перемещаться внутри ин-формационного пространства в направлении цели.Одной из платформ, позволяющих проводить разработку и исследование алгоритмов машинного обучения, является OpenAI Gym, включающая в себя возможность эмуляции игровой консоли Atari2600. В качестве входных данных среда Atari предоставляет последовательность изображений экрана размера 210×160 пикселей, а также общий игровой счет и индикатор победы или поражения. На основе описанных входных данных агент дол-жен выбрать одно из возможных действий с помо-щью обучения с подкреплением -машинное обу-чение, направленное на решение задачи принятия решения о выборе действия в заданной ситуации таким образом, чтобы максимизировать выгоду...
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.