Stanislav Beliaev scite author profile

We propose a new end-to-end neural acoustic model for automatic speech recognition. The model is composed of multiple blocks with residual connections between them. Each block consists of one or more modules with 1D time-channel separable convolutional layers, batch normalization, and ReLU layers. It is trained with CTC loss. The proposed network achieves near state-of-the-art accuracy on LibriSpeech and Wall Street Journal, while having fewer parameters than all competing models. We also demonstrate that this model can be effectively fine-tuned on new datasets.

show abstract

QuartzNet: Deep Automatic Speech Recognition with 1D Time-Channel Separable Convolutions

Kriman

Beliaev²,

Ginsburg

et al. 2019

Preprint

View full text Add to dashboard Cite

ConVoice: Real-Time Zero-Shot Voice Style Transfer with Convolutional Network

Rebryk¹,

Beliaev²

2020

Preprint

View full text Add to dashboard Cite

Mixer-TTS: Non-Autoregressive, Fast and Compact Text-to-Speech Model Conditioned on Language Model Embeddings

Tatanov¹,

Beliaev²,

Ginsburg³

2022

View full text Add to dashboard Cite

Современные подходы к обучению интеллектуальных агентов в среде Atari

Коробов¹,

Beliaev²,

Belyaev³

2018

ППС

View full text Add to dashboard Cite

1 Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина), ул. Профессора Попова, 5, г. Санкт-Петербург, 197376, Россия Статья посвящена разработке и исследованию алгоритмов машинного обучения в задаче обучения интеллектуаль-ных агентов в среде Atari, представляющей эмуляцию игровой консоли Atari2600 при помощи платформы OpenAI Gym. Основные цели исследования -описание и сравнение современных алгоритмов обучения с подкреплением в различных ситуациях, выявление их достоинств и недостатков, а также формирование предложений по повышению эффективности этих алгоритмов.Авторы описывают математическую модель задачи обучения с подкреплением в виде марковского процесса при-нятия решений и формируют критерий оптимальности системы. Отдельно отмечены особенности, характерные для среды Atari.Описаны принцип работы существующих решений, а также использующиеся в них инструменты. Рассмотрены базовый подход Q-обучения и его известная модификация с использованием нейронной сети. Представлена идея ал-горитма на основе градиента по стратегиям. Дано описание подхода алгоритмов типа «актор-критик», а также рас-смотрена его асинхронная многопоточная версия. Все рассмотренные алгоритмы описаны в виде псевдокода.Предложен способ повышения эффективности обучения с помощью выделения признаков. Разработан алгоритм генерации вектора признаков на основе распознавания образов. Описаны этапы формирования вектора признаков и его использования в процессе обучения.Алгоритмы реализованы, проведен эксперимент с их использованием. Выполнен сравнительный анализ результа-тов и получены выводы об эффективности алгоритмов. Предложены идеи по дальнейшему увеличению скорости и качества обучения интеллектуальных агентов. Ключевые слова: Atari, интеллектуальные агенты, обучение с подкреплением, Q-обучение, градиент по страте-гиям, асинхронный актор-критик, распознавание образов, выделение признаков.Интеллектуальными агентами принято назы-вать самообучающиеся программы, способные иг-рать в классические и видеоигры. Согласно [1], «агентом является все, что может рассматриваться как воспринимающее свою среду с помощью дат-чиков и воздействующее на эту среду с помощью исполнительных механизмов». Интеллектуальные агенты способны моделировать поведение чело-века в задачах сбора и обработки информации, при этом они могут активно перемещаться внутри ин-формационного пространства в направлении цели.Одной из платформ, позволяющих проводить разработку и исследование алгоритмов машинного обучения, является OpenAI Gym, включающая в себя возможность эмуляции игровой консоли Atari2600. В качестве входных данных среда Atari предоставляет последовательность изображений экрана размера 210×160 пикселей, а также общий игровой счет и индикатор победы или поражения. На основе описанных входных данных агент дол-жен выбрать одно из возможных действий с помо-щью обучения с подкреплением -машинное обу-чение, направленное на решение задачи принятия решения о выборе действия в заданной ситуации таким образом, чтобы максимизировать выгоду...

show abstract

scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.

Contact Info

hi@scite.ai

10624 S. Eastern Ave., Ste. A-614

Henderson, NV 89052, USA

Blog Terms and Conditions API Terms Privacy Policy Contact Cookie Preferences Do Not Sell or Share My Personal Information

Made with 💙 for researchers

Part of the Research Solutions Family.