This paper is devoted to the use of the convolutional deep belief network as a speech feature extractor for automatic text-independent speaker verification. The paper describes the scope and problems of automatic speaker verification systems. Types of modern speaker verification systems and types of speech features used in speaker verification systems are considered. The structure and learning algorithm of convolutional deep belief networks is described. The use of speech features extracted from three layers of a trained convolution deep belief network is proposed. Experimental studies of the proposed features were performed on two speech corpora: own speech corpus including audio recordings of 50 speakers and TIMIT speech corpus including audio recordings of 630 speakers. The accuracy of the proposed features was assessed using different types of classifiers. Direct use of these features did not increase the accuracy compared to the use of traditional spectral speech features, such as mel-frequency cepstral coefficients. However, the use of these features in the classifiers ensemble made it possible to achieve a reduction of the equal error rate to 0.21% on 50-speaker speech corpus and to 0.23% on the TIMIT speech corpus.
И.А. РАХМАНЕНКО, Р.В. МЕЩЕРЯКОВ АНАЛИЗ ИДЕНТИФИКАЦИОННЫХ ПРИЗНАКОВ В РЕЧЕВЫХ ДАННЫХ С ПОМОЩЬЮ GMM-UBM СИСТЕМЫ ВЕРИФИКАЦИИ ДИКТОРАРахманенко И.А., Мещеряков Р.В. Анализ идентификационных признаков в речевых данных с помощью GMM-UBM системы верификации диктора. Аннотация. Данная статья посвящена отбору и оценке речевых признаков, используемых в задаче автоматической текстонезависимой верификации диктора. Для решения поставленной задачи была использована система верификации диктора, основанная на модели Гауссовых смесей и универсальной фоновой модели (GMM-UBM система).Рассмотрены область применения и проблемы современных систем автоматической идентификации диктора. Произведен обзор современных методов идентификации диктора, основных речевых признаков, используемых при решении задачи идентификации диктора, а также рассмотрен процесс извлечения признаков, использованных далее. К рассмотренным признакам относятся мел-кепстральные коэффициенты (MFCC), пары линейного спектра (LSP), кепстральные коэффициенты перцептивного линейного предсказания (PLP), кратковременная энергия, формантные частоты, частота основного тона, вероятность вокализации (voicing probability), частота пересечения нуля (ZCR), джиттер и шиммер.Произведена экспериментальная оценка GMM-UBM системы с применением различных наборов речевых признаков на речевом корпусе, включающем в себя записи 50 дикторов. Признаки отобраны с помощью генетического алгоритма и алгоритма жадного добавления-удаления.Используя 256-компонентные Гауссовы смеси и полученный вектор из 28 признаков, была получена равная ошибка 1-го и 2-го рода (EER), составляющая 0,579 %. По сравнению со стандартным вектором, состоящим из 14 мел-кепстральных коэффициентов, ошибка EER была уменьшена на 42,1 %.Ключевые слова: распознавание диктора, верификация диктора, Гауссовы смеси, GMM-UBM система, мел-кепстральные коэффициенты, речевые признаки, отбор признаков, обработка речи, генетический алгоритм, жадный алгоритм.1. Введение. Задача автоматической идентификации диктора яв-ляется одной из наиболее сложных задач в области обработки речи. Ме-тоды, используемые в современных системах идентификации диктора далеко не идеальны, что накладывает на такие системы определенные ограничения. Некоторые системы отлично работают в хороших акусти-ческих условиях, при минимальном уровне шума, однако заметно теря-ют в точности распознавания в условиях малого соотношения сигнал-шум. Требования к точности идентификации говорящего для подобных систем задают определенную планку, которая повышается с каждым годом. Повышение точности идентификации позволяет расширить об-ласть применения таких систем, включая системы биометрической мно-гофакторной аутентификации, системы дистанционного банковского обслуживания, системы контроля доступа и многие другие. Таким обра-32
In this paper, we present our contribution to the ASVspoof 2019 challenge. The main task for this challenge is to find countermeasures that generalize well for different spoofing attacks against automatic speaker verification systems. Some of the approaches used by the authors during participation in the challenge are presented. Described anti-spoofing systems mostly rely on using constant Q cepstral coefficients (CQCC) features and bidirectional long-short term memory (BiLSTM) networks for genuine/spoof audio classification. Fusion of BiLSTM and GMM-UBM system is presented. This approach could give significant improvement to baseline systems results without any data augmentation, especially on physical access (PA) condition. Presented systems give 15.2% min-tDCF relative improvement for logical access (LA) condition and 61.5% min-tDCF relative improvement for PA condition, compared to the best baseline systems results.
The article considers an approach to the problem of assessing the quality of speech during speech rehabilitation as a classification problem. For this, a classifier is built on the basis of an LSTM neural network for dividing speech signals into two classes: before the operation and immediately after. At the same time, speech before the operation is the standard to which it is necessary to approach in the process of rehabilitation. The metric of belonging of the evaluated signal to the reference class acts as an assessment of speech. An experimental assessment of rehabilitation sessions and a comparison of the resulting assessments with expert assessments of phrasal intelligibility were carried out.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.