Interspeech 2022 2022
DOI: 10.21437/interspeech.2022-126
|View full text |Cite
|
Sign up to set email alerts
|

Pushing the limits of raw waveform speaker recognition

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1
1
1

Citation Types

0
4
0
1

Year Published

2022
2022
2024
2024

Publication Types

Select...
5
2
2

Relationship

0
9

Authors

Journals

citations
Cited by 37 publications
(5 citation statements)
references
References 0 publications
0
4
0
1
Order By: Relevance
“…본 연구에서는 화자 인코더로, raw waveform을 입력으로 하 는 모델 중 우수한 화자 식별 성능을 가진 RawNet3를 화자 인코 더로 활용해, 유사한 화자 음색 표현에 강점을 가진 '원샷 다화 자 음성합성' 모델을 구현하였다 (Jung et al, 2022). 그림 2(b)의 RawNet3는 RawNet2와 ECAPA-TDNN 기반의 구조로 이루어진 다. RawNet2 모델의 filterbank 구조를 사용하되, 실수 기반에서 복소수 기반으로 확장하였다 (Desplanques et al, 2020;Jung et al, 2020)…”
Section: 화자 인코더unclassified
“…본 연구에서는 화자 인코더로, raw waveform을 입력으로 하 는 모델 중 우수한 화자 식별 성능을 가진 RawNet3를 화자 인코 더로 활용해, 유사한 화자 음색 표현에 강점을 가진 '원샷 다화 자 음성합성' 모델을 구현하였다 (Jung et al, 2022). 그림 2(b)의 RawNet3는 RawNet2와 ECAPA-TDNN 기반의 구조로 이루어진 다. RawNet2 모델의 filterbank 구조를 사용하되, 실수 기반에서 복소수 기반으로 확장하였다 (Desplanques et al, 2020;Jung et al, 2020)…”
Section: 화자 인코더unclassified
“…In particular, all experiments reported in Table 1 relies on the implementation of ECAPA-TDNN [22] available in SpeechBrain [23] because it was found to outperform three open-source alternatives. For instance, on VoxConverse v0.3, the fine-tuned pipeline reaches DER = 14.9% with the xvector implementation available in pyannote.audio [20], 12.0% with NeMo's TitaNet [24], 10.8% with RawNet3 [25], and 10.7% with SpeechBrain's ECAPA-TDNN.…”
Section: Reproducible Benchmarkmentioning
confidence: 99%
“…Other comparison-based self-supervised learning techniques include the MOCO framework [38], [39], which stores the negative pairs in the memory bank; the DINO framework [12], [40]- [42] that only involves positive pairs and achieves considerable improvement. For efficiency and effectiveness, we adopt the SCL framework in this study and focus on the sampling strategy of positive pairs.…”
Section: B Self-supervised Learning Of Speaker Encodermentioning
confidence: 99%