ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2019
DOI: 10.1109/icassp.2019.8683227
|View full text |Cite
|
Sign up to set email alerts
|

Discriminate Natural versus Loudspeaker Emitted Speech

Abstract: In this work, we address a novel, but potentially emerging, problem of discriminating the natural human voices and those played back by any kind of audio devices in the context of interactions with in-house voice user interface. The tackled problem may find relevant applications in (1) the far-field voice interactions of vocal interfaces such as Amazon Echo, Google Home, Facebook Portal, etc, and (2) the replay spoofing attack detection. The detection of loudspeaker emitted speech will help avoiding false wake… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1

Citation Types

0
0
0

Year Published

2021
2021
2023
2023

Publication Types

Select...
1
1

Relationship

0
2

Authors

Journals

citations
Cited by 2 publications
(1 citation statement)
references
References 17 publications
0
0
0
Order By: Relevance
“…Esto generará un sistema de autentificación muy peculiar con alta aceptación para futuros trabajos. Le et al (2019), tienen como objetivo separar las voces naturales humanas de las voces reproducidas por cualquier tipo de dispositivo de audio en el contexto de una interacción en la interfaz de un usuario con su voz. La metodología utilizada implica recopilar información de diversos conjuntos de datos del mundo real para construir modelos predictivos basados en Deep Neural Network (DNN), los cuales se han desarrollado utilizando diferentes combinaciones de funciones de audio.…”
Section: Estado Del Arteunclassified
“…Esto generará un sistema de autentificación muy peculiar con alta aceptación para futuros trabajos. Le et al (2019), tienen como objetivo separar las voces naturales humanas de las voces reproducidas por cualquier tipo de dispositivo de audio en el contexto de una interacción en la interfaz de un usuario con su voz. La metodología utilizada implica recopilar información de diversos conjuntos de datos del mundo real para construir modelos predictivos basados en Deep Neural Network (DNN), los cuales se han desarrollado utilizando diferentes combinaciones de funciones de audio.…”
Section: Estado Del Arteunclassified