This paper presents a multimodal interaction architecture that is proposed as the interaction/control component of new or existing computer applications, particularly for 2D/3D visual computing applications. The architecture aims to encourage multimodality in interaction between the user and the computer application in order to achieve a more natural interaction, easier and user friendly. The presented architecture integrates specialized interaction modules in different modalities (hand gestures and voice initially) operating simultaneously. The information resulting from these modules is processed by a multimodal integration module to detect simultaneous actions/commands. The architecture was integrated with BingMaps application to allow navigation in maps through voice and gestures. Some results of an initial evaluation using the current prototype are presented where we get information regarding its functionality and the resulting user experience.
Keywords-human computer interaction; user experience; new paradigms of interaction; multimodal interaction; gestual interaction; voice interaction; navigation in maps.
I. INTRODUCCIÓNAunque la interacción con el computador se ha basado por décadas en un grupo limitado de modalidades (ratón y teclado), la interacción humana con el medio circundante y con otros seres humanos es sin duda multimodal, es decir que se usan múltiples canales de comunicación para transmitir información (e.g., los gestos manuales, la voz, la escritura, la mirada) o para adquirir información (a través de la vista, el oído y el tacto). El acercar la interacción de los usuarios de una aplicación computacional a mecanismos y metáforas más naturales favorece la usabilidad y la satisfacción para los usuarios. Los recientes avances tecnológicos en las áreas de procesamiento de señales, visión computacional e interacción HombreMáquina han hecho posible el estudio y desarrollo de interfaces multimodales.Este trabajo propone una arquitectura para el desarrollo de interfaces de interacción multimodal, la cual permite que la componente de interacción de una aplicación computacional integre múltiples modalidades, cada modalidad con su procesamiento especializado, para luego integrar sus resultados y definir acciones/comandos conjuntos que se comunican a la aplicación. La expresión de la interacción de la aplicación se define por una máquina de estados finitos donde se identifican los posibles estados de la aplicación y las transiciones entre estados corresponden a las acciones/comandos que debe reconocer la capa de interacción a partir de las entradas dadas por el usuario.La arquitectura propuesta se valida con un caso de estudio en el que se implementa una interfaz de interacción multimodal usando la aplicación Bing-Maps [1] y definiendo un conjunto de gestos manuales y comandos de voz para realizar las acciones comunes en la navegación de mapas. Egenhofer [2] y McGee et al. [3] sugieren que las interfaces multimodales son más eficientes para interactuar con información geo-espacial que la interacción uni...