“…No domínio do turismo, onde se situa a nossa proposta, a identificação de entidades mencionadas também foi ganhando popularidade, embora outras técnicas como topic modelling ou a análise de sentimentos continuem a ser as mais utilizadas (Egger, 2022). A língua de trabalho é maioritariamente o inglês (Saputro et al, 2016;Vijay & Sridhar, 2016;Chantrapornchai & Tunsakul, 2019), embora também tenham sido desenvolvidos recursos e sistemas de NER para outras línguas, como o chinês (Guo et al, 2009;Xue et al, 2019), o mongol (Cheng et al, 2020), o português (Matos et al, 2021), o espanhol (García-Pablos et al, 2015) ou o árabe (Bouabdallaoui et al, 2022). Muitos dos sistemas produzidos utilizam corpora extraídos de avaliações de clientes em portais web ou redes sociais, mas não existem corpora anotados de entrevistas a visitantes, especialmente num subdomínio tão específico como o Caminho de Santiago.…”