“…Ainda, na Figura 4, é exibido um detalhamento das técnicas utilizadas, na seguinte ordem: remoção de Stopwords -remove palavras sem importância semântica para o texto [Azevedo et al 2011;Lui et al 2007; Júnior e Esmin 2012], TFIDFpondera a importância de cada palavra para um conjunto de documentos , Stemming -reduz palavras ao radical [Rolim et al 2016], LSA -analisa as relações entre documentos de texto [Yoo e Kim 2014], Ngrams -monta grupos de palavras de modo a possibilitar a verificação de possíveis dependências [Ravi e Kim 2007], POS Tagger -etiqueta palavras com suas respectivas classes gramaticais [Lau 2007], Tokenization -remove caracteres especiais e divide o texto em tokens a partir do caractere espaço [Silva et al 2015], Segmentation -divide o texto seguindo sua estrutura semântica, por exemplo, palavras e orações [Lin et al 2009] e Lemmatization -transfere as palavras para sua forma de dicionário [Lau 2007]. …”