An Empirical Comparison of Portuguese and Multilingual BERT Models for Auto-Classification of NCM Codes in International Trade

Lima, Roberta Rodrigues de; Fernandes, Anita Maria da Rocha; Bombasar, James Roberto; Silva, Bruno Alves da; Crocker, Paul; Leithardt, Valderi Reis Quietinho

doi:10.20944/preprints202111.0378.v1

Cited by 1 publication

(2 citation statements)

References 10 publications

Supporting

Mentioning

Contrasting

Order By: Relevance

“…Recently, in [de Lima et al 2022] the authors made use of the BERT (Bidirectional Encoder Representations from Transformers) model to train only one classifier that aims to classify descriptions on its respective MCN chapter code. The authors divided their dataset into 96 chapters and focused the classification only inside a single chapter.…”

Section: Related Workmentioning

confidence: 99%

See 1 more Smart Citation

A Four-Step Cascade Methodology to Classify MCN Codes Using NLP Techniques

Pinheiro¹,

Siqueira²,

Amarís³

2022

Anais Do XIX Encontro Nacional De Inteligência Artificial E Computacional (ENIAC 2022)

View full text Add to dashboard Cite

A NCM é uma Nomenclatura regional para categorização de mercadorias adotada por países do Mercosul. Essa nomenclatura divide produtos usando 8 dígitos, separados em 4 partes, Capítulo, Posição, Subposição e item/Subitem. Há indícios que cerca de 30% das mercadorias enviadas globalmente estão com seu código errado por ser um processo manual. Esse trabalho tem como objetivo desenvolver um processo para classificar as descrições textuais dos produtos presentes nas Notas Ficais eletrônicas (NF-e). A classificação foi feita utilizando as técnicas de Processamento de Linguagem Natural (PLN) e testada usando 2 diferentes algoritmos de aprendizado de máquina, Máquina de Vetores de Suporte (SVM) e Naive Bayes. Para os experimentos foi usada uma base de dados de 340.000 produtos distintos. Dividimos o processo em 4 modelos de classificação, feitos para classificar as 4 partes da NCM. Os dados foram divididos em 80% treinamento e 20% teste e Obteve-se um acurácia de 89% para um total de 98 classes dos 2 primeiros dígitos, e 76% de utilizando uma técnica de cascata para classificar os 8 dígitos.

show abstract

Section: Related Workmentioning

confidence: 99%

“…The works of [de Abreu Batista et al 2018] and [de Lima et al 2022] presented a classification of the MCN, considering only the two fist digits, specific chapter only. [Luppes et al 2019] shown a classification considering only the first 4 digits.…”

Section: Related Workmentioning

confidence: 99%