Anais Do Workshop De Computação Aplicada Em Governo Eletrônico (WCGE 2020) 2020
DOI: 10.5753/wcge.2020.11263
|View full text |Cite
|
Sign up to set email alerts
|

Uso de Aprendizado de Máquina para Categorização Automática de Conjuntos de Dados de Portais de Dados Abertos

Abstract: Para disponibilizar seus dados para a sociedade, governos de cidades ao redor do mundo estão usando portais de dados abertos. Na maioria dos portais, os conjuntos de dados estão distribuídos por diversas categorias que representam os tópicos abordados pelo portal. Nesse contexto, oferecer mecanismos para auxiliar a categorização dos conjuntos de dados se torna importante, para facilitar o trabalho de um administrador de portais de dados abertos. Neste trabalho, apresentamos uma analise experimental para a cate… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1
1
1

Citation Types

0
0
0
3

Year Published

2022
2022
2023
2023

Publication Types

Select...
2
1

Relationship

0
3

Authors

Journals

citations
Cited by 3 publications
(5 citation statements)
references
References 11 publications
0
0
0
3
Order By: Relevance
“…In our context, we collected official government diaries and classified their segmented texts by applying the following techniques: Support Vector Machines (SVM), Bidirectional Encoder Representations from Transformers (BERT), BERT model for Brazilian Portuguese (BERTimbau), Language-agnostic BERT Sentence Embedding (LaBSE) model, FastText Concat (TF-IDF, FastText), Concat (TF-IDF, BERTimbau) and Stacking. Rangel et al [2020] applied supervised machine learning techniques to infer the categories (e.g., health or finance) of documents available in government data portals, while Pinto et al [2021] and ? performed textual extractions from official diaries by using regular expressions and built, as a result, a knowledge base according to a grammar defined specifically for issuing acts for moving personnel of Rio de Janeiro City Hall.…”
Section: Related Workmentioning
confidence: 99%
“…In our context, we collected official government diaries and classified their segmented texts by applying the following techniques: Support Vector Machines (SVM), Bidirectional Encoder Representations from Transformers (BERT), BERT model for Brazilian Portuguese (BERTimbau), Language-agnostic BERT Sentence Embedding (LaBSE) model, FastText Concat (TF-IDF, FastText), Concat (TF-IDF, BERTimbau) and Stacking. Rangel et al [2020] applied supervised machine learning techniques to infer the categories (e.g., health or finance) of documents available in government data portals, while Pinto et al [2021] and ? performed textual extractions from official diaries by using regular expressions and built, as a result, a knowledge base according to a grammar defined specifically for issuing acts for moving personnel of Rio de Janeiro City Hall.…”
Section: Related Workmentioning
confidence: 99%
“…Ao fim, foi aplicado um vetorizador que converte as palavras em números, aumentando o grau da análise. O sistema proposto utiliza o vetorizador Term Frequency-Inverse Document Frequency (TF-IDF), o qual atribui um peso a cada palavra conforme sua frequência e importância no texto [Rangel 2019]. Para construir as recomendações do sistema, três métodos de similaridade entre a vaga e a massa de currículos submetida foram implementados, baseado em bons resultados da literatura [Shovon et al 2023, Alsharef et al 2023, entre eles: Contagem simples de palavras, Distância Levenshtein e Similaridade por Cosseno.…”
Section: Processamento De Linguagem Naturalunclassified
“…Por exemplo, Pinto et al [2021] realizaram a extrac ¸ão textual em diários oficiais por meio de expressões regulares e, como resultado, construíram uma base de conhecimento de acordo com uma gramática definida especificamente para atos de movimentac ¸ão de pessoal da Prefeitura do Rio de Janeiro. Já Rangel et al [2020] aplicaram técnicas de aprendizado de máquina supervisionado para inferir as categorias (e.g., saúde ou financ ¸as) de documentos disponíveis em portais de dados governamentais, enquanto Pereira et al [2021] discutem o problema da falta de padronizac ¸ão para designar categorias das ofertas de servic ¸os públicos e propõem uma taxonomia para melhor categorizar os dados envolvidos. Por fim, vale ressaltar uma ferramenta para anotac ¸ão e classificac ¸ão de documentos proposta por Inuzuka et al [2020] em parceria com uma empresa privada, na qual uma técnica de aprendizado ativo é empregada para classificar se a informac ¸ão contida em um trecho do Diário Oficial é ou não de teor jurídico.…”
Section: Visão Geral Do Problemaunclassified
“…Já para o algoritmo de selec ¸ão de instâncias úteis, a estratégia uncertainty [Lewis and Catlett 1994] obteve os melhores resultados. Tais algoritmos estão de acordo com outras iniciativas de classificac ¸ão de textos extraídos de diários oficiais [Inuzuka et al 2020, Rangel et al 2020.…”
Section: Avaliac ¸ãO Experimental Da Classificac ¸ãO Semânticaunclassified
See 1 more Smart Citation