Uso de Aprendizado de Máquina para Categorização Automática de Conjuntos de Dados de Portais de Dados Abertos

Rangel, Mateus; Bernardini, Flávia; Viterbo, José; Monteiro, Rodrigo; Seixas, Elaine; Pinto, Higor Dos Santos

doi:10.5753/wcge.2020.11263

Cited by 3 publications

(5 citation statements)

References 11 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…In our context, we collected official government diaries and classified their segmented texts by applying the following techniques: Support Vector Machines (SVM), Bidirectional Encoder Representations from Transformers (BERT), BERT model for Brazilian Portuguese (BERTimbau), Language-agnostic BERT Sentence Embedding (LaBSE) model, FastText Concat (TF-IDF, FastText), Concat (TF-IDF, BERTimbau) and Stacking. Rangel et al [2020] applied supervised machine learning techniques to infer the categories (e.g., health or finance) of documents available in government data portals, while Pinto et al [2021] and ? performed textual extractions from official diaries by using regular expressions and built, as a result, a knowledge base according to a grammar defined specifically for issuing acts for moving personnel of Rio de Janeiro City Hall.…”

Section: Related Workmentioning

confidence: 99%

Using Active Learning for Segmentation and Semantic Classification of Legal Acts Extracted from Official Diaries

Constantino,

H. P. Silva,

B. Silva

et al. 2023

JIDM

View full text Add to dashboard Cite

Based on openness and transparency for good governance, unimpeded and verifiable access to legal and regulatory information is essential. With such access, we can monitor government actions to ensure that public financial resources are not improperly or inconsistently used. This facilitates, for example, the detection of unlawful behavior in public actions, such as bidding processes and auctions. However, different public agencies have their own criteria for standardizing the models and formats used to make information available, as exemplified in the varying styles observed in municipal, state, and union (federal) documents. In this context, we aim to minimize the effort to deal with public documents, notably official gazettes. For this, we propose a structure-oriented heuristic for extracting relevant excerpts from their texts. We then characterize these excerpts through morphosyntactic analysis and entity recognition. Subsequently, we semantically classify the extracted fragments into "sections of interest" (e.g., bids, laws, personnel, budget) using an active learning strategy to reduce the manual labeling effort. We also improve the classification process by incorporating transformers, stacking, and by combining different types of representations (e.g., frequentist, static, and contextual semantic embeddings). Furthermore, we exploit oversampling based on semi-supervised learning to deal with (labeled) data scarceness and skewness. Finally, we combine all these contributions in a real-time annotation tool with active learning support that achieves 100% accuracy in extraction and an overall accuracy of 85% in classification with very little labeling effort.

show abstract

Section: Related Workmentioning

confidence: 99%

Using Active Learning for Segmentation and Semantic Classification of Legal Acts Extracted from Official Diaries

Constantino,

H. P. Silva,

B. Silva

et al. 2023

JIDM

View full text Add to dashboard Cite

show abstract

“…Ao fim, foi aplicado um vetorizador que converte as palavras em números, aumentando o grau da análise. O sistema proposto utiliza o vetorizador Term Frequency-Inverse Document Frequency (TF-IDF), o qual atribui um peso a cada palavra conforme sua frequência e importância no texto [Rangel 2019]. Para construir as recomendações do sistema, três métodos de similaridade entre a vaga e a massa de currículos submetida foram implementados, baseado em bons resultados da literatura [Shovon et al 2023, Alsharef et al 2023, entre eles: Contagem simples de palavras, Distância Levenshtein e Similaridade por Cosseno.…”

Section: Processamento De Linguagem Naturalunclassified

Grace: Sistema de Recomendação de Currículos com Inteligência Artificial

B. Medeiros,

V. Franciscon,

P. Longo

et al. 2023

Anais Estendidos Do XXXVIII Simpósio Brasileiro De Banco De Dados (SBBD Estendido 2023)

View full text Add to dashboard Cite

O recrutamento e alocação de funcionários são desafios constantes para as empresas. Diante disso, soluções inovadoras baseadas em Inteligência Artificial (IA) têm surgido para otimizar esses processos. No entanto, IAs podem seguir vieses sociais escondidos nos dados, levando a tomada de decisões injustas, danosas e/ou preconceituosas. Com base nisso, esta pesquisa desenvolveu um sistema de recomendação automatizado de candidatos, baseado em IA, chamado Grace, que visa remover o viés exclusivo de candidatos, como exclusão por gênero, cor, etnia, orientação sexual ou qualquer outro que interfira na escolha dos melhores currículos. Espera-se que essa aplicação resulte em uma seleção imparcial de candidatos, com maior precisão e redução significativa de vieses sociais.

show abstract

“…Por exemplo, Pinto et al [2021] realizaram a extrac ¸ão textual em diários oficiais por meio de expressões regulares e, como resultado, construíram uma base de conhecimento de acordo com uma gramática definida especificamente para atos de movimentac ¸ão de pessoal da Prefeitura do Rio de Janeiro. Já Rangel et al [2020] aplicaram técnicas de aprendizado de máquina supervisionado para inferir as categorias (e.g., saúde ou financ ¸as) de documentos disponíveis em portais de dados governamentais, enquanto Pereira et al [2021] discutem o problema da falta de padronizac ¸ão para designar categorias das ofertas de servic ¸os públicos e propõem uma taxonomia para melhor categorizar os dados envolvidos. Por fim, vale ressaltar uma ferramenta para anotac ¸ão e classificac ¸ão de documentos proposta por Inuzuka et al [2020] em parceria com uma empresa privada, na qual uma técnica de aprendizado ativo é empregada para classificar se a informac ¸ão contida em um trecho do Diário Oficial é ou não de teor jurídico.…”

Section: Visão Geral Do Problemaunclassified

“…Já para o algoritmo de selec ¸ão de instâncias úteis, a estratégia uncertainty [Lewis and Catlett 1994] obteve os melhores resultados. Tais algoritmos estão de acordo com outras iniciativas de classificac ¸ão de textos extraídos de diários oficiais [Inuzuka et al 2020, Rangel et al 2020.…”

Section: Avaliac ¸ãO Experimental Da Classificac ¸ãO Semânticaunclassified

“…O acesso a dados públicos é relevante não só para observarmos as decisões dos entes federados (União, Estados, Distrito Federal e Municípios), mas também para acompanharmos como são definidas e executadas as políticas públicas destinadas à populac ¸ão, possibilitando assim democratizar as licitac ¸ões e os pregões públicos, bem como fiscalizar as receitas e os gastos de cada órgão governamental [Pinto et al 2021, Rangel et al 2020]. As garantias de acesso aos dados públicos estão previstas na Constituic ¸ão Federal Brasileira de 1988, sendo regulamentadas pela Lei de Acesso à Informac ¸ão (Lei Nº 12.527) de 18 de Novembro de 2011 1 .…”

Section: Introduc ¸ãOunclassified

See 1 more Smart Citation

Segmentação e Classificação Semântica de Trechos de Diários Oficiais Usando Aprendizado Ativo

Constantino

Cruz

Zucheratto

et al. 2022

Anais Do XXXVII Simpósio Brasileiro De Banco De Dados (SBBD 2022)

View full text Add to dashboard Cite

Acesso irrestrito e monitorável a leis e regulamentações é pressuposto essencial da democracia. Isso permite, por exemplo, a detecção de ilícitos e o monitoramento de fraudes em ações públicas (e.g., licitações). Contudo, cada ente federado segue seus próprios critérios de padronização de modelos e formato na disponibilização dessas informações, por exemplo, nos diários oficiais municipais, estaduais e da União. Nesse contexto, nosso objetivo é minimizar o esforço para lidar com a extração textual desses dados ao propor uma heurística orientada à estrutura para segmentar os trechos de documentos públicos. Posteriormente, classificamos semanticamente os trechos extraídos com uma estratégia de aprendizado ativo que minimiza o esforço manual de rotulação. Como resultado desses esforços, desenvolvemos um protótipo de anotação integrado ao processo de classificação, obtendo uma acurácia de 100% na extração e de 85% na classificação com muito pouco esforço de rotulação.

show abstract

Uso de Aprendizado de Máquina para Categorização Automática de Conjuntos de Dados de Portais de Dados Abertos

Cited by 3 publications

References 11 publications

Using Active Learning for Segmentation and Semantic Classification of Legal Acts Extracted from Official Diaries

Using Active Learning for Segmentation and Semantic Classification of Legal Acts Extracted from Official Diaries

Grace: Sistema de Recomendação de Currículos com Inteligência Artificial

Segmentação e Classificação Semântica de Trechos de Diários Oficiais Usando Aprendizado Ativo

Contact Info

Product

Resources

About