Acesso irrestrito e monitorável a leis e regulamentações é pressuposto essencial da democracia. Isso permite, por exemplo, a detecção de ilícitos e o monitoramento de fraudes em ações públicas (e.g., licitações). Contudo, cada ente federado segue seus próprios critérios de padronização de modelos e formato na disponibilização dessas informações, por exemplo, nos diários oficiais municipais, estaduais e da União. Nesse contexto, nosso objetivo é minimizar o esforço para lidar com a extração textual desses dados ao propor uma heurística orientada à estrutura para segmentar os trechos de documentos públicos. Posteriormente, classificamos semanticamente os trechos extraídos com uma estratégia de aprendizado ativo que minimiza o esforço manual de rotulação. Como resultado desses esforços, desenvolvemos um protótipo de anotação integrado ao processo de classificação, obtendo uma acurácia de 100% na extração e de 85% na classificação com muito pouco esforço de rotulação.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.