2022
DOI: 10.1590/2318-0889202234e210069
|View full text |Cite
|
Sign up to set email alerts
|

Extracción de información de documentos PDF para su uso en la indización automática de e-books

Abstract: Resumen El número de libros electrónicos que ingresan en las bibliotecas en formato PDF cada día es mayor, complicando y haciendo casi inviables algunos procesos realizados tradicionalmente de forma manual por los bibliotecarios, como es la asignación de materias. En este contexto, se hace necesario el diseño y desarrollo de aplicaciones que asistan a los bibliotecarios. Teniendo esto en consideración, presentamos en este trabajo la evaluación de herramientas de extracción de información de libros en PDF que p… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...

Citation Types

0
0
0
1

Year Published

2022
2022
2022
2022

Publication Types

Select...
1

Relationship

0
1

Authors

Journals

citations
Cited by 1 publication
(1 citation statement)
references
References 10 publications
(4 reference statements)
0
0
0
1
Order By: Relevance
“…O DeCS foi desenvolvido a partir do Medical Subject Headings (MeSH) da United States National Library of Medicine (NLM) e é um vocabulário trilíngue que serve como linguagem única de indexação de artigos de revistas científicas, livros, anais de congressos, relatórios técnicos e outros tipos de materiais (DECS, 2022).Assim, o profissional de informação, que irá indexar o texto publicado pelos cientistas, muitas vezes terá a recomendação de utilizar descritores autorizados pelo vocabulário controlado da área. Um estudo preliminar analisou orientações de uso de vocabulários controlados em 78 periódicos científicos brasileiros na área de saúde pública, e verificou que 44 periódicos recomendam ou informam a obrigatoriedade de uso de vocabulário controlado, prevalecendo a indicação do DeCS, o que aponta a preocupação desses periódicos com a padronização dos termos utilizados na representação temática de seus artigos (SANTOS; SILVA; LINS, 2019).Cabe então aqui discutir sobre uma indexação automática que auxilie tanto o autor na representação de seus trabalhos quanto o profissional de informação no momento de indexar esses documentos, no intuito de colaborar com a recuperação e visibilidade dessa produção.Esse tipo de indexação utiliza programas que analisam o conteúdo dos textos e apresentam termos que podem ser os descritores desses textos(GIL LEIVA, 1999). ParaLancaster (2004) existem dois tipos de indexação automática: por extração, que extrai e seleciona de forma automática termos do texto; e por atribuição, onde termos são atribuídos automaticamente de um vocabulário controlado.…”
unclassified
“…O DeCS foi desenvolvido a partir do Medical Subject Headings (MeSH) da United States National Library of Medicine (NLM) e é um vocabulário trilíngue que serve como linguagem única de indexação de artigos de revistas científicas, livros, anais de congressos, relatórios técnicos e outros tipos de materiais (DECS, 2022).Assim, o profissional de informação, que irá indexar o texto publicado pelos cientistas, muitas vezes terá a recomendação de utilizar descritores autorizados pelo vocabulário controlado da área. Um estudo preliminar analisou orientações de uso de vocabulários controlados em 78 periódicos científicos brasileiros na área de saúde pública, e verificou que 44 periódicos recomendam ou informam a obrigatoriedade de uso de vocabulário controlado, prevalecendo a indicação do DeCS, o que aponta a preocupação desses periódicos com a padronização dos termos utilizados na representação temática de seus artigos (SANTOS; SILVA; LINS, 2019).Cabe então aqui discutir sobre uma indexação automática que auxilie tanto o autor na representação de seus trabalhos quanto o profissional de informação no momento de indexar esses documentos, no intuito de colaborar com a recuperação e visibilidade dessa produção.Esse tipo de indexação utiliza programas que analisam o conteúdo dos textos e apresentam termos que podem ser os descritores desses textos(GIL LEIVA, 1999). ParaLancaster (2004) existem dois tipos de indexação automática: por extração, que extrai e seleciona de forma automática termos do texto; e por atribuição, onde termos são atribuídos automaticamente de um vocabulário controlado.…”
unclassified