2012 10th IAPR International Workshop on Document Analysis Systems 2012
DOI: 10.1109/das.2012.4
|View full text |Cite
|
Sign up to set email alerts
|

A Modular Metadata Extraction System for Born-Digital Articles

Abstract: We present a comprehensive system for extracting metadata from scholarly articles. In our approach the entire document is inspected, including headers and footers of all the pages as well as bibliographic references. The system is based on a modular workflow which allows for evaluation, unit testing and replacement of individual components. The workflow is optimized towards processing of born-digital documents, but may accept scanned document images as well. The machinelearning approaches we have chosen for so… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1
1
1

Citation Types

0
7
0
3

Year Published

2012
2012
2019
2019

Publication Types

Select...
4
3
1

Relationship

3
5

Authors

Journals

citations
Cited by 15 publications
(10 citation statements)
references
References 15 publications
0
7
0
3
Order By: Relevance
“…Tkaczyk et. al [12], presentan un sistema integral para la extracción de metadatos en artículos escolares basados en el análisis de la estructura del documento, de encabezado a pie de página. Este trabajo implementó las siguientes bibliotecas: biblioteca iText y LibSVM; y los algoritmos: Docstrum, algoritmos basados en heurísticas de abajo a arriba, agrupación KMeans y campos aleatorios condicionales.…”
Section: Trabajos Relacionadosunclassified
“…Tkaczyk et. al [12], presentan un sistema integral para la extracción de metadatos en artículos escolares basados en el análisis de la estructura del documento, de encabezado a pie de página. Este trabajo implementó las siguientes bibliotecas: biblioteca iText y LibSVM; y los algoritmos: Docstrum, algoritmos basados en heurísticas de abajo a arriba, agrupación KMeans y campos aleatorios condicionales.…”
Section: Trabajos Relacionadosunclassified
“…Az informatikai módszereket és szövegbányászati eljárásokat tekintve több metódus is szóba jöhet, a szakirodalom alapján az egyik legrelevánsabb megoldás a rejtett Markovmodell alkalmazása (Hetzner, 2008;Ojokoh, Zhang, & Tang, 2011). E módszer mellett a szakemberek más, a mesterséges intelligencia alapján kidolgozott megközelítéseket is alkalmaznak, melyeket általában különféle gépi tanulási algoritmusok segítségével érnek el (Tkaczyk, Bolikowski, Czeczko, & Rusek, 2012;Tkaczyk, Szostek, Fedoryszak, Dendek, & Bolikowski, 2015). Sarawagi (2007) nagyívű összefoglaló munkájában rendszerbe foglalja az automatizált alapú információ-kivonatoló módszereket, több helyen külön is kiemelve a hivatkozásokkal mint speciális információtípussal kapcsolatos tudnivalókat.…”
Section: Elméleti Háttérunclassified
“…Citation parser is a part of CERMINE -a metadata and content extraction tool [11]. Pawlak, Zdzis¡aw (1982).…”
Section: Citation Parsingmentioning
confidence: 99%