The use of thesaurus-based indexing is a common approach for increasing the performance of document retrieval. With the growing amount of documents available, manual indexing is not a feasible option. Statistical methods for automated document indexing are an attractive alternative. We argue that the quality of the thesaurus used as a basis for indexing in regard to its ability to adequately cover the contents to be indexed is of crucial importance in automatic indexing because there is no human in the loop that can spot and avoid indexing errors. We propose a method for thesaurus evaluation that is based on a combination of statistical measures and appropriate visualization techniques that supports the detection of potential problems in a thesaurus. We describe this method and show its application in the context of two automatic indexing tasks. The examples show that the methods indeed eases the detection and correction of errors leading to a better indexing result. Please refer to http://www.kaiec.org for high resolution media of all figures used in this paper, as well as an animated presentation of the interactive tool.
Man versetze sich für einen kurzen Augenblick in ein Wohnheimzimmer einer Studentin, die eine Hausarbeit in Politologie zum Thema "Der Sozialstaat in der öffentlichen Wahrnehmung der Bundesrepublik Deutschland von 1990 bis 2010" schreibt. Es ist zwei Uhr nachts, die Universitätsbibliothek hat geschlossen und die Studentin muss bis spätestens 14 Uhr am gleichen Tag die Arbeit einreichen. Verzweifelt sucht sie im Online-Katalog nach weiterer Literatur, um die Forschungsdiskussion in den Fußnoten weiter zu differenzieren. Sie findet auch die entsprechenden gedruckten Publikationen, auf die sie leider nicht zugreifen kann, da die Bibliothek geschlossen hat. Dabei hat "ihre" Universitätsbibliothek E-Books lizenziert, die sie allerdings nicht gefunden hat, da die E-Books nicht im Online-Katalog erfasst, sondern nur auf der Homepage der Einrichtung verlinkt sind. Bei der Rück-gabe der Arbeit erfährt die Studentin, dass sie eine bessere Note erhalten hätte, wenn sie nur die Forschungsdiskussion differenziert dargestellt hätte.Eine vollständige Einbindung der lizenzierten E-Books im Online-Katalog ist der Wunsch vieler Bibliotheken. Insbesondere mit der vermehrten Verfügbarkeit konsortial oder national lizenzierter Sammlungen und Pakete ist das Angebot zusehends unübersichtlicher geworden und die bisherige Praxis, elektronische Dokumente parallel zu den gedruckten Exemplaren manuell formal und inhaltlich zu erschließen, stößt an organisatorische und ressourcenbedingte Grenzen. Einer direkten maschinellen Verarbeitung steht das Problem entgegen, dass die bibliografischen Metadaten der E-Books häufig im Format MARC 21 geliefert werden, die lokalen Bibliothekssysteme in der Regel aber mit den Formaten MAB2 und Pica arbeiten und Daten in anderen Formaten nicht verarbeiten können.Ein Lösungsansatz besteht darin, die bibliografischen Metadaten an zentraler Stelle zu konvertieren und zu harmonisieren und den Bibliotheken im Format MAB2 zur Verfügung zu stellen. Dieser Ansatz ist allerdings nur für statische E-BookSammlungen praktizierbar und durch den Aufwand der Konversion in "saubere" MAB2-Daten mit einem deutlichen zeitlichen Verzug verbunden.Hinzu kommt, dass nicht alle lokalen Bibliothekssysteme diese MAB2-Titeldaten ohne weiteres verarbeiten können: Während bei gedruckten Medien administrative und exemplarbezogene Daten vorliegen und mit dem Titelsatz verknüpft sind, fehlen diese bei den E-Book-Titeldaten und müssen je nach System durch leere Einträge ohne Funktion ergänzt werden. Schließlich bleibt das Problem, wie die Titeldaten von mehreren tausend E-Books und die mit ihnen verknüpften administrativen Schein-Daten z.B. bei Stornierung des Abonnements wieder aus der Bibliothekssoftware entfernt werden. Je nach System ist dies aufwändig oder gar Brought to you by | University of Pittsburgh Authenticated Download Date | 6/3/15 7:51 PM
Statistical methods for automated document indexing are becoming an alternative to the manual assignment of keywords. We argue that the quality of the thesaurus used as a basis for indexing in regard to its ability to adequately cover the contents to be indexed and as a basis for the specific indexing method used is of crucial importance in automatic indexing. We present an interactive tool for thesaurus evaluation that is based on a combination of statistical measures and appropriate visualisation techniques that supports the detection of potential problems in a thesaurus. We describe the methods used and show that the tool supports the detection and correction of errors, leading to a better indexing result.
Zusammenfassung Das Interesse junger Menschen an informationswissenschaftlichen Studiengängen hat in dem vergangenen Jahrzehnt stetig nachgelassen. Dieser Trend ist dabei nicht auf einzelne Studienangebote beschränkt, sondern trifft – wenn auch in unterschiedlichem Ausmaß – auf alle regulären informationswissenschaftlichen Studienangebote im deutschsprachigen Raum zu. Dieser Aufsatz dokumentiert diese Entwicklung am Beispiel des Studienangebots Informationswissenschaften an der Hochschule der Medien Stuttgart, stellt die getroffenen Maßnahmen vor und zeigt die mittel- und langfristigen Folgen auf. Neben den Studiengängen selbst sind vor allem Informationseinrichtungen betroffen, da der bereits bestehende Mangel an Fachkräften durch diese Entwicklung noch verstärkt wird.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.