In this work, a semantic web framework is proposed. The aim of the framework is to semantically process and link data from different sources. The proposed framework embeds multiple entry channels for different target groups and motivations to re-use, report, comment and share content. The implementation is built on top of a Content Management System. In this approach we are using Drupal but any other CMS can be used alternatively. Even though in our paradigm the sources are mainly from an institution's data, namely National Technical University of Athens (NTUA) digital library, the utilization of the proposed architecture can be directly extended to additional fields.
Book recommendation to support professors and students in the identification of relevant sources is of significant importance for both universities and digital libraries and, hence, motivates the development of a recommendation system. This paper aims at automatically classifying a multiclass corpus that was created from ebooks from the Springer collection, which is available through the Hellenic Academic Libraries' subscription, by utilizing an unsupervised neural network (NN) (self-organizing maps, SOM) and two deep neural network (DNN) architectures, namely, a long short-term memory (LSTM) and a convolutional neural network (CNN) combined with a LSTM(CNN+LSTM) under various configuration scenarios. The vector construction leverages information that was extracted from the table of contents (ToC) of each book using the TF-IDF weighting scheme (for the first case) and the Keras tokenizer (for the second). Extensive experiments were conducted using various configurations of preprocessing steps, NN set up and vector and vocabulary sizes to assess their impact on the classifier's performance. Furthermore, we show that majority voting is more suitable for selecting the dominant label for a specified node. The experimental analysis showed the feasibility of developing a recommendation system for supporting professors and students in the identification of related sources based on a detailed thematic description (e.g., abstract or table of contents of a book) rather than a few keywords. In the conducted experiments, the subsystem that utilized the DNN (LSTM) performed the best, with F1-scores of 67% for the 26 categories and 80% for the 5 general categories, whereas SOM realizes F1-scores of less than 5% in both cases.
Η αύξηση του Παγκόσμιου Ιστού τόσο ως προς το πλήθος των συνδεδεμένων κόμβων, όσο και ως προς τον όγκο των πληροφοριών που περιέχει έχει οδηγήσει σε δυσκολίες αποτελεσματικής αναζήτησης και ανάκτησης πληροφοριών από τους τελικούς χρήστες. Αντίστοιχα, σε μικρότερη κλίμακα, στα πλαίσια μιας Ψηφιακής Βιβλιοθήκης ή ενός Ιδρυματικού Αποθετηρίου, η αύξηση του όγκου των πληροφοριών τείνει να μειώσει την αποτελεσματικότητα αναζήτησης. Έτσι, δημιουργήθηκε η ανάγκη για την ανάπτυξη νέων τρόπων αναπαράστασης της διαθέσιμης πληροφορίας, πρόσβασης σε αυτήν και μετατροπής της εν τέλει σε γνώση. Ως καταλληλότερη τεχνολογία για την αποτελεσματική αναζήτηση και ανάκτηση πληροφορίας από κείμενα θεωρούνται οι τεχνικές Μηχανικής Μάθησης και πιο συγκεκριμένα τεχνικές που βασίζονται στην Μη Εποπτευόμενη και Βαθιά Μηχανική Μάθηση. Οι εν λόγω τεχνικές έχουν τη δυνατότητα να ανακαλύπτουν συναφή κείμενα με αυτόματο τρόπο χρησιμοποιώντας μέτρα ομοιότητας διανυσμάτων. Ειδικότερα, οι τεχνικές Μη Εποπτευόμενης Μηχανικής Μάθησης προκρίνονται, στη συγκεκριμένη περίπτωση, έναντι των αντίστοιχων τεχνικών Εποπτευόμενης Μηχανικής Μάθησης, καθώς οι τελευταίες απαιτούν ένα εκτεταμένο, σχολαστικά επισημασμένο σύνολο δεδομένων, που συνήθως δύσκολα είναι διαθέσιμο σε πραγματικές εφαρμογές. Η παρούσα διδακτορική Διατριβή εντάσσεται στο ευρύτερο ερευνητικό πεδίο της αυτόματης Εξαγωγής Πληροφορίας από Κείμενα με χρήση τεχνικών Μηχανικής Μάθησης και πραγματεύεται ανοικτά θέματα στην περιοχή αυτή. Συγκεκριμένα, στην παρούσα Διατριβή προσεγγίζεται το δημοφιλές πρόβλημα της αυτόματης εξαγωγής πληροφορίας ταξινόμησης από κείμενα, με μεθόδους/προσεγγίσεις οι οποίες χωρίζονται αδρά σε τέσσερις βασικές κατηγορίες: α) προσεγγίσεις εξαγωγής, β) προσεγγίσεις ανάθεσης, γ) μεικτές προσεγγίσεις και δ) προσεγγίσεις πρόβλεψης. Οι μέθοδοι εξαγωγής πληροφορίας από κείμενα παρουσιάζουν μεγάλη ποικιλομορφία και εφαρμόζονται σε ένα πλήθος πεδίων με ποικίλες εφαρμογές. Αφού παρουσιαστεί, αρχικά, ένα πλήθος διαφορετικών εφαρμογών, όπου οι μέθοδοι εξαγωγής πληροφορίας έχουν υιοθετηθεί με επιτυχία, εξετάζονται τα πλεονεκτήματα που προκύπτουν από την χρήση τέτοιων μεθόδων ειδικότερα στις Ψηφιακές Βιβλιοθήκες. Στη συνέχεια προσεγγίζεται το πρόβλημα της αυτόματης ταξινόμησης ενός συνόλου δεδομένων ειδήσεων, το οποίο μοντελοποιείται ως ένα πρόβλημα ταξινόμησης πολλαπλής ετικέτας. Σε αυτή την περίπτωση χρησιμοποιείται ένα Νευρωνικό Δίκτυο Μη Εποπτευόμενης Μηχανικής Μάθησης, οι Αυτό-Οργανούμενοι Χάρτες (Self-Organized Maps – SOM), ενώ προτείνεται μια απλή, αλλά αποτελεσματική διαδικασία που αντιμετωπίζει το πρόβλημα πολλαπλής ετικέτας ως ένα πρόβλημα ταξινόμησης πολλαπλών κλάσεων. Επιπλέον, προτείνεται ένας έξυπνος αλγόριθμος για την επιλογή ετικετών, με στόχο να δείξει ότι οι γειτονικοί κόμβοι στον Χάρτη επηρεάζουν την επιλογή των ετικετών για έναν συγκεκριμένο κόμβο. Τέλος, εφαρμόζεται μια ευρετική μέθοδος για την επιλογή του μεγέθους του SOM. Η εκτεταμένη πειραματική ανάλυση που πραγματοποιήθηκε έδειξε ότι η προτεινόμενη λύση βελτιώνει την αποτελεσματικότητα της ταξινόμησης, όχι μόνο όσον αφορά στην ακρίβεια, αλλά και στους υπολογιστικούς πόρους που απαιτούνται και στο χρόνο για την εκπαίδευση του Δικτύου. Στα πλαίσια της παρούσας Διατριβής πραγματοποιείται, επίσης, μια επισκόπηση των μεθόδων ταξινόμησης πολλαπλών κλάσεων, ενώ προτείνεται μια διαδικασία για την αυτόματη ταξινόμηση ηλεκτρονικών βιβλίων εξάγοντας πληροφορία από τους πίνακες περιεχομένων των βιβλίων. Στην περίπτωση αυτή χρησιμοποιήθηκε ένα νευρωνικό δίκτυο μη εποπτευόμενης μηχανικής μάθησης (SOM) και δύο αρχιτεκτονικές Νευρωνικών Δικτύων Βαθιάς Μάθησης κάτω από διαφορετικά σενάρια διαμόρφωσης. Στόχος της διαδικασίας αυτής ήταν η μελέτη ανάπτυξης ενός συστήματος συστάσεων για την υποστήριξη φοιτητών και καθηγητών στον εντοπισμό σχετικών πηγών βάσει μιας λεπτομερούς θεματικής περιγραφής (π.χ. της περίληψης ή του πίνακα περιεχομένων ενός βιβλίου) αντί για μερικές λέξεις-κλειδιά με βάση την πειραματική ανάλυση που πραγματοποιήθηκε. Τέλος, στα πλαίσια της Διατριβής αυτής προτείνεται η δημιουργία μιας Πύλης Διασυνδεδεμένων Δεδομένων με χρήση τεχνολογιών Σημασιολογικού Ιστού, με στόχο την ενσωμάτωση των μηχανισμών αυτόματης εξαγωγής πληροφορίας ταξινόμησης και των αποτελεσμάτων αυτών και απώτερο σκοπό τον εμπλουτισμό μεταδεδομένων, έτσι ώστε να υποβοηθηθεί η αποτελεσματικότερη αναζήτηση και ανάκτηση πληροφοριών από τους τελικούς χρήστες στις συλλογές μιας Ψηφιακής Βιβλιοθήκης.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.