Αυτή η διατριβή παρουσιάζει πρωτότυπη έρευνα στους τομείς των επιστημών της πληροφορικής και της βιβλιοθηκονομίας, και συγκεκριμένα στον τομέα της ανακάλυψης γνώσης από ακαδημαϊκές δημοσιεύσεις. Η ανακάλυψη γνώσης από ακαδημαϊκές δημοσιεύσεις συγκεντρώνει πολλαπλά ερωτήματα από διαφορετικά ερευνητικά πεδία, όπως ανάκτηση πληροφοριών, μηχανική μάθηση και επεξεργασία φυσικής γλώσσας, και στοχεύει στην κατανόηση, προώθηση και χρήση του δημοσιευμένου επιστημονικού υλικού για την αποτελεσματικότερη αντιμετώπιση των προβλημάτων της κοινωνίας μας. Τα προϊόντα αυτού του ερευνητικού πεδίου είναι νέοι αλγόριθμοι και μέθοδοι που διερευνούν, αναλύουν και χρησιμοποιούν τις πληροφορίες που βρίσκονται στις επιστημονικές δημοσιεύσεις πιο αποτελεσματικά, γρηγορότερα και με ευκολία. Η συμβολή μας αφορά την ανακάλυψη γνώσης από ακαδημαϊκές εκδόσεις σε τέσσερις διαφορετικά προβλήματα: ανάκτηση ολικής ανάκλησης, σημασιολογική δεικτοδότηση, πρόσβαση σε βιβλιογραφικές πηγές και ανάλυση αυτό-παραπομπών. Τα κοινά στοιχεία σε αυτές τις εργασίες είναι η χρήση ακατέργαστων δεδομένων που προέρχονται από δημοσιεύσεις και η ανάπτυξη νέων μεθόδων μηχανικής μάθησης. Ο τομέας εφαρμογής της διατριβής είναι οι ακαδημαϊκές δημοσιεύσεις αλλά οι μέθοδοι που αναπτύχθηκαν μπορούν εύκολα να εφαρμοστούν σε άλλα πεδία όπου τα έγγραφα κειμένου είναι η κύρια πηγή δεδομένων. Πρώτον, παρουσιάζουμε μια νέα προσέγγιση για την αξιολόγηση εγγράφων που στοχεύει να βοηθήσει τους ερευνητές να δημιουργήσουν συστηματικές βιβλιογραφικές ανασκοπήσεις. Η προσέγγισή μας ανακτά και κατατάσσει αποτελεσματικά έγγραφα με βάση ένα ερώτημα, χρησιμοποιώντας τεχνικές learning-to-rank μαζί με μια επαναληπτική μέθοδο ανατροφοδότησης. Δεύτερον, παρουσιάζουμε μια προσέγγιση πολλαπλών ετικετών για την ταξινόμηση βιοϊατρικών εικόνων. Αυτή η μέθοδος δεν χρησιμοποιεί έναν αλγόριθμο διαχωρισμού εικόνων και χρησιμοποιεί οπτικά χαρακτηριστικά καθώς και χαρακτηριστικά κειμένου. Τρίτον, προτείνουμε μια καινοτόμο προσέγγιση εντοπισμού ρομπότ του διαδικτύου που λαμβάνει υπόψη το περιεχόμενο ενός ιστότοπου. Η κύρια συνεισφορά μας είναι μια νέα αναπαράσταση για διαδικτυακές συνεδρίες, βασισμένη στο LDA, που ποσοτικοποιεί τη σημασιολογική διακύμανση του περιεχομένου ιστού μιας συνεδρίας. Τέλος, παρουσιάζουμε έναν νέο τρόπο ανίχνευσης δυνητικά μη θεμιτών αυτό-παραπομπών με βάση τη σημασιολογική ομοιότητα μιας εργασίας και των παραπομπών αυτής. Παρουσιάζουμε τη βαθμολογία ReLy, η οποία βασίζεται σε sentence embeddings και ποσοτικοποιεί τη σημασιολογική ομοιότητα άρθρου-παραπομπής. Όλες οι παραπάνω προσεγγίσεις αξιολογούνται και συγκρίνονται με αντίστοιχες κορυφαίες μεθόδους, σε πολλαπλές πειραματικές ρυθμίσεις και με δεδομένα που προέρχονται από τον πραγματικό κόσμο. Τα αποτελέσματα καταδεικνύουν σημαντικές βελτιώσεις ή νέα ευρήματα σε όλες τις περιπτώσεις και δημοσιεύουμε, σε πολλές περιπτώσεις, τα σύνολα δεδομένων που χρησιμοποιούνται για ενθάρρυνση της διαφάνειας και της μελλοντικής έρευνας.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.