Η μηχανική μάθηση (ML) είναι η βάση της μηχανικής αντίληψης και της υπολογιστικής όρασης. Η μηχανική αντίληψη αναφέρεται στην ικανότητα ενός υπολογιστικού συστήματος να κατανοεί διάφορες πτυχές του κόσμου μετά από επεξεργασία και ανάλυση δεδομένων που δέχεται ως είσοδο. Η μηχανική αντίληψη μέσω οπτικών δεδομένων υλοποιεί την έννοια της υπολογιστικής όρασης. Οι επιστημονικές συνεισφορές της παρούσας διδακτορικής διατριβής καλύπτουν ένα ευρύ φάσμα μεθόδων και εφαρμογών στο συγκεκριμένο πλαίσιο. Σε αυτές περιλαμβάνονται η ανίχνευση και ο εντοπισμός σημαντικών αντικειμένων, η ανίχνευση και η αποφυγή εμποδίων βάσει οπτικής πληροφορίας, οι οπτικές μετρήσεις με χρήση μίας εικόνας, η βελτίωση των τρισδιάστατων αναπαραστάσεων αντικειμένων και τα αντιληπτικά ερμηνεύσιμα μοντέλα μηχανικής μάθησης. Η πρόβλεψη της οπτικής προσοχής σε ιατρικές εικόνες είναι ένα ερευνητικό θέμα που δεν έχει μελετηθεί ευρέως. Για να αντιμετωπιστεί αυτό το πρόβλημα, προτείνεται μια καινοτόμα μεθοδολογία εκτίμησης της οπτικής προσοχής των ιατρών, χρησιμοποιώντας Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks, CNNs) μαζί με μία νέα συνεργατική μέθοδο εκπαίδευσης, καθώς δημιουργήθηκε και ένα νέο σύνολο δεδομένων βάση της οπτικής προσοχής των ιατρών. Η προσέγγιση της οπτικής προσοχής των ανθρώπων αποτελεί δημοφιλές ερευνητικό θέμα- ωστόσο, ορισμένες από τις προσεγγίσεις με τις καλύτερες επιδόσεις απαιτούν τόσο έγχρωμη πληροφορία όσο και πληροφορία βάθους προερχόμενη από εξειδικευμένους αισθητήρες. Η ανάγκη για πρόσθετους αισθητήρες προσθέτει επιπλέον βαθμούς πολυπλοκότητας σε ένα σύστημα περιορίζοντας την εφαρμογή του. Στην παρούσα διατριβή, διερευνάται ο αντίκτυπος της ακριβούς εκτίμησης του βάθους για την αντίληψη της σημαντικότητας, με αποτέλεσμα ένα νέο σύστημα ανίχνευσης σημαντικών αντικειμένων βάση μίας εικόνας (MonoSOD), βασισμένο σε μια αρχιτεκτονική αυτόματου κωδικοποιητή CNN δύο κλάδων, ικανό να προβλέπει χάρτες βάθους και να εκτιμά το saliency. Ακόμη μία συνεισφορά της παρούσας διατριβής είναι μια νέα μεθοδολογία για την ανίχνευση εμποδίων με βάση εικόνες RGB-D. Αυτή η μεθοδολογία ενσωματώνει αποτελεσματικά την ασαφή λογική και την πρόβλεψη της ανθρώπινης οπτικής προσοχής με τη χρήση Γενετικών Γενεσιουργών Δικτύων (Generative Adversarial Networks, GANs). Αυτός ο συνδυασμός μπορεί να μεταφράσει τη θέση των ανιχνευόμενων εμποδίων σε περιγραφικές γλωσσικές κωδικοποιήσεις που μπορούν να χρησιμοποιηθούν σε διάφορες εφαρμογές, όπως η ρομποτική και η υποβοηθούμενη πλοήγηση. Αναπτύχθηκε ένα μοντέλο CNN με αυτό-επιβλεπόμενη εκπαίδευση, με την ικανότητα προσομοίωσης της εν λόγω μεθόδου ανίχνευσης εμποδίων με βάση το RGB-D, με τη χρήση όμως μίας μόνο έγχρωμης εικόνας ως είσοδο.Οι περιορισμοί των σημερινών μεθόδων οπτικής μέτρησης, όπως οι απαιτήσεις τους όσον αφορά τον αριθμό των εικόνων εισόδου και την ύπαρξη αντικειμένων αναφοράς, αποτέλεσαν το κίνητρο για την ανάπτυξη μιας καινοτόμου, πιο αξιόπιστης μεθόδου για την οπτική μέτρηση μεγέθους μίας εικόνας, η οποία ονομάζεται Virtual Grid Mapping (VGM). Η προτεινόμενη μέθοδος VGM απαιτεί μόνο μία εικόνα ως είσοδο και δεν απαιτεί καμία προηγούμενη πληροφορία σχετικά με τη σκηνή, όπως η γραμμή του ορίζοντα ή τα αντικείμενα αναφοράς. Ένα σημαντικό πλεονέκτημα της VGM που συμβάλλει στην ευρωστία της είναι ότι αντιμετωπίζει την αβεβαιότητα που προέρχεται από τη βαθμονόμηση και την θέση της κάμερας, προσφέροντας έτσι μεγαλύτερη ακρίβεια από τις τρέχουσες μεθόδους μέτρησης οπτικού μεγέθους. Δεδομένων των γεωμετρικών ιδιοτήτων της κάμερας, η VGM παράγει και προβάλλει αυτόματα ένα πλέγμα εικονικών τρισδιάστατων σημείων στο δισδιάστατο επίπεδο της εικόνας, επιτρέποντας τη δημιουργία προσεγγιστικών αντιστοιχιών μεταξύ τρισδιάστατων σημείων του πραγματικού κόσμου και δισδιάστατων σημείων του επιπέδου εικόνας. Αυτές οι αντιστοιχίες επιτρέπουν την εκτίμηση της απόστασης μεταξύ ενός αντικειμένου και της κάμερας και στη συνέχεια τη μέτρηση του εν λόγω αντικειμένου. Για την εκτίμηση του μεγέθους των ανωμαλιών σε βιοϊατρικές εικόνες του γαστρεντερικού σωλήνα προτείνεται μια παρόμοια προσέγγιση με τη VGM που υποβοηθείται από το προβλεπόμενο βάθος που παρέχεται από ένα μοντέλο CNN. Διάφορες μελέτες επιβεβαίωσαν ότι η ενδοσκοπική εκτίμηση του μεγέθους των βλαβών έχει εγγενείς περιορισμούς και σημαντικά σφάλματα μέτρησης. Για να αντιμετωπιστεί αυτό το πρόβλημα, η παρούσα διατριβή διερεύνησε μια μεθοδολογία που απαιτεί μόνο μια ενδοσκοπική εικόνα προκειμένου να εκτιμηθεί το μέγεθος ενός αντικειμένου ενδιαφέροντος in vivo. Μια άλλη ερευνητική κατεύθυνση που διερευνήθηκε σε αυτή τη διατριβή οδήγησε στην ανάπτυξη μιας νέας προσέγγισης για την ανακατασκευή τρισδιάστατου μοντέλου, χρησιμοποιώντας μια εσωτερική νευρωνική αναπαράσταση (Implicit Neural Representation, INR) με περιοδική και παραμετρική ενεργοποίηση, η οποία ονομάζεται WaveShaping function. Η συνάρτηση αυτή χρησιμοποιείται από ένα πολυστρωματικό νευρωνικό δίκτυο (Multilayer Perceptron, MLP) που εκπαιδεύεται για να μάθει μια συνεχή συνάρτηση δεδομένου πεπερασμένου αριθμού σημείων που περιγράφει ένα ατελές ανακτημένο τρισδιάστατο μοντέλο. Στη συνέχεια, το MLP θεωρείται ως μια συνεχής αναπαράσταση αυτού του μοντέλου- ως εκ τούτου, μπορεί να παρεμβάλει σημεία δεδομένων για να βελτιώσει και να αποκαταστήσει περιοχές του τρισδιάστατου μοντέλου σε υψηλότερη ανάλυση.Πρόσφατα, η ερμηνεία της διαδικασίας εξαγωγής συμπερασμάτων των μοντέλων βαθιάς μάθησης έχει λάβει μεγάλη προσοχή από την επιστημονική κοινότητα. Το πρόσφατο νομοθετικό πλαίσιο για τη χρήση αλγορίθμων μηχανικής μάθησης καθιστούν τη φύση του μαύρου κουτιού που χαρακτηρίζει αυτά τα μοντέλα ακατάλληλη για εμπορική χρήση. Για την αντιμετώπιση αυτού του προβλήματος, η παρούσα διατριβή προτείνει ένα νέο, γενικευμένο πλαίσιο για την υλοποίηση εγγενώς ερμηνεύσιμων μοντέλων CNN, το οποίο ονομάζεται E Pluribus Unum Interpretable CNN (EPU-CNN). Ένα μοντέλο EPU-CNN αποτελείται από υποδίκτυα CNN, καθένα από τα οποία λαμβάνει μια διαφορετική αναπαράσταση μιας εικόνας εισόδου που εκφράζει ένα αντιληπτικό χαρακτηριστικό, όπως το χρώμα ή την υφή. Η έξοδος ενός μοντέλου EPU-CNN αποτελείται από την πρόβλεψη ταξινόμησης και την ερμηνεία της, από την άποψη της σχετικής συνεισφοράς των αντιληπτικών χαρακτηριστικών σε διαφορετικές περιοχές της εικόνας εισόδου. Τα μοντέλα EPU-CNN έχουν αξιολογηθεί εκτενώς σε φυσικές και βιοϊατρικές εικόνες όσον αφορά προβλήματα τόσο δυαδικών όσο και πολλαπλών κατηγοριών.Οι διάφορες μεθοδολογίες που παρουσιάζονται στην παρούσα διατριβή υπερτερούν έναντι των αντίστοιχων σύγχρονων μεθόδων τεχνολογίας αιχμής, ενώ είναι σε θέση να αντιμετωπίσουν διάφορες προκλήσεις που έχουν καταγραφεί στη βιβλιογραφία για κάθε τομέα εφαρμογής. Λαμβάνοντας υπόψη την πρόβλεψη της σημαντικότητας, οι προτεινόμενες μέθοδοι αντιμετωπίζουν το πρόβλημα της εκτίμησης της οπτικής προσοχής τόσο σε βιοϊατρικές όσο και σε φυσικές εικόνες. Επιπλέον, η προσέγγιση ανίχνευσης εμφανών αντικειμένων παρέχει μια νέα λύση με στόχο τη μείωση της εξάρτησης των εν λόγω μεθόδων από πρόσθετους αισθητήρες. Οι προσεγγίσεις ανίχνευσης εμποδίων συνδυάζουν αποτελεσματικά τις πληροφορίες βάθους και οπτικής προσοχής για να παρέχουν μια αξιόπιστη μέθοδο ανίχνευσης εμποδίων σε εξωτερικά περιβάλλοντα. Μια αξιολόγηση αυτών των μεθόδων με βάση τον χρήστη έδειξε ότι μπορούν να ενσωματωθούν αποτελεσματικά σε συστήματα υποβοηθητικής πλοήγησης και να βοηθήσουν τα άτομα με προβλήματα όρασης να πλοηγηθούν σε εξωτερικούς χώρους. Όσον αφορά τις οπτικές μετρήσεις μίας εικόνας που προτείνονται στην παρούσα διατριβή, τα αποτελέσματα που προέκυψαν υποδηλώνουν ότι μπορούν να χρησιμοποιηθούν με επιτυχία για τη μέτρηση αντικειμένων σε καθημερινές και ιατρικές εφαρμογές. Η χρήση τέτοιων μεθόδων μπορεί να βοηθήσει προς την κατεύθυνση της απλούστευσης αντίστοιχων συστημάτων που απαιτούν πολλαπλούς αισθητήρες για την εκτέλεση τέτοιων μετρήσεων. Η χρήση εσωτερικών νευρωνικών αναπαραστάσεων για τη βελτίωση των τρισδιάστατων μοντέλων οδηγεί σε ακριβέστερες τρισδιάστατες αναπαραστάσεις αντικειμένων που μπορούν να ενσωματωθούν σε μοντέλα ψηφιακών διδύμων για in-silico κλινικές δοκιμές. Τέλος, το πλαίσιο EPU-CNN ικανοποιεί την ανάγκη για μια γενικευμένη μέθοδο για την κατασκευή αντιληπτικά ερμηνεύσιμων μοντέλων. Επιπλέον, το EPU-CNN παρέχει έναν τρόπο αντιμετώπισης των απαιτήσεων που επιβάλλονται από τις τρέχουσες νομοθεσίες σχετικά με την εμπορική δυνατότητα εφαρμογής των μοντέλων μηχανικής μάθησης. Το ερευνητικό τοπίο που διερευνά η παρούσα διατριβή είναι ευρύ και οι συνεισφορές της αναμένεται να έχουν τόσο κοινωνικό όσο και επιστημονικό αντίκτυπο, ανοίγοντας νέες προοπτικές για περαιτέρω μελλοντική έρευνα και την πρόοδο της επιστήμης