Robotic validation of visual odometry for wireless capsule endoscopy

Iakovidis, Dimitris K.; Dimas, George; Karargyris, Alexandros; Ciuti, Gastone; Bianchi, Federico; Koulaouzidis, Anastasios; Tóth, Ervin

doi:10.1109/ist.2016.7738202

Cited by 9 publications

(9 citation statements)

References 19 publications

Supporting

Mentioning

Contrasting

Order By: Relevance

“…Parameters c x and c y are the coordinates of the principal point of the camera (optical center), in the x and y dimensions expressed in pixel units, and factor a is the skew coefficient which is non-zero if the axes of the image are not perpendicular. In [20] we showed that Kannala and Brand's calibration method [16] can result in slightly better results than Zhang's method [14], but it requires prior knowledge about the focal length of the camera. In order to minimize the dependence from camera parameters, the Zhang's method was used [14], as implemented in Bouguet's calibration toolbox [15].…”

Section: Parametric Vomentioning

confidence: 96%

“…However, the displacement estimation was possible only in a relative scale, and not in physical units. Recently we proposed a VO methodology that was able to perform the displacement estimation in the 3D coordinate system, in physical units [20]. The mean absolute errors (MAEs) achieved in that study, for the estimation of the distance covered by the CE was 7.2 ± 1.4 cm.…”

Section: Related Workmentioning

confidence: 96%

See 1 more Smart Citation

An artificial neural network architecture for non-parametric visual odometry in wireless capsule endoscopy

Dimas

Iakovidis

Karargyris

et al. 2017

Meas. Sci. Technol.

Self Cite

View full text Add to dashboard Cite

Wireless capsule endoscopy is a non-invasive screening procedure of the gastrointestinal (GI) tract performed with an ingestible capsule endoscope (CE) of the size of a large vitamin pill. Such endoscopes are equipped with a usually low-frame-rate color camera which enables the visualization of the GI lumen and the detection of pathologies. The localization of the commercially available CEs is performed in the 3D abdominal space using radio-frequency (RF) triangulation from external sensor arrays, in combination with transit time estimation. State-of-the-art approaches, such as magnetic localization, which have been experimentally proved more accurate than the RF approach, are still at an early stage. Recently, we have demonstrated that CE localization is feasible using solely visual cues and geometric models. However, such approaches depend on camera parameters, many of which are unknown. In this paper the authors propose a novel non-parametric visual odometry (VO) approach to CE localization based on a feed-forward neural network architecture. The effectiveness of this approach in comparison to state-of-the-art geometric VO approaches is validated using a robotic-assisted in vitro experimental setup.

show abstract

Section: Parametric Vomentioning

confidence: 96%

Section: Related Workmentioning

confidence: 96%

An artificial neural network architecture for non-parametric visual odometry in wireless capsule endoscopy

Dimas

Iakovidis

Karargyris

et al. 2017

Meas. Sci. Technol.

Self Cite

View full text Add to dashboard Cite

show abstract

“…Development in image processing and deep learning have provided another framework for localization of the endoscopy capsule. It has been demonstrated that, based on geometrical models, pure visual aided localization can be performed in vitro [28][29][30][31][32]. In particular Wahid et al [19] and Bao et al [20] provided a simple geometrical approximation to the colon.…”

Section: Introductionmentioning

confidence: 99%

Feature Point Tracking-Based Localization of Colon Capsule Endoscope

et al. 2021

View full text Add to dashboard Cite

In large bowel investigations using endoscopic capsules and upon detection of significant findings, physicians require the location of those findings for a follow-up therapeutic colonoscopy. To cater to this need, we propose a model based on tracking feature points in consecutive frames of videos retrieved from colon capsule endoscopy investigations. By locally approximating the colon as a cylinder, we obtained both the displacement and the orientation of the capsule using geometrical assumptions and by setting priors on both physical properties of the intestine and the image sample frequency of the endoscopic capsule. Our proposed model tracks a colon capsule endoscope through the large intestine for different prior selections. A discussion on validating the findings in terms of intra and inter capsule and expert panel validation is provided. The performance of the model is evaluated based on the average difference in multiple reconstructed capsule’s paths through the large intestine. The path difference averaged over all videos was as low as 4±0.7 cm, with min and max error corresponding to 1.2 and 6.0 cm, respectively. The inter comparison addresses frame classification for the rectum, descending and sigmoid, splenic flexure, transverse, hepatic, and ascending, with an average accuracy of 86%.

show abstract

“…The results lead to the conclusion that there is only a marginal difference, both from a quantitative and qualitative perspective, in terms of SOD performance, between the utilization of predicted and sensor-based estimated depth. MonoSOD can be beneficial for robotic applications where the installation of sensor-based depth acquisition methods is difficult due to the design requirements of the robot, e.g., in robotic capsule endoscopes (Ciuti et al, 2016).…”

Section: Discussionmentioning

confidence: 99%

Machine perception and computer vision

Δήμας¹

View full text Add to dashboard Cite

Η μηχανική μάθηση (ML) είναι η βάση της μηχανικής αντίληψης και της υπολογιστικής όρασης. Η μηχανική αντίληψη αναφέρεται στην ικανότητα ενός υπολογιστικού συστήματος να κατανοεί διάφορες πτυχές του κόσμου μετά από επεξεργασία και ανάλυση δεδομένων που δέχεται ως είσοδο. Η μηχανική αντίληψη μέσω οπτικών δεδομένων υλοποιεί την έννοια της υπολογιστικής όρασης. Οι επιστημονικές συνεισφορές της παρούσας διδακτορικής διατριβής καλύπτουν ένα ευρύ φάσμα μεθόδων και εφαρμογών στο συγκεκριμένο πλαίσιο. Σε αυτές περιλαμβάνονται η ανίχνευση και ο εντοπισμός σημαντικών αντικειμένων, η ανίχνευση και η αποφυγή εμποδίων βάσει οπτικής πληροφορίας, οι οπτικές μετρήσεις με χρήση μίας εικόνας, η βελτίωση των τρισδιάστατων αναπαραστάσεων αντικειμένων και τα αντιληπτικά ερμηνεύσιμα μοντέλα μηχανικής μάθησης. Η πρόβλεψη της οπτικής προσοχής σε ιατρικές εικόνες είναι ένα ερευνητικό θέμα που δεν έχει μελετηθεί ευρέως. Για να αντιμετωπιστεί αυτό το πρόβλημα, προτείνεται μια καινοτόμα μεθοδολογία εκτίμησης της οπτικής προσοχής των ιατρών, χρησιμοποιώντας Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks, CNNs) μαζί με μία νέα συνεργατική μέθοδο εκπαίδευσης, καθώς δημιουργήθηκε και ένα νέο σύνολο δεδομένων βάση της οπτικής προσοχής των ιατρών. Η προσέγγιση της οπτικής προσοχής των ανθρώπων αποτελεί δημοφιλές ερευνητικό θέμα- ωστόσο, ορισμένες από τις προσεγγίσεις με τις καλύτερες επιδόσεις απαιτούν τόσο έγχρωμη πληροφορία όσο και πληροφορία βάθους προερχόμενη από εξειδικευμένους αισθητήρες. Η ανάγκη για πρόσθετους αισθητήρες προσθέτει επιπλέον βαθμούς πολυπλοκότητας σε ένα σύστημα περιορίζοντας την εφαρμογή του. Στην παρούσα διατριβή, διερευνάται ο αντίκτυπος της ακριβούς εκτίμησης του βάθους για την αντίληψη της σημαντικότητας, με αποτέλεσμα ένα νέο σύστημα ανίχνευσης σημαντικών αντικειμένων βάση μίας εικόνας (MonoSOD), βασισμένο σε μια αρχιτεκτονική αυτόματου κωδικοποιητή CNN δύο κλάδων, ικανό να προβλέπει χάρτες βάθους και να εκτιμά το saliency. Ακόμη μία συνεισφορά της παρούσας διατριβής είναι μια νέα μεθοδολογία για την ανίχνευση εμποδίων με βάση εικόνες RGB-D. Αυτή η μεθοδολογία ενσωματώνει αποτελεσματικά την ασαφή λογική και την πρόβλεψη της ανθρώπινης οπτικής προσοχής με τη χρήση Γενετικών Γενεσιουργών Δικτύων (Generative Adversarial Networks, GANs). Αυτός ο συνδυασμός μπορεί να μεταφράσει τη θέση των ανιχνευόμενων εμποδίων σε περιγραφικές γλωσσικές κωδικοποιήσεις που μπορούν να χρησιμοποιηθούν σε διάφορες εφαρμογές, όπως η ρομποτική και η υποβοηθούμενη πλοήγηση. Αναπτύχθηκε ένα μοντέλο CNN με αυτό-επιβλεπόμενη εκπαίδευση, με την ικανότητα προσομοίωσης της εν λόγω μεθόδου ανίχνευσης εμποδίων με βάση το RGB-D, με τη χρήση όμως μίας μόνο έγχρωμης εικόνας ως είσοδο.Οι περιορισμοί των σημερινών μεθόδων οπτικής μέτρησης, όπως οι απαιτήσεις τους όσον αφορά τον αριθμό των εικόνων εισόδου και την ύπαρξη αντικειμένων αναφοράς, αποτέλεσαν το κίνητρο για την ανάπτυξη μιας καινοτόμου, πιο αξιόπιστης μεθόδου για την οπτική μέτρηση μεγέθους μίας εικόνας, η οποία ονομάζεται Virtual Grid Mapping (VGM). Η προτεινόμενη μέθοδος VGM απαιτεί μόνο μία εικόνα ως είσοδο και δεν απαιτεί καμία προηγούμενη πληροφορία σχετικά με τη σκηνή, όπως η γραμμή του ορίζοντα ή τα αντικείμενα αναφοράς. Ένα σημαντικό πλεονέκτημα της VGM που συμβάλλει στην ευρωστία της είναι ότι αντιμετωπίζει την αβεβαιότητα που προέρχεται από τη βαθμονόμηση και την θέση της κάμερας, προσφέροντας έτσι μεγαλύτερη ακρίβεια από τις τρέχουσες μεθόδους μέτρησης οπτικού μεγέθους. Δεδομένων των γεωμετρικών ιδιοτήτων της κάμερας, η VGM παράγει και προβάλλει αυτόματα ένα πλέγμα εικονικών τρισδιάστατων σημείων στο δισδιάστατο επίπεδο της εικόνας, επιτρέποντας τη δημιουργία προσεγγιστικών αντιστοιχιών μεταξύ τρισδιάστατων σημείων του πραγματικού κόσμου και δισδιάστατων σημείων του επιπέδου εικόνας. Αυτές οι αντιστοιχίες επιτρέπουν την εκτίμηση της απόστασης μεταξύ ενός αντικειμένου και της κάμερας και στη συνέχεια τη μέτρηση του εν λόγω αντικειμένου. Για την εκτίμηση του μεγέθους των ανωμαλιών σε βιοϊατρικές εικόνες του γαστρεντερικού σωλήνα προτείνεται μια παρόμοια προσέγγιση με τη VGM που υποβοηθείται από το προβλεπόμενο βάθος που παρέχεται από ένα μοντέλο CNN. Διάφορες μελέτες επιβεβαίωσαν ότι η ενδοσκοπική εκτίμηση του μεγέθους των βλαβών έχει εγγενείς περιορισμούς και σημαντικά σφάλματα μέτρησης. Για να αντιμετωπιστεί αυτό το πρόβλημα, η παρούσα διατριβή διερεύνησε μια μεθοδολογία που απαιτεί μόνο μια ενδοσκοπική εικόνα προκειμένου να εκτιμηθεί το μέγεθος ενός αντικειμένου ενδιαφέροντος in vivo. Μια άλλη ερευνητική κατεύθυνση που διερευνήθηκε σε αυτή τη διατριβή οδήγησε στην ανάπτυξη μιας νέας προσέγγισης για την ανακατασκευή τρισδιάστατου μοντέλου, χρησιμοποιώντας μια εσωτερική νευρωνική αναπαράσταση (Implicit Neural Representation, INR) με περιοδική και παραμετρική ενεργοποίηση, η οποία ονομάζεται WaveShaping function. Η συνάρτηση αυτή χρησιμοποιείται από ένα πολυστρωματικό νευρωνικό δίκτυο (Multilayer Perceptron, MLP) που εκπαιδεύεται για να μάθει μια συνεχή συνάρτηση δεδομένου πεπερασμένου αριθμού σημείων που περιγράφει ένα ατελές ανακτημένο τρισδιάστατο μοντέλο. Στη συνέχεια, το MLP θεωρείται ως μια συνεχής αναπαράσταση αυτού του μοντέλου- ως εκ τούτου, μπορεί να παρεμβάλει σημεία δεδομένων για να βελτιώσει και να αποκαταστήσει περιοχές του τρισδιάστατου μοντέλου σε υψηλότερη ανάλυση.Πρόσφατα, η ερμηνεία της διαδικασίας εξαγωγής συμπερασμάτων των μοντέλων βαθιάς μάθησης έχει λάβει μεγάλη προσοχή από την επιστημονική κοινότητα. Το πρόσφατο νομοθετικό πλαίσιο για τη χρήση αλγορίθμων μηχανικής μάθησης καθιστούν τη φύση του μαύρου κουτιού που χαρακτηρίζει αυτά τα μοντέλα ακατάλληλη για εμπορική χρήση. Για την αντιμετώπιση αυτού του προβλήματος, η παρούσα διατριβή προτείνει ένα νέο, γενικευμένο πλαίσιο για την υλοποίηση εγγενώς ερμηνεύσιμων μοντέλων CNN, το οποίο ονομάζεται E Pluribus Unum Interpretable CNN (EPU-CNN). Ένα μοντέλο EPU-CNN αποτελείται από υποδίκτυα CNN, καθένα από τα οποία λαμβάνει μια διαφορετική αναπαράσταση μιας εικόνας εισόδου που εκφράζει ένα αντιληπτικό χαρακτηριστικό, όπως το χρώμα ή την υφή. Η έξοδος ενός μοντέλου EPU-CNN αποτελείται από την πρόβλεψη ταξινόμησης και την ερμηνεία της, από την άποψη της σχετικής συνεισφοράς των αντιληπτικών χαρακτηριστικών σε διαφορετικές περιοχές της εικόνας εισόδου. Τα μοντέλα EPU-CNN έχουν αξιολογηθεί εκτενώς σε φυσικές και βιοϊατρικές εικόνες όσον αφορά προβλήματα τόσο δυαδικών όσο και πολλαπλών κατηγοριών.Οι διάφορες μεθοδολογίες που παρουσιάζονται στην παρούσα διατριβή υπερτερούν έναντι των αντίστοιχων σύγχρονων μεθόδων τεχνολογίας αιχμής, ενώ είναι σε θέση να αντιμετωπίσουν διάφορες προκλήσεις που έχουν καταγραφεί στη βιβλιογραφία για κάθε τομέα εφαρμογής. Λαμβάνοντας υπόψη την πρόβλεψη της σημαντικότητας, οι προτεινόμενες μέθοδοι αντιμετωπίζουν το πρόβλημα της εκτίμησης της οπτικής προσοχής τόσο σε βιοϊατρικές όσο και σε φυσικές εικόνες. Επιπλέον, η προσέγγιση ανίχνευσης εμφανών αντικειμένων παρέχει μια νέα λύση με στόχο τη μείωση της εξάρτησης των εν λόγω μεθόδων από πρόσθετους αισθητήρες. Οι προσεγγίσεις ανίχνευσης εμποδίων συνδυάζουν αποτελεσματικά τις πληροφορίες βάθους και οπτικής προσοχής για να παρέχουν μια αξιόπιστη μέθοδο ανίχνευσης εμποδίων σε εξωτερικά περιβάλλοντα. Μια αξιολόγηση αυτών των μεθόδων με βάση τον χρήστη έδειξε ότι μπορούν να ενσωματωθούν αποτελεσματικά σε συστήματα υποβοηθητικής πλοήγησης και να βοηθήσουν τα άτομα με προβλήματα όρασης να πλοηγηθούν σε εξωτερικούς χώρους. Όσον αφορά τις οπτικές μετρήσεις μίας εικόνας που προτείνονται στην παρούσα διατριβή, τα αποτελέσματα που προέκυψαν υποδηλώνουν ότι μπορούν να χρησιμοποιηθούν με επιτυχία για τη μέτρηση αντικειμένων σε καθημερινές και ιατρικές εφαρμογές. Η χρήση τέτοιων μεθόδων μπορεί να βοηθήσει προς την κατεύθυνση της απλούστευσης αντίστοιχων συστημάτων που απαιτούν πολλαπλούς αισθητήρες για την εκτέλεση τέτοιων μετρήσεων. Η χρήση εσωτερικών νευρωνικών αναπαραστάσεων για τη βελτίωση των τρισδιάστατων μοντέλων οδηγεί σε ακριβέστερες τρισδιάστατες αναπαραστάσεις αντικειμένων που μπορούν να ενσωματωθούν σε μοντέλα ψηφιακών διδύμων για in-silico κλινικές δοκιμές. Τέλος, το πλαίσιο EPU-CNN ικανοποιεί την ανάγκη για μια γενικευμένη μέθοδο για την κατασκευή αντιληπτικά ερμηνεύσιμων μοντέλων. Επιπλέον, το EPU-CNN παρέχει έναν τρόπο αντιμετώπισης των απαιτήσεων που επιβάλλονται από τις τρέχουσες νομοθεσίες σχετικά με την εμπορική δυνατότητα εφαρμογής των μοντέλων μηχανικής μάθησης. Το ερευνητικό τοπίο που διερευνά η παρούσα διατριβή είναι ευρύ και οι συνεισφορές της αναμένεται να έχουν τόσο κοινωνικό όσο και επιστημονικό αντίκτυπο, ανοίγοντας νέες προοπτικές για περαιτέρω μελλοντική έρευνα και την πρόοδο της επιστήμης

show abstract

Robotic validation of visual odometry for wireless capsule endoscopy

Cited by 9 publications

References 19 publications

An artificial neural network architecture for non-parametric visual odometry in wireless capsule endoscopy

An artificial neural network architecture for non-parametric visual odometry in wireless capsule endoscopy

Feature Point Tracking-Based Localization of Colon Capsule Endoscope

Machine perception and computer vision

Contact Info

Product

Resources

About