Στην εργασία αυτή ασχολούμαστε με το πρόβλημα της σημασιολογικής ανάλυσης πολυμεσικών δεδομένων. Δοθέντος ενός τμήματος πολυμεσικού εγγράφου και μία λίστα σαφώς ορισμένων εννοιών c i , i = 1, . . . , L, στόχος μας είναι ο υπολογισμός πιθανοτήτων p i , μία για κάθε έννοια, που δίνουν ένα μέτρο της βεβαιότητας ότι η c i υπάρχει στα πολυμεσικά δεδομένα εισόδου. Ακολουθούμε την προσέγγιση της μηχανικής μάθησης, όπου εξάγονται πολλαπλά χαρακτηριστικά χαμηλού επιπέδου από το περιεχόμενο, τα οποία συνενώνονται, κανονικοποιούνται και επεξεργάζονται ώστε να προετοιμαστούν για το τελευταίο στάδιο υπολογισμού των πιθανοτήτων από έναν ταξινομητή. Οι πιθανότητες p i χρησιμοποιούνται για την δεικτοδότηση και μετέπειτα ανάκτηση πολυμέσων, ακόμα και όταν αυτά δεν έχουν σχολιαστεί χειρωνακτικά.Αρχικά επιδιώκουμε την αξιοποίηση ταξινομητών που έχουν εκπαιδευτεί σε ξένα πεδία εφαρμογής για την βελτίωση των αποτελεσμάτων ανάκτησης. Προτείνουμε ένα σχήμα συνένωσης όπου χρησιμοποιείται ένα επίπεδο ταξινομητών βάσης εκπαιδευμένων σε ξένα πεδία εφαρμογής για τον κάθε τύπο χαρακτηριστικού χωριστά. Με βάση τις εξόδους των ταξινομητών εκπαιδεύται ένας τελικός ταξινομητής που υπολογίζει τις πιθανότητες p i . Εισάγονται τα κριτήρια Μέγιστης Πληροφορίας και Top-k για την επιλογή των ταξινομητών βάσης και η επίδοση του προτεινόμενου σχήματος συνένωσης αξιολογείται πειραματικά σε δύο διαφορετικά σύνολα δεδομένων μεγάλης κλίμακας (TRECVID-2005 και μία συλλογή εικόνων του ειδησεογραφικού πρακτορείου Belga), για μεγάλο αριθμό εννοιών.Με αφορμή τις παρατηρήσεις που προκύπτουν από αυτό το σχήμα συνένωσης εξετάζουμε τρόπους ώστε να αντικαταστήσουμε τους ταξινομητές βάσης με "ανιχνευτές ιδιοτήτων" οι οποίοι δεν είναι παρά κατανομές πιθανότητας p(f |t) στον χώρο των χαρακτηριστικών f που επιλέγονται παραμετρικά με βάση τα δεδομένα. Η προσέγγιση που ακολουθούμε είναι η δημιουργία μίας διαμέρισης του χώρου των χαρακτηριστικών και η ανάθεση μίας κατανομής πιθανότητας στο κάθε υποσύνολο της διαμέρισης. Διεξάγονται πειράματα όπου η προτεινόμενη μέθοδος παρουσιάζει αύξηση της επίδοσης σε σχέση με την απλή συνένωση χαρακτηριστικών, τόσο για προβλήματα ταξινόμησης, όσο και για προβλήματα ανάκτησης πολυμέσων.Διερευνώνται επίσης και ζητήματα που σχετίζονται με την πρακτική εφαρμογή των συστημάτων αυτόματης ανίχνευσης για μεγάλο αριθμό εννοιών. Προτείνουμε ένα πρωτόκολλο για την επιλογή και αποσαφήνιση εννοιών και την χειρωνακτική κατασκευή συνόλων εκπαίδευσης, που εφαρμόστηκε για περισσότερες από 500 έννοιες. Επιπλέον, αξιολογούμε μία σειρά μεθόδων αυτόματης κατασκευής δεδομένων εκπαίδευσης από δεδομένα clickthrough. Επιπλέον, προτείνουμε ένα νέο χαρακτηριστικό ήχου που βασίζεται στην μέθοδο Bag-of-Words και το οποίο επιτρέπει την αποδοτική εφαρμογή εννοιών που βασίζονται σε ηχητική πληροφορία. Τέλος, γίνεται και μία σύντομη αναφορά σε δύο συστήματα που αναπτύχθηκαν και αξιολογήθηκαν στο μεγάλης κλίμακας διεθνές συγκριτικό ανάκτησης video, TRECVID, όπου η επίδοση τους ήταν ανταγωνιστική.