Η παρούσα διδακτορική διατριβή χωρίζεται σε επτά κεφάλαια. Το κοινό συνδετικό στοιχείο σε όλα αυτά τα κεφάλαια είναι ότι περιστρέφονται γύρω από τη χρήση ανάλυσης κειμένου, και κατ’ επέκταση την εφαρμογή αυτής στο χρηματοοικονομικό κλάδο. Το πρώτο κεφάλαιο παρέχει την εισαγωγή της διατριβής και επισημαίνει γιατί είναι σημαντική η εστίαση στην ανάλυση κειμένου. Ύστερα, στο δεύτερο κεφάλαιο παρουσιάζεται μια σχετικά συνοπτική αλλά ουσιαστική επισκόπηση της βιβλιογραφίας, προκειμένου να αποκρυσταλλωθούν οι βάσεις, οι σταθερές, και οι τάσεις στην ερευνητική δραστηριότητα αυτής της περιοχής. Ο λόγος είναι ότι με αυτόν τον τρόπο αναδεικνύεται η σύνδεση της διατριβής με τη βιβλιογραφία, η συνεισφορά της σε αυτή, καθώς και τα εμπειρικά ευρήματα μπορούν πλέον να κατανοηθούν καλύτερα.Το τρίτο κεφάλαιο χρησιμοποιεί την ανάλυση κειμένου για να προσδιορίσει τις τράπεζες που συμμετέχουν σε μία συγχώνευση, είτε ως στόχος είτε ως αγοραστής, στον αμερικανικό τραπεζικό κλάδο. Με βάση τις θετικές και αρνητικές λέξεις των Loughran and McDonald, εμείς υπολογίζουμε το συναίσθημα των ετήσιων τραπεζικών δελτίων (10-Κs). Στην εμπειρική μας ανάλυση, χρησιμοποιούμε λογιστικές παλινδρομήσεις προκειμένου να εκτιμήσουμε την πιθανότητα μια τράπεζα να συμμετέχει σε μία συγχώνευση. Πρώτον, δείχνουμε ότι μεγαλύτερη συχνότητα από θετικές λέξεις μέσα στο 10-K της τράπεζας συνδέεται με μεγαλύτερη πιθανότητα να εξαγοράσει. Δεύτερον, βρίσκουμε ότι υψηλότερη συχνότητα από αρνητικές λέξεις μέσα στο 10-Κ της τράπεζας συσχετίζεται με υψηλότερη πιθανότητα να εξαγοραστεί. Τα εμπειρικά μας συμπεράσματα παραμένουν σταθερά ακόμα και έπειτα από την είσοδο ποικίλων εξειδικευμένων τραπεζικών μεταβλητών μέσα στα μοντέλα των λογιστικών παλινδρομήσεων. Το τέταρτο κεφάλαιο εξετάζει το θέμα του προηγούμενου κεφαλαίου από μια διαφορετική οπτική γωνία. Αντίθετα με την χρήση οικονομετρικών μεθοδολογιών για εξεύρεση στατιστικής σημαντικότητας συντελεστών κάτω από μια επεξηγηματική προσέγγιση, εδώ ο στόχος είναι η πρόβλεψη με τη χρήση τεχνικών μηχανικής μάθησης, συμπεριλαμβανομένων τεχνικών βαθιάς μάθησης. Πιο συγκεκριμένα, επιχειρείται να διερευνηθεί εάν οι πληροφορίες κειμένου από ετήσια δελτία έχουν προβλεπτική ικανότητα όταν προβλέπουμε τραπεζικές συγχωνεύσεις. Εμείς αποδεικνύουμε ότι τα δεδομένα κειμένου ενισχύουν την ακρίβεια των προβλέψεων των μοντέλων είτε για τις τράπεζες που αποτελούν στόχο είτε έχουν το ρόλο του αγοραστή. Γενικά ο συνδυασμός κειμενικών και οικονομικών μεταβλητών ως εισροή στα μοντέλα επιτυγχάνει καλύτερη προβλεπτική ικανότητα. Από την μία πλευρά, τα ευρήματα για τους στόχους υποδηλώνουν ότι τα τυχαία δάση (random forest) είναι το καλύτερο σε όρους πρόβλεψης εκτός δείγματος εκπαίδευσης (out-of-sample). Σε αυτή την περίπτωση, χρησιμοποιούμε χαρακτηριστικά κειμένου με μονογράμματα και διγράμματα σταθμισμένα με το ειδικό βάρος term frequency-inverse document frequency (TF-IDF), μαζί με οικονομικές μεταβλητές. Από την άλλη πλευρά, μοντέλα βαθιά μάθησης αποδίδουν πιο αποτελεσματικά όταν προβλέπουμε στόχους σε μια συγχώνευση. Πιο συγκεκριμένα, χρησιμοποιούμε το κεντροειδές των αναπαραστάσεων λέξεων μαζί με οικονομικές μεταβλητές. Αξιοσημείωτο είναι ότι οι εξειδικευμένες μας στα χρηματοοικονομικά αναπαραστάσεις λέξεων παράγουν καλύτερα αποτελέσματα σε σύγκριση με τα γενικά. Για άλλη μια φορά, η στάθμιση με TF-IDF φαίνεται να βελτιώνει το γενικότερο αποτέλεσμα της πρόβλεψης. Τα ευρήματά μας δείχνουν ότι η πληροφορία κειμένου καταφέρνει να μετριάσει την αδιαφάνεια των τραπεζών.Το πέμπτο κεφάλαιο επιχειρεί να διερευνήσει την προβλεπτική ικανότητα κειμενικών δεδομένων προερχόμενα από τα αρχικά ενημερωτικά δελτία (S-1) αναφορικά με την πρόβλεψη της υποτιμολόγησης στις αρχικές δημόσιες εγγραφές (ΑΔΕ). Πιο συγκεκριμένα, χρησιμοποιούμε μοντέλα μηχανικής μάθησης για να προχωρήσουμε στις προβλέψεις μας. Πρωτίστως η έρευνά μας διαφοροποιείται από την πρότερη βιβλιογραφία καθώς προβλέπουμε όχι μόνο αν μια ΑΔΕ θα είναι υποτιμολογημένη ή υπερτιμολογημένη υπό το πρίσμα δυαδικής ταξινόμησης, αλλά επιπλέον προβλέπουμε και το μέγεθος της ενδεχόμενης υποτίμησης. Και στις δύο αυτές περιπτώσεις, βρίσκουμε ότι τα χαρακτηριστικά του κειμένου μπορούν να συμπληρώσουν τις οικονομικές μεταβλητές με αποτελεσματικότητα. Στην πραγματικότητα, τα μοντέλα μηχανικής μάθησης που χρησιμοποιούν συνδυασμό κειμενικών και οικονομικών μεταβλητών κατορθώνουν υψηλότερη απόδοση σε σύγκριση με αυτά που λαμβάνουν ένα τύπο πληροφόρησης ως εισροή. Επίσης, διερευνούμε μεθοδολογικούς τρόπους με τους οποίους μπορεί να υπάρξει αποτελεσματική σύζευξη των οικονομικών μεταβλητών με την πληθώρα από τις κειμενικές μεταβλητές. Συνολικά, τα αποτελέσματά μας παρέχουν εμπειρικές αποδείξεις στο πώς πληροφορίες από κείμενα καταφέρνουν να μειώσουν την εκ των προτέρων αβεβαιότητα κατά την αξιολόγηση των ΑΔΕ. Το έκτο κεφάλαιο προσπαθεί να ερμηνεύσει την υποτιμολόγηση στις ΑΔΕ, συγκεκριμένα με βάση τον τόνο των ενημερωτικών δελτίων. Εμείς αποδεικνύουμε ότι όσο πιο αβέβαιο κείμενο υπάρχει μέσα στο S-1 αρχείο ως μια εσωτερική πηγή αβεβαιότητας σχετίζεται με πιο υψηλή υποτιμολόγηση. Όμως, η βασική συμβολή της έρευνάς μας είναι ότι επικεντρώνεται στην αβεβαιότητα πολιτικής ως μια εξωτερική πηγή αβεβαιότητας, επιπρόσθετα με την χρήση του συναισθήματος κειμένου. Περιέργως βρίσκουμε ότι η υψηλότερη αβεβαιότητα πολιτικής πριν την ημερομηνία έκδοσης του S-1 συνδέεται με λιγότερη υποτιμολόγηση. Με ενδιαφέρον, δείχνουμε ότι η υψηλή αβεβαιότητα πολιτικής επηρεάζει την απόφαση της εταιρείας να προχωρήσει με την ΑΔΕ. Στην πραγματικότητα, η αβεβαιότητα πολιτικής συνδέεται αρνητικά με τον όγκο των ΑΔΕ. Εμείς περαιτέρω τεκμηριώνουμε ότι μόνο οι εταιρείες με καλή ποιότητα συνεχίζουν να προχωρούν προς την ΑΔΕ παρά την υψηλή αβεβαιότητα πολιτικής, που κατά συνέπεια σημαίνει ότι απολαμβάνουν μικρότερη υποτίμηση. Το έβδομο κεφάλαιο παρέχει τα βασικά συμπεράσματα της διατριβής καθώς και προσφέρει προτάσεις για μελλοντική έρευνα.