Στατιστική Αναγνώριση Είδους Κειμένου και Συγγραφέα σε Νεοελληνικά Κείμενα χωρίς Περιορισμούς

Ευστάθιος Σταματάτος

Διδακτορική διατριβή
Τμήμα Ηλεκτρολόγων Μηχανικών 
και Τεχνολογίας Υπολογιστών
Πανεπιστήμιο Πατρών
Αριθμός Διατριβής: 87
Απρίλιος 2000

Περιεχόμενα
1. Εισαγωγή
2. Ανίχνευση Ορίων Περιόδων
3. Ανίχνευση Ορίων Φράσεων
4. Εξαγωγή Υφολογικών Δεικτών
5. Αναγνώριση Είδους Κειμένου
6. Προσδιορισμός Συγγραφέα
7. Συμπεράσματα - Προοπτικές
Παραρτήματα
Βιβλιογραφία - Δημοσιεύσεις

 

ΠΕΡΙΛΗΨΗ

Αντικείμενο αυτής της διατριβής είναι η στατιστική ανάλυση του ύφους Νεοελληνικών κειμένων χωρίς περιορισμούς, με στόχο την αυτόματη ταξινόμησή τους τόσο ως προς το είδος τους όσο και ως προς τον συγγραφέα τους. Η υφολογική πληροφορία εξάγεται μέσω της ανάλυσης του κειμένου από ένα υπολογιστικό εργαλείο ικανό να ανιχνεύει τα όρια των περιόδων και των φράσεων σε οποιοδήποτε κείμενο. Ο ανιχνευτής ορίων περιόδων και φράσεων επιτυγχάνει πολύ ικανοποιητικά αποτελέσματα ανάλυσης, αν και βασίζεται σε ελάχιστους πόρους. Πιο συγκεκριμένα, ο ανιχνευτής περιόδων βασίζεται σε πολύ απλή πληροφορία (όπως το μήκος των λέξεων) και σε κανόνες που εξάγονται αυτόματα από ένα σώμα εκπαίδευσης, σύμφωνα με μία νέα προσέγγιση μηχανικής εκμάθησης. Η ακρίβεια που επιτυγχάνει είναι της τάξης του 99,4% για ένα σώμα κειμένων 200.000 λέξεων. Απ την άλλη, ο ανιχνευτής ορίων φράσεων βασίζεται σε ένα μικρό σύνολο λέξεων-κλειδιών και στις καταλήξεις των λέξεων για να εκτιμήσει την πιο πιθανή μορφολογική περιγραφή της κάθε λέξης. Η διαδικασία της ανάλυσης γίνεται μέσω της τεχνικής πολλαπλού περάσματος και στο σώμα που αναφέρθηκε παραπάνω επιτυγχάνει ανάκληση και ακρίβεια της τάξης του 90% και 95% αντίστοιχα. Έτσι, το εργαλείο αυτό προσφέρει γρήγορη και αξιόπιστη ανάλυση μεγάλων όγκων κειμένου, με ελάχιστο υπολογιστικό κόστος. Για την αναπαράσταση του ύφους χρησιμοποιούνται 22 υφολογικοί δείκτες  που διακρίνονται σε τρία υφομετρικά επίπεδα: (i) επίπεδο δείγματος, που σχετίζεται με την έξοδο του ανιχνευτή ορίων περιόδων, (ii) επίπεδο φράσης, που σχετίζεται με την έξοδο του ανιχνευτή ορίων φράσεων και (iii) επίπεδο ανάλυσης, που αφορά στον τρόπο με τον οποίο έγινε η ανάλυση του κειμένου από τον ανιχνευτή ορίων φράσεων. Το τελευταίο επίπεδο αποτελεί ένα εναλλακτικό τρόπο σύλληψης της υφολογικής πληροφορίας και είναι η πρώτη φορά που χρησιμοποιείται. Επιπλέον, δεν χρησιμοποιείται καμία λεξιλογική πληροφορία σε αντίθεση με τις προηγούμενες προσεγγίσεις. Αυτό το σύνολο των υφολογικών δεικτών σε συνδυασμό με τις στατιστικές τεχνικές της πολλαπλής παλινδρόμησης και της διαχωριστικής ανάλυσης οδηγούν στην αυτόματη αναγνώριση του είδους κειμένου (π.χ. επιστημονικά άρθρα, ρεπορτάζ εφημερίδων, μαγειρικές συνταγές, κ.ά.). Αυτές οι τεχνικές της πολυπαραγοντικής στατιστικής διακρίνονται για την εύκολη εκπαίδευσή τους και τη γρήγορη απόκρισή τους καθώς βασίζονται στον υπολογισμό απλών γραμμικών συναρτήσεων. Τα πειράματα ελέγχου της προτεινόμενης μεθοδολογίας πραγματοποιήθηκαν σε ένα σώμα που δημιουργήθηκε από κείμενα που βρέθηκαν σε σελίδες του Διαδικτύου και δεν υπέστησαν καμία χειρονακτική προεπεξεργασία. Τα αποτελέσματα κρίνονται ως πολύ ικανοποιητικά καθώς επιτυγχάνεται ακρίβεια της τάξης του 82-85%, που είναι πολύ υψηλότερη από αντίστοιχα συστήματα της Αγγλικής γλώσσας. Αντίστοιχα πειράματα πραγματοποιήθηκαν για την αυτόματη ταξινόμηση ενός σώματος κειμένων ως προς το συγγραφέα. Η προτεινόμενη μεθοδολογία εφαρμόστηκε σε δύο ομάδες τυχαία επιλεγμένων συγγραφέων μίας εβδομαδιαίας εφημερίδας. Η ακρίβεια που επιτυγχάνεται από το σύστημα αναγνώρισης συγγραφέα (αξιολόγηση κλειστού συνόλου) ήταν στην καλύτερη περίπτωση 81%, σαφώς καλύτερη από την αντίστοιχη απόδοση της πιο σύγχρονης λεξιλογικής μεθόδου (74%). Ωστόσο, τα καλύτερα αποτελέσματα επιτεύχθηκαν από τον συνδυασμό των δύο προσεγγίσεων (87%). Επίσης, παρατηρήθηκε ότι τόσο το μήκος του κείμενου όσο και το μέγεθος του σώματος εκπαίδευσης παίζουν πολύ σημαντικό ρόλο για την αξιόπιστη αναπαράσταση του προσωπικού ύφους ενός συγγραφέα. Εκτός από την αναγνώριση συγγραφέα, πραγματοποιήθηκαν και πειράματα επιβεβαίωσης συγγραφέα καθώς και στατιστικοί έλεγχοι της σημαντικότητας των προτεινόμενων υφολογικών δεικτών.