1.84k likes | 2.06k Views
ΠΡΟΛΟΓΟΣ. Η ερώτηση: Μπορεί μια ενιαία στατιστική μεθοδολογία να απαντήσει σε προβλήματα επεξεργασίας φυσικής γλώσσας πού εμφανίζουν μια ομοιότητα ως προς το στόχο, ο οποίος είναι η επιλογή μεταξύ ανταγωνιζόμενων οντοτήτων;. Παραδείγματα
E N D
ΠΡΟΛΟΓΟΣ Η ερώτηση: Μπορεί μια ενιαία στατιστική μεθοδολογία να απαντήσει σε προβλήματα επεξεργασίας φυσικής γλώσσας πού εμφανίζουν μια ομοιότητα ως προς το στόχο, ο οποίος είναι η επιλογή μεταξύ ανταγωνιζόμενων οντοτήτων; • Παραδείγματα • Ανταγωνιζόμενα έγγραφα στην ανάκτηση πληροφορίας. (Information Retrieval) • ‘Έννοιες μιας λέξης στο πλαίσιο (context) που εμφανίζεται. (Word Sense Disambiguation) • Ανταγωνισμός λέξεων για την δημιουργία Collocations (Συνεκφερόμενες λέξεις)
ΠΡΟΛΟΓΟΣ Στατιστική: Ο κλάδος που εφαρμόστηκε με την μεγαλύτερη επιτυχία στην Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing) Παραδείγματα • Στα συστήματα για αναζήτηση πληροφορίας (Information Retrieval: IR) • Αποσαφήνιση της έννοιας μιας λέξης (Word Sense Disambiguation: WSD) • O σχηματισμός συνεκφερόμενων λέξεων (Collocation) Αλλά και • Κατηγοριοποίηση Κειμένου (Text Categorization) • Απλοποίηση Κειμένου (Text Simplification)
ΠΡΟΛΟΓΟΣ Σκοπός της Διατριβής: Να αναδείξει την εφαρμογή μιας ενιαίας Στατιστικής μεθοδολογίας για τους παραπάνω τομείς έρευνας Συγκεκριμένα, ανάπτυξη συστημάτων για: • Την εύρεση συνεκφερόμενων λέξεων (collocations) σε κείμενα φυσικής γλώσσας, • Την αναζήτηση πληροφορίας με βάση το ερώτημα ενός χρήστη (informationretrieval), και • Την αποσαφήνιση της έννοιας μιας λέξης από τα συμφραζόμενά της (wordsensedisambiguation).
ΠΡΟΛΟΓΟΣ • Η ανάκτηση πληροφορίας (InformationRetrieval) είναι κλάδος της Επεξεργασίας Φυσικής Γλώσσας πού ασχολείται με την ανάπτυξη αλγορίθμων και μοντέλων για την αναζήτηση πληροφορίας από διάφορες συλλογές κειμένων (Internet, documentdepositories). • Με την αναγέννηση των ποσοτικών μεθόδων επεξεργασίας φυσικής γλώσσας, οι στατιστικές μέθοδοι έγιναν η κυρίαρχη προσέγγιση ανάπτυξης συστημάτων για ανάκτηση πληροφορίας.
ΠΡΟΛΟΓΟΣ • Word Sense Disambiguation: Ο κλάδος που ασχολείται με την αποσαφήνιση της έννοιας μιας λέξης μέσα στα συμφραζόμενα της • Οι στατιστικές μέθοδοι θεωρούνται ως το αποκλειστικό εργαλείο για την ανάπτυξη συστημάτων Αποσαφήνισης Εννοιών. • Τέτοια συστήματα είναι πολύ χρήσιμα και βοηθούν τη μηχανική μετάφραση και την κατανόηση κειμένου
ΠΡΟΛΟΓΟΣ Collocations: • Eίναι η εύρεση συνεκφερόμενων λέξεων (collocations), λέξεων δηλαδή πού εμφανίζονται πολύ συχνά μαζί και σχηματίζουν ένα νέο σημασιολογικό όρο με σημασία διαφορετική των σημασιών των συνιστωσών μερών. • Παραδείγματος χάριν η έκφραση «Γερό Ποτήρι»
Κίνητρο • Η Επεξεργασία Φυσικής Γλώσσας είναι αναμφισβήτητα επιστημονικός κλάδος με προοπτική. • Όλα τα προηγούμενα προβλήματα είναι εξαιρετικά δύσκολα και η επίλυσή τους αναμένεται να επηρεάσει καταλυτικά τις εφαρμογές Υπολογιστικής Γλωσσολογίας και ιδιαίτερα τον κλάδο της Τεχνητής Νοημοσύνης • Μέχρι τώρα πολλές μέθοδοι και συστήματα έχουν προταθεί στην διεθνή βιβλιογραφία για την επίλυση τέτοιων προβλημάτων αλλά με τρόπο αποσπασματικό. • Διαχωρίζοντας μεταξύ τους τα προβλήματα, παρατηρείται ανάπτυξη διαφορετικών μεθόδων για το κάθε πρόβλημα • Αποτέλεσμα: αλγόριθμοι και τεχνικές που δουλεύουν για μια περιοχή της Επεξεργασίας Φυσικής Γλώσσας να μην μπορούν να εφαρμοσθούν σε άλλη.
Η ιδέα • Τα περισσότερα προβλήματα επεξεργασίας φυσικής γλώσσας εμφανίζουν ένα κοινό χαρακτηριστικό, αυτό της επιλογής μεταξύ ανταγωνιζόμενων οντοτήτων για κάποιο συγκεκριμένο στόχο. Παραδείγματα Ανταγωνιζόμενα έγγραφα στην ανάκτηση πληροφορίας που ανταγωνίζονται ως προς τον στόχο πού είναι η συνάφεια με το ερώτημα (query) ενός χρήστη, ανταγωνιζόμενες έννοιες στην αποσαφήνιση της έννοιας μιας λέξης, ή ανταγωνιζόμενα ζευγάρια λέξεων για τον σχηματισμό collocations. Η παρούσα διατριβή αναδεικνύει αυτό το χαρακτηριστικό και απαντάει με μία ενιαία στατιστική μεθοδολογία για την επίλυση των παραπάνω προβλημάτων, συμβάλλοντας στην ολιστική αξιοποίηση της επιστημονικής γνώσης.
Η μεθοδολογία • Στη Στατιστική είναι πολύ καλά θεμελιωμένοι οι έλεγχοι καλού ταιριάσματος (Goodnessofstatisticaltests), οι οποίοι ελέγχουν κατά πόσο καλά ταιριάζουν τα δεδομένα σε μια υποκείμενη θεωρητική υπόθεση που θεωρούμε ότι τα διέπει. • Στη διατριβή χρησιμοποιείται ο ‘Χ-τετράγωνον’ στατιστικός έλεγχος «καλού ταιριάσματος» , (Chi-square Goodness of Fit Statistical Test)για την αποτίμηση της σχετικότητας με το στόχο της κάθε ανταγωνιζόμενης οντότητας. • Πιο συγκεκριμένα, διατυπώνεται μια μηδενική υπόθεση (nullhypothesis) ότι οι διάφορες ανταγωνιζόμενες οντότητες δεν επιδεικνύουν καμία ιδιαίτερη συμπεριφορά έναντι του στόχου πέραν της τυχαίας. Αυτή είναι η θεωρητική υπόθεση που γίνεται για τα δεδομένα
Η μεθοδολογία • Από τα πραγματικά δεδομένα καταγράφεται η πραγματική συμπεριφορά της κάθε ανταγωνιζόμενης οντότητας και πιστοποιείται έτσι μια διαφορά (discrepancy) μεταξύ της πραγματικής συμπεριφοράς και αυτής πού απορρέει από την θεωρητική υπόθεση. • Η διαφορά αυτή ποσοτικοποιείται με την βοήθεια της ‘X2 κατανομής’ και αυτή η ποσοτικοποίηση είναι ικανή να χρησιμοποιηθεί ως μέτρο της αποτίμησης της σχετικότητας της ανταγωνιζόμενης οντότητας με το στόχο (rankingcriterion).
Τι ακολουθεί • Αρχικά, παρουσιάζουμε μια εισαγωγή των στατιστικών μοντέλων που χρησιμοποιούνται στην επεξεργασία φυσικής γλώσσας καθώς επίσης κα των μέτρων αποτίμησης της αποδοτικότητας των συστημάτων αυτών • Ακολουθεί η εφαρμογή των στατιστικών ελέγχων στην ανάκτηση πληροφορίας (Information Retrieval). Μέσα στο ίδιο στατιστικό πλαίσιο, παρουσιάζουμε ένα σύστημα για αναζήτηση κειμενικής πληροφορίας από “δεξαμενές” εγγράφων (document repositories) με βάση το ερώτημα ενός χρήστη. • Στην συνέχεια, παρουσιάζουμε στατιστικές μεθόδους για την “ανακάλυψη” συνεκφερόμενων λέξεων μέσα σε Ελληνικά κείμενα (Collocations) και ‘θεμελιώνουμε ένα τρόπο εφαρμογής των στατιστικών ελέγχων στην περιοχή αυτή
Τι ακολουθεί • Τέλος εφαρμόζουμε τους στατιστικούς ελέγχους στην περιοχή της αποσαφήνισης της έννοιας μιας λέξης (Word Sense Disambiguation). Ένα στατιστικό σύστημα αναπτύσσεται για την αποσαφήνιση της έννοιας μια λέξης από τα συμφραζόμενά της κάνοντας χρήση του ηλεκτρονικού λεξικούWordNet σαν λεξικολογική πηγή. • Τα συμπεράσματα που προκύπτουν μετά από αποτίμηση των μεθόδων πού αναπτύξαμε πάνω σε πειραματικά δεδομένα ελέγχου, είναι ότι τα στατιστικά αυτά συστήματα αποδεικνύονται “εύρωστα” και ικανά να δώσουν αποτελέσματα καλύτερα από αυτά των κλασσικών μεθόδων
ΕΙΣΑΓΩΓΗ • Η στατιστική είναι ο κλάδος της μαθηματικής επιστήμης που έχει χρησιμοποιηθεί ευρύτατα στην Επεξεργασία Φυσικής Γλώσσας (ΕΦΓ) • Η αλματώδη εξέλιξη της πληροφορικής τα τελευταία χρόνια και η διαθεσιμότητα μεγάλου όγκου κειμένων σε ψηφιακή μορφή, δημιούργησαν τις συνθήκες για την αναγέννηση των ποσοτικών μεθόδων στην (ΕΦΓ) • Με την αναγέννηση των ποσοτικών μεθόδων επεξεργασίας φυσικής γλώσσας, οι στατιστικές μέθοδοι έγιναν η κυρίαρχη προσέγγιση ανάπτυξης συστημάτων για ανάκτηση πληροφορίας
ΕΙΣΑΓΩΓΗ • Οι στατιστικές μέθοδοι θεωρούνται ως το αποκλειστικό εργαλείο για την ανάπτυξη συστημάτων για την Αναζήτηση Πληροφορίας (Word Sense Disambiguation), αποσαφήνιση λεκτικής σημασίας (Word Sense Disambiguation), κατηγοριοποίηση κειμένου, εύρεση Collocations κλπ • Τα προβλήματα αυτά αναγνωρίζονται σαν υπολογιστικά πολύπλοκα προβλήματα στην επεξεργασία φυσικής γλώσσας και η επίλυσή τους αναμένεται να επηρεάσει καταλυτικά την εξέλιξη του κλάδου της υπολογιστικής γλωσσολογίας (Computational Linguistics)
Στατιστικά Μοντέλαστην επεξεργασία φυσικής γλώσσας • Η έρευνα στα στατιστικά συστήματα επεξεργασίας φυσικής γλώσσας ασχολείται με την ανάπτυξη αλγορίθμων και συστημάτων για την αναπαράσταση, αποθήκευση, οργάνωση, επεξεργασία και προσπέλαση των στοιχείων της πληροφορίας. • Οι πρώτες προσπάθειες για αναπαράσταση και ανάκτηση πληροφορίας ξεκίνησαν με τα συστήματα αναζήτησης πληροφορίας. Αν και παραδοσιακά ο κλάδος ασχολιόταν μόνο με την αναζήτηση κειμένων και την εύρεση εγγράφων, σήμερα, υπάρχει έντονο ενδιαφέρον και για άλλες μορφές πληροφορίας. • Η αναπαράσταση της πληροφορίας σε υπολογίσιμη μορφή παίζει καθοριστικό ρόλο στην ανάπτυξη συστημάτων επεξεργασίας φυσικής γλώσσας.
Μοντέλα ΑναπαράστασηςΠληροφορίας • Ανάλογα με την φύση της διαδικασίας αναπαράστασης ενός κειμένου σαν σύνολο από λέξεις κλειδιά, μπορούμε να κατατάξουμε τα πιο σημαντικά μοντέλα αναπαράστασης πληροφορίας στις εξής κύριες κατηγορίες: • Δυαδικά μοντέλα (Boolean models) • Διανυσματικά μοντέλα (Vector models) • Πιθανοτικά μοντέλα (probabilistic models)
Μοντέλα ΑναπαράστασηςΠληροφορίας Δυαδικά μοντέλα: • Το δυαδικό μοντέλο είναι το πιο απλό μοντέλο το οποίο βασίζεται στην θεωρία συνόλων και την Boolean άλγεβρα • Η πληροφορία αναπαρίσταται υπό μορφή σειράς ψηφίων 0 και 1. Το 1 δηλώνει την παρουσία ενός όρου και το 0 την απουσία • υποφέρει από αρκετά μειονεκτήματα. Πχ, δυσκολία που υπάρχει στο Information Retrieval να εκφρασθεί ένα ερώτημα σε Boolean έκφραση από τον χρήστη
Μοντέλα ΑναπαράστασηςΠληροφορίας Το διανυσματικό μοντέλο • Το διανυσματικό μοντέλο [1], [2], είναι το πρώτο μοντέλο που εφαρμόστηκε πρώτα στην αναζήτηση πληροφορίας. • Σύμφωνα με το διανυσματικό μοντέλο, κάθε όρος kj σε μια κειμενική πληροφορία, χαρακτηρίζεται με ένα θετικό μη μηδενικό πραγματικό αριθμό που καλείται βάρος (weight) και εκφράζει την σημαντικότητα τού όρου στον προσδιορισμό της σημασιολογίας του κειμένου
Το διανυσματικό μοντέλο στην Αναζήτηση Πληροφορίας Στην Αναζήτηση Πληροφορίας • Μπορούμε να αναπαραστήσουμε ένα έγγραφο dj σαν ένα διάνυσμα (w1j, w2j, …, wt,j), όπου tτο πλήθος όρων • Ένα ερώτημα q σαν (w1q, w2q, …, wtq),
Το διανυσματικό μοντέλο στην Αναζήτηση Πληροφορίας Μπορούμε έπειτα να χρησιμοποιήσουμε το συνημίτονο της γωνίας (cosine) μεταξύ των δύο διανυσμάτων για να βρούμε την ομοιότητα μεταξύ των δύο πληροφοριών
Τα βάρη στην σημασιολογία του κειμένου Για τον καθορισμό του βάρους ενός όρου καθοριστικό ρόλο παίζουν • η συχνότητα του όρου στο κείμενο του εγγράφου • Ο αριθμός του εγγράφων στα οποία συμμετέχει ο όρος Αυτά θα μπορούσαμε να τα συνδυάσουμε σε ένα μοναδικό βάρος Tf-idf σχήματα
Πιθανοτικά Μοντέλα • Στα πιθανοτικά μοντέλα η εμφάνιση ενός όρου μοντελοποιείται σαν ένα “συμβάν” και του αποδίδεται μια πιθανότητα. • Όσο μεγαλύτερη είναι η πιθανότητα εμφάνισης ενός όρου, τόσο πιο σημαντικός είναι ο ρόλος του στον καθορισμό της σημασιολογίας της πληροφορίας.
Πιθανοτικά Μοντέλα • Πρόσφατα μια νέα προσέγγιση, η μοντελοποίηση γλώσσας (language Modeling) έχει προταθεί στα παραδοσιακά διανυσματικά και τα άλλα πιθανοτικά μοντέλα. • Έχει εφαρμοσθεί με επιτυχία στα συστήματα Αναζήτησης Πληροφορίας [8], [9], [10], [11]. • Ένα στατιστικό μοντέλο γλώσσας είναι ένας πιθανοτικός μηχανισμός παραγωγής κειμένου.
Πιθανοτικά Μοντέλα • Η καταγωγή του μοντέλου γλώσσας ανάγεται στην εποχή του Shannon [12], ο οποίος διατύπωσε την πολύ γνωστή θεωρία του στον τομέα των επικοινωνιών (source channel perspective) • O Shannon μελέτησε κατά πόσο τα απλά (ν-γράμματα) μοντέλα (n-gram models) μπορούν να προβλέψουν φυσικό κείμενο • Έχει εφαρμοσθεί με επιτυχία στην Αναγνώριση Λόγου (Speech Recognition)
Πιθανοτικά Μοντέλα • Το μοντέλο γλώσσας εφαρμόστηκε για πρώτη φορά σε εφαρμογές επεξεργασίας πληροφορίας κειμένου από τους Ponte και Croft το 1998 στην Ανάκτηση Πληροφορίας [8]. • Στα κλασικά πιθανοτικά μοντέλα Αναζήτησης Πληροφορίας [3], [5], [13], [14], υπάρχει η ανάγκη να κατανείμουμε μια μάζα πιθανότητας (Probability mass) πάνω σε ένα τεράστιο χώρο πιθανών τιμών (εκβάσεων) για τον κάθε όρο (unigram language model) • Εξαιρετικά Δύσκολο. Η μόνη ένδειξη τις περισσότερες φορές είναι οι όροι του ερωτήματος
Πιθανοτικά Μοντέλα • Οι Ponte και Croft [8], αντιμετώπισαν το ζήτημα με μια αντίστροφη προσέγγιση. Χρησιμοποιώντας μια smoothed εκδοχή του unigram language model, πρότειναν μια μέθοδο να αποδώσουν μια τιμή πιθανοφάνειας (likelihood score), από το έγγραφο στο ερώτημα. • Αυτή η προσέγγιση είναι γνωστή σαν “language modeling Approach” • Ένα μοντέλο γλώσσας θεωρείται σαν ένα θορυβώδες κανάλι ή “noisy channel” ή “translation channel”, το οποίο απεικονίζει τα έγγραφα στα ερωτήματα
Evaluation Measures Μέτρα Αποτίμησης των συστημάτων Επεξεργασίας Φυσικής Γλώσσας
Μέτρα Αποτίμησης • Περιγράφουμε τα μέτρα Αποτίμησης που θα χρησιμοποιήσουμε στην Ανάκτηση Πληροφορίας και στα συστήματα Αποσαφήνισης Εννοιών. • Τα μέτρα αυτά εφαρμόζονται και γενικότερα στα συστήματα Επεξεργασίας Φυσικής Γλώσσας
Μέτρα Αποτίμησης Συστημάτων ΕΦΓ Precision και Recall Ας εξηγήσουμε τις έννοιες με όρους από την σκοπιά του Information Retrieval και θα γενικεύσουμε. Έστω ότι στο σύστημα Αναζήτησης Πληροφορίας υποβάλλεται ένα ερώτημα q. Εάν Rτο σύνολο των σχετικών εγγράφων με αυτό το ερώτημα και Aτο σύνολο των εγγράφων πού επέστρεψε το σύστημα
Μέτρα Αποτίμησης Συστημάτων ΕΦΓ • Επί πλέον έστω |Ra|ο αριθμός των εγγράφων στην τομή (Intersection) των Rκαι A Recall = Precision =
Μέτρα Αποτίμησης Συστημάτων ΕΦΓ Δηλαδή για ένα σύστημα Επεξεργασίας • Precision είναι το ποσοστό των Επιτυχιών στο σύνολο των Απαντήσεων του συστήματος • Recallείναι το ποσοστό των επιτυχιών στο σύνολο των σωστών Απαντήσεων που υπάρχει. • Συνηθίζουμε να αναπαριστούμε την καμπύλη Precision versus Recall Μάλιστα σε συγκεκριμένα ποσοστά του Recall 0%, 10%, 20%, ,100% Τότε μιλάμε για Precision Versus Recall at 11 Recall Points
Εφαρμογή των ΣτατιστικώνΕλέγχων στην Ανάκτηση Πληροφορίας
Εφαρμογή των ΣτατιστικώνΕλέγχων στην Ανάκτηση Πληροφορίας Η Βασική Ιδέα. • Στα περισσότερα μοντέλα που χρησιμοποιούμε για την Αναζήτηση Πληροφορίας ενδιαφερόμαστε να εκτιμήσουμε πόσο “καλά” το μοντέλο του εγγράφου (document model) “ταιριάζει” στην πληροφοριακή ανάγκη του χρήστη (query model). • Από την άλλη πλευρά στην στατιστική, υπάρχουν καλά θεμελιωμένες τεχνικές για την εκτίμηση του κατά πόσο ένα μοντέλο “ταιριάζει” με κάποιο άλλο μοντέλο Φράγγος Κων/νος – Στατιστικοί Έλεγχοι στην Επεξεργασία Φυσικής Γλώσσας
Η Βασική Ιδέα. • Οι στατιστικοί έλεγχοι καλού “ταιριάσματος” (Goodness of fit statistical tests) είναι πολύ γνωστές μέθοδοι για την εκτίμηση της υπόθεσης του κατά πόσο ένα θεωρητικό μοντέλο «περιγράφει» καλά ένα σύνολο δεδομένων. • Στη βασική θέση της διατριβής αναπτύσσουμε μια τεχνική για Αναζήτηση Πληροφορίας η οποία στηρίζεται στον Χ-τετράγωνο έλεγχο καλού “ταιριάσματος” για να εκτιμήσουμε πόσο “καλά” το μοντέλο του εγγράφου ταριάζει στην πληροφοριακή ανάγκη του χρήστη
Εφαρμογή των ΣτατιστικώνΕλέγχων στην Ανάκτηση Πληροφορίας • Η τεχνική αυτή εκτός του ότι αποδεικνύεται ιδιαίτερα αποδοτική, είναι και ευέλικτη. • Μπορεί να προσαρμοσθεί και σε διαφορετικά προβλήματα, εκεί όπου υπεισέρχεται η έννοια της εκτίμησης του “ταιριάσματος”, όπως πχ στην αποσαφήνιση της έννοιας μιας λέξης.
Υλοποίηση Εφαρμογή των ΣτατιστικώνΕλέγχων στην Ανάκτηση Πληροφορίας Η λογική είναι απλή. Διατυπώνουμε μια βασική υπόθεση για τα δεδομένα γνωστή και ως “μηδενική υπόθεση” Σύμφωνα με αυτή: Θεωρούμε ότι δεν υπάρχει καμία ιδιαίτερη σχέση ή δεσμός μεταξύ του ερωτήματος (query) και ενός συγκεκριμένου εγγράφου, εκτός από το ότι οι όροι του ερωτήματος μπορεί να εμφανισθούν σε αυτό το έγγραφο από “τύχη” και μόνο Για να εκτιμήσουμε την υπόθεση αυτή εκτελούμε ένα Χ-τετράγωνο στατιστικό έλεγχο (Goodness of Fit Statistical Test) και με την βοήθεια του ελέγχου αυτού εκτιμούμε την σχετικότητα του εγγράφου με το ερώτημα του Χρήστη. Φράγγος Κων/νος – Στατιστικοί Έλεγχοι στην Επεξεργασία Φυσικής Γλώσσας
Η μέθοδος αυτή εκτιμήθηκε πάνω στα επίσημα TREC δεδομένα για έλεγχο της αποδοτικότητας των Information Retrieval συστημάτων Η αποδοτικότητά της σταθερά πιο πάνω από τα κλασσικά tf-idf σχήματα και την OKAPI μέθοδο Πλεονεκτήματα • Μη παραμετρική μέθοδος για Information Retrieval • Προκύπτουν απλοί τύποι Αναζήτησης Πληροφορίας • Εναλλακτικοί τρόποι μοντελοποίηση Εγγράφων και Ερωτημάτων
Εισαγωγή στα Στατιστικά μοντέλα Γλώσσας • Διανυσματικά μοντέλα (vector Space models) • Πιθανοτικά μοντέλα (Probabilistic models) • Language Modeling Approach
Διανυσματικό μοντέλο. Προτάθηκε από τον Salton [2] το 1972. Μοντελοποιεί τα έγγραφα και τα ερωτήματα ως διανύσματα και χρησιμοποιεί διανυσματικές μετρικές για να εκτιμήσει την σχετικότητα. Ακόμα και σήμερα βρίσκεται σε χρήση. • Πιθανοτικό μοντέλο. Προτάθηκε από τους Robertson και Sparck-Jones [3] το 1975. Χρησιμοποιεί την πιθανότητα εμφάνισης ενός όρου αντί της συχνότητας που χρησιμοποιείται στο Διανυσματικό μοντέλο, και εκτιμά την σχετικότητα του ερωτήματος με το έγγραφο χρησιμοποιώντας κατανομές Παραλλαγές • Naïve Bayesian Networks [13] • Inquery Retrieval System [14] • OKAPI system
Language Modeling Approach • Προτάθηκε to 1998 από τους Ponte και Croft[8] • Χρησιμοποιεί τα στατιστικά μοντέλα γλώσσας με όμοιο τρόπο όπως αυτά χρησιμοποιούνται στο Speech Recognition και έχουν την καταγωγή τους από την εποχή του Shannon με το μοντέλο του θορυβώδες καναλιού (noisy channel) [12]. • Τα συστήματα αυτά αποδίδουν καλά αλλά έχουν το μειονέκτημα ότι είναι παραμετρικά και χρειάζονται εκτίμηση παραμέτρων πάνω σε training data Παραλλαγές • Hidden Markov Models [48],[11] • Translation Models [10]
Η δικιά μας ΠροσέγγισηGoodness of Fit (GOF) Αναζήτηση • Για να βαθμολογήσουμε τα διάφορα έγγραφα βασιζόμαστε στον Χ-τετράγωνο στατιστικό έλεγχο • Ο Χ-τετράγωνο έλεγχος περιγράφει το πόσο “καλά” μια υπόθεση (μηδενική υπόθεση), στην οποία θεωρούμε ότι υπόκεινται τα δεδομένα ταιριάζει με τα δεδομένα • Πιο συγκεκριμένα διατυπώνουμε την μηδενική υπόθεση ότι όλοι οι όροι του ερωτήματος κατανέμονται “τυχαία” στα διάφορα έγγραφα • Μετράμε την συχνότητα κάθε όρου στο έγγραφο (observed) και την συγκρίνουμε με την μηδενική υπόθεση (expected). • Εάν η διαφορά είναι μεγάλη αυτό είναι ένδειξη “συσχέτισης” του ερωτήματος με το έγγραφο.
Στατιστικοί Έλεγχοι “Καλού” Ταιριάσματος • Τα στατιστικά προβλήματα ανάγονται συνήθως στον Έλεγχο για την επιλογή μιας από δύο εναλλακτικές υποθέσεις: Την μηδενική (null Hypothesis)H0, η οποία θεωρεί ότι το δείγμα ακολουθεί την υποκείμενη θεωρούμενη κατανομή, και την εναλλακτική H1, η οποία θεωρεί ότι αυτό δεν συμβαίνει. • Ένας στατιστικός Έλεγχος θεωρείται ισχυρός εάν η πιθανότητα αποδοχής της H0 είναι μικρή όταν η H0 είναι λάθος.
Χ-τετράγωνο Έλεγχος • Ο πιο σημαντικός και ο πιο γνωστός στατιστικός Έλεγχος είναι ο Χ2 και προτάθηκε από τον Pearson [33], (Pearson’s chi-squared test). • Για τον υπολογισμό του η στατιστική που χρησιμοποιείται είναι η εξήs: Όπου Oiη παρατηρηθείσα συχνότητα και Eiη αναμενόμενη συχνότητα από την μηδενικήυπόθεση. Η στατιστική Ελέγχου της εξίσωσης 2.1 ακολουθεί την Χ2 κατανομή μεk-cβαθμούς ελευθερίας, όπου kο αριθμός των κλάσεων κατηγοριοποίησης των δεδομένων και c o αριθμός των εκτιμώμενων παραμέτρων για την κατανομή που θεωρούμε ότι διέπει τα δεδομένα.
Χ-τετράγωνο Έλεγχος (συνέχεια) • Χρησιμοποιώντας κάποιο στατιστικό πακέτο η πίνακες της Χ2 κατανομής υπολογίζουμε την p τιμή (p-value) για την υπολογιζόμενη Χ2 τιμή από την προηγούμενη εξίσωση. • Εάν η τιμή pείναι πολύ μικρή (τυπικά κάτω από ένα επίπεδο σημαντικότητας) απορρίπτουμε την μηδενική υπόθεση, διαφορετικά την αποδεχόμαστε.
Μέθοδος Αναζήτησης Πληροφορίας με την χρήση του Χ2 στατιστικού Ελέγχου • Η ουσία της προτεινόμενης μεθόδου είναι να συγκρίνει τις παρατηρηθείσες συχνότητες των όρων του ερωτήματος στο έγγραφο με τις αναμενόμενες από την θεωρούμενη υπόθεση της “τυχαίας” κατανομής. • Η σύγκριση αυτή με την βοήθεια του Χ2 στατιστικού Ελέγχου μπορεί να ποσοτικοποιήσει μια διαφορά (discrepancy), η οποία τελικά να χρησιμοποιηθεί σαν κριτήριο βαθμολόγησης της συνάφειας του ερωτήματος με το έγγραφο.
Μέθοδος Αναζήτησης Πληροφορίας με την χρήση του Χ2 στατιστικού Ελέγχου (Συνέχεια) • Η μηδενική υπόθεση απορρίπτεται όταν η υπολογιζόμενη Χ2 τιμή από την εξίσωση 2.1 του Pearson είναι μεγαλύτερη από την τιμή που λαμβάνουμε από τους πίνακες της Χ2 κατανομής για ένα επίπεδο σημαντικότητας α (συνήθως α=0.05, για βεβαιότητα 95%) • Δηλαδή, όσο μεγαλύτερη είναι η υπολογιζόμενη Χ2 τιμή τόσο ισχυρότερη είναι η ένδειξη να απορρίψουμε την μηδενική υπόθεση και επομένως να έχουμε μια συσχέτιση (relatedness)μεταξύ ερωτήματος και εγγράφου
Μέθοδος Αναζήτησης Πληροφορίας με την χρήση του Χ2 στατιστικού Ελέγχου (Συνέχεια) • Επομένως όσον αφορά την τεχνική μας για την μέτρηση της συνάφειας μεταξύ ερωτήματος και εγγράφου θα μπορούσαμε να χρησιμοποιήσουμε αυτή καθ’ εαυτή την υπολογιζόμενη Χ2 τιμή χωρίς να ενδιαφερόμαστε πραγματικά να απορρίψουμε την μηδενική υπόθεση • Τα έγγραφα με την μεγαλύτερη αντίστοιχη Χ2 τιμή θα τοποθετηθούν στην κορυφή της επιστρεφόμενης βαθμολογημένης λίστας με τα σχετικά έγγραφα
Μέθοδος Αναζήτησης Πληροφορίας με την χρήση του Χ2 στατιστικού Ελέγχου (Συνέχεια)
Μέθοδος Αναζήτησης Πληροφορίας με την χρήση του Χ2 στατιστικού Ελέγχου (Συνέχεια)