160 likes | 327 Views
Okapi Formula (BM25). Γιαννάκης Παναγιώτης (Α.Μ. 181) Κωλέτσου Ευτυχία (Α.Μ. 185) Πιλαλίδου Αλεξάνδρα (Α.Μ. 174). Εισαγωγή (1/2). Αναπτύχθηκε στο City University London . Αρχικά σχεδιάστηκε για μικρούς καταλόγους με κείμενα μικρού μεγέθους.
E N D
Okapi Formula (BM25) Γιαννάκης Παναγιώτης (Α.Μ. 181) Κωλέτσου Ευτυχία (Α.Μ. 185) Πιλαλίδου Αλεξάνδρα (Α.Μ. 174)
Εισαγωγή (1/2) • Αναπτύχθηκε στο City University London. • Αρχικά σχεδιάστηκε για μικρούς καταλόγους με κείμενα μικρού μεγέθους. • Πειραματικά έχει πετύχει καλά αποτελέσματα στο TREC
Εισαγωγή (2/2) • Βασίζεται στο πιθανοκράτικο μοντέλο. • Επηρεάζεται από την συχνότητα εμφάνισης των όρων και το μήκος των εγγράφων. • Μοντελοποιεί την συχνότητα εμφάνισης των λέξεων σαν μια μεικτή κατανομή Poisson δύο όρων. • Η μία κατανομή είναι τα σχετικά έγγραφα και η άλλη είναι τα μη σχετικά.
OKAPI τύπος Αναζήτησης idf-weighting (1/2). Είναι απλούστερος τρόπος αναζήτησης των εγγράφων που περιέχουν τους όπως του ερωτήματος. N: πλήθος εγγράφων dft: πλήθος εγγράφων που περιέχουν τον όρο t
OKAPI τύπος Αναζήτησης idf-weighting (2/2). Αν ένας όρος υπάρχει σε παραπάνω από τα μισά έγγραφα της συλλογής, προκύπτει αρνητικό απότέλεσμα.
OKAPI τύπος Αναζήτησης χρήση tftd και Ld/ave. tftd: συχνότητα εμφάνισης του όρου t στο έγγραφο d. k1: παράμετρος που επηρεάζει την tftd b: παράμετρος που επηρεάζει το μήκος του εγγράφου Ld: μήκος εγγράφου d Lave: μέσος όρος του μήκους των εγγράφων
OKAPI τύπος Αναζήτησης χρήση tftq. tftq: συχνότητα εμφάνισης του όρου t στην ερώτηση q. k3: παράμετρος που επηρεάζει την tftq
OKAPI τύπος Αναζήτησης πλήρης τύπος. Πειραματικά έχει επιδεχθεί ότι αποδοτικές τιμές για τις παραμέτρους είναι: 1.2=<k1=<2 b=0.75 1.2=<k3=<2
Documents d1: a, b d2: a, b, a, b d3: a, b, a, b, c d4: a, b, c d5: a, a, c Queries q1: a, b q2: a q3: c q4: a, c Άσκηση
Κάνοντας πράξεις έχουμε: • Επιπλέον • N=5 • dfa=5, dfb=4, dfc=3
Παραδείγματα εφαρμογής • Για q=a, b υπολογίζουμε αναλυτικάτων τύπο ομοιότητας • tfad1=1, tfbd1=1, tfaq1=1, tfbq1=1 • k1=1.5, k3=1.5, b=0.75, Ld= 2, Lave = 3.4
q1: a, b • Sim(d1,q1)=1,17 • Sim(d2,q1)=1,29 • Sim(d3,q1)=1,19 • Sim(d4,q1)=1,01 • Sim(d5,q1)=0,71
q2: a • Sim (d1,q2)= 1,92 • Sim (d2,q2)= 2,13 • Sim (d3,q2)= 1,95 • Sim (d4,q2)= 1,66 • Sim (d5,q2)= 2,33
q3: c • Sim (d1,q3)= 0 • Sim (d2,q3)= 0 • Sim (d3,q3)= 0,6 • Sim (d4,q3)= 0,77 • Sim (d5,q3)= 0,77
q4: a, c • Sim (d1,q4)= 0,63 • Sim (d2,q4)= 0,83 • Sim (d3,q4)= 1,45 • Sim (d4,q4)= 1,32 • Sim (d5,q4)= 1,89
Ευχαριστούμε για την προσοχή σας!!