1 / 16

Okapi Formula (BM25)

Okapi Formula (BM25). Γιαννάκης Παναγιώτης (Α.Μ. 181) Κωλέτσου Ευτυχία (Α.Μ. 185) Πιλαλίδου Αλεξάνδρα (Α.Μ. 174). Εισαγωγή (1/2). Αναπτύχθηκε στο City University London . Αρχικά σχεδιάστηκε για μικρούς καταλόγους με κείμενα μικρού μεγέθους.

Download Presentation

Okapi Formula (BM25)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Okapi Formula (BM25) Γιαννάκης Παναγιώτης (Α.Μ. 181) Κωλέτσου Ευτυχία (Α.Μ. 185) Πιλαλίδου Αλεξάνδρα (Α.Μ. 174)

  2. Εισαγωγή (1/2) • Αναπτύχθηκε στο City University London. • Αρχικά σχεδιάστηκε για μικρούς καταλόγους με κείμενα μικρού μεγέθους. • Πειραματικά έχει πετύχει καλά αποτελέσματα στο TREC

  3. Εισαγωγή (2/2) • Βασίζεται στο πιθανοκράτικο μοντέλο. • Επηρεάζεται από την συχνότητα εμφάνισης των όρων και το μήκος των εγγράφων. • Μοντελοποιεί την συχνότητα εμφάνισης των λέξεων σαν μια μεικτή κατανομή Poisson δύο όρων. • Η μία κατανομή είναι τα σχετικά έγγραφα και η άλλη είναι τα μη σχετικά.

  4. OKAPI τύπος Αναζήτησης idf-weighting (1/2). Είναι απλούστερος τρόπος αναζήτησης των εγγράφων που περιέχουν τους όπως του ερωτήματος. N: πλήθος εγγράφων dft: πλήθος εγγράφων που περιέχουν τον όρο t

  5. OKAPI τύπος Αναζήτησης idf-weighting (2/2). Αν ένας όρος υπάρχει σε παραπάνω από τα μισά έγγραφα της συλλογής, προκύπτει αρνητικό απότέλεσμα.

  6. OKAPI τύπος Αναζήτησης χρήση tftd και Ld/ave. tftd: συχνότητα εμφάνισης του όρου t στο έγγραφο d. k1: παράμετρος που επηρεάζει την tftd b: παράμετρος που επηρεάζει το μήκος του εγγράφου Ld: μήκος εγγράφου d Lave: μέσος όρος του μήκους των εγγράφων

  7. OKAPI τύπος Αναζήτησης χρήση tftq. tftq: συχνότητα εμφάνισης του όρου t στην ερώτηση q. k3: παράμετρος που επηρεάζει την tftq

  8. OKAPI τύπος Αναζήτησης πλήρης τύπος. Πειραματικά έχει επιδεχθεί ότι αποδοτικές τιμές για τις παραμέτρους είναι: 1.2=<k1=<2 b=0.75 1.2=<k3=<2

  9. Documents d1: a, b d2: a, b, a, b d3: a, b, a, b, c d4: a, b, c d5: a, a, c Queries q1: a, b q2: a q3: c q4: a, c Άσκηση

  10. Κάνοντας πράξεις έχουμε: • Επιπλέον • N=5 • dfa=5, dfb=4, dfc=3

  11. Παραδείγματα εφαρμογής • Για q=a, b υπολογίζουμε αναλυτικάτων τύπο ομοιότητας • tfad1=1, tfbd1=1, tfaq1=1, tfbq1=1 • k1=1.5, k3=1.5, b=0.75, Ld= 2, Lave = 3.4

  12. q1: a, b • Sim(d1,q1)=1,17 • Sim(d2,q1)=1,29 • Sim(d3,q1)=1,19 • Sim(d4,q1)=1,01 • Sim(d5,q1)=0,71

  13. q2: a • Sim (d1,q2)= 1,92 • Sim (d2,q2)= 2,13 • Sim (d3,q2)= 1,95 • Sim (d4,q2)= 1,66 • Sim (d5,q2)= 2,33

  14. q3: c • Sim (d1,q3)= 0 • Sim (d2,q3)= 0 • Sim (d3,q3)= 0,6 • Sim (d4,q3)= 0,77 • Sim (d5,q3)= 0,77

  15. q4: a, c • Sim (d1,q4)= 0,63 • Sim (d2,q4)= 0,83 • Sim (d3,q4)= 1,45 • Sim (d4,q4)= 1,32 • Sim (d5,q4)= 1,89

  16. Ευχαριστούμε για την προσοχή σας!! 

More Related