1 / 32

Pazpar2: protocol and meta-search engine

Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Π.Μ.Σ. «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» Ακαδημαϊκό έτος: 2007 – 2008. Εργασία του μαθήματος «Ηλεκτρονική Δημοσίευση». Pazpar2: protocol and meta-search engine. Φοιτητής : Παναγιώτης Στάικος Υπεύθυνος καθηγητής : Σαράντος Καπιδάκης.

lita
Download Presentation

Pazpar2: protocol and meta-search engine

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ιόνιο ΠανεπιστήμιοΤμήμα Αρχειονομίας - ΒιβλιοθηκονομίαςΠ.Μ.Σ. «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ»Ακαδημαϊκό έτος: 2007 – 2008 Εργασία του μαθήματος «Ηλεκτρονική Δημοσίευση» Pazpar2: protocol and meta-search engine Φοιτητής: Παναγιώτης Στάικος Υπεύθυνος καθηγητής: Σαράντος Καπιδάκης

  2. Mετα-μηχανές αναζήτησης (1/2) • Μια μετα-μηχανή αναζήτησης είναι μια μηχανή αναζήτησης που στέλνει τις αιτήσεις του χρήστη σε άλλες μηχανές αναζήτησης και/ή βάσεις δεδομένων και συγκεντρώνοντας όλα τα αποτελέσματα τα δείχνει στον χρήστη είτε σαν μια λίστα είτε κατά σειρά πηγής προέλευσης. (http://en.wikipedia.org/wiki/Metasearch_engine) -- Pazpar2 --

  3. Mετα-μηχανές αναζήτησης (2/2) • Πρόβλημα: Υπερπληθώρα πληροφοριακών πηγών με διαφορετικές διεπαφές και ενδεχομένως άγνωστες στους απλούς κυρίως χρήστες. • Λύση:Μετα-μηχανή αναζήτησης • Εικονικός Συλλογικός Κατάλογος • Ενιαία Διεπαφή (Ευκολία / απλότητα στη χρήση) • Εξοικονόμηση χρόνου • Ενιαίο σύνολο αποτελεσμάτων -- Pazpar2 --

  4. User Interface Web Server Pazpar2 Meta-Search Client Configuration files target1 target2 targetN Pazpar2: Μοντέλο Λειτουργίας(1/4) -- Pazpar2 --

  5. Browser-based client (Ajax, Javascript, Java, Flash) Ή Server-side code (PHP, Java) Pazpar2 response (xml document) user request (REST-style) Pazpar2 Meta-Search Client Configuration files Act As Server Μοντέλο Λειτουργίας (2/4) -- Pazpar2 --

  6. Pazpar2 Meta-Search Client Configuration files Act As Client z-request other-response z-response z-request other-response z-response target1 Z39.50 target2 Z39.50 targetN other Μοντέλο Λειτουργίας (3/4) -- Pazpar2 --

  7. User Interface Configuration files Retrieval Records (XML format) Web Server Pazpar2 Meta-Search Client Internal Records (XML format) Configuration files XSLT Source Records ( MARC (iso2709)ή XML format ) target1 target2 targetN Μοντέλο Λειτουργίας (4/4) -- Pazpar2 --

  8. Λειτουργίες πάνω στα Δεδομένα • Source Records  Internal Records • Αν είναι σε ISO2709 μετατροπή σε MARCXML. • Εφαρμογή κατάλληλου XSLT για αποθήκευση των δεδομένων που απαιτούνται (υπάρχουν XSLT για usmarc, unimarc, danmarc2, oai-dc record syntax) • Deduplication - Clustering (δημιουργία ομάδων όμοιων εγγραφών) • Internal Records  Retrieval Records • Relevance Ranking (TF-IDF) • Sorting • Facet analysis -- Pazpar2 --

  9. Υπηρεσίες Pazpar2 πρωτοκόλλου • Αρχικοποίηση • Αναζήτηση • Ανάκτηση • Φασετική ανάλυση όρων • Πληροφορίες κατά τη διάρκεια της αναζήτησης -- Pazpar2 --

  10. Εντολή Αρχικοποίησης - “init” • Παράμετροι: • clear:αναίρεση επιλεγμένων βάσεων δεδομένων. • settings:νέες επιλογές για το τρέχων session. • Παράδειγμα • Request http://myportal/pazpar2/search.pz2?command=init • Response <init> <status>OK</status> <session>1</session> <protocol>1</protocol> </init> -- Pazpar2 --

  11. Εντολή Ανανέωσης – “ping” • Παράμετροι • session: το id του ενεργού session. • Παράδειγμα • Request http://myportal/pazpar2/search.pz2?command=ping&session=1 • Response <ping> <status>OK</status> </ping> -- Pazpar2 --

  12. Εντολή Αναζήτησης – “search” • Παράμετροι • session: το id του ενεργού session. • query: το ερώτημα σε μορφή CCL • filter: επιλογή βάσεων δεδομένων για τη συγκεκριμένη αναζήτηση (προαιρετική παράμετρος) • Παράδειγμα • Request http://myportal/search.pz2?command=search&session=1&query=athens+greece • Response <search> <status>OK</status> </search> -- Pazpar2 --

  13. Εντολή εμφάνισης πληροφοριών της ενεργής αναζήτησης – “stat” • Παράμετροι • session: το id του ενεργού session. • Παράδειγμα • Request http://myportal/search.pz2?command=stat&session=1 • Response <stat> <activeclients>0</activeclients> <hits>30</hits> <records>30</records> <clients>2</clients> <unconnected>0</unconnected> <connecting>0</connecting> <initializing>0</initializing> <searching>0</searching> <presenting>0</presenting> <idle>2</idle> <failed>0</failed> <error>0</error> </stat> -- Pazpar2 --

  14. Εντολή εμφάνισης πληροφοριών των ενεργών targets – “bytarget” • Παράμετροι • id: το id του ενεργού session. • Παράδειγμα • Request http://myportal/search.pz2?command=bytarget&id=1 • Response <bytarget> <status>OK</status> <target> <id>z3950.loc.gov/voyager/</id> <hits>10000</hits> <diagnostic>0</diagnostic> <records>65</records> <state>Client_Presenting</state> </target> </bytarget> -- Pazpar2 --

  15. Εντολή ανάκτησης εγγραφών - “show” (1/2) • Παράμετροι • session: το id του ενεργού session. • start: πρώτο record εμφάνισης (πρώτο θεωρείται το 0). • num: αριθμός εγγραφών προς εμφάνιση (Εξ ορισμού 20). • block: αναμένει μέχρι να υπάρξουν records για εμφάνιση (τιμή 1). • sort: κριτήρια ταξινόμησης που θα ισχύουν μόνο στην τρέχουσα εμφάνιση. • Παράδειγμα • Request http://myportal/search.pz2?command=show&session=1&start=1 -- Pazpar2 --

  16. Εντολή ανάκτησης εγγραφών - “show” (2/2) • Response • <show> • <status>OK</status> • <activeclients>0</activeclients> • <merged>175</merged> • <total>374</total> • <start>0</start> • <num>2</num> • <hit> • …………………….. • </hit> • <hit> • <md-date>1997</md-date> • <md-title>Kult und Kultbauten auf der Akropolis</md-title> • <md-title-remainder>internationales symposion vom 7. bis 9. Juli 1995 in Berlin</md-title-remainder> • <md-title-responsibility>herausgegeben von Wolfram Hoepfner</md-title-responsibility> • <md-medium>book</md-medium> • <location id="library.ox.ac.uk:210/ADVANCE" name="Oxford University"/> • <location id="z3950.loc.gov:7090/voyager" name="Library of Congress"/> • <count>2</count> • <recid>title kult und kultbauten auf der akropolis author medium book</recid> • </hit> • </show> -- Pazpar2 --

  17. Εντολή ανάκτησης εγγραφής - “record” (1/3) • Παράμετροι • session: το id του ενεργού session. • id: Το record ID όπως αυτό παρέχεται από την εντολή “show”. • offset: Η παράμετρος είναι προαιρετική. Όταν δίνεται σημαίνει ότι το record θα επιστραφεί σε raw format (εμφάνιση μόνο των δεδομένων και όχι ετικετών). • syntax: Η παράμετρος είναι προαιρετική. Όταν δίνεται καθορίζει το ‘record syntax’ στην περίπτωση που έχει ζητηθεί raw. • esn: Η παράμετρος είναι προαιρετική. Όταν δίνεται καθορίζει το ‘element set name’ στην περίπτωση που έχει ζητηθεί raw format • binary: Η παράμετρος είναι προαιρετική. Όταν δίνεται σημαίνει ότι το record που έχει ζητηθεί σε raw format δεν θα μετατραπεί σε XML αλλά θα εμφανιστεί ως ένα stream από bytes. -- Pazpar2 --

  18. Εντολή ανάκτησης εγγραφής - “record” (2/3) • Παράδειγμα • Request http://myportal/search.pz2?command=record&session=1&id=title kult und kultbauten auf der akropolis author medium book -- Pazpar2 --

  19. Εντολή ανάκτησης εγγραφής - “record” (3/3) <record> <recid> title kult und kultbauten auf der akropolis author medium book </recid> <md-lccn>97216365</md-lccn> <md-date>1997</md-date> <md-title>Kult und Kultbauten auf der Akropolis</md-title> <md-title-remainder> internationales symposion vom 7. bis 9. Juli 1995 in Berlin </md-title-remainder> <md-title-responsibility>herausgegeben von Wolfram Hoepfner</md-title-responsibility> <md-medium>book</md-medium> <md-description>Includes bibliographical references</md-description> <location id="library.ox.ac.uk:210/ADVANCE" name="Oxford University"> <md-id>UkOxUb12776268</md-id> ……………................... </location> <location id="z3950.loc.gov:7090/voyager" name="Library of Congress"> <md-id>1193316</md-id> …………………………………. </location> </record> -- Pazpar2 --

  20. Εντολή ανάκτησης όρων - “termlist” (1/2) • Παράμετροι • session: το id του ενεργού session. • name: comma separated λίστα ονομάτων (εξ ορισμού subject) • Παράδειγμα • Request http://myportal/search.pz2?command=termlist&session=1&name=author,subject -- Pazpar2 --

  21. Εντολή ανάκτησης όρων - “termlist” (2/2) Response <termlist> <activeclients>3</activeclients> <list name="author"> <term> <name>Donald Knuth</name> <frequency>10</frequency> </term> <term> <name>Robert Pirsig</name> <frequency>2</frequency> </term> </list> <list name="subject"> <term> <name>Computer programming</name> <frequency>10</frequency> </term> </list> </termlist> -- Pazpar2 --

  22. Εντολή παραμετροποίησης ενεργού session - “settings” • Παράμετροι • session:το id του ενεργού session. • name[target]=value π.χ. pz:allow[z3950.loc.gov:7090/voyager]=1 -- Pazpar2 --

  23. Pazpar2 Test Interface (1/3) -- Pazpar2 --

  24. Pazpar2 Test Interface (3/3) -- Pazpar2 --

  25. Pazpar2 Test Interface (3/3) -- Pazpar2 --

  26. Χαρακτηριστικά / Πλεονεκτήματα Pazpar2 (1/5) • Parallel / Asynchronous search • σε πολλές βάσεις δεδομένων • πολλοί χρήστες ταυτόχρονα • με άμεση διαθεσιμότητα αποτελεσμάτων • Data Independent • ISO2709 ή XML format • User Interface Independent • Web-service API • Ενεργεί και ως HTTP Server -- Pazpar2 --

  27. Χαρακτηριστικά / Πλεονεκτήματα Pazpar2 (2/5) • Unicode υποστήριξη • XML messages (request/response) • Παραμετροποίησηστη δημιουργία των Internal Records (XSLT) • Παραμετροποίησηστη δημιουργία των Retrieval Records (configuration files) -- Pazpar2 --

  28. Χαρακτηριστικά / Πλεονεκτήματα Pazpar2 (3/5) • Windows – Linux διανομές • Λογισμικό ανοικτού κώδικα (GPL License v2) • Στηρίζεται σε λογισμικά ανοικτού κώδικα (YAZ, ICU, XML, XSLT κλπ) • Υποστηρίζεται από την IndexData (www.indexdata.com) που παρέχει και εξειδικευμένες λύσεις -- Pazpar2 --

  29. Χαρακτηριστικά / Πλεονεκτήματα Pazpar2 (4/5) • Εύρεση διπλότυπων εγγραφών (Deduplication) – Δημιουργία Ομάδων (Clustering) • Κατάταξη σχετικότητας (Relevance Ranking) • Ταξινόμηση (Sorting) • Φασετική Ανάλυση/παρουσίαση όρων (Facet Analysis) -- Pazpar2 --

  30. Χαρακτηριστικά / Πλεονεκτήματα Pazpar2 (5/5) • Το πακέτο συνοδεύεται από ένα απλό αλλά λειτουργικό Ajax-based client. • Άρα δημιουργία ενός εικονικού συλλογικού καταλόγου με μόνη απαίτηση την εγκατάσταση και την παραμετροποίηση. • Εμφάνιση της πηγής εγγραφής και σύνδεσμος για τη μετάβαση. -- Pazpar2 --

  31. Μειονεκτήματα - Προβληματισμοί (1/2) • Υποστηρίζει προς το παρόν μόνο Z39.50 πηγές • Απαιτεί αρκετή τεχνογνωσία για προσθήκες – αλλαγές • Απλοϊκή και σε ένα πέρασμα εύρεση διπλότυπων (σύγκριση πεδίων π.χ. title) • Απλοϊκό σχήμα αποθήκευσης εσωτερικών εγγραφών -- Pazpar2 --

  32. Μειονεκτήματα - Προβληματισμοί (2/2) • Είναι μετα-μηχανή αναζήτησης οπότε δεν έχει την ποιότητα μιας μηχανής αναζήτησης. • Γενικά προβλήματα ομογενοποίησης δεδομένων -- Pazpar2 --

More Related