160 likes | 236 Views
Semantic Overlay Networks in P2P systems. A. Crespo, H. Garcia-Molina. Κρεμμυδάς Νίκος Σκυβαλίδας Πάνος Παππάς Θεοχάρης. Περιεχόμενα. Κίνητρα SONs Κεντρική ιδέα Αρχική δόμηση Ιεραρχική δόμηση Generatiing SONs Κριτήρια Κατηγοριοποίησης Πηγές λαθών κατηγοριοποίησης
E N D
Semantic Overlay Networks in P2P systems A. Crespo, H. Garcia-Molina Κρεμμυδάς Νίκος Σκυβαλίδας Πάνος Παππάς Θεοχάρης
Περιεχόμενα • Κίνητρα • SONs • Κεντρική ιδέα • Αρχική δόμηση • Ιεραρχική δόμηση • Generatiing SONs • Κριτήρια Κατηγοριοποίησης • Πηγές λαθών κατηγοριοποίησης • Στρατηγικές κατάταξης κόμβων • Layered SONs • Γενικά • Αναζήτηση στα layers • Πειράματα
Κίνητρα • Η αναμετάδοση των ερωτήσεων σε όλους τους κόμβους δεν ευνοεί το scaling • P2P που βασίζονται σε hash functions έχουν καλό scaling, αλλά είναι δύσκολο να υποστηρίξουν πολύπλοκες ερωτήσεις • Μη σαφείς ερωτήσεις • Δύσκολο να απαντηθούν ερωτήσεις που απευθύνονται ευρύ φάσμα γνώσεων • Δε μπορεί να γίνει αναζήτηση κειμένου • Τα SONs δημιουργήθηκαν με τη λογική ότι: • Καλύτερα να δρομολογούμε ερωτήσεις μόνο σε κόμβους που είναι πιο πιθανό να έχουν απαντήσεις • Το υλικό που διαθέτει κάθε χρήστης στους υπόλοιπους συνήθως αποτελείται από αρχεία που το όνομά τους έχει μια συγκεκριμένη δομή(music, movies, scientific papers etc.)
Κεντρική Ιδέα • Ομαδοποίηση των κόμβων • Επικάλυψη ομάδων • Η ερώτηση κατανέμεται σε σχετικές ομάδες μόνο • Η κάθε ερώτηση δρομολογείται σε κάθε σχετική ομάδα μόνο • Άσχετες ομάδες δεν καταναλώνουν πόρους σχετικά με την ερώτηση
Semantic Overlay Network (SON) Semantic Overlay Network Τεχνητά, ανεξάρτητα στρώματα επιλεγμένων κόμβων Πλεονεκτήματα • Εισαγάγει σημασιολογικές όψεις στο φυσικό δίκτυο • Μείωση του overflooding στο δίκτυο
rock jazz country Αρχική δόμηση του SON Το Semantic Overlay Network (SON) είναι ένα σύνολο τριάδων: {(ni ,nj ,L)} ni ,nj - συνδεδεμένοι κόμβοι L - string (όνομα κατηγορίας) Κάθε SONLυλοποιεί συναρτήσεις: • Join (ni) • Search (q) • Leave (ni)
SON: Ιεραρχική δομή • Το SON είναι ένα δίκτυο ανωτέρου επιπέδου, που σχετίζεται με την ιδέα της ιεραρχικής κατηγοριοποίησης • Για παράδειγμα, έχουμε 9 SONs για κατηγοριοποίηση της μουσικής με βάση το στυλ ή 4 SONs για κατηγοριοποίηση της μουσικής με βάση το ρυθμό • Τα Documents ενός κόμβου πρέπει να συσχετιστούν με έννοιες, ώστε ο κόμβος να μπορεί να εισαχθεί στα αντίστοιχα SONs
Κριτήρια καλής κατηγοριοποίησης • Τα αρχείακάθε κατηγορίας να ανήκουν σε ένα μικρό αριθμό κόμβων(πολλά επίπεδα ιεραρχίας + ίση δημοτικότητα) • Οι κόμβοι να έχουν αρχεία σε μικρό αριθμό κατηγοριών • Ο αλγόριθμος κατηγοριοποίησης να είναι γρήγορος και να κάνει όσο το δυνατόν λιγότερα λάθη
Πηγές λαθών • Τα ονόματα των αρχείων μπορεί να μην ακολουθούν το αναμενόμενο standard • Η οντολογία της κατηγοριοποίησης μπορεί να μην είναι συμβατή με τα αρχεία • Οι χρήστες κάνουν «λαθάκια» στα ονόματα των αρχείων • Αποτελέσματα πειραμάτων: ◦ Έτσι το 25% των μουσικών αρχείων κατηγοριοποιήθηκαν λανθασμένα ◦ Αλλά ο κόμβος μπορεί να κατηγοριοποιηθεί σωστά, ακόμη κι αν μερικά από τα documents που διαθέτει έχουν κατηγοριοποιηθεί λάθος! ◦ Τελικά, μόνο το 4% των κόμβων κατηγοριοποιήθηκαν λανθασμένα
Στρατηγικές κατάταξης των κόμβων • Συντηρητική στρατηγική: τοποθετεί έναν κόμβο στο SONc,αν έχει έστω και ένα document κατηγοριοποιημένο στηνέννοιαc παράγει πάρα πολλές συνδέσεις • Επιθετική στρατηγική: τοποθετεί έναν κόμβο στο SONc,αν έχει «σημαντικό» αριθμό εγγράφων, κατηγοριοποιημένα στην έννοια c Αποτρέπει την εύρεση όλων των εγγράφων
Layered SONs: Παράδειγμα ≥ 15 % Hierarchy of concepts I. Εφαρμογή της επιθετικής στρατηγικής με παράμετρο κατώτατου ορίου II. Συνδυασμός των “non-assigned” εννοιών, εισαγωγή του κόμβο σε SON ανωτέρου επιπέδου
c b query query query Layered SONs: Αναζήτηση • Η ερώτηση μπορεί να εισαχθεί σε: • Έννοια-Φύλο, αν έχει κατηγοριοποιηθεί επακριβώς (σχήμαa) • Έννοια ανωτέρου επιπέδου, μη επακριβής κατηγοριοποίηση (σχήματαb, c) • Μη επακριβής κατηγοριοποίηση αυξάνει το κόστος αναζήτησης a
Layered SONs: Πειράματα 1800 peers / 16 SONs • Η στρατηγική αυτή βοηθάει στο να ανήκουν οι κόμβοι σε λιγότερα SONs (αριστερό γράφημα) • Επίσης βοηθά στη μείωση των κόμβων ανά SON (δεξί γράφημα-δημιουργία περισσότερων SONs με μικρό αριθμό κόμβων)
Συγκριτικά πειράματα • Τα Layered SONs επιτυγχάνουν τον ίδιο αριθμό από matches,με σημαντικά λιγότερο αριθμό μηνυμάτων από ότι ένα P2P όμοιο με τη Gnutella. • Τα Layered SONs δεν επιτυγχάνουν 100% «ανάκληση»λόγω των λαθών κατηγοριοποίησης(μέσος όρος: 93%)