400 likes | 590 Views
WRAPPER MAINTENANCE. Διπλωματική Εργασία Χαράλαμπος Ευτ. Τσουρακάκης Ακαδημαϊκό Έτος:2005-2006. ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ. Τι είναι wrapper, πώς παράγεται, ορισμός wrapper maintenance προβλήματος. Σύντομη παρουσίαση ορισμένων εργασιών σε wrapper verification και σε wrapper reinduction.
E N D
WRAPPER MAINTENANCE Διπλωματική Εργασία Χαράλαμπος Ευτ. Τσουρακάκης Ακαδημαϊκό Έτος:2005-2006
ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ • Τι είναι wrapper,πώς παράγεται, ορισμός wrapper maintenance προβλήματος. • Σύντομη παρουσίαση ορισμένων εργασιών σε wrapper verification και σε wrapper reinduction. • Παρουσίαση της εργασίας μας: Ιδέα , αποτελέσματα. • Συμπεράσματα-μελλοντική εργασία.
Το 80% των ιστοσελίδων περιέχουν δεδομένα τα οποία προέρχονται από μία ΒΔ.
Web wrapper είναι ένα πρόγραμμα το οποίο με βάση ένα σύνολο κανόνων εξάγει αυτόματα πληροφορία από ιστοσελίδες και την αποθηκεύει σε μία δομημένη μορφή. To σύνολο των κανόνων βασίζεται στην κανονικότητα που υπάρχει στην παρουσίαση της πληροφορίας στον χρήστη (layout). Tι είναι ο web wrapper?
Τρόποι παραγωγής wrappers 1ος τρόπος Πρόγραμμα σε κάποια γλώσσα. Ασύμφορο…. 2ος τρόπος Wrapper Induction System Είσοδος:Σύνολο ιστοσελίδων με παραδείγματα επιθυμητής πληροφορίας. Έξοδος: wrapper
Wrapper Maintenance • Οι ιστοσελίδες αρκετά συχνά αλλάζουν layout, ακόμα και περιεχόμενο. • Το σύνολο των κανόνων εξαγωγής του wrapper παύει να εξάγει την επιθυμητή πληροφορία. • Wrapper Maintenance= Wrapper verification+ Wrapper reinduction
ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ • Τι είναι wrapper,πώς παράγεται, ορισμός wrapper maintenance προβλήματος. • Σύντομη παρουσίαση ορισμένων εργασιών σε wrapper verification και σε wrapper reinduction. • Παρουσίαση της εργασίας μας: Ιδέα , αποτελέσματα. • Συμπεράσματα-μελλοντική εργασία.
Πρώτη content based μέθοδος [Kushmerick] Πυκνότητα HTML χαρακτήρων = Τ.Μ που ακολουθεί την κανονική κατανομή Για τις testing σελίδες υπολογίζει με βάση τις εκτιμήτριεςμ1,σ1 τις πιθανότητες για κάθε γνώρισμα τα εξαγόμενα δεδομένα ανά attribute να παίρνουν τις τιμές τους. Testing probability με βάση μ2,σ2 Σύγκριση testing probability με threshold RAPTURE • Από την verified πληροφορία υπολογίζει τις εκτιμήτριες μ1,σ1 καθώς και τις πιθανότητες τα εξαγόμενα δεδομένα για το κάθε attribute να παίρνουν τις τιμές τους. • Verified probability και υπολογισμός μ2,σ2 • Άλλα γνωρίσματα : Πυκνότητα γραμμάτων, πυκνότητα ψηφίων, πυκνότητα χαρακτήρων στίξης,πλήθος tokens,μήκος tokens.
Wrapper Verification (Lerman,Minton,Knoblock) • Βελτίωση RAPTURE αλγόριθμου. • DATAPROG αλγόριθμος εύρεσης patterns πληροφορίας. • Στατιστικός έλεγχος Pearson. • Για κάθε κοινό pattern προσθέτει έναν όρο της μορφής N=#tuples training attribute, n=#tuples testing attribute,ri=#tuples που ακολουθούν το pattern pi
WRAPPER REINDUCTION(Raposo, Pan, Viña, Álvarez ) • Αποθήκευση αποτελεσμάτων queries κατά τη διάρκεια της ορθής λειτουργίας του wrapper σε ΒΔ. • Εξεύρεση παραδειγμάτων στις αλλαγμένες ιστοσελίδες. • «Τροφοδότηση» WI συστήματος με αλλαγμένες ιστοσελίδες και παραδείγματα.
ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ • Τι είναι wrapper,πώς παράγεται, ορισμός wrapper maintenance προβλήματος. • Σύντομη παρουσίαση ορισμένων εργασιών σε wrapper verification και σε wrapper reinduction. • Παρουσίαση της εργασίας μας: Ιδέα , αποτελέσματα. • Συμπεράσματα-μελλοντική εργασία.
Γιατί δόθηκε έμφαση στο wrapper verification? • Ένα καλό reinduction σύστημα χωρίς ένα καλό verification σύστημα δεν αποδίδει καλά. • Η ανάγκη για αυτοματοποίηση του verification μέρους είναι μεγαλύτερη από του reinductionλόγω της ύπαρξης WI systems.
ARMAGEDDON • ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ VERIFICATION module • Content based σύστημα. • Σύνθετος αλγόριθμος:εκμεταλλεύεται όσο περισσότερο τη δομή την εξαγόμενης πληροφορίας. • Εύρωστο. • Πολύ καλή απόδοση στο verification task. • ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ REINDUCTION module • Απλή ιδέα • Καλή απόδοση σε σελίδες με στατικό περιεχόμενο. • Βοηθητικό εργαλείο για τον χρήστη.
Verification System • Είσοδοι: Training attribute , Testing Attribute. • ΙΔΕΑ:Έστω ότι η πληροφορία του testing attribute είναι η σωστή . Άρα ίδια σημασιολογία με του training attribute Άραπαρόμοια δομή και παρόμοιαpatterns !!!
Κατασκευή Διανυσμάτων Μεταπληροφορίας
Είσοδος 12 Aiginitoy Street 11 Antifylou Street 42 Hrwwn Polytexneiou Street 25 Laodikeias Street 53 Papagou Avenue Διάνυσμα <address,5,1, *INTEGER* *CAPITALIZED* *CAPITALIZED*,5, 0.101, 0.111, 0.707,0,5.6875,3.2> Παράδειγμα διανύσματος
Μάθηση Patterns • Κατασκευή ιεραρχίας token types. • Λεκτικός αναλυτής που απονέμει σε κάθε token το πιο συγκεκριμένο τύπο που μπορεί να λάβει. CS123 ALPHANUM 12INTEGER 12.3 DECIMAL DATABASEALLUPPERCASE courseALLLOWERCASE !PUNCT AliceCAPITALIZED TheBook ALPHABETIC
Μάθηση Patterns • Προσδιορισμός μήκους starting patterns με βάση το μέσο πλήθος λεκτικών μονάδων ανά εγγραφή. • Null Hypothesis Testing. • Κεντρικό οριακό θεώρημα. • Ζ-test
Πώς λειτουργεί? (1) • Θέση 1: Ο τύπος CAPITALIZED δεν είναι στατιστικά σημαντικός (null hypothesis). • Αν απορριφθεί η μηδενική υπόθεση:
Πώς λειτουργεί? (2) • Θέση 2: Ο τύπος ΑLPHANUMERIC δεν είναι στατιστικά σημαντικός μετά το τύπο CAPITALIZED(null hypothesis). • Αν απορριφθεί η μηδενική υπόθεση:
Πώς λειτουργεί? (3) • Παράγεται ένα PATTERN tree. • βάθος=f(μέσο πλήθος tokens/εγγραφή). • Διάσχιση του δένδρου δίνει τα starting patterns!
Έλεγχος Pearson (goodness of fit method) • Training (ver) και testing (test) διανύσματα μεταπληροφορίας. • Έλεγχος ομοιότητας διανυσμάτων. • Για digDen(x1),..,averNumOfTokensPerLine(x6):
Σύστημα ποινών • Αν q<Χ όπου Χ=χ^2(freedomDegrees-1,0.05) τότε το σύστημα εισέρχεται σε ένα σύστημα ποινών. • ΠΟΙΝΗ γιατί q αυξάνεται χωρίς να αυξάνονται αντίστοιχα οι βαθμοί ελευθερίας. • Σύνθετο σύστημα • Ίδια σημασιολογία παρόμοια patterns
Βασικές έννοιες του συστήματος ποινών (1) • Ομάδες συσχετιζόμενων token types. • Ομάδα1={“*”,”ALPHANUM”}, • Ομάδα2={“ALPHABETIC”,”ALLUPPERCASE”,”ALLLOWERCASE”,”CAPITALIZED”,”*”} • Ομάδα3={“INTEGER”,”DECIMAL”,”*”} • Συσχετιζόμενα patterns. • Αν υπάρχει 1-1 αντιστοιχία μεταξύ των token types σε τουλάχιστον ένα πλήθος θέσεων, το οποίο είναι συνάρτηση της πολυπλοκότητας του πλήθους tokens του μικρότερου pattern. • Συσχετιζόμενα σύνολα patterns P1={p11,..,p1m},P2={p21,..,p2n}. • Αν κάθε pattern p1i είναι συσχετιζόμενο με κάποιο p2j και αντιστρόφως.
Βασικές έννοιες του συστήματος ποινών (2) • Πλήθος εγγραφών στο training attribute που μας επιτρέπουν να έχουμε αυξημένη πεποίθηση ότι έχουμε δει τα περισσότερα από τα patterns κατά την εκπαίδευση. • Διάκριση περιπτώσεων για τη σχέση των συνόλων patternsPver & Ptest.
Βασικές έννοιες του συστήματος ποινών (3) • Άλλες παράμετροι που λαμβάνονται υπ’όψιν είναι: • Πληθικότητες Pver & Ptest & Pcommon • Ποσοστό εγγραφών του Ptest που καλύπτονται από τα κοινά patterns.
Reinduction System • Προσαρμοσμένο στην υλοποίηση του STALKER που διαθέταμε (single και όχι multi slot extractor). • Brute force αλγόριθμοςαναζήτησης παραδειγμάτων ορθής πληροφορίας στις αλλαγμένες ιστοσελίδες. • Έξοδος : annotation files στο format που θέλει ο STALKER.
Ενδεχόμενα λειτουργίας verification συστήματος • α = Το σύστημα συμπεραίνει ότι ο wrapper λειτουργεί σωστά • b =Στην πραγματικότητα ο wrapper λειτουργεί σωστά • 4 ενδεχόμενα λειτουργία του συστήματος
Μετρικές αξιολόγησης Verification συστήματος • ac=accuracy=(TP+TN)/(TP+FP+FN+TN) • up=unchanged precision= TP/(TP+FP) • cp=changed precision= TN/(TN+FN) • ur=unchanged recall= TP/(TP+FN) • cr=changed recall= TN/(TN+FP) • Fchanged=(2*cr*cp)/(cr+cp) • Funchanged=(2*ur*up)/(ur+up)
RAPTURE DATASET • 16 query-able web sites Ενδεικτικά αναφέρουμε : www.altavista.com, www.uk.lycos.de, www.thriveonline.com , www.news.com, www.usnews.com Από κάθε site κάναμε εξαγωγή πληροφορίας από 1 έως και 8 attributes.
WEB SITE επίπεδο ac=100%,up=100%, cp=100%,ur=100%, cr=100%, Fchanged=100% Funchanged=100% ATTRIBUTE επίπεδο ac=99.37%,up=100% cp=96.55%,ur=99.23%, cr=100%, Fchanged=99.82% Funchanged=99.61%
Αξιολόγηση wrapper reinduction συστήματος
Παρατήρηση • To reinduction σύστημα μπορεί να χρησιμοποιηθεί για να διευκολύνει το χρήστη να παράγει έναν σωστό wrapper πολύ εύκολα…
ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ • Τι είναι wrapper,πώς παράγεται, ορισμός wrapper maintenance προβλήματος. • Σύντομη παρουσίαση ορισμένων εργασιών σε wrapper verification και σε wrapper reinduction. • Παρουσίαση της εργασίας μας: Ιδέα , αποτελέσματα. • Συμπεράσματα-μελλοντική εργασία.
Συμπεράσματα • Ανάπτυξη εύρωστου,content based συστήματος για wrapper verification. • Δεν βασίζεται καθόλου σε HTML πυκνότητες όπως τα προηγούμενα… • Έμφαση στη σημασιολογία. • Παρατηρήθηκε ότι η ιδέα ότι τα ποσοστά των εγγραφών που ακολουθούν κάποιο κοινό pattern να είναι ίδια στο verified & στο training attribute!
Μελλοντική εργασία • Εφαρμογή της μεθόδου σε άλλα προβλήματα. • Εκτενή πειράματα για αξιολόγηση wrapper verification συστήματος. • Ανάπτυξη συνθετότερου reinduction συστήματος.