1 / 77

NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΠΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ : 2007 - 2008. NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ. Επιβλέπων Γιάννης Θεοδωρίδης, Αναπληρωτής Καθηγητής Νίκος Πελέκης, Διδάσκων ΠΔ 407/80

leala
Download Presentation

NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣΜΠΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ: 2007 - 2008 NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ Επιβλέπων Γιάννης Θεοδωρίδης, Αναπληρωτής Καθηγητής Νίκος Πελέκης, Διδάσκων ΠΔ 407/80 Φοιτητής Διονύσης Νινιός

  2. ΚΥΡΙΑ ΣΗΜΕΙΑ ΣΚΟΠΟΣ ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΤΟ ΣΥΣΤΗΜΑ NEWSMINER CASE STUDY ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ

  3. ΚΥΡΙΑ ΣΗΜΕΙΑ ΣΚΟΠΟΣ ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΤΟ ΣΥΣΤΗΜΑ NEWSMINER CASE STUDY ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ

  4. ΣΚΟΠΟΣ Διαδίκτυο Πολλές χρήσεις Τεράστιος όγκος αδόμητης πληροφορίας Δυσκολία εύρεσης χρήσιμης πληροφορίας Ενημέρωση Δημοφιλής χρήση Διαδικτύου Πολλοί Διαδικτυακοί φορείς ενημέρωσης Διαφορετικές ειδήσεις και όψεις ειδήσεων

  5. ΣΚΟΠΟΣ Η ανάπτυξη ενός συστήματος Ολοκληρωμένου Αυτοματοποιημένου Εύρεση άρθρων από Διαδίκτυο Ομαδοποίηση άρθρων σε θέματα Παρουσίαση θεμάτων - άρθρων

  6. ΚΥΡΙΑ ΣΗΜΕΙΑ ΣΚΟΠΟΣ ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΤΟ ΣΥΣΤΗΜΑ NEWSMINER CASE STUDY ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ

  7. ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ Εύρεση δομημένης πληροφορίας [1], [2] Κατηγοριοποίηση σελίδων [3], [4], [5] Συγκέντρωση πολλών πηγών [6], [7] Στοιχεία χρήστη [8], [9] Κοινωνιολογικά δεδομένα [10], [11]

  8. ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ Διάχυση πληροφορίας σε κοινωνικά δίκτυα [12], [13], [14] Εύρεση κοινοτήτων σε κοινωνικά δίκτυα [15], [16] Παρουσίαση δεδομένων [17]

  9. ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ CEBIL

  10. ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ PALO

  11. ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ NEEMO

  12. ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ GOOGLE NEWS

  13. ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ Εξαγωγή πληροφορίας από WEB σελίδες Ερευνητικές Εργασίες Εφαρμογή σε μεγάλο όγκο δεδομένων Λήψη ικανοποιητικών αποτελεσμάτων NewsMiner Εφαρμογή σε περιορισμένο όγκο δεδομένων Λήψη αποτελεσμάτων με μεγάλη ακρίβεια

  14. ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ Κατηγοριοποίηση σελίδων Ερευνητικές Εργασίες Χρήση περιεχομένου σελίδας Ταξινόμηση σε γενικές κατηγορίες NewsMiner Χρήση επεξεργασμένου περιεχομένου σελίδας Ταξινόμηση σε βάθος

  15. ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ Cebil - Palo Ίδιο στόχο με NewsMiner Άγνωστες τεχνικές λειτουργίας Neemo Παρόμοιο στόχο - τεχνικές με NewsMiner Google News Ταξινόμηση σε γενικές κατηγορίες

  16. ΚΥΡΙΑ ΣΗΜΕΙΑ ΣΚΟΠΟΣ ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΤΟ ΣΥΣΤΗΜΑ NEWSMINER CASE STUDY ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ

  17. ΔΟΜΗ NEWSMINER

  18. ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ Γενικά χαρακτηριστικά Εννοιολογικός – Λογικός – Φυσικός Σχεδιασμός Υλοποίηση ρουτινών στη βάση δεδομένων

  19. ΓΕΝΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ Εκμετάλλευση RSS FEEDS Εξαγωγή στοιχείων άρθρου Αυτοματοποίηση Ταχύτητα εκτέλεσης

  20. ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ Χρήση RSS Feeds Really Simple Syndication XML τυποποίηση Αναπαράσταση πληροφοριών συνεχώς μεταβαλλόμενων Βασικές πληροφορίες είδησης (URL, τίτλος, δημοσίευση κ.α.)

  21. ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ Δομή RSS Feeds <item rdf:about="http://www.in.gr/news/article.asp?lngEntityID=1025323"> <title>Δύο κορίτσια εννέα ετών πνίγηκαν σε πισίνα κατασκήνωσης στη Λάρισα</title> <link>http://www.in.gr/news/article.asp?lngEntityID=1025323</link> <description>Σε ένα τραγικό όσο και πρωτοφανές περιστατικό, δύο 9χρονα κοριτσάκια πνίγηκαν το απόγευμα της Παρασκευής σε πισίνα ιδιωτικής κατασκήνωσης στο νομό Λάρισας, κάτω από αδιευκρίνιστες συνθήκες. Συνελήφθησαν οι ιδιοκτήτες της κατασκήνωσης και διενεργείται προανάκριση από τις Αρχές.</description> <dc:date>Fri, 19 Jun 2009 19:21:00 UTC</dc:date> <dc:source>ΑΠΕ-ΜΠΕ</dc:source> </item>

  22. ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ Επιλογή γενικών κατηγοριών άρθρων ΕΛΛΑΔΑ ΟΙΚΟΝΟΜΙΑ ΑΘΛΗΤΙΚΑ ΚΟΣΜΟΣ ΕΠΙΣΤΗΜΗ ΠΟΛΙΤΙΣΜΟΣ

  23. ΤΑΞΙΝΟΜΗΣΗ ΝΕΩΝ ΑΡΘΡΩΝ

  24. ΤΑΞΙΝΟΜΗΣΗ ΝΕΩΝ ΑΡΘΡΩΝ

  25. ΑΥΤΟΜΑΤΟΠΟΙΗΣΗ Δημιουργία διαδικασίας συνολικής ενημέρωσης Χρήση jobs ORACLE Ωριαία ενημέρωση συστήματος Ημερήσια διαγραφή παλαιών άρθρων (3:00 π.μ.)

  26. ΚΥΡΙΑ ΣΗΜΕΙΑ ΣΚΟΠΟΣ ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΤΟ ΣΥΣΤΗΜΑ NEWSMINER CASE STUDY ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ

  27. CASE STUDY Επισκόπηση περιβάλλοντος εργασίας Προετοιμασία διαδικασίας Κατηγοριοποίηση Συσταδοποίηση Ένταξη σε παραγωγική λειτουργία Ανάπτυξη Διεπαφής

  28. ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ ORACLE 11G ORACLE TEXT ORACLE APPLICATION EXPRESS

  29. ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ ORACLE 11G Δημοφιλές εμπορικό ΣΔΒΔ Ενσωματωμένες διαδικασίες Data Mining Πακέτο UTL_HTTP για HTTP requests Τύπος δεδομένων CLOB Δυνατότητες αυτοματοποίησης διαδικασιών

  30. ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ ORACLE TEXT Αναζήτηση σε μεγάλες στατικές συλλογές εγγράφων: CONTEXT ευρετήριο Αναζήτηση μικρότερων μεταβαλλόμενων συλλογών εγγραφών: CTX_CAT ευρετήριο Ομαδοποίηση εγγράφων

  31. ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ Ομαδοποίηση εγγράφων Βάσει κανόνων Με επίβλεψη (κατηγοριοποίηση) Χωρίς επίβλεψη (συσταδοποίηση)

  32. ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ Βάσει κανόνων Δημιουργία κλάσεων και κανόνων από χρήστη Ευρετήριο CTX_RULE σε κανόνες Κατηγοριοποίηση νέου εγγράφου με τελεστή MATCHES

  33. ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ Με επίβλεψη Δημιουργία κλάσεων από χρήστη και κανόνων από σύστημα Ευρετήριο CTX_RULE σε κανόνες και CONTEXT σε εκπαιδευτικό σύνολο Κατηγοριοποίηση νέου εγγράφου με τελεστή MATCHES Δέντρα Απόφασης και SVM

  34. ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ Χωρίς επίβλεψη Δημιουργία κλάσεων και κανόνων από σύστημα K-MEANS

  35. ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ ORACLE APPLICATION EXPRESS Εργαλείο ανάπτυξης WEB database centric εφαρμογών Αποθηκευμένο σε βάση δεδομένων (215 πίνακες και 200 PLS/SQL αντικείμενα)

  36. ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

  37. ΠΡΟΕΤΟΙΜΑΣΙΑ In.gr, Καθημερινή, Ελεύθερος Τύπος Παραμετροποίηση συστήματος Χρήση διαδικασίας ενημέρωσης Δημιουργία δεδομένων εκπαίδευσης και ελέγχου (12 μέρες, 766 άρθρα ΕΛΛΑΔΑ, 315 θέματα)

  38. ΠΡΟΕΤΟΙΜΑΣΙΑ Δημιουργία λίστας κοινών λέξεων

  39. ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ

  40. ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α. ΔΕΝΤΡΑ ΑΠΟΦΑΣΗΣ Επιλογή ανάμεσα σε δυο εναλλακτικές αποφάσεις Ορατοί κανόνες Μετασχηματίζονται σε ειδικές αναζητήσεις Αντιστοίχηση εγγράφων με κατηγορίες Συγκεκριμένες παράμετροι

  41. ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α. THRESHOLD Ελάχιστο όριο εμπιστοσύνης κανόνων MAX_TERMS Μέγιστος αριθμός όρων κανόνων ανά κλάση MEMORY_SIZE Χρησιμοποιούμενη μνήμη NT_THRESHOLD Ελάχιστο όριο αρχικής επιλογής όρων TERM_THRESHOLD Ελάχιστο όριο τελικής επιλογής όρων PRUNE_LEVEL Επίπεδο κλαδέματος δέντρου απόφασης

  42. ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α. ΚΡΙΤΗΡΙΑ ΑΞΙΟΛΟΓΗΣΗΣ ΔΟΚΙΜΩΝ Συνολικό ποσοστό επιτυχίας Ποσοστό επιτυχίας ενεργών θεμάτων Ποσοστό επιτυχίας νέων θεμάτων Πολλαπλές κατηγοριοποιήσεις

  43. ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α. MAX_TERMS (20-200, βήμα 10) <= MAX_TERMS (30-50, βήμα 1) =>

  44. ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α. NT_THRESHOLD (0.05-0.9, βήμα 0.05) <= TERM_THRESHOLD (10-100, βήμα 5) =>

More Related