1 / 17

Τεχνολογίες ανάκτησης και εξαγωγής δεδομένων με γλωσσική υποστήριξη

Τεχνολογίες ανάκτησης και εξαγωγής δεδομένων με γλωσσική υποστήριξη - Εφαρμογές στο e - government και e - business Στέλιος Πιπερίδης Ινστιτούτο Επεξεργασίας Λόγου spip@ilsp.gr. Ιεραρχία Πληροφορίας. ... Γνώση

gates
Download Presentation

Τεχνολογίες ανάκτησης και εξαγωγής δεδομένων με γλωσσική υποστήριξη

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Τεχνολογίες ανάκτησης και εξαγωγής δεδομένων με γλωσσική υποστήριξη - Εφαρμογές στο e-government και e-business Στέλιος Πιπερίδης Ινστιτούτο Επεξεργασίας Λόγου spip@ilsp.gr

  2. Ιεραρχία Πληροφορίας ... Γνώση πληροφορία που έχουμε αντιληφθεί (ανάγνωση[κείμενο] / ακοή[φωνή] / όραση[εικόνα, κίνηση]) και κατανοήσει Πληροφορία • δεδομένα οργανωμένα και παρουσιασμένα με • συγκεκριμένο τρόπο • Δεδομένα • ανεπεξέργαστο υλικό

  3. Διαχείριση Περιεχομένου • Γιατί χρησιμοποιείται κυρίως η γλώσσα επειδή η γλώσσα είναι ένα λειτουργικό σύστημα που βασίζεται σε αυτο-ρυθμιζόμενες μονάδες, δηλ. έκτυπα που χωρίζονται μεταξύ τους από κενά • Τεχνικές διαχείρισης περιεχομένου • μετατροπή όλων των μέσων περιεχομένου σε κείμενο

  4. Διαχείριση Περιεχομένου • Διαχείριση περιεχομένου μέσω κειμένου • διαχείριση σε επίπεδο εγγράφουέγγραφα και μονάδες τους, • π.χ. παράγραφοι • ανάκτηση πληροφορίας • διαχείριση σε επίπεδο περιεχομένου προτάσεις και σχέσεις τους • μέσα στα έγγραφα • εξαγωγή πληροφορίας

  5. Ανάκτηση και Εξαγωγή Πληροφορίας Ανάκτηση Πληροφορίας (Information Retrieval) ΕΡΩΤΗΣΗΑνάκτησηΕΓΓΡΑΦΩΝ Εξαγωγή Πληροφορίας (Information Extraction) ΠροκαθορισμένοΠΛΑΙΣΙΟΕξαγωγήΠΛΗΡΟΦΟΡΙΑΣαπόΕΓΓΡΑΦΑ

  6. Παράδειγμα Ανάκτησης Πληροφορίας Ανάκτηση Πληροφορίας ΕΡΩΤΗΣΗ : ενίσχυση επιχειρηματικότητας ΑΝΑΚΤΗΣΗ : έγγραφα t001.txt …\…\δράσεις ενίσχυσης επιχειρηματικότητας t002.txt …\…\ επιχειρηματικότητα νέων t003.txt …\επιχειρηματικότητα γυναικών ... ... \…\… ... ... \…\… Βασικά προβλήματα : σιωπή και θόρυβος

  7. Κανονικοποίηση μορφής • η πλούσια κλίση και παραγωγή της Ελληνικής γλώσσας απαιτεί ενισχυμένη υποδομή με ειδικά λεξικά θεμάτων και καταλήξεων των λέξεων • τρεις διαφορετικές τεχνικές λύσεις • λημματοποίηση (lemmatisation) • αποκοπή καταλήξεων (stemming) • συγχώνευση όρων (term conflation) • έτσι, μπορούμε να ‘ταυτίσουμε’ τις λέξεις πληροφορία, πληροφοριών, πληροφοριακό κλπ

  8. Ευρετηρίαση κειμένων (με γλωσσική τεχνολογία) • ευρετηρίαση λέξεων-κλειδιώνεξαγωγή όρων από ή όρων (term indexing) κείμενα π.χ. νέα οικονομία, παραγωγικές τάξεις, κοινωνία της πληροφορίας • ευρετηρίαση με θησαυρούςκατασκευή θησαυρών (thesaurus indexing) από κείμενα π.χ. πληροφορική>τεχνολογία των πληροφοριών>διαδίκτυο> κοινωνία της πληροφορίας

  9. Ευρετηρίαση κειμένων (με γλωσσική τεχνολογία) • ευρετηρίαση ονομάτωναναγνώριση και (name indexing) κατηγοριοποίηση ονοματικών οντοτήτων π.χ. Υπουργείο Δικαιοσύνης (:-οργανισμός), Βόρειος Ελλάδα(:-τόπος), Τζορτζ Μπους(:-πρόσωπο) Πλανητάρχης( Τζορτζ Μπους:-πρόσωπο)

  10. ευρετ/αση με θησαυρό ευρετ/αση όρων ευρετ/αση ονομάτων ευφυής ευρετηρίαση Ευρετηρίαση και Ανάλυση Περιεχομένου η ευφυής ευρετηρίαση εξασφαλίζει υψηλά ποσοστά ανάκλησης : ελάχιστη σιωπή ακρίβειας : χαμηλός θόρυβος Εφαρμογές σε όλο το φάσμα της Δημόσιας Διοίκησης

  11. Ευρετηρίαση κειμένων (με γλωσσική τεχνολογία) • κατηγοριοποίησηαπόδοση θεματικής και δρομολόγηση κειμένωνκατηγορίας,(κλειστή ή (text classification) ανοιχτή λίστα) • κατασκευή περίληψηςεξαγωγή σημαντικών (text summarisation) προτάσεων από κείμενα Εφαρμογές -αυτόματη υπηρεσιακή διανομή σύμφωνα με το προφίλ του χρήστη -περίληψη αλληλογραφίας (σημαντικές προτάσεις) σύμφωνα με τις ανάγκες του χρήστη

  12. Παράδειγμα Εξαγωγής Πληροφορίας Εξαγωγή Πληροφορίας ΠΡΟΚΑΘΟΡΙΣΜΕΝΟ ΠΛΑΙΣΙΟ ΓΕΓΟΝΟΤΩΝ : <οργανισμός,πρόγραμμα,δικαιούχοι, ηλικία δικαιούχων, ποσοστό χρηματοδότησης, όριο χρηματοδότησης,…> ΠΛΗΡΟΦΟΡΙΑ ΑΠΟ ΕΓΓΡΑΦΑ <γεγονός-01>:= οργανισμός :- ‘Υπουργείο Ανάπτυξης’ πρόγραμμα :- ‘ΕΠΑΝ’ δικαιούχοι :- ‘νέες γυναίκες’ ηλικία δικαιούχων:- ‘μέχρι 35 ετών’ ποσοστό χρηματοδότησης :- ‘50%’ όριο χρηματοδότησης: ‘100εκ. Ευρώ’ ...

  13. Σήμανση ονομάτων σε οικονομικό ρεπορτάζ

  14. Ανάκτηση καιΕξαγωγή πληροφορίας ΒΔ 1 Σύστημα ΕΠ 1 ΔΙΑΔΙΚΤΥΟ ΒΔ 2 Σύστημα ΕΠ 2 Ταξινόμηση και δρομολόγηση πληροφορίας ΒΔ N Σύστημα ΕΠ 3

  15. Προϋποθέσεις Η τεχνολογία των πληροφοριών και η υλοποίηση της Κοινωνίας της Πληροφορίας δημιουργούν ευκαιρίες και ανοίγουν νέες προοπτικές για την ελληνική κοινωνία, τους πολίτες, τη διοίκηση και τους λειτουργούς της. Βασική προϋπόθεση για την επιτυχία του εγχειρήματος είναι η υλοποίηση Τεχνολογίας φιλικής προς τον χρήστη Η φιλικότητα εξασφαλίζεται από την υιοθέτηση από μεριάς τεχνολογίας του τρόπου με τον οποίο ήδη επικοινωνούμε και ανταλλάσσουμε πληροφορίες, δηλ. τον λόγο Βασική προϋπόθεση για την φιλικότητα πρόσβασης στην ‘ηλεκτρονική’ Πληροφορία, είναι η προετοιμασία του πληροφοριακού (ενημερωτικού, εκπαιδευτικού, πολιτισμικού, κλπ) υλικού με ελληνικό και ευρωπαϊκό ενδιαφέρον σε κατάλληλη ψηφιακή μορφή

  16. Εφαρμογές Αναγνώριση όρων , λέξεων-κλειδιών και ονοματικών οντοτήτων με σκοπό την έξυπνη ευρετηρίαση και την ακριβέστερη ανάκτησή τους π.χ σε κείμενα ειδήσεων σύνδεση ονομάτων και ιδιοτήτων τους με σκοπό την αύξηση της ανακτησιμότητας Αυτόματη ταξινόμηση και δρομολόγηση εγγράφων π.χ. στην εισερχόμενη ηλεκτρονική αλληλογραφία, απόφαση για το ποια αφορούν την διεύθυνση Α, ποιά την διεύθυνση Β, κλπ. Εξαγωγή σημαντικότερων προτάσεων - περίληψης από κείμενα π.χ. παρουσίαση δημοσίου περιεχομένου σε περιβάλλον κινητής τηλεφωνίας

  17. Εφαρμογές Εξαγωγή πληροφορίας από κείμενα συγκεκριμένου θεματικού περιεχομένου με σκοπό την συμπλήρωση ενός προκαθορισμένου πλαισίου π.χ. σε εφαρμογές e-commerce αναγνώριση προϊόντων και ιδιοτήτων τους, σε οικονομικά κείμενα αποδελτίωση συγκεκριμένων οικονομικών οντοτήτων και στοιχείων και σχέσεων μεταξύ τους Ανάκτηση κειμένων σε πολυγλωσσικό περιβάλλον με σκοπό την πληρέστερη πολυγλωσσική ενημέρωση π.χ. αναζήτηση δυνατοτήτων «ενίσχυσης επιχειρηματικότητας» σε ελληνικές και αγγλικές ιστοσελίδες και δυνατότητα (ημι-)αυτόματης μετάφρασης τους

More Related