1 / 36

Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας. Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου Ινστιτούτο Επεξεργασίας Λόγου {spip, maria}@ilsp.gr. Εισαγωγή & Σκοπός (1). Ο αυξανόμενος όγκος ηλεκτρονικών κειμένων δημιουργεί νέες απαιτήσεις για τη διαχείριση και επεξεργασία τους.

thelma
Download Presentation

Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου Ινστιτούτο Επεξεργασίας Λόγου {spip, maria}@ilsp.gr

  2. Εισαγωγή & Σκοπός (1) • Ο αυξανόμενος όγκος ηλεκτρονικών κειμένων δημιουργεί νέες απαιτήσεις για τη διαχείριση και επεξεργασία τους. • Τα υπολογιστικά συστήματα (ιδιαίτερα τα συστήματα γλωσσικής τεχνολογίας) χρειάζεται να προσαρμοστούν στη θεματική περιοχή και στο αντικείμενο των υπό επεξεργασία κειμένων. Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  3. Εισαγωγή & Σκοπός (2) • Η εξαγωγή όρων προσφέρει μια έγκυρη και γρήγορη λύση στη διαδικασία προσαρμογής των συστημάτων γλωσσικής τεχνολογίας στις καινούργιες αυτές απαιτήσεις. • Οι όροι πραγματώνουν γλωσσικά τις βασικές έννοιες του κειμένου αλλά και του γνωστικού αντικειμένου στο οποίο υπάγεται το κείμενο. Είναι συνεπώς αρκετά αντιπροσωπευτικοί του περιεχομένου του. Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  4. Χρήσεις-Εφαρμογές • Ανάκτηση Πληροφορίας • Κατηγοριοποίηση και Ταξινόμηση κειμένων • Εξαγωγή Πληροφορίας • Κατασκευή περίληψης • Πολύγλωσσες εφαρμογές (παραλληλοποίηση κειμένων) Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  5. Ανάκτηση και Εξαγωγή Πληροφορίας Ανάκτηση Πληροφορίας (Information Retrieval) ΕΡΩΤΗΣΗΑνάκτησηΕΓΓΡΑΦΩΝ Εξαγωγή Πληροφορίας (Information Extraction) ΠροκαθορισμένοΠΛΑΙΣΙΟΕξαγωγήΠΛΗΡΟΦΟΡΙΑΣαπόΕΓΓΡΑΦΑ Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  6. Παράδειγμα Ανάκτησης Πληροφορίας Ανάκτηση Πληροφορίας ΕΡΩΤΗΣΗ : χρηματοδότηση νέας τεχνολογίας ΑΝΑΚΤΗΣΗ : έγγραφα t001.txt …\…\MS VC funding t002.txt …\…\ New Technology VC t001.txt …\VC new technology funding Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  7. Παράδειγμα Εξαγωγής Πληροφορίας Εξαγωγή Πληροφορίας ΠΡΟΚΑΘΟΡΙΣΜΕΝΟ ΠΛΑΙΣΙΟ ΓΕΓΟΝΟΤΩΝ : <organisation, location, money, type, percent…> ΠΛΗΡΟΦΟΡΙΑ ΑΠΟ ΕΓΓΡΑΦΑ <EVENT-01>:= ORGANISATION : ‘Venture capital Corp.’ LOCATION : ‘Νέα Υόρκη’ MONEY : ‘$100.000’ TYPE : ‘χρηματοδότηση νέας τεχνολογίας’ PERCENT: ‘60%-40%’ ... Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  8. εξαγωγή κανόνων που συσχετίζουν τα δεδομένα με σκοπό την μετατροπή των δεδομένων σε γνώση αριθμητικά δεδομένα κειμενικά δεδομένα Εξόρυξη πληροφορίας βάση οικονομικών δεδομένων βάση πελατών βάση ιατρικών δεδομένων κλπ. κειμενικές βάσεις δεδομένων για ένα θεματικό πεδίο π.χ. εξαγωγή του κανόνα Αν μια Venture Capital Company χρηματοδοτεί μια επιχείρηση με >$ 1bn, τότε η επιχείρηση δραστηριοποιείται στο χώρο της νέας τεχνολογίας Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  9. Σύγχρονες Προσεγγίσεις (1) Χρήση γλωσσικών προτύπων • γραμματικοί κανόνες (συνήθως υποσύνολο των κανόνων περιγραφής ονοματικών φράσεων) • αναγνώριση πολυλεκτικών όρων, αδυναμία αναγνώρισης μονολεκτικών όρων Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  10. Σύγχρονες Προσεγγίσεις (2) Στατιστική μοντελοποίηση • χρήση συχνότητας λέξεων, βάρη τύπου TFIDF, συμφράσεις κτλ. • αναγνώριση τόσο μονολεκτικών όσο και πολυλεκτικών όρων • απαιτούμενο: σώμα κειμένων Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  11. Σύγχρονες Προσεγγίσεις (3) Υβριδικά μοντέλα • συνδυάζουν τα πλεονεκτήματα και των δύο προσεγγίσεων: • εξαγωγή υποψήφιων όρων βάσει γραμματικής όρων • φιλτράρισμα βάσει στατιστικής πληροφορίας Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  12. Περιγραφή της μεθόδου • Εφαρμογή • ενός συνόλου γλωσσικών κανόνων με στόχο την εξαγωγή υποψήφιων όρων • στατιστικού φιλτραρίσματος Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  13. Επεξεργασία Αξιολόγηση Διάγραμμα ροής Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  14. Το Σώμα κειμένων • Εγχειρίδια και ευρετήριο του HP-VUE της Hewlett Packard (Ελληνική έκδοση) • Μέγεθος: 90K λέξεις • Στατιστικές πληροφορίες για τα κείμενα: Λεκτικοί τύποι 35.726 Μοναδικές εμφανίσεις 4.512 Λήμματα 2.588 Λεξικές λέξεις 27.091 Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  15. Ελληνικό κείμενο εισόδου Êáëùóüñéóìá óôï HP VUE <S> # Ôï HP VUE åßíáé Ýíá êáôáîéùìÝíï ðåñéâÜëëïí ôï ïðïßï óáò äßíåé ôç äõíáôüôçôá íá xñçóéìïðïéÞóåôå ôïí õðïëïãéóôÞ óáò xùñßò íá ìÜèåôå ðåñßðëïêåò åíôïëÝò. <S> Ãéá íá ìÜèåôå ôï HP VUE, äéáëÝîôå Ýíá áðü ôïõò ðáñáêÜôù õðåñóõíäÝôås : <S># Áí äå ãíùñßæåôå ðùò íá åðéëÝîåôå Ýíá õðåñóõíäÝôç, ðáôÞóôå ôï <N>F1</N> ãéá ïäçãßåò. <S> ÆùôéêÜ èÝìáôá ãéá íÝïõò xñÞóôåò <S> # Áí åßóáóôå íÝïò óôï HP VUE, áõôÜ åßíáé ôá èåìåëéþäç èÝìáôá ãéá íá áñ÷ßóåôå: <S> # Ãéá íá ëÜâåôå ïäçãßåò êáèþò åßóôå óå Ýíá ïðïéïäÞðïôå ðáñÜèõñï: ÐáôÞóôå ôï F<N>1.</N> (ÄïêéìÜóôå ôï ôþñá ãéá íá ëÜâåôå ïäçãßåò óôçí xñçóéìïðïßçóç ôùí ðáñáèýñùí ïäçãéþí). <S> Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  16. Αποτελέσματα μορφολογικού χαρακτηρισμού και λημματοποίησης ÃåíéêÞ ãåíéêüò AjBaFeSgNm Äéáìüñöùóç äéáìüñöùóç NoCmFeSgNm <s> <s> punc Ôá ï AtNePlNm åðüìåíá åðüìåíïò AjBaNePlNm èÝìáôá èÝìá NoCmNePlNm ðáñÝxïõí ðáñÝxù Vb03PlFiIdPrIpAv ðëçñïöïñßåò ðëçñïöïñßá NoCmFePlAc ðïõ ðïõ Po äå äå PtOt óxåôßæïíôáé óxåôßæù Vb03PlFiIdPrIpPv ìå ìå PpSp êÜðïéá êÜðïéïò PnId03FeSgAc óõãêåêñéìÝíç óõãêåêñéìÝíïò AjBaFeSgAc åöáñìïãÞ åöáñìïãÞ NoCmFeSgAc Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  17. Αποτελέσματα εξαγωγής Ονοματικών Φράσεων (1) Äéáìüñöùóç / [äéáìüñöùóç] ÃåíéêÞ Äéáìüñöùóç / [ãåíéêüò,äéáìüñöùóç] èÝìáôá / [èÝìá] åðüìåíá èÝìáôá / [åðüìåíïò,èÝìá] ðëçñïöïñßåò / [ðëçñïöïñßá] åöáñìïãÞ / [åöáñìïãÞ] óõãêåêñéìÝíç åöáñìïãÞ / [óõãêåêñéìÝíïò,åöáñìïãÞ] Åýñåóç / [åýñåóç] ÐñïâëçìÜôùí / [ðñüâëçìá] Åýñåóç ÐñïâëçìÜôùí / [åýñåóç,ðñüâëçìá] Äéáìüñöùóç / [äéáìüñöùóç] Ôåñìáôéêïý / [ôåñìáôéêü] Äéáìüñöùóç Ôåñìáôéêïý / [äéáìüñöùóç,ôåñìáôéêü] Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  18. Αποτελέσματα εξαγωγής Ονοματικών Φράσεων (2) Ôáxõäñïìåßïõ / [ôáxõäñïìåßï] ÅðéìåëçôÞ / [åðéìåëçôÞò] ÊåéìÝíùí / [êåßìåíï] ÅðéìåëçôÞ ÊåéìÝíùí / [åðéìåëçôÞò,êåßìåíï] ÅêôõðùôÞ / [åêôõðùôÞò] ÅíÝñãåéåò / [åíÝñãåéá] Ôýðïé / [ôýðïò] Áñxåßùí / [áñxåßï] Ôýðïé Áñxåßùí / [ôýðïò,áñxåßï] ÌåôáâëçôÝò/ [ìåôáâëçôÞ] ÐåñéâÜëëïíôïò / [ðåñéâÜëëïí] ÌåôáâëçôÝò ÐåñéâÜëëïíôïò / [ìåôáâëçôÞ, ðåñéâÜëëïí] Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  19. Χαρακτηρισμένο κείμενο εισόδου με εξαχθείσες ΟΦ <ÃåíéêÞ <Äéáìüñöùóç>> Ôá <åðüìåíá <èÝìáôá>> ðáñÝxïõí <ðëçñïöïñßåò> ðïõ äå óxåôßæïíôáé ìå êÜðïéá <óõãêåêñéìÝíç <åöáñìïãÞ>> ôïõ HP VUE <<Åýñåóç> <ÐñïâëçìÜôùí>> <<Äéáìüñöùóç> <Ôåñìáôéêïý>>, <Ôáxõäñïìåßïõ>, <<ÅðéìåëçôÞ> <ÊåéìÝíùí>> êáé <ÅêôõðùôÞ> <ÅíÝñãåéåò> êáé <<Ôýðïé> <Áñxåßùí>> <<ÌåôáâëçôÝò> <ÐåñéâÜëëïíôïò>> Ãéá <âïÞèåéá> óå ìéá <éäéáßôåñç <åöáñìïãÞ>> HP VUE áíáæçôÞóôå <ïäçãßåò> ìÝóá áðü ôçí <åöáñìïãÞ>, Þ áíïßîôå ôéò <ïäçãßåò> xñçóéìïðïéþíôáò ôï <<ÄéáxåéñéóôÞ> <Ïäçãéþí>> áðü ôïí <<Êåíôñéêü <<Ðßíáêá>> <Åðéëïãþí>>> Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  20. Δομές δεδομένων Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  21. Αποτελέσματα - Αξιολόγηση (1) • Ο έλεγχος και η αξιολόγηση έγινε με βάση τον κατάλογο όρων που περιείχε το εγχειρίδιο. • Όροι στον κατάλογο (εξαιρουμένων των μονολεκτικών): 204 • Σύνολο εξαχθέντων ‘όρων’: 3.596 • Σύνολο όρων που αναγνωρίστηκαν σωστά: 130 Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  22. Αποτελέσματα - Αξιολόγηση (2) • Ποσοστό 17% δεν εντοπίστηκε εξαιτίας λαθών του λημματοποιητή και αγγλικών λέξεων στους όρους. • Ποσοστό 8,8% είναι όροι με περισσότερες από 3 λέξεις. • Η γενικότητα των κανόνων που λειτουργούν μόνο σε συντακτικό επίπεδο συντείνει στην εξαγωγή μεγάλου αριθμού όρων. Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  23. Στατιστική αξιολόγηση • Περαιτέρω επαλήθευση των εξαχθέντων όρων βάσει πινάκων συνεκδοχής. • Χρησιμοποιήθηκαν 10 διαφορετικά σκορ αξιολόγησης δίλεκτων όρων, και τα αποτελέσματα μετρήθηκαν στους πρώτους 200 υποψήφιους όρους για κάθε σκορ. • Δύο μετρήσεις ανάκλησης, μια σε σχέση με τους 134 δίλεκτους όρους του ευρετηρίου, και μια σε σχέση με τους 77 δίλεκτους όρους που αναγνωρίστηκαν από την γραμματική. Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  24. wj wj', jj' wi a b wi', ii' c d Πίνακες συνεκδοχής (1) aη συχνότητα των ζευγών που περιλαμβάνουν τόσο την wi όσο και την wj(αριθμός εμφανίσεων του ζεύγους) b η συχνότητα των ζευγών που περιλαμβάνουν την wi και την wj' (αριθμός εμφανίσεων των ζευγών στα οποία μία δεδομένη λέξη είναι το πρώτο συστατικό) Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  25. Πίνακες συνεκδοχής (2) cη συχνότητα των ζευγών που περιλαμβάνουν την wi' και την wj, (αριθμός εμφανίσεων των ζευγών στα οποία μία δεδομένη λέξη είναι το δεύτερο συστατικό) dη συχνότητα των ζευγών που περιλαμβάνουν την wi' και την wj’ (αριθμός εμφανίσεων των ζευγών στα οποία καμία δεδομένη λέξη δεν αποτελεί συστατικό) Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  26. Στατιστικό φιλτράρισμα (1) • Fager and McGowan Coefficient (FAG) • Cubic Association ratio (IM3) • Log-likelihood (LLH) Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  27. Στατιστικό φιλτράρισμα (2) NC Value μια φόρμουλα που λαμβάνει υπόψη τόσο τον αριθμό εμφανίσεων όσο και την πληροφορία του περιβάλλοντος του υποψήφιου όρου, δηλ. ρήματα, επίθετα και ουσιαστικά που περιβάλλουν (συντάσσονται με) τους υποψήφιους όρους Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  28. Αποτελέσματα Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  29. Ολοκλήρωση σε υπολογιστικά λεξικά • οι αυτόματα εξαγόμενοι ορολογικοί πόροι μπορούν να χρησιμοποιηθούν είτε ως έχουν σε μια εφαρμογή ανάκτησης πληροφορίας, είτε σε συνδυασμό με άλλους γλωσσικούς πόρους (γενικά υπολογιστικά λεξικά) σε εφαρμογές εξαγωγής πληροφορίας • ο συνδυασμός με υπολογιστικά λεξικά απαιτεί την κωδικοποίηση πολυεπίπεδης γλωσσολογικής πληροφορίας Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  30. Το μοντέλο ΛΕΞΙΣ (1) • Υπολογιστικό λεξικό γενικής γλώσσας της Νέας Ελληνικής για συστήματα ΕΦΓ (60.000 εγγραφές [30.000 με συντακτική πληροφορία, 15.000 με σημασιολογική πληροφορία]) • Αρθρώνεται σε 3 επίπεδα(μορφολογικό, συντακτικό και σημασιολογικό επίπεδο) • Βασίζεται στο λεξικό Parole/Simple (κοινές προδιαγραφές για 12 ευρωπαϊκές γλώσσες) Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  31. SemU SynU SynU SemU SynU SemU MU σημασιολογική πληροφορία • συμπληρώματα (λειτουργία, μορφοσυντακτικές πραγματώσεις) • εαυτός (μορφοσυντακτικοί περιορισμοί) • κλιτικό παράδειγμα • θέματα • …. Το μοντέλο ΛΕΞΙΣ (2) Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  32. Δείγμα της οντολογίας SIMPLE • LOCATION (3_D_Location, Opening, Building, Area, Artifactual_area, Geopolitical_Location) • MATERIAL • ARTIFACT (Artifactual_material, Furniture, Clothing, Artwork, Money, Container, Instrument, Vehicle, Semiotic_artifact) • FOOD (Artifact_food, Flavouring) • PHYSICAL_OBJECT • ORGANIC_OBJECT • LIVING_ENTITY • Animal (Earth_animal, Air_animal, Water_animal) • Human (Profession, People, Role [Ideo, Kinship, Social_Status], Agent_of_temporary_activity, Agent_of_persistent_activity) • Vegetal_entity (Plant, Flower, Fruit) • Micro_organism • SUBSTANCE Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  33. Σημασιολογικό επίπεδο - Ρόλοι Qualia • Formal • isa • Constitutive • made_of, has_as_part, habitat, dimension, … • Agentive • created_by, derived_from, source, … • Telic • used_for, used_as, purpose, … Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  34. S. type Furniture Formal isa (πολυθρόνα,έπιπλο) Constitutive has_as_part(πολυθρόνα,πλάτη) has_as_part(πολυθρόνα, μπράτσο) made_of(πολυθρόνα, ύφασμα) made_of(πολυθρόνα, ξύλο) Agentive created_by (πολυθρόνα, κατασκευάζω) Telic used_for(πολυθρόνα, κάθομαι) Παράδειγμα της εγγραφής “πολυθρόνα” Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  35. Σημασιολογικό επίπεδο – Δομή κατηγορήματος SemU = χτίζω1 Predicate = χτίζω Type_of_link = master Correspondence = ISObivalent Arg1={SemRole = ProtoAgent, SelPref = [Human]} Arg2={SemRole =ProtoPatient, SelPref =[Building]} Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

  36. Τρέχουσα εργασία • Χρήση συχνότητας υποψήφιων όρων σε σώμα κειμένων αναφοράς (TFIDF scoring - Salton) • Χρήση συντακτικής πληροφορίας (π.χ. κεφαλές ονοματικών φράσεων) • Επέκταση του υπάρχοντος μηχανισμού με γλωσσικές πράξεις πάνω στους όρους [σύνθεση (composition), παράθεση (juxtaposition), σύζευξη (coordination)] Στέλιος Πιπερίδης, Μαρία Γαβριηλίδου (ΙΕΛ)

More Related