1 / 39

Υπολογιστική Λεξικογραφία

Υπολογιστική Λεξικογραφία. Γνώση σχετικά με μεμονωμένες λέξεις μιας γλώσσας : απαραίτητη για κάθε είδους επεξεργασία φυσικής γλώσσας Συστήματα Μηχανικής Μετάφρασης : από τις πρώτες εφαρμογές υπολογιστικής λεξικογραφίας Εφαρμογές S peech-to- T ext και T ext-to- S peech

eben
Download Presentation

Υπολογιστική Λεξικογραφία

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Υπολογιστική Λεξικογραφία • Γνώση σχετικά με μεμονωμένες λέξεις μιας γλώσσας: απαραίτητη για κάθε είδους επεξεργασία φυσικής γλώσσας • Συστήματα Μηχανικής Μετάφρασης: από τις πρώτες εφαρμογές υπολογιστικής λεξικογραφίας Εφαρμογές Speech-to-Text και Text-to-Speech Ηλεκτρονικά λεξικά τσέπης Εργαλεία ελέγχου ορθογραφίας • Κοινό αίτημα: σχεδιασμός λεξικών πηγών ενιαίας μορφής έτσι ώστε να διευκολύνεται η ευρεία χρήση τους και να αποφεύγεται η επανάληψη των διαδικασιών ανάπτυξής τους

  2. Λεξικό # Εγκυκλοπαίδειασυμβουλευτικού χαρακτήρα • Λεξικό: Βιβλίο αλφαβητικής καταγραφής λέξεων & σημασιών τους Κείμενο που μεταφέρει γλωσσικές πληροφορίες βάσει χιλιάδων μεμονωμένων στοιχείων(λημμάτων) Κυκλικής δομής (ορισμός στοιχείων βάσει άλλων στοιχείων του έργου) “Τι σημαίνει (η λέξη x);” • Εγκυκλοπαίδεια:Βιβλίο αλφαβητικής καταγραφής εννοιών Κείμενο που μεταφέρει πραγματιστικές πληροφορίες βάσει χιλιάδων μεμονωμένων στοιχείων “Τι είναι (το φαινόμενο x);”

  3. Είδη λεξικών • Κανονιστικά (prescriptive) Περιγραφικά (descriptive) Oxford Dictionary for Writers and EditorsWebster's Third New (ορθογραφία & κλίση)InternationalDictionary «Κάθε γλώσσα έχει τις απρέπειές της και τις ατοπίες της, τις οποίες ο λεξικογράφος έχει καθήκον να διορθώσει ή να προγράψει»(S. Johnson, 1755). Δηλαδή, αποστολή του λεξικογράφου είναι να διατηρήσει την «καθαρότητα» της πρότυπης γλώσσας. Ο συντάκτης του λεξικού είναι γλωσσικός νομοθέτης και ρυθμιστής. Υπαγορεύει ποιες από τις υπάρχουσες χρήσεις των λέξεων είναι οι σωστές. Φυσικά, η αρχή αυτή απορρίφθηκε ως λεξικογραφική αρχή το 1934 στις ΗΠΑ. Ο λεξικογράφος καταγράφει αντικειμενικά όλες τις λέξεις, τις σημασίες τους και τις χρήσεις τους μέσα στη γλωσσική κοινότητα. Δίνει πληροφορίες σχετικά με την ιστορία των σημασιών των λέξεων και την ετυμολογία τους. Εδώ, το κύριο έργο ενός λεξικού είναι να καταγράψει τη χρήση. Από το 1934 η περιγραφική λεξικογραφική αρχή έχει επικρατήσει οριστικά στις ΗΠΑ και σε όλες τις αγγλοσαξονικές χώρες.

  4. Είδη λεξικών • Διαχρονικά (diachronic) Συγχρονικά (synchronic) Ιστορικά (historical) Σύγχρονα (contemporary) Oxford English DictionaryCollins COBUILD Dictionary • Μονόγλωσσα (monolingual) Δίγλωσσα (bilingual) Λεξικό Νέας Ελληνικής Γλώσσας Oxford English-Greek Learner’s (Κέντρο Λεξικολογίας) Dictionary • Δίγλωσσα: Ενεργητικά (active) Παθητικά (passive) Oxford Greek-English Learner’s DictionaryOxford English-Greek Learner’sDictionary • Γενικά Tεχνικά Λεξικό της Kοινής Nεοελληνικής (ΙΝΣ) Σύγχρονο Λεξικό Πληροφορικής • Παιδικά Ενηλίκων Λεξικό της Γλώσσας μας Λεξικό Σύγχρονης Ελληνικής Δημοτικής Γλώσσας (Εκδοτική Αθηνών)

  5. Είδη λεξικών • Ετυμολογικά 1. N. Aνδριώτης, [1951] 1983. Eτυμολογικό λεξικό της κοινής νεοελληνικής. 3η έκδοση. Θεσσαλονίκη: Iνστιτούτο Nεοελληνικών Σπουδών ['Ιδρυμα Μανόλη Τριανταφυλλίδη].2. A. Φλώρος, 1980. Nεοελληνικό ετυμολογικό και ερμηνευτικό λεξικό. Aθήνα: Λιβάνης.3. K. Δαγκίτσης, 1978-1984. Eτυμολογικό λεξικό της νεοελληνικής Aθήνα: Βασιλείου. • Αντίστροφα 1. Γ. Kουρμούλης, 1967. Aντίστροφον λεξικόν της νέας ελληνικής. Aθήνα.2. E. Mπαλαφούτης, 1996. Aντίστροφο λεξικό. Aθήνα: Eπικαιρότητα.3. A.Aναστασιάδη-Συμεωνίδη, 2001. Aντίστροφο λεξικό της νέας ελληνικής. Θεσσαλονίκη: Iνστιτούτο Nεοελληνικών Σπουδών ['Iδρυμα Μανόλη Τριανταφυλλίδη].

  6. Είδη λεξικών • Λεξικά συνωνύμων 1. Π. Bλαστός, 1931. Συνώνυμα και συγγενικά. Tέχνες και σύνεργα. Aθήνα: Eστία. Π. Bλαστός, 1989. Συνώνυμα και συγγενικά. Nέα έκδοση συμπληρωμένη από τα κατάλοιπα του συγγραφέα. Aθήνα: Eταιρεία Eλληνικού Λογοτεχνικού και Iστορικού Aρχείου.2. K. Δαγκίτσης, 1970. Λεξικό των συνωνύμων της νεοελληνικής. Aθήνα: Bασιλείου.3. Θ. Bοσταντζόγλου, 1976. Aντιλεξικόν ή Oνομαστικόν της νεοελληνικής γλώσσης. 3η έκδοση Aθήνα: Δομή.Περιέχει περίπου 60.000 λέξεις, που τις αντλεί από τα κυριότερα λεξικά της εποχής και τις κατατάσσει εννοιολογικά σε 1.500 ενότητες. Στο τέλος του βιβλίου το λημματολόγιο παρατίθεται και αλφαβητικά, ώστε να μπορεί ο χρήστης εύκολα να αναζητήσει λέξεις του ίδιου σημασιολογικού πεδίου στο κυρίως σώμα του λεξικού.4. Θ. Bοσταντζόγλου, 1975. Eικονόγραπτον ονομαστικόν της νεοελληνικής γλώσσης. Aθήνα.Μοναδικό στο είδος του, με εικόνες παρμένες από το Eγκυκλοπαιδικό Λεξικό Duden, βοηθάει τον χρήστη να βρει τη λέξη που αντιστοιχεί στο συγκεκριμένο αντικείμενο.

  7. Ιστορία Aγγλικής Λεξικογραφίας 5ο αιώνας π.Χ. Πρωταγόρας:γλωσσάριομε σπάνιες λέξεις στα έργα του Ομήρου. • Πριν από 1750 Κατάλογος σημαντικότερων λέξεων λατινικών χειρογράφων στα Αγγλικά στο περιθώριο της σελίδας ή ως παράρτημα της κάθε σελίδας Δανεισμός βιβλίων μεταξύ βιβλιοθηκών Αγγλοσαξονικών μοναστηριών: σποραδικός εμπλουτισμός καταλόγων λέξεων-κλειδιών Δομή πρώτων λεξικών:1. Συστηματική θεματική ταξινόμηση 2. Αλφαβητική ταξινόμηση Richard Huloet: Latin-English dictionary Abcedarium Anglico Latinum, 1552 1ο λεξικό: Robert Cawdrey-εποχή Shakespeare (1564-1616):(2.500 λήμματα) + Λεξικά Αγγλικά-Λατινικά (20.000 λήμματα)

  8. Ιστορία Aγγλικής Λεξικογραφίας • 1660 (Παλινόρθωση Καρόλου Β’ Ανεπιτυχής πρόταση στην επιτροπή της Royal Society για τη σύνταξη λεξικού Αγγλικών λέξεων, αλλά ο Benjamin Martin εισάγει λόγια επιστημονική μεθοδολογία: δομή λήμματος + σύστημα κατηγοριοποίησης σημασιών + σύστημα ταξινόμησης ορισμών: 1. προέλευσης ή ετυμολογίας 2. κοινότερη σημασία 3. μεταφορικές σημασίες 4. ποιητικές/χιουμοριστικές σημασίες 5. τεχνικές σημασίες 6. σύνθετες λέξεις 7. ιδιωματικές σημασίες και το λεξικό αρχίζει πλέον να θεωρείται ως «συστηματική συλλογή» όλων των λέξεων μιας γλώσσας • Γύρω στο 1750 Συμπεριλαμβάνονται τεχνικοί τομείς όπως νομική, ρητορική, ανατομία, ιππασία κ.λπ.

  9. Ιστορία Aγγλικής Λεξικογραφίας • 1750-1850 Σταδιακά σημαντικότερος ο ρόλος των λεξικών. Υπέστησαν ποικίλες αλλαγές προς μια μορφή πλησιέστερη της σημερινής ‘It came to be seen as a scholarly record of the whole language; in method, it became inductive - that is, based on or derived from a corpus; the emphasis came to lie far more than hither to on the literary rather than the technical language; and the dictionary now assumed an authoritarian or normative function’. (N.E. Osselton) (Hartmann, 1983). • 1754 `Τoleration in language has gone far enough...'`the time for discrimination seems to now come...Good order and authority are now necessary‘ (Λόρδος Chesterfield) • Τέλη 18ου αιώνα Πρώτο λεξικό προφοράς • Αρχές 19ου αιώνα Συστηματική εισαγωγή προφοράς λέξεων (Hartmann, 1983).

  10. Ιστορία Aγγλικής Λεξικογραφίας • Μετά το 1850 Oxford English Dictionaryαπό μέλη της Φιλολογικής Εταιρείας Ο λεξικογράφος είναι ο «ιστορικός» της γλώσσας: επιστημονική μελέτη της ιστορίας κάθε λέξης • 20ος αιώνας Επιλογή λημμάτων καθορίζεται από πρακτικές ανάγκες:συχνότητα χρήσης Χρήση υπολογιστικών μεθόδων και εργαλείων καταγραφής και αποθήκευσης αποσπασμάτων Λεξικά ηλεκτρονικής μορφής “The marriage of computers and the OED enhances end user access & simplifies basic publishing needs, but computerization can also result in more effective lexicography” (Computerization of Lexicographical Activity on the New Oxford English Dictionary, D. Raymond & Y. Warburton) - Αυτοματισμός κουραστικών επαναλαμβανόμενων διαδικασιών - Νέα προϊόντα π.χ. Ηλεκτρονικές βάσεις δεδομένων αποσπασμάτων

  11. Λεξικογραφία # Λεξικολογία -“Lexicography(1805) is a branch of linguistics whichconsists in observing, collecting,selecting, and describing units frοm the stock ofwords and word combinations in one or more languages” (Hartmann, 1983). - Lexicography also includes the development and description of thetheories and methods which are used for the compilation of dictionaries. This part ofthe subject is sometimes called metalexicography, `lexicography which deals withlexicography'. - Lexicology is the branch of linguistics concerned with thestudy ofvocabulary, its structure, the meaning ofwords and the connection between the meanings of words, word formation and word structure.

  12. Είδη πληροφορίας Οργάνωση μικροδομής λεξικού: Οργάνωση δομής λημμάτων: 5 κατηγορίεςπληροφοριών • Formal: ορθογραφία, προφορά, κλίση, παραγωγή & σύνθεση (σύνδεση συναφών τύπων ή απαρίθμηση τύπων υπό μορφή λίστας ή και τα δύο) • Combinational/syntagmatic:POS, συντακτική συμπεριφορά, συμπληρωματικές δομές λέξεων ή εννοιών (collocations, idioms) • Semantic: ιεραρχική ταξινόμηση και πρότυπα επιλογής (πολυσημία!!!) • Encyclopedic-Pragmatic: λεκτικές ή/και οπτικές εγκυκλοπαιδικές πληροφορίες - θεματική περιοχή, ύφος • Etymological

  13. Χρήση Η/Υ στην Λεξικογραφία 1. Συλλογή γλωσσικών δεδομένων 2. Αυτοματοποίηση διαδικασιών γλωσσολογικής έρευνας 3. Υπολογιστικές εφαρμογές αποτελεσμάτων γλωσσολογικής έρευνας (Garvin 1962) 1. Υπολογιστική παραγωγή βοηθημάτων για γλωσσολογική (και λογοτεχνική) ανάλυση 2. Γλωσσική αυτοματοποίηση - ανάλυση & σύνθεση 3. Προσομοίωση της γλωσσικής δυναμικής 4. Ανάκτηση πληροφοριών 5. Στατιστική ανάλυση γλωσσικών φαινομένων (Lamb1961)

  14. Υπολογιστική Λεξικογραφία Σχεδιασμός, κατασκευή και χρήση ηλεκτρονικών λεξικών στην επεξεργασία φυσικής γλώσσας (NLP) “Computational lexicographycovers the computational methods and tools designed to assist the various lexicographical tasks, including • preparation of lexicographical evidence from manysources • recording in database form of the relevant linguistic information • editing of lexicographical entries • dissemination of lexicographicalproducts”. (Atkins & Zampolli, 1994)

  15. Υπολογιστική Λεξικογραφία “We are beginning to approach a situation where a dictionary that isnot accessible to computer processing is not fully published“ (Allen, 1970) Αρχές δεκαετίας ’70:‘monolingualdictionaries of the future - of the next century - will be much better than thoseof the twentieth century'. Philip B. Gove Αιτίες: -Ανάπτυξη γλωσσολογικής επιστήμης προς κατεύθυνση επιβοηθητική του λεξικογραφικού έργου -Εισαγωγή πανίσχυρου υπολογιστικού εργαλείου συλλογής, αποθήκευσης και ταξινόμησης δεδομένων στους χώρους εκτύπωσης και δημοσίευσης Αποτέλεσμα: λεξικά έντυπης μορφής γίνονται αναγνώσιμα από μηχανή (Machine-Readable)

  16. Machine-Readable Dictionaries (MRDs) A Machine Readble Dictionary (MRD) is the typesetting computer tape of an existing `printed' dictionary. In addition, lexicographic information may also be included which is not included in the printed version. A typesetting tape includes the information of the printed book, e.g. typesetting instructions, font changes, special symbols etc. Thus, the computerised dictionary has emerged from machine readability. • Τρία πρώτα Αγγλικά λεξικά έντυπης μορφής που μετετράπησαν σε MRD • Oxford Advanced learner's Dictionary (OALD). • Longman Dictionary of Contemporary English (LDOCE). • Collins Cobuild English Dictionary (COBUILD)

  17. Printed-to-MR Dictionaries Διαφορετικός βαθμός συμβολής Η/Y: 3 διαδοχικά στάδια ανάπτυξης ενός MRD 1. OALD(τέλος δεκαετίας ’70) Πρώτο αναγνώσιμο από Η/Υ λεξικό Μηδαμινή η συμβολή του Η/Υ στη λεξικογραφική προετοιμασία του λεξικού Απλά ταινία στοιχειοθέτησης. 2. LDOCE(αρχές δεκαετίας ’80) Πρώτο υποβοηθούμενο από Η/Υ λεξικό Ταινία Η/Υ. Έλεγχος της συνεπούς απόδοσης των ορισμών με τη βοήθεια Η/Υ. Προσθήκη πρόσθετων λεξικολογικών πληροφοριών στην ηλεκτρονική έκδοση. 3. COBUILDΠρώτο σχεδιασμένο σε Η/Υ λεξικό Τέσσερα στάδια ανάπτυξης: συλλογή κειμενικών δεδομένων, επιλογή λημμάτων, κατασκευή ορισμών λημμάτων, ταξινόμηση λημμάτων Έλεγχος συνέπειας και πληρότητας δεδομένων

  18. Machine Readable Dictionaries (MRD)=> Machine Tractable Dictionaries (MTD) • Λεξικό=ορισμοί εννοιών λέξεων: παροχή γνώσης γλωσσικής & πραγματιστικής Στους χώρους CL & AI αντιμετωπίζεται ως: α) μέσο έρευνας της σημασιολογικής δομής της φυσικής γλώσσας & β) πιθανό μέσο υπέρβασης της δυσκολίας απόκτησης/αναπαράστασης της γνώσης (knowledge acquisition bottleneck) για υπολογιστικές εφαρμογές • 2 διαφορετικές μέθοδοι σύνταξης λεξικών demo approach book approach

  19. The demo approach • Κυρίαρχη τάση σε NLP & AI (1960s-1970s) • Δεν αντιμετωπίζει το πρόβλημα της απόκτησης / αναπαράστασης της γνώσης • Ανθρώπινη κωδικοποίηση μικρού πλούσιου λεξικού για ένα σύστημα ανάλυσης μικρού αριθμού γλωσσικών φαινομένων • Ακριβή μέθοδος-ξεχωριστή προετοιμασία κάθε λήμματοςμε αφετηρία την σχεδιαζόμενη χρήση του • Τεράστια προβλήματα στην αντιμετώπιση πρόσθετων γλωσσικών φαινομένων

  20. The book approach • Από δεκαετία 1980 • Aντιμετωπίζει το πρόβλημα της απόκτησης / αναπαράστασης της γνώσης • Προσπαθεί να αναπτύξει μεθόδους αλλαγής της μορφής της γνώσης από λεξικά & εγκυκλοπαίδειες σε μορφή χρησιμοποιήσιμη από συστήματα CL & AI, καλύπτοντας ένα όσο το δυνατόν μεγαλύτερο τμήμα της γλώσσας

  21. Πρώτα λεξικά κοινής χρήσης στην κοινότητα Υπολογιστικής Γλωσσολογίας Machine Readable Dictionaries - Merriam-WebsterNew Pocket Dictionary(Amsler & White 1979; Amsler 1980,1981) -Webster’s 7th New Collegiate Dictionary (Evens & Smith 1983; Chodorow, Byrd & Heidom 1985; Markowitz, Ahlswede & Evens 1986; Binot & Jensen 1987) -Longman Dictionary of Contemporary English (με λεπτομερείς συντακτικούς & σημασιολογικούς κώδικες) (Michiels, Mullenders & Noel 1980; Michiels & Noel 1982; Walker & Amsler 1986; Boguraev, Briscoe, Carroll, Carter & Grover 1987; Boguraev & Briscoe 1987; Wilks, Fass, Guo, McDonald, Plate & Slator 1987)

  22. Μορφή έρευνας • Υποκείμενη σημασιολογική δομή των λεξικών (π.χ. Amsler & White 1979; Amsler 1980,1981; Chodorow, Byrd & Heidom 1985) • Ανάπτυξη πρακτικών ευρέων μεθόδων εξαγωγής συντακτικών πληροφοριών από ηλεκτρονικά λεξικά (π.χ. Boguraev & Briscoe 1987) & μετατροπής της μορφής τους για άλλες εφαρμογές Στόχος: Μετατροπή του MRD σε ‘περιορισμένο’ MRT (μόνο συντακτική πληροφορία διαθέσιμη – σημασιολογική παραμένει θαμμένη στο λεξικό)

  23. Σημασιολογικές πληροφορίες Στόχος:Αυτόματη εξαγωγή σημασιολογικών πληροφοριών από ηλεκτρονικά λεξικά (MRDs) αφού CYC Project (Lenat, Prakash & Shepherd 1986; Lenat & Feigenbaum 1987): 1 εκατ. λέξεις: κωδικοποίηση με το χέρι: 2person-centuries work!!

  24. Βασικά θέματα μετατροπής MRD σε MTD • Είδος γνώσης που απαντά σε MRDs Κατανόηση δομής & περιεχομένου γνώσης κωδικοποιημένης σε λεξικά & εγκυκλοπαίδειες • Γενική αρχιτεκτονική λεξικού MTD Συνήθως διαιρείται σε αλληλοσυνδεόμενες μονάδες (modules) διαφορετικού επιπέδου γλωσσολογικής πληροφορίας • Φορμαλισμός αναπαράστασης δεδομένων -SGML (Standard Generalized Markup Language) αναπαράσταση κειμενικών και λεξικών δεδομένων -Text Encoding Initiative (TEI) : και μοντέλο αναπαράστασης MRDs, εκτός από μοντέλο αναπαράστασης κειμένων

  25. Σημασιολογικές Θεωρίες • Έλλειψη κοινά αποδεκτής θεωρίας σχετικά με λεξική σημασία/αμφισημία • Αποδοχή τρόπου αντιμετώπισης του φαινομένου από παραδοσιακή λεξικογραφία, αν και η αμφισημία παραμένει ακόμα και στην αυθαίρετη μετα-γλώσσα που χρησιμοποιούν παραδοσιακά λεξικά για τον ορισμό των εννοιών • Μεθοδολογικές υποθέσεις για την εξαγωγή σημασιολογικών πληροφοριών από κείμενο: α) sufficiencyεπάρκεια βάσης γνώσης ως προς γλωσσολογικές & πραγματιστικές πληροφορίες β) extricabilityδυνατότητα καθορισμού υπολογιστικών μεθόδων αυτόματης εξαγωγής πληροφοριών γ) bootstrappingδιαδικασία συλλογής αρχικών πληροφοριών απαραίτητων στις υπολογιστικές διαδικασίες (source internal / source external π.χ. λήμμα ‘noun’> γνώση γραμματικής δομής/συντακτικών κατηγοριών)

  26. Προτεινόμενες προσεγγίσεις μετατροπής MRD σε MTD (Wilks, Fass, Guo, McDonald, Plate & Slator 1988) • Computing Research Laboratory του New Mexico State University Longman Dictionary of Contemporary English (55.000 λήμματα σε έντυπη μορφή – 41.000 λήμματα σε MR μορφή) Μετα-γλώσσα «ελεγχόμενου» λεξιλογίου 2.000 λέξεων • Ελάχιστη ανθρώπινη κωδικοποίηση, βάσει μεθόδου συνεμφάνισης: δεδομένα που παράγονται έχουν την απλούστερη μορφή σημασιολογικής πληροφορίας • Κωδικοποίηση γραμματικής και σημασιολογικών προτύπων που χρησιμοποιούνται από τον parser: μηδαμινή κωδικοποίηση λεξιλογικών δεδομένων • Πλήρης κωδικοποίηση λεξιλογικών δεδομένων (πολύ προσεκτικά ελεγχόμενο λεξιλόγιο μετα-γλώσσας 3.600 λεξιλογικών σημασιών/1.200 λέξεων): MTD λεπτομερώς δομημένων σημασιολογικών πληροφοριών

  27. ESPRIT Basic Research Action ACQUILEX Πλέον σημαντικό έργο χρήσης κοινών μεθόδων εξαγωγής συντακτικών & σημασιολογικών πληροφοριών από 10 MRDs σε 4 γλώσσες με στόχο την κατασκευή πρωτότυπης κοινής Λεξικής Βάσης Γνώσης ενιαίου Τυπολογικού Συστήματος και κοινής μετα-γλώσσας παραμέτρων & αξιών Ann Copestake, The Acquilex LKB: Representation issues in semi-automatic acquisition of large lexicons, 1992 http://citeseer.ist.psu.edu/copestake92acquilex.html

  28. (Machine-Readable Dictionaries: What have we Learned, Where do we Go? Ide & Veronis 1994) 15 χρόνια έρευνας (1980-1995) αυτόματης εξαγωγής γνώσης από MRDs για την κατασκευή βάσεων γνώσης, παρά τις αρχικές προσδοκίες: μικρός αριθμός περιορισμένων και ατελών συστημάτων ταξινόμησης (taxonomies) • Οι πληροφορίες των MRDs είναι ελλιπείς και ασυνεπείς Η κατασκευή Βάσεων Γνώσης απαιτεί συνδυασμό πληροφοριών από ποικίλες πηγές, ειδικά από ανάλυση σωμάτων κειμένων (όπου παρέχονται πληροφορίες για παραθέσεις, κύρια ονόματα, συχνότητα χρήσης, στατιστικά συμπεράσματα), καθώς και από τη συγχώνευση διαφορετικών «ατελών» λεξικών

  29. Computer-assisted corpus lexicography Inside Hector: The Systems View (L. Guarino Reid & J. R. Meehan 1994)Διαδραστική ανάπτυξη εργαλείων λογισμικού από Systems Research Center της Digital Equipment Corporation (Palo Alto, California) για το Τμήμα Λεξικογραφίας του εκδοτικού οίκου Oxford University Press • Αντικειμενοστρεφής γλώσσα προγραμματισμού: Modula-3 1. Εργαλείο κειμενικής έρευνας(20-million-word corpus search tool): sorting KWIC concordances παρόμοιο με βοηθητικό πρόγραμμα Unix grepαλλά μεγαλύτερης λειτουργικότητας (π.χ. ταυτόχρονη αναζήτηση πολλαπλών λέξεων) • 2 διακομιστές: Index Server (εντοπισμός θέσης λέξης μέσω δυαδικής αναζήτησης) & Corpus Position Server (αντιστοίχιση δεικτών λέξεων σε όνομα αρχείου από 1.380 αρχεία και σε θέση χαρακτήρα) • Πολυνηματικά προγράμματα & σωλήνωση για μεγαλύτερη ταχύτητα στο στάδιο παρουσίασης των concordances

  30. HectorSystem (1994) Ταξινόμηση των corcondances/citations • προς τα δεξιά: run along, run in, run into, run over a bicycle • προς τα αριστερά: a first edition, the morning edition, paperback edition • με βάση τη σειρά των κειμένων στο corpus (θεματικό περιεχόμενο): δημοσιογραφία, λογοτεχνία, αλληλογραφία • Με βάση τη σειρά των σημασιών που είχαν αποδοθεί στις ζητούμενες λέξεις από τους λεξικογράφους

  31. HectorSystem (1994) Πολυπλοκότερες αναζητήσεις • Σύνολα λέξεων (κλίση, γραφηματικά αλλόμορφα Stock, Stock, STOCK, stocked, stocks • Χρήση wordclass tagging προγραμμάτων (Αdam & Hougton Mifflin Parser): 300->20 βασικές κατηγορίες Stock ως ουσιαστικό • Collocates Stock με exchange 3 λέξεις δεξιά Stock + preposition • Collocates of collocates Breathe down one’s neck 10 λέξεις αριστερά του neck: breathe 5 λέξεις δεξιά του breathe: down

  32. HectorSystem (1994) Σύνδεση λέξεων και σημασιών Naming senses Sense-tagging (mnemonics) Sense server Searching and sorting sense-tags 2. Επεξεργαστής λημμάτων (dictionary entry editor) • SGML • Διαχείριση αρχείων λημμάτων: κάθε λήμμα ένα αρχείο • Παρουσίαση λημμάτων: 3 επιλογές: Complete Structure View Set-of-Senses View Print View

  33. “Combining Corpus and MRD data for Building Bilingual Lexicons” J. Klavans & E. Tzoukermann 1996 BICORD System • Στόχος: Σύνδεση λημμάτων των δίγλωσσων αγγλο-γαλλικών και γαλλο-αγγλικών λεξικών Collins με ένα μεγάλο δίγλωσσο αγγλο-γαλλικό και γαλλο-αγγλικό σώμα κειμένων • Eπιλεγμένο υποσύνολο: ρήματα κίνησης • Ευθυγραμμισμένο σώμα κειμένων: Hansard Corpus (69εκατομμύρια αγγλικές λέξεις–75 εκατομμύρια γαλλικές λέξεις) 2.869.041 εκατομμύρια ευθυγραμμισμένες προτάσεις • Σύγκριση πληροφοριών των MRD με κειμενικές πληροφορίες • Συνδυασμός γλωσσολογικών και στατιστικών μεθόδων • Ενσωμάτωση πληροφοριώναπό MRD & corpora σε νέα λεξιλογική βάση δεδομένων

  34. Inductive Lexica W. Daelemans & G. Durieux 2000 Τεχνικές μηχανικής μάθησης= χρήσιμα εργαλεία αυτόματης επέκτασης ήδη υπαρχουσών λεξιλογικών βάσεων δεδομένων Προτεινόμενη λύση στο πρόβλημα ατελών ηλεκτρονικών λεξικών: πρέπει να έχουν ιδιότητες αυτό-επέκτασης Εναλλακτική προσέγγιση στην υπολογιστική λεξικογραφία: Από επαναχρησιμοποιούμενα, αναλυτικά, προσανατολισμένα προς τη γνώση, ανεξάρτητα θεωρητικών μοντέλων, πολλαπλών εφαρμογών ηλεκτρονικά λεξικά: (εγκατάλειψη ιδέας γενικών λεξικών) Σε λεξικά προσανατολισμένα προς την απόδοση Μετακίνηση από την ιδέα επαναχρησιμοποίησης λεξιλογικής γνώσης προς την ιδέα επαναχρησιμοποίησης των μεθόδων απόκτησής της knowledge-oriented => performance-oriented

  35. Lexicography Associations • ACL Special Interest Group on the Lexicon (SIGLEX) • African Association for Lexicography (AFRILEX) • American Dialect Society (ADS) • Asian Association for Lexicography (ASIALEX) • Association for Linguistic Typology (ALT) • Australasian Association for Lexicography (AUSTRALEX) • Computational Lexicography (UK) SIG (COLEX) • Dictionary Society of North America (DSNA) • European Association for Lexicography (EURALEX) • European Language Resources Association (ELRA) • European Network of Excellence in Human Language Technologies • Linguistic Data Consortium (LDC) • Vietnam Lexicography Centre (VIETLEX)

  36. Journals Journals • International Journal of Lexicography • Lexicos Lexicography tools • IMS Stuttgart: Terminology and Lexicography Tools

  37. Ηλεκτρονικές Διευθύνσεις σχετικής αρθρογραφίας • Computerization of Lexicographical Activity on the New Oxford English Dictionary (Raymond & Warburton ???) http://citeseer.ist.psu.edu/23833.html • Machine Tractable Dictionaries as Tools and Resources for NLP(Wilks, Fass, Guo, McDonald, Plate & Slator 1988) http://citeseer.ist.psu.edu/wilks88machine.html • Towards Developing Reusable NLP Dictionaries(Van der Eijk, Bloksma & Van der Kraan 1992) http://citeseer.ist.psu.edu/576255.html • Machine Readable Dictionaries: What have we learned, Where do we go? (Ide & Veronis 1994) http://citeseer.ist.psu.edu/ide94machine.html

  38. Ηλεκτρονικές Διευθύνσεις σχετικής αρθρογραφίας • Inside Hector: The Systems View (Guarino Reid & Meehan 1994) http://citeseer.ist.psu.edu/reid94inside.html • Combining Corpus and Machine-Readable Dictionary Data for Building Bilingual Lexicons (Klavans & Tzoukermann 1996) http://citeseer.ist.psu.edu/klavans96combining.html • Electronic Dictionaries – from Publisher Data to a Distribution Server: the DicoPro, DicoEast and REPO Projects (Popescu-Belis, Armstrong & Robert ???) http://citeseer.ist.psu.edu/607314.html • Inductive Lexica (Daelemans & Durieux 2000) http://citeseer.ist.psu.edu/daelemans00inductive.html

  39. Ηλεκτρονικές Διευθύνσεις σχετικής αρθρογραφίας • WASP-Bench: an MT Lexicographer's Workstation Supporting State-of-the-art Lexical Disambiguation (Kilgariff & Tugwell 2001) http://citeseer.ist.psu.edu/kilgariff01waspbench.html • Kirrkirr: A Java-based visualization tool for XML dictionaries of Australian Languages http://www-nlp.stanford.edu/kirrkirr

More Related