150 likes | 292 Views
TST Tools voor het Nederlands als Webservices in een Workflow CLARIN en ISOcat: Een aantal algemene en meer specifieke, PoS gerelateerde problemen. Ineke Schuurman CCL,K.U.Leuven ISOcat workshop Nijmegen, 21-10-2010. Intro. TTNWW:
E N D
TST Tools voor het Nederlands als Webservices in een WorkflowCLARIN en ISOcat:Een aantal algemene en meer specifieke, PoS gerelateerde problemen Ineke Schuurman CCL,K.U.Leuven ISOcat workshop Nijmegen, 21-10-2010
Intro TTNWW: TST-tools voor het Nederlands als Webservices in een Workflow CLARIN Vlaanderen en Nederland Looptijd 01-03-2010 – 30-09-2012
Doel …aantonen dat het idee achter CLARIN werkt, i.e. dat HSS’ers baat kunnen hebben bij taal- en spraaktechnologische hulpmiddelen … nagaan wat evt pijnpunten zijn Op niveau CLARIN-EU (standaarden, metadata, …) Op lokaal niveau (niet goed werkende tools, ontbrekende tools, …)
TTNWW en ISOcat • Eis in bijna elke WP: • Invoeren in ISOcat Binnen CLARIN wezenlijke component • Vergemakkelijken communicatie • Wat wordt met notie/concept/categorie X bedoeld
Maar… • In de praktijk rijzen er een aantal problemen • Algemeenheid/specificiteit • Onvoldoende guidelines • Technische onvolkomendheden
Vraag: wat beoogt ISOcat ? • Ook bij ‘kern’ ISOcat elementen hele vage of kop-staart omschrijvingen • Voorbeeld vaag: noun • Aangebracht door ‘eerstbetrokkenen’ (Dus niet te wijten aan misvattingen derden)
Omschrijvingen noun • 1333 simple Gil Francopoulo POS used to express the name of a person, place, action or thing (standardized name) • 3347 simple gold-user Idem + in linguistic terms: inflection, distribution, syntactic function (admitted name) • 2704 open Agnieszka Patejuk POS bevat lexemen voor inflectie, heeft gender,… (hele ‘Poolse’ definitie)
hoe en wat resultaten • Onder de resultaten voor ‘noun’ • Part of speech • PreferredEvaluative • SyntacticalPattern • genericTerm • el inclusion • Ezafe • Veel erger: exacte zoekterm ‘at random’ in resultaten? (1, 5 en 7) NEFAST!!!
veranderlijkheid • Stel je accepteert een definitie (of misschien beter: je geeft in een eigen domein een definitie en LINKT die met meer algemene) • Maar… die is niet onveranderlijk (is gebleken!) • Wat gebeurt er in zo’n geval met jouw link? (Het kan zijn dat voor jou de ‘verbetering’ er geen is) • En idem met nieuwe omschrijvingen?
‘passende’ definitie? • je kunt niet zomaar definities bijeen-nemen, ze moeten passen binnen bepaalde approach !! • Noun • Noun, ADJ(nom), V(nom) • PoS: vorm vs functie centraal • SA: belanghebbend voorwerp – meewerkend voorwerp
Wensen • Een domein dat bij de definities zichtbaar is (anders dan nu bij NKJP) • Daarin wordt *alles* gedefinieerd, en waar mogelijk gelinkt met definities buiten dit domein • De aard van de relatie wordt weergegeven (ruimer, nauwer, van-beide-een-beetje,…
vervolg • Je moet ook kunnen linken *tussen* de eigen PoS-definities (er is verband tussen ‘X(nom)’ en N) Gebruiker moet enkel ‘onze’ definities kunnen opvragen, bij uitbreiding ook de andere STEVIN-definities (er is vaak een relatie, moeten we ws nader definieren)
Verschil tussen ‘GETAL’ en ‘GETAL’ • Bold, italics in voorbeelden (sommige eigenschappen hebben betrekking op ‘delen van woorden’) • Goede handleiding!
Handleiding/communicatie • Open, simple, complex, constrained, closed • Standardized name, admitted name • Waarom welke resultaten • Communicatiestrategie • bij veranderingen aan element waarmee is gelinkt • bij toevoeging nieuwe definitie voor reeds gedefinieerde term die ook in jouw ‘domein’ voorkomt
. Voer voor discussie?