200 likes | 328 Views
Universitat Pompeu Fabra Institut Universitari de Lingüística Aplicada. Resources and tools for Catalan Jorge Vivaldi jorge.vivaldi@upf.edu. Outline. Corpus: definition and types IULA’s LSP Corpus Corpus browser: bwanaNet Corpus based development: term extraction Future. I. Corpus.
E N D
Universitat Pompeu FabraInstitut Universitari de Lingüística Aplicada Resources and tools for Catalan Jorge Vivaldi jorge.vivaldi@upf.edu
Outline • Corpus: definition and types • IULA’s LSP Corpus • Corpus browser: bwanaNet • Corpus based development: term extraction • Future
I. Corpus Corpus: definition • A corpus is a collection of naturally-occurring language text, chosen to characterize a state of variety of a language. John Sinclair (1991: 171) • Additional characteristics : • Organised set of texts, • Saved in electronic support, • accessibility.
I. Corpus Corpus types • Generals versus specialised • Monolingual versus multilingual • Linguistic information • Written language versus oral language • Monitor versus reference • Mark-up language • Metadata
II. IULA’s LSP Corpus Design decisions • Domain: LSP • Multilingual • Linguistically processed • Corpus Type: contemporaneous written language • Annotation: according standard CES • Flexible: apt for multiple uses • Representativity • Other: • Limited mark-up • Keep text and data in a single file
II. IULA’s LSP Corpus Documents processing Input text segmentation/tokenization abbreviations text handling dates numbers unanalyzable NE recognition morphological analyzer CWB Textual DB disambiguation
II. IULA’s LSP Corpus Text sample Original text DRET DE LA NAVEGACIÓ ESTATUT JURÍDIC DEL VAIXELL I DE L'AERONAU Concepte i naturalesa jurídica En sentit tècnic parlem de vaixell per referir nos a qualsevol construcció destinada a la navegació marítima o fluvial. A aquesta idea atenen també, en general, els ordenaments positius moderns en determinar, amb major o menor amplitud, la noció jurídica del vaixell. En el nostre ordenament legal, l'article 146 del Reglament del Registre Mercantil de 1956, transitòriament vigent (veg. disposició transitòria sisena del Reglament del Registre Mercantil de 29 de desembre de 1989), suplint la llacuna del Codi, estableix, també en aquest sentit, que "es reputaran vaixells, per als efectes del Codi de comerç i d'aquest Reglament, no només les embarcacions destinades a la navegació de cabotatge i altura, sinó també els dics flotants, pontons, dragues, gànguils i qualsevol altre aparell flotant destinat o que pugui destinar-se a serveis de la indústria o comerç marítim o fluvial".
II.IULA’s LSP Corpus Text sample Text with structure data <div1 n=6 complete=n> <head type=main>DRET DE LA NAVEGACIÓ;</head> <div2 n=72> <head type=main>ESTATUT JURÍ;DIC DEL VAIXELL I DE L'AERONAU</head> <div3 n=1> <head type=main rend=il>Concepte i naturalesa jurídica</head> <p><s>En sentit tècnic parlem de vaixell per referir nos a qualsevol construcció; destinada a la navegaciómarítima o fluvial.</s><s>A aquesta idea atenen també;, en general, els ordenaments positius moderns en determinar, amb major o menor amplitud, la nociójurídica del vaixell.</s></p> <p><s>En el nostre ordenament legal, l'article 146 del Reglament del Registre Mercantil de 1956, transitòriament vigent (veg. disposiciótransitòria sisena del Reglament del Registre Mercantil de 29 de desembre de 1989), suplint la llacuna del Codi, estableix, també; en aquest sentit, que "es reputaran vaixells, per als efectes del Codi de comerçi d'aquest Reglament, no només les embarcacions destinades a la navegacióde cabotatge i altura, sinótambéels dics flotants, pontons, dragues, gànguils i qualsevol altre aparell flotant destinat o que pugui destinar se a serveis de la indústria o comerçmarítim o fluvial".</s></p>
II.IULA’s LSP Corpus Text sample Text including text handling <div1 n=6 complete=n> <head type=main>DRET DE LA NAVEGACIÓ</head> <div2 n=72> <head type=main>ESTATUT JURÍDIC DEL VAIXELL I DE L'AERONAU </head> <div3 n=1> <head type=main>EL VAIXELL</head> <div4 n=1.107> <head type=main>Concepte i naturalesa jurídica</head> <p><s>En sentit tècnic parlem de vaixell per referir-nos a qualsevol construcció destinada a la navegació marítima o fluvial.</s><s>A aquesta idea atenen també, <loc pos='D'>en general</loc>, els ordenaments positius moderns en determinar, amb major o menor amplitud, la noció jurídica del vaixell.</s></p> <p><s>En el nostre ordenament legal, l'article <num pos='X'>146</num> del <name> Reglament del Registre Mercantil</name> de <num pos='X'>1956</num>, transitòriament vigent (<abbr>veg.</abbr> disposició transitòria sisena del <name>Reglament del Registre Mercantil</name> de …
II.IULA’s LSP Corpus Text sample Text with morphological analysis ## TAG <s> 20 TOK En BOS en\P|en\AMS|pr\REE7--- 21 TOK sentit sentir\HMS|sentit\N5-MS 22 TOK tècnic tècnic\JQ--MS|tècnic\N5-MS 23 TOK parlem parlar\V7R1P- 24 TOK de de\P 25 TOK vaixell vaixell\N5-MS 26 TOK per per\P 27 TOK referir referir\VI---- ##- DLI - =\DELIM 28 PGR nos pr\REE616P 29 TOK a a\P 30 TOK qualsevol qualsevol\EN--6S|qualsevol\N5-6S 31 TOK construcció construcció\N5-FS 32 TOK destinada destinar\VC--SF 33 TOK a a\P 34 TOK la el\AFS|pr\REEC3FS
II.IULA’s LSP Corpus Text sample Desambiguated text ## TAG <s> 20 TOK En BOS en\P 21 TOK sentit sentit\N5-MS 22 TOK tècnic tècnic\JQ--MS 23 TOK parlem parlar\V7R1P- 24 TOK de de\P 25 TOK vaixell vaixell\N5-MS 26 TOK per per\P 27 TOK referir referir\VI---- ##- DLI - =\DELIM 28 PGR nos pr\REE616P 29 TOK a a\P 30 TOK qualsevol qualsevol\EN--6S 31 TOK construcció construcció\N5-FS 32 TOK destinada destinar\VC--SF 33 TOK a a\P 34 TOK la el\AFS
II.IULA’s LSP Corpus Text sample CES format <div1 n=6 complete=n> <head type=main><w pos="N5_MS" lema="dret">DRET</w> <w pos="P" lema="de">de</w><w pos="AFS" lema="el">la</w> <w pos="N5_FS" lema="navegació">NAVEGACIÓ</w></head> <div2 n=72> <head type=main><w pos="N5_MS" lema="estatut">ESTATUT</w> <w pos="JQ__MS" lema="jurídic">JURÍDIC</w> <w pos="P" lema="de">de</w><w pos="AMS" lema="el" ta='@'>l</w> <w pos="N5_MS" lema="vaixell">VAIXELL</w> <w pos="C" lema="i">i</w><w pos="P" lema="de">de</w> <w pos="A6S" lema="el">L</w><w pos="N5_FS" lema="aeronau“ ta="'">AERONAU</w> </head> <div3 n=1> <head type=main><w pos="AMS" lema="el">el</w> <w pos="N5_MS" lema="vaixell">VAIXELL</w></head> <div4 n=1.107> <head type=main><w pos="N5_MS" lema="concepte">Concepte</w> <w pos="C" lema="i">i</w><w pos="N5_FS" lema="naturalesa">naturalesa</w>…
II.IULA’s LSP Corpus Disambiguation results • Tool: TreeTagger • Error rate: 1,20 % • Training data • Training: 500K tokens • Test: 100K tokens • Demo page: • http://brangaene.upf.es/plncorpus/index3_en.htm • IULA main page Corpus&Tools
II.IULA’s LSP Corpus Current status • LSP Module: • General language module (newspapers): • Domain Tokens • Law 1.685.000 • Economics 1.777.000 • Environment 1.506.000 • Computer science 655.000 • Medicine 2.625.000 • (Genomics 950.000) • TOTAL 8.248.000 TOTAL 30.417.000
III. Corpus browser Corpus browsing • Tool for browsing IULA’s LSP corpus through via Internet: bwanaNet • http://kurwenal.upf.edu/bwananet/ • IULA main page
III.Corpus browser bwanaNet
IV. Term extraction YATE: a tool for term extraction • Main characteristics: • Use of semantic information • Strategies combination • Internet access: • http://igraine.upf.es/cgi-bin/Yate-on-the-Web/yotwMain.pl • IULA main page Terminology
IV. Term extraction Candidates selection Analysis of candidates (external) Context analysis Associative methods General Architecture Input text Lexical resources Linguistic processing Dictionaries EuroWordNet Corpus Analysis of candidates (internal) Greek/Latin forms Semantic information ... combination Sorted list of terms candidates
IV. Term extraction Results
Corpus development Corpus acquisition tool Processing tools improvement Stand-off markup Syntactical analysis Corpus browser Better subcorpus selection Speed up consultation Statistical data Future • Term extraction • Combine EWN with other resources • To reach some domain independence • To allow the user to evaluate the term extraction • To integrate other analysis/combination methods