1 / 20

Universitat Pompeu Fabra Institut Universitari de Lingüística Aplicada

Universitat Pompeu Fabra Institut Universitari de Lingüística Aplicada. Resources and tools for Catalan Jorge Vivaldi jorge.vivaldi@upf.edu. Outline. Corpus: definition and types IULA’s LSP Corpus Corpus browser: bwanaNet Corpus based development: term extraction Future. I. Corpus.

Download Presentation

Universitat Pompeu Fabra Institut Universitari de Lingüística Aplicada

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Universitat Pompeu FabraInstitut Universitari de Lingüística Aplicada Resources and tools for Catalan Jorge Vivaldi jorge.vivaldi@upf.edu

  2. Outline • Corpus: definition and types • IULA’s LSP Corpus • Corpus browser: bwanaNet • Corpus based development: term extraction • Future

  3. I. Corpus Corpus: definition • A corpus is a collection of naturally-occurring language text, chosen to characterize a state of variety of a language. John Sinclair (1991: 171) • Additional characteristics : • Organised set of texts, • Saved in electronic support, • accessibility.

  4. I. Corpus Corpus types • Generals versus specialised • Monolingual versus multilingual • Linguistic information • Written language versus oral language • Monitor versus reference • Mark-up language • Metadata

  5. II. IULA’s LSP Corpus Design decisions • Domain: LSP • Multilingual • Linguistically processed • Corpus Type: contemporaneous written language • Annotation: according standard CES • Flexible: apt for multiple uses • Representativity • Other: • Limited mark-up • Keep text and data in a single file

  6. II. IULA’s LSP Corpus Documents processing Input text segmentation/tokenization abbreviations text handling dates numbers unanalyzable NE recognition morphological analyzer CWB Textual DB disambiguation

  7. II. IULA’s LSP Corpus Text sample Original text DRET DE LA NAVEGACIÓ ESTATUT JURÍDIC DEL VAIXELL I DE L'AERONAU Concepte i naturalesa jurídica En sentit tècnic parlem de vaixell per referir nos a qualsevol construcció destinada a la navegació marítima o fluvial. A aquesta idea atenen també, en general, els ordenaments positius moderns en determinar, amb major o menor amplitud, la noció jurídica del vaixell. En el nostre ordenament legal, l'article 146 del Reglament del Registre Mercantil de 1956, transitòriament vigent (veg. disposició transitòria sisena del Reglament del Registre Mercantil de 29 de desembre de 1989), suplint la llacuna del Codi, estableix, també en aquest sentit, que "es reputaran vaixells, per als efectes del Codi de comerç i d'aquest Reglament, no només les embarcacions destinades a la navegació de cabotatge i altura, sinó també els dics flotants, pontons, dragues, gànguils i qualsevol altre aparell flotant destinat o que pugui destinar-se a serveis de la indústria o comerç marítim o fluvial".

  8. II.IULA’s LSP Corpus Text sample Text with structure data <div1 n=6 complete=n> <head type=main>DRET DE LA NAVEGACIÓ;</head> <div2 n=72> <head type=main>ESTATUT JURÍ;DIC DEL VAIXELL I DE L'AERONAU</head> <div3 n=1> <head type=main rend=il>Concepte i naturalesa jurídica</head> <p><s>En sentit tècnic parlem de vaixell per referir nos a qualsevol construcció; destinada a la navegaciómarítima o fluvial.</s><s>A aquesta idea atenen també;, en general, els ordenaments positius moderns en determinar, amb major o menor amplitud, la nociójurídica del vaixell.</s></p> <p><s>En el nostre ordenament legal, l'article 146 del Reglament del Registre Mercantil de 1956, transitòriament vigent (veg. disposiciótransitòria sisena del Reglament del Registre Mercantil de 29 de desembre de 1989), suplint la llacuna del Codi, estableix, també; en aquest sentit, que "es reputaran vaixells, per als efectes del Codi de comerçi d'aquest Reglament, no només les embarcacions destinades a la navegacióde cabotatge i altura, sinótambéels dics flotants, pontons, dragues, gànguils i qualsevol altre aparell flotant destinat o que pugui destinar se a serveis de la indústria o comerçmarítim o fluvial".</s></p>

  9. II.IULA’s LSP Corpus Text sample Text including text handling <div1 n=6 complete=n> <head type=main>DRET DE LA NAVEGACI&Oacute;</head> <div2 n=72> <head type=main>ESTATUT JUR&Iacute;DIC DEL VAIXELL I DE L'AERONAU </head> <div3 n=1> <head type=main>EL VAIXELL</head> <div4 n=1.107> <head type=main>Concepte i naturalesa jur&iacute;dica</head> <p><s>En sentit t&egrave;cnic parlem de vaixell per referir-nos a qualsevol construcci&oacute; destinada a la navegaci&oacute; mar&iacute;tima o fluvial.</s><s>A aquesta idea atenen tamb&eacute;, <loc pos='D'>en general</loc>, els ordenaments positius moderns en determinar, amb major o menor amplitud, la noci&oacute; jur&iacute;dica del vaixell.</s></p> <p><s>En el nostre ordenament legal, l'article <num pos='X'>146</num> del <name> Reglament del Registre Mercantil</name> de <num pos='X'>1956</num>, transit&ograve;riament vigent (<abbr>veg.</abbr> disposici&oacute; transit&ograve;ria sisena del <name>Reglament del Registre Mercantil</name> de …

  10. II.IULA’s LSP Corpus Text sample Text with morphological analysis ## TAG <s> 20 TOK En BOS en\P|en\AMS|pr\REE7--- 21 TOK sentit sentir\HMS|sentit\N5-MS 22 TOK t&egrave;cnic t&egrave;cnic\JQ--MS|t&egrave;cnic\N5-MS 23 TOK parlem parlar\V7R1P- 24 TOK de de\P 25 TOK vaixell vaixell\N5-MS 26 TOK per per\P 27 TOK referir referir\VI---- ##- DLI - =\DELIM 28 PGR nos pr\REE616P 29 TOK a a\P 30 TOK qualsevol qualsevol\EN--6S|qualsevol\N5-6S 31 TOK construcci&oacute; construcci&oacute;\N5-FS 32 TOK destinada destinar\VC--SF 33 TOK a a\P 34 TOK la el\AFS|pr\REEC3FS

  11. II.IULA’s LSP Corpus Text sample Desambiguated text ## TAG <s> 20 TOK En BOS en\P 21 TOK sentit sentit\N5-MS 22 TOK t&egrave;cnic t&egrave;cnic\JQ--MS 23 TOK parlem parlar\V7R1P- 24 TOK de de\P 25 TOK vaixell vaixell\N5-MS 26 TOK per per\P 27 TOK referir referir\VI---- ##- DLI - =\DELIM 28 PGR nos pr\REE616P 29 TOK a a\P 30 TOK qualsevol qualsevol\EN--6S 31 TOK construcci&oacute; construcci&oacute;\N5-FS 32 TOK destinada destinar\VC--SF 33 TOK a a\P 34 TOK la el\AFS

  12. II.IULA’s LSP Corpus Text sample CES format <div1 n=6 complete=n> <head type=main><w pos="N5_MS" lema="dret">DRET</w> <w pos="P" lema="de">de</w><w pos="AFS" lema="el">la</w> <w pos="N5_FS" lema="navegació">NAVEGACIÓ</w></head> <div2 n=72> <head type=main><w pos="N5_MS" lema="estatut">ESTATUT</w> <w pos="JQ__MS" lema="jurídic">JURÍDIC</w> <w pos="P" lema="de">de</w><w pos="AMS" lema="el" ta='@'>l</w> <w pos="N5_MS" lema="vaixell">VAIXELL</w> <w pos="C" lema="i">i</w><w pos="P" lema="de">de</w> <w pos="A6S" lema="el">L</w><w pos="N5_FS" lema="aeronau“ ta="'">AERONAU</w> </head> <div3 n=1> <head type=main><w pos="AMS" lema="el">el</w> <w pos="N5_MS" lema="vaixell">VAIXELL</w></head> <div4 n=1.107> <head type=main><w pos="N5_MS" lema="concepte">Concepte</w> <w pos="C" lema="i">i</w><w pos="N5_FS" lema="naturalesa">naturalesa</w>…

  13. II.IULA’s LSP Corpus Disambiguation results • Tool: TreeTagger • Error rate: 1,20 % • Training data • Training: 500K tokens • Test: 100K tokens • Demo page: • http://brangaene.upf.es/plncorpus/index3_en.htm • IULA main page  Corpus&Tools

  14. II.IULA’s LSP Corpus Current status • LSP Module: • General language module (newspapers): • Domain Tokens • Law 1.685.000 • Economics 1.777.000 • Environment 1.506.000 • Computer science 655.000 • Medicine 2.625.000 • (Genomics 950.000) • TOTAL 8.248.000 TOTAL 30.417.000

  15. III. Corpus browser Corpus browsing • Tool for browsing IULA’s LSP corpus through via Internet: bwanaNet • http://kurwenal.upf.edu/bwananet/ • IULA main page

  16. III.Corpus browser bwanaNet

  17. IV. Term extraction YATE: a tool for term extraction • Main characteristics: • Use of semantic information • Strategies combination • Internet access: • http://igraine.upf.es/cgi-bin/Yate-on-the-Web/yotwMain.pl • IULA main page Terminology

  18. IV. Term extraction Candidates selection Analysis of candidates (external) Context analysis Associative methods General Architecture Input text Lexical resources Linguistic processing Dictionaries EuroWordNet Corpus Analysis of candidates (internal) Greek/Latin forms Semantic information ... combination Sorted list of terms candidates

  19. IV. Term extraction Results

  20. Corpus development Corpus acquisition tool Processing tools improvement Stand-off markup Syntactical analysis Corpus browser Better subcorpus selection Speed up consultation Statistical data Future • Term extraction • Combine EWN with other resources • To reach some domain independence • To allow the user to evaluate the term extraction • To integrate other analysis/combination methods

More Related