520 likes | 652 Views
Servei deTecnologia Lingüística. Facultat de Filologia Edifici Josep Carner , 5è pis Persona de contacte: Montserrat Nofre Tel: 934035694 stel @ ub.edu http://stel.ub.edu. Alguns conceptes previs. TYPE (forma): Equivalent a paraula; qualsevol paraula que apareix en un corpus.
E N D
Servei deTecnologia Lingüística Facultat de Filologia Edifici Josep Carner, 5è pis Persona de contacte: Montserrat Nofre Tel: 934035694 stel@ub.edu http://stel.ub.edu
Alguns conceptes previs • TYPE (forma): Equivalent a paraula; qualsevol paraula que apareix en un corpus. • TOKEN (ocurrència):Cada cop que una forma apareix en un corpus. El nombre d’ocurrències d’una forma constitueix la seva FREQÜÈNCIA. • LEMA: L’estàndard lèxic d’una forma; és a dir, una forma tal i com la trobaríem en el diccionari (en català o espanyol, l’infinitiu per als verbs, el masculí singular per als adjectius, el singular per als substantius).
Procés de treball • Disseny de l’estudi • Selecció del corpus textual • Contingut • Mida del corpus • Classificació • Introducció del corpus en suport magnètic • Manual (des del teclat) • Escàner + OCR • CD-ROM • Internet
Procés de treball • Marcatge o etiquetatge del corpus textual • Referenciació de les parts • Introducció d’informació paratextual • Modificacions sobre el text • Anotacions morfològiques, sintàctiques, etc. (preprocessament) • Aplicació d’un programa informàtic d’anàlisi de textos • Obtenció de resultats
El corpus textual En principi, anomenem “corpus textual” a qualsevolconjunt de textos en suportinformàtic, agrupats i classificatssegonsdeterminatscriteris i objectius. Elsdistingimsegons la seva mida, el contingut, el tipusd’ordenació,... Un corpus constitueix una fontd’informació imprescindible per a: • el desenvolupament de recursos lingüísticsbàsics (lèxics, gramàtiques) • la recerca filològica i lingüística • la lexicografia També és un banc de proves per a la recerca en Lingüística Teòrica i Computacional.
El corpus textual • Objectivitat • Possibilitat de verificació de les teorieselaborades a partir d’ells • Facilitatd’accés i manipulaciódelsmaterials • Permeten el processamentautomàticdels textos y l’explicitació de diferentsinformacions (categoría gramatical), que faciliten la sevaexplotació • El mateixrecurspottenir múltiples usos i aplicacions • Responen a la necessitat de disposar de gran quantitat de dades accesibles com a base per a l’estudi del llenguatge i el desenvolupament de sistemes de PLN • Són un recurs per a l’exploraciódelsaspectesquantitatius del llenguatge • Sónl’únicaviapossible per alsestudisdiacrònics, quan no éspossiblerecórrer a parlantsvius
El corpus textual Requisitsdels corpus • Textos en formatelectrònic: permetautomatitzar tasques com la cerca i recuperaciód’información, el càlcul de freqüències i la classificació de les dadessegonsdiferentscriteris • Autenticitat de les dades: els textos han de ser mostresrealsd’ús de la llenguad’estudi, a partir delsqualss’elaborenteories o aplicacionscomputacionals • Criteris de selecció: lingüístics i/o extralingüístics, segons la finalitat concreta, relacionada ambl’anàlisi lingüística • Representativitat: la selecció ha de respondre a paràmetresestadístics que garanteixin la varietat de la llenguad’estudi (mostra representativa) • Mida: Els corpus solen tenir una mida finita i predeterminada en milions de paraules. En l’actualitat, la mida del corpus no és tan importantcom el disseny; a més, depén de la disponibilitatdels textos i de la finalitat del corpus
Tipus de corpus • Corpus general de referència: representatiud’unallengua, útil per ferobservacionsgenerals sobre aquesta. Conté material oral i escrito, i una representació de diferentstipus de textos. • Corpus per objectiusespecífics: es fixa en un aspecte particular del llenguatge (varietat de llengua, gènereliterari,...). • Oral/escrit • Monolingüe/multilingüe (comparable/paral·lel) • Sincrònic/diacrònic • Obert (corpus monitor)/tancat
Tipus de corpus • Corpus purs/crus (format ASCII): s’utilitzen per elaborar estudisquantitatiu (llistes de formes, freqüències, col·locacions,…) • Corpus processats/anotats: permetenobtenirinformació sobre l’ús de la llengua (anàlisi lingüística, estudis de lèxic, traduccióautomàtica,…) • Corpus etiquetats (tagged) morfosintàcticament • Corpus analitzats sintàcticament: • anàlisi superficial (skeletonparsing, chunking) • anàlisi profunda (full parsing)
Marcatge del text • Referenciació de les parts • Introducciód’informacióparatextual • Anotacionsmorfològiques, sintàctiques, etc.
Marcatge del text electorales. peroademásseríaridículo no publicarlos: nadiepodría esperar que los partidos se reservaran esosdatos sin que llegaran a los medios de comunicación y que éstos se los reservasen a suvez para su uso privado, en análisis y comentarios. ymáscuandosucontenidoyafue_reveladoayer por un diputado de Izquierda_Unida, que posteriormenteintrodujotoda la encuesta en supágina web. inclusoel vicepresidente del Gobierno, Mariano_Rajoy, se refirió al mismosondeo para afirmar que los resultados que arroja no son muydiferentes de los de otrasencuestasprivadas. efectivamente, no lo son, y ellohacemás incomprensible -aunque no más justificada- la decisión de ocultarla. la única forma de que los ciudadanosjuzguen por sucuenta si son o no similares a los de otrossondeos es que los conozcan. ylo que ayer era fuertesospecha de ocultación es evidencia a la luz de la fichatécnica de la propiaencuesta, que precisa que el trabajo de campo finalizó el 25 de abril. quehaya_tardadodos semanas en llegar al
Marcatge del text <diari correo> <data 2704> cita ineludible el inicio formal de la campaña electoraldejaatrás meses de 'impasse' y confrontación extrema para encaminar definitivamente a la ciudadaníahacia las urnas del 13 de mayo. precisamentehoy, cuando la larga espera para contar con un veredictoinapelable de los electores está a punto de terminar, se hace notar el sinsentido de haber_prolongado la legislatura hasta la extenuación, en un empeñoabsurdo que a nadie ha_beneficiado y que ha_terminadoperjudicando a la política y a la sociedad. comienza la campaña electoral cuandoprácticamentetodo lo que cabíadecirestádichoya. en cualquier caso, dado que quedan dos semanashasta las elecciones, seríabueno que los protagonistas de la campañaaprovecharan la ocasión para ofrecer a la opinión pública
Marcatge del text • Formats de marcatge: • SGML (Standard GeneralizedMarkupLanguage) • XML • Formato <marca>…</marca>
Marcatge del text • Altresestàndards de marcatge • Referencias COCOA • TEI (XML) <poem><title>The Sick Rose</title> <stanza> <line>O Rose thou art sick.</line> <line>The invisible worm,</line> <line>That flies in the night</line> <line>In the howling storm:</line> </stanza> <stanza> <line>Has found out thy bed>/line>
Recomptes sobre el corpus • L’aproximaciómés directa al treballambdadestextualsconsisteixsimplement en comptar les freqüències de formes, ocurrències, seqüències o altresclassificacions (per exemple, freqüències por categoriesgramaticals). • Elsrecomptes de freqüències en dadesabsolutes no permeten la comparació entre corpus o parts de corpus, sobretot si són de mida diferent. Han d’utilitzar-se percentatgesd’aparició respecte a la mida del corpus.
Recomptes sobre el corpus Llistats de paraules: • alfabètics
Recomptes sobre el corpus Llistats de paraules: • alfabètics
Recomptes sobre el corpus Llistats de paraules: • alfabètics per final de paraula
Recomptes sobre el corpus Llistats de paraules: • freqüencials Permeten comparar els usos del lèxic entre diferents corpus: • formes gramaticals • formes lèxiques (vocabulari • representatiu) • densitat lèxica per categories
Recomptes sobre el corpus Llistats de paraules: • freqüencials
Concordances Una concordançapermetveure la paraula o seqüència buscada dins del seucontext (una línia de pantalla d’ordinador o el nombre de caràctersdefinit per nosaltres). • Tradicionals (naturals) • Informatitzades • Concordança de tipusKWIC (keyword in context) • Concordança de context variable • Contextos Elsresultats es poden ordenar seguintdiferentscriteris: • ordred’aparició en el corpus • per les paraules o lletresanteriors a la paraulaclau • per les paraules o lletresposteriors a la paraulaclau • gràfics de distribució de la paraulaclau al llarg del text
Concordances co2704 o de participación ciudadana . la libertad en el ejercicio del derecho a co2704 guridad efectiva que garantice la libertad y el propio derecho a la vida co0605 a convivencia , la seguridad y la libertad de toda la ciudadanía . lo co0705 onvivencia . la democracia y la libertad no cuentan con un instrumento co0705 asca haya dado nunca en pos de su libertad frente a la dictadura de ETA co0805 ctimas que propiciaron en vida la libertad y la democracia de que disfru co1105 votar en libertad esta noche termina una de l co1105 an garantizada su integridad y su libertad , porque resulta lacerante ve co1105 electoral en condiciones de plena libertad , es la libertad plena la que co1105 iciones de plena libertad , es la libertad plena la que han de emanar la co1305 udadanía puede ejercer con entera libertad . pero aún no siendo una obli co1305 patía para tomar postura entre la libertad y el abatimiento , entre la r co1305 do del miedo y del cinismo . la libertad , como la paz , sólo se aprec co1306 a sobre todo una oportunidad a la libertad , por lo que ha de concebirse co1306 cudiendo a votar ; votando por la libertad y la vida . de2804 be muy bien que el PP defiende la libertad y , a duras penas , descifrad de0105 a sus filas , en pleno uso de su libertad . ¿les suena ? de1105 e totalitarios , puesto que votar libertad es votar a otra opción políti de1305 s huelan a vida , diálogo , paz y libertad o , lo que es lo mismo , que de1305 reniega de cualquiera de ellos ( libertad , paz , diálogo y vida ) a pa de1405 único que realmente garantiza su libertad . de nada le han valido al de1405 nes decían que aquí no se vota en libertad , tal y como el alto nivel de de1405 uscar la paz , para garantizar la libertad … para dar una esperanza a la mu1205 a comunidad autónoma vasca no hay libertad de expresión y recuerda que s mu1205 compromiso con esa defensa de la libertad y de los derechos humanos .
Concordances: recursos a Internet • Biblioteca Virtual Miguel de Cervantes (Herramientas lingüísticas: Concordancias) • http://www.cervantesvirtual.com/concordancias/index.shtml • SOL (Spanishon line). Concordancias españolas en la web • http://spraakbanken.gu.se/lb/konk/rom2 • Concordances, a propòsit de l’autoria d’ “El Lazarillo de Tormes” • http://www.elazarillo.net/concordancias.html
Processament de corpus: collocates Enspermet buscar les paraulesrelacionadesamb una paraula determinada dins del context de distància entre elles que s’estableixi.
Corpus processats Els “corpus crus” (raw corpus) o sense anotarsónútils per a determinatsaspectes, peròlimitatsquant a les sevesspossibilitats. Elscorpus anotats (en els que s’explicitainformació lingüística i no lingüística, en molts casos de forma automàtica) enriqueixen i augmenten el potencial del corpus per a investigacions sobre diversos aspectes del llenguatge. El procedimientd’anotaciód’un corpus consisteix a introducir una sèried’etiquetes que poden referir-se a aspecteslingüístics (anotació, tagging, parsing) o no lingüístics (marcatge, codificació, mark-up).
Corpus processats Anotaciómorfològica (PoStagging) Consisteix a assignar a cada unitatlèxica del text una etiqueta que indica la sevacategoria o part de l’oració. També sol incloureinformació sobre les característiquesmorfològiques (gènere, nombre, cas, persona,…). Els programes que realitzenaquestprocés de manera automàticareben el nom de taggers.
Corpus processats Texto etiquetat: Valor de les etiquetes:
Corpus processats Etiquetaris (PoStaggers)
Corpus processats Lematització És un procésíntimamentlligat a l’anotaciómorfològica, perquè no potlematitzar-se sense una anotació (i la conseqüentdesambiguació) prèvia. Consiste a la reducció de les paraulesd’un corpus alsseusrespectiuslemes o formes bàsiques (la paraula tal i comapareix en el diccionari). És un tipus de processamentespecialmentimportant per a la lexicografia y elsestudis de vocabulari. L’usuaripot examinar totes les variantsd’unaparaula i extraureinformació sobre la sevafreqüència i distribució. Hi ha programes que realitzen el procés de forma automàtica. En el cas de llengüespocflexives (anglès) no sembla ser molt útil, motiupelqualexisteixenpocs corpus lematitzats.
Corpus processats Textlematitzat:
Corpus processats Anotaciósintàctica (parsing) D’un corpus analitzatsintàcticament es potextreureinformacióreferent a l’estructura interna de les oracions. Els corpus analitzatssintàcticament també reben el nom de treebanks, quantenen la forma de diagrames arboris, tot i que de manera habitual la informació es representa mitjançantparèntesis. D’aquí la denominació de corpus parentitzats (bracketing). El parsingpotrealitzar-se de forma automàtica, peròatès el nombre de errorsproduïts, requereix la correcció o fins i totl’anotaciócompletament manual.
Corpus processats • L’anotaciósintàcticapot presentar diferentsnivells de profunditat: • skeletonparsing: anàlisi superficial en el que només es marquen elsgransconstituents de l’oració, sensetenir en comptel’estructura interna. • full parsing: representaciódetallada de toda l’estructura de l’oració.
Corpus processats Anotaciósintàctica superficial
Corpus processats Anotaciósintàctica detallada
Corpus processats • Lematització • Tagging: etiquetatge PoS (part of speech) • Parsing: etiquetatge sintàctic