1 / 52

Servei deTecnologia Lingüística

Servei deTecnologia Lingüística. Facultat de Filologia Edifici Josep Carner , 5è pis Persona de contacte: Montserrat Nofre Tel: 934035694 stel @ ub.edu http://stel.ub.edu. Alguns conceptes previs. TYPE (forma): Equivalent a paraula; qualsevol paraula que apareix en un corpus.

pepper
Download Presentation

Servei deTecnologia Lingüística

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Servei deTecnologia Lingüística Facultat de Filologia Edifici Josep Carner, 5è pis Persona de contacte: Montserrat Nofre Tel: 934035694 stel@ub.edu http://stel.ub.edu

  2. Alguns conceptes previs • TYPE (forma): Equivalent a paraula; qualsevol paraula que apareix en un corpus. • TOKEN (ocurrència):Cada cop que una forma apareix en un corpus. El nombre d’ocurrències d’una forma constitueix la seva FREQÜÈNCIA. • LEMA: L’estàndard lèxic d’una forma; és a dir, una forma tal i com la trobaríem en el diccionari (en català o espanyol, l’infinitiu per als verbs, el masculí singular per als adjectius, el singular per als substantius).

  3. Procés de treball • Disseny de l’estudi • Selecció del corpus textual • Contingut • Mida del corpus • Classificació • Introducció del corpus en suport magnètic • Manual (des del teclat) • Escàner + OCR • CD-ROM • Internet

  4. Procés de treball • Marcatge o etiquetatge del corpus textual • Referenciació de les parts • Introducció d’informació paratextual • Modificacions sobre el text • Anotacions morfològiques, sintàctiques, etc. (preprocessament) • Aplicació d’un programa informàtic d’anàlisi de textos • Obtenció de resultats

  5. El corpus textual En principi, anomenem “corpus textual” a qualsevolconjunt de textos en suportinformàtic, agrupats i classificatssegonsdeterminatscriteris i objectius. Elsdistingimsegons la seva mida, el contingut, el tipusd’ordenació,... Un corpus constitueix una fontd’informació imprescindible per a: • el desenvolupament de recursos lingüísticsbàsics (lèxics, gramàtiques) • la recerca filològica i lingüística • la lexicografia També és un banc de proves per a la recerca en Lingüística Teòrica i Computacional.

  6. El corpus textual • Objectivitat • Possibilitat de verificació de les teorieselaborades a partir d’ells • Facilitatd’accés i manipulaciódelsmaterials • Permeten el processamentautomàticdels textos y l’explicitació de diferentsinformacions (categoría gramatical), que faciliten la sevaexplotació • El mateixrecurspottenir múltiples usos i aplicacions • Responen a la necessitat de disposar de gran quantitat de dades accesibles com a base per a l’estudi del llenguatge i el desenvolupament de sistemes de PLN • Són un recurs per a l’exploraciódelsaspectesquantitatius del llenguatge • Sónl’únicaviapossible per alsestudisdiacrònics, quan no éspossiblerecórrer a parlantsvius

  7. El corpus textual Requisitsdels corpus • Textos en formatelectrònic: permetautomatitzar tasques com la cerca i recuperaciód’información, el càlcul de freqüències i la classificació de les dadessegonsdiferentscriteris • Autenticitat de les dades: els textos han de ser mostresrealsd’ús de la llenguad’estudi, a partir delsqualss’elaborenteories o aplicacionscomputacionals • Criteris de selecció: lingüístics i/o extralingüístics, segons la finalitat concreta, relacionada ambl’anàlisi lingüística • Representativitat: la selecció ha de respondre a paràmetresestadístics que garanteixin la varietat de la llenguad’estudi (mostra representativa) • Mida: Els corpus solen tenir una mida finita i predeterminada en milions de paraules. En l’actualitat, la mida del corpus no és tan importantcom el disseny; a més, depén de la disponibilitatdels textos i de la finalitat del corpus

  8. Tipus de corpus • Corpus general de referència: representatiud’unallengua, útil per ferobservacionsgenerals sobre aquesta. Conté material oral i escrito, i una representació de diferentstipus de textos. • Corpus per objectiusespecífics: es fixa en un aspecte particular del llenguatge (varietat de llengua, gènereliterari,...). • Oral/escrit • Monolingüe/multilingüe (comparable/paral·lel) • Sincrònic/diacrònic • Obert (corpus monitor)/tancat

  9. Tipus de corpus • Corpus purs/crus (format ASCII): s’utilitzen per elaborar estudisquantitatiu (llistes de formes, freqüències, col·locacions,…) • Corpus processats/anotats: permetenobtenirinformació sobre l’ús de la llengua (anàlisi lingüística, estudis de lèxic, traduccióautomàtica,…) • Corpus etiquetats (tagged) morfosintàcticament • Corpus analitzats sintàcticament: • anàlisi superficial (skeletonparsing, chunking) • anàlisi profunda (full parsing)

  10. Marcatge del text • Referenciació de les parts • Introducciód’informacióparatextual • Anotacionsmorfològiques, sintàctiques, etc.

  11. Marcatge del text electorales. peroademásseríaridículo no publicarlos: nadiepodría esperar que los partidos se reservaran esosdatos sin que llegaran a los medios de comunicación y que éstos se los reservasen a suvez para su uso privado, en análisis y comentarios. ymáscuandosucontenidoyafue_reveladoayer por un diputado de Izquierda_Unida, que posteriormenteintrodujotoda la encuesta en supágina web. inclusoel vicepresidente del Gobierno, Mariano_Rajoy, se refirió al mismosondeo para afirmar que los resultados que arroja no son muydiferentes de los de otrasencuestasprivadas. efectivamente, no lo son, y ellohacemás incomprensible -aunque no más justificada- la decisión de ocultarla. la única forma de que los ciudadanosjuzguen por sucuenta si son o no similares a los de otrossondeos es que los conozcan. ylo que ayer era fuertesospecha de ocultación es evidencia a la luz de la fichatécnica de la propiaencuesta, que precisa que el trabajo de campo finalizó el 25 de abril. quehaya_tardadodos semanas en llegar al

  12. Marcatge del text <diari correo> <data 2704> cita ineludible el inicio formal de la campaña electoraldejaatrás meses de 'impasse' y confrontación extrema para encaminar definitivamente a la ciudadaníahacia las urnas del 13 de mayo. precisamentehoy, cuando la larga espera para contar con un veredictoinapelable de los electores está a punto de terminar, se hace notar el sinsentido de haber_prolongado la legislatura hasta la extenuación, en un empeñoabsurdo que a nadie ha_beneficiado y que ha_terminadoperjudicando a la política y a la sociedad. comienza la campaña electoral cuandoprácticamentetodo lo que cabíadecirestádichoya. en cualquier caso, dado que quedan dos semanashasta las elecciones, seríabueno que los protagonistas de la campañaaprovecharan la ocasión para ofrecer a la opinión pública

  13. Marcatge del text • Formats de marcatge: • SGML (Standard GeneralizedMarkupLanguage) • XML • Formato <marca>…</marca>

  14. Marcatge del text • Altresestàndards de marcatge • Referencias COCOA • TEI (XML) <poem><title>The Sick Rose</title> <stanza> <line>O Rose thou art sick.</line> <line>The invisible worm,</line> <line>That flies in the night</line> <line>In the howling storm:</line> </stanza> <stanza> <line>Has found out thy bed>/line>

  15. Marcatge del text

  16. Recomptes sobre el corpus • L’aproximaciómés directa al treballambdadestextualsconsisteixsimplement en comptar les freqüències de formes, ocurrències, seqüències o altresclassificacions (per exemple, freqüències por categoriesgramaticals). • Elsrecomptes de freqüències en dadesabsolutes no permeten la comparació entre corpus o parts de corpus, sobretot si són de mida diferent. Han d’utilitzar-se percentatgesd’aparició respecte a la mida del corpus.

  17. Recomptes sobre el corpus Llistats de paraules: • alfabètics

  18. Recomptes sobre el corpus Llistats de paraules: • alfabètics

  19. Recomptes sobre el corpus Llistats de paraules: • alfabètics per final de paraula

  20. Recomptes sobre el corpus Llistats de paraules: • freqüencials Permeten comparar els usos del lèxic entre diferents corpus: • formes gramaticals • formes lèxiques (vocabulari • representatiu) • densitat lèxica per categories

  21. Recomptes sobre el corpus Llistats de paraules: • freqüencials

  22. Recomptes sobre el corpus

  23. Recomptes sobre el corpus

  24. Recomptes sobre el corpus

  25. Concordances Una concordançapermetveure la paraula o seqüència buscada dins del seucontext (una línia de pantalla d’ordinador o el nombre de caràctersdefinit per nosaltres). • Tradicionals (naturals) • Informatitzades • Concordança de tipusKWIC (keyword in context) • Concordança de context variable • Contextos Elsresultats es poden ordenar seguintdiferentscriteris: • ordred’aparició en el corpus • per les paraules o lletresanteriors a la paraulaclau • per les paraules o lletresposteriors a la paraulaclau • gràfics de distribució de la paraulaclau al llarg del text

  26. Concordances co2704 o de participación ciudadana . la libertad en el ejercicio del derecho a co2704 guridad efectiva que garantice la libertad y el propio derecho a la vida co0605 a convivencia , la seguridad y la libertad de toda la ciudadanía . lo co0705 onvivencia . la democracia y la libertad no cuentan con un instrumento co0705 asca haya dado nunca en pos de su libertad frente a la dictadura de ETA co0805 ctimas que propiciaron en vida la libertad y la democracia de que disfru co1105 votar en libertad esta noche termina una de l co1105 an garantizada su integridad y su libertad , porque resulta lacerante ve co1105 electoral en condiciones de plena libertad , es la libertad plena la que co1105 iciones de plena libertad , es la libertad plena la que han de emanar la co1305 udadanía puede ejercer con entera libertad . pero aún no siendo una obli co1305 patía para tomar postura entre la libertad y el abatimiento , entre la r co1305 do del miedo y del cinismo . la libertad , como la paz , sólo se aprec co1306 a sobre todo una oportunidad a la libertad , por lo que ha de concebirse co1306 cudiendo a votar ; votando por la libertad y la vida . de2804 be muy bien que el PP defiende la libertad y , a duras penas , descifrad de0105 a sus filas , en pleno uso de su libertad . ¿les suena ? de1105 e totalitarios , puesto que votar libertad es votar a otra opción políti de1305 s huelan a vida , diálogo , paz y libertad o , lo que es lo mismo , que de1305 reniega de cualquiera de ellos ( libertad , paz , diálogo y vida ) a pa de1405 único que realmente garantiza su libertad . de nada le han valido al de1405 nes decían que aquí no se vota en libertad , tal y como el alto nivel de de1405 uscar la paz , para garantizar la libertad … para dar una esperanza a la mu1205 a comunidad autónoma vasca no hay libertad de expresión y recuerda que s mu1205 compromiso con esa defensa de la libertad y de los derechos humanos .

  27. Concordances

  28. Concordances

  29. Concordances

  30. Concordances

  31. Concordances

  32. Concordances: recursos a Internet • Biblioteca Virtual Miguel de Cervantes (Herramientas lingüísticas: Concordancias) • http://www.cervantesvirtual.com/concordancias/index.shtml • SOL (Spanishon line). Concordancias españolas en la web • http://spraakbanken.gu.se/lb/konk/rom2 • Concordances, a propòsit de l’autoria d’ “El Lazarillo de Tormes” • http://www.elazarillo.net/concordancias.html

  33. Clusters (segments repetits)

  34. Clusters (segments repetits)

  35. Clusters (segments repetits)

  36. Processament de corpus: collocates Enspermet buscar les paraulesrelacionadesamb una paraula determinada dins del context de distància entre elles que s’estableixi.

  37. Càlculs estadístics: especificitats

  38. Corpus processats Els “corpus crus” (raw corpus) o sense anotarsónútils per a determinatsaspectes, peròlimitatsquant a les sevesspossibilitats. Elscorpus anotats (en els que s’explicitainformació lingüística i no lingüística, en molts casos de forma automàtica) enriqueixen i augmenten el potencial del corpus per a investigacions sobre diversos aspectes del llenguatge. El procedimientd’anotaciód’un corpus consisteix a introducir una sèried’etiquetes que poden referir-se a aspecteslingüístics (anotació, tagging, parsing) o no lingüístics (marcatge, codificació, mark-up).

  39. Corpus processats Anotaciómorfològica (PoStagging) Consisteix a assignar a cada unitatlèxica del text una etiqueta que indica la sevacategoria o part de l’oració. També sol incloureinformació sobre les característiquesmorfològiques (gènere, nombre, cas, persona,…). Els programes que realitzenaquestprocés de manera automàticareben el nom de taggers.

  40. Corpus processats Texto etiquetat: Valor de les etiquetes:

  41. Corpus processats

  42. Corpus processats Etiquetaris (PoStaggers)

  43. Corpus processats Lematització És un procésíntimamentlligat a l’anotaciómorfològica, perquè no potlematitzar-se sense una anotació (i la conseqüentdesambiguació) prèvia. Consiste a la reducció de les paraulesd’un corpus alsseusrespectiuslemes o formes bàsiques (la paraula tal i comapareix en el diccionari). És un tipus de processamentespecialmentimportant per a la lexicografia y elsestudis de vocabulari. L’usuaripot examinar totes les variantsd’unaparaula i extraureinformació sobre la sevafreqüència i distribució. Hi ha programes que realitzen el procés de forma automàtica. En el cas de llengüespocflexives (anglès) no sembla ser molt útil, motiupelqualexisteixenpocs corpus lematitzats.

  44. Corpus processats Textlematitzat:

  45. Corpus processats Anotaciósintàctica (parsing) D’un corpus analitzatsintàcticament es potextreureinformacióreferent a l’estructura interna de les oracions. Els corpus analitzatssintàcticament també reben el nom de treebanks, quantenen la forma de diagrames arboris, tot i que de manera habitual la informació es representa mitjançantparèntesis. D’aquí la denominació de corpus parentitzats (bracketing). El parsingpotrealitzar-se de forma automàtica, peròatès el nombre de errorsproduïts, requereix la correcció o fins i totl’anotaciócompletament manual.

  46. Corpus processats • L’anotaciósintàcticapot presentar diferentsnivells de profunditat: • skeletonparsing: anàlisi superficial en el que només es marquen elsgransconstituents de l’oració, sensetenir en comptel’estructura interna. • full parsing: representaciódetallada de toda l’estructura de l’oració.

  47. Corpus processats

  48. Corpus processats Anotaciósintàctica superficial

  49. Corpus processats Anotaciósintàctica detallada

  50. Corpus processats • Lematització • Tagging: etiquetatge PoS (part of speech) • Parsing: etiquetatge sintàctic

More Related