120 likes | 375 Views
Los corpus electrónicos. Paloma Sorribes Miñana Curso: 2º Traducción y Comunicación Intercultural Asignatura: Traducción asistida por ordenador Profesor/a: Gisela Abad. Índice. 1. ¿Qué son? 2. T ipos de corpus 3. Los corpus orales 4. L os corpus textuales 5. Los corpus mixtos.
E N D
Los corpus electrónicos • Paloma SorribesMiñana • Curso: 2º Traducción y Comunicación Intercultural • Asignatura: Traducción asistida por ordenador • Profesor/a: Gisela Abad
Índice • 1. ¿Qué son? • 2. Tipos de corpus • 3. Los corpus orales • 4. Los corpus textuales • 5. Los corpus mixtos
1. ¿Qué son? • Un corpus lingüístico es una colección más o menos extensa de textos o de fragmentos de ellos en soporte electrónico. • Su principal característica es la representatividad del estado o sector de la lengua seleccionado. • Su objetivo es constituirse en elementos de referencia para el estudio de una frase concreta o un cierto aspecto de una lengua (p.e.: los corpus textuales que facilitan el estudio del español en los dialectos latinoamericanos).
2. Tipos de corpus En general, los principales parámetros para clasificar los corpus se centran en: • La modalidad de la lengua: corpus orales, corpus textuales o corpus mixtos. • El número de lenguas a que pertenecen los textos: monolingües, bilingües o multilingües. • El tamaño o cantidad de textos que conforman el corpus: corpus grandes, equilibrados y piramidales. • Los límites del corpus : corpus cerrados o abiertos (también llamados corpus monitor). • La variedad lingüística o el grado de especialización de los textos: • Generales o especializados. • Genéricos o canónicos. • El período temporal que abarcan los textos: • Periódicos o cronológicos. • Diacrónicos o históricos (a través del tiempo), diferenciándose de los sincrónicos (presente). • El tratamiento aplicado al corpus: • Corpus simples. • Corpus verticales. • Corpus simplificados o anotados. De todos modos, debido al límite de tiempo, en esta exposición se va a tratar solamente tres tipos de corpus muy diferenciados entre sí según la modalidad utilizada (es decir, el primer criterio de clasificación de la lista).
3. Los corpus orales • Sirven para el estudio de una lengua desde un determinado aspecto (p.e., los dialectos). • Únicamente recogen muestras de lengua hablada. • El objetivo no es tanto el análisis de las características de tipo fonético, sino la obtención de una transcripción ortográfica de la lengua hablada.
Algunos corpus orales • ACUAH:Análisis de la conversación de la Universidad de Alcalá de Henares. Cedido por la Universidad de Alcalá de Henares, Madrid. • ALFAL:Macrocorpus de la Norma Lingüística Culta de las Principales Ciudades del Mundo Hispánico. Cedido por la Asociación de Lingüística y Filología de América Latina. • The Bergen Corpus of London Teenage Language (COLT)es un corpus de medio millón de palabras cuyo objetivo fundamental es dar cuenta del dialecto de los adolescentes de Londres y, por tanto, servir como punto de referencia para estudios de índole lingüística. • Corpus Oral de Lenguaje Adolescente (COLA): características similares al COLT. • Corpus de Conversación Coloquial: también similar al COLT. • Grabaciones orales.
4. Los corpus textuales • Conjunto de datos, textos u otros materiales sobre determinadas materias que pueden servir de base para una investigación o trabajo. Están conformados exclusivamente por muestras de lengua escrita. • Son de gran ayuda para el uso de términos, lexicografía, neologismos… en las traducciones. • También se utilizan para otros fines, como la realización de análisis estadísticos o la validación de reglas lingüísticas dentro de un territorio específico de una lengua.
Algunos corpus textuales • Thesaurus Linguae Graecae(sobregriegoantiguo). • Eastern Armenian National Corpus (EANC) (110millonespalabras). • National Corpus of Polish. • German Reference Corpus (DeReKo) (más de 4 billones de palabras de alemáncontemporáneo). • Corpus textual español (Molino de Ideas) (660millones de palabras). • Turkish National Corpus
5. Los corpus mixtos • Los corpus mixtos combinan ambas modalidades de lengua, aunque siempre favoreciendo la escrita, ya que su obtención es menos costosa que la de la lengua oral.
Algunos corpus mixtos • El Corpus de Referencia del Español Actual (CREA) • El British National Corpus (BNC) • Afasia: Corpus mixto de lenguaje conversacional (libro), publicado por Carlos Hernández Sacristán, Enrique Serra Alegre y Montserrat VeyratRigat.
Bibliografíahttp://www.wordreference.com/definicion/Corpus%20textual%20del%20castelhttp://liceu.uab.cat/~joaquim/publicacions/Torruella_Llisterri_99.pdfhttp://www.elplacerdetraducir.com/note/traducir-con-corpushttp://www.scielo.cl/scielo.php?pid=S071848832012000200002&script=sci_arttexthttp://elies.rediris.es/elies18/23.htmlhttp://fhyc.unileon.es/Milka/LCII/Corpus4.pdfhttp://en.wikipedia.org/wiki/Text_corpushttp://roderic.uv.es/handle/10550/29005Bibliografíahttp://www.wordreference.com/definicion/Corpus%20textual%20del%20castelhttp://liceu.uab.cat/~joaquim/publicacions/Torruella_Llisterri_99.pdfhttp://www.elplacerdetraducir.com/note/traducir-con-corpushttp://www.scielo.cl/scielo.php?pid=S071848832012000200002&script=sci_arttexthttp://elies.rediris.es/elies18/23.htmlhttp://fhyc.unileon.es/Milka/LCII/Corpus4.pdfhttp://en.wikipedia.org/wiki/Text_corpushttp://roderic.uv.es/handle/10550/29005
Observaciones • Personalmente para mí, la búsqueda de información sobre los corpus ha resultado ser una tarea nada fácil, ya que en la red no parece haber tanta información concreta sobre ellos como debería –definiciones de los mismos, objetivos, utilización–. • Tampoco he podido disponer de mucha información en los libros, ya que no disponía de obras escritas que hablaran sobre ellos al ser una herramienta de reciente aparición. • He hallado mucho ruido informativo en mi búsqueda en la red incluso con la utilización constante de buscadores booleanos, lo cual no ha contribuido tanto a la eficacia de mi búsqueda como yo hubiera deseado.