370 likes | 571 Views
El proyecto WOSLAC: W ord O rder in S econd L anguage A cquisition C orpora [Orden de palabras en corpus de adquisición de segundas lenguas] http://www.uam.es/woslac Seminarios “Corpus Digitales de textos” UAM 6 junio 2005 Amaya Mendikoetxea amaya.mendikoetxea@uam.es
El proyecto WOSLAC: Word Orderin Second Language Acquisition Corpora [Orden de palabras en corpus de adquisición de segundas lenguas] http://www.uam.es/woslac Seminarios “Corpus Digitales de textos” UAM 6 junio 2005 Amaya Mendikoetxeaamaya.mendikoetxea@uam.es Cristóbal Lozanocristobal.lozano@uam.es Universidad Autónoma de Madrid
Proyectos financiados • HUM2005-01728FILO • Entidad financiadora: MEC. • “Las interfaces léxico-sintaxis y discurso-sintaxis: factores sintácticos y pragmáticos en la adquisición del orden de palabras en inglés y en español como segundas lenguas” • Duración: 31.12.05 – 30.12.08 • 09-SHD-016 • Entidad financiadora: CAM y UAM. • “La adquisición del orden de palabras en inglés y español como segundas lenguas: factores sintácticos y pragmáticos” • Duración: 01.01.06 – 31.12.06
Objetivo principal • Determinar las propiedades léxico-sintácticas y sintáctico-discursivas que restringen el orden de palabras en la interlengua de aprendices de segundas lenguas (L2): • L2 inglés (con L1 español) • L2 español (con L1 inglés) • Analizar • el tipo de propiedades léxico-sintácticas de los predicados, que influyen en el orden de palabras en la sintaxis • y su interacción con funciones discursivas como tópico/foco, información conocida/información nueva, etc.
Los corpus • 2 corpus escritos: • L1 español – L2 inglés • L1 inglés – L2 español (CEDEL2) • Análisis de los datos: cualitativo y cuantitativo: • Software concordancias: UAM-CorpusTools (O’Donnell) • Paquetes estadísticos (SPSS).
L1 español – L2 inglés • Responsable: Paul Rollinson • OBJETIVO: 1.000.000 palabras • 260 redacciones en formato electrónico: • Rango: de 500 a 2.000 palabras • Recogidas: 300.000 palabras • Alumnos de Filología Inglesa (UAM): • Asignatura: “Lengua inglesa I”, componente de Redacción Académica, curso 1º. • Asignatura: “Lengua inglesa III: Redacción”, curso 3º. • Recogida de datos: en clase. • Learner Profile [Perfil del aprendiz] • Essay Profile[Perfil de la redacción] • Oxford Quick Placement Test [Test de nivel]
L1 inglés – L2 español CEDEL2: Corpus Escrito del Español L2 • Responsable: Cristóbal Lozano • OBJETIVO: 1.000.000 palabras • 156 redacciones en formato electrónico: • Rango: aprox. 500 palabras por redacción. • Recogidas: 70.000 palabras (abril - junio 2006). • Aprendices de español, universidades extranjeras y españolas y otros centros educativos. • España: UAM, Fundación Ortega y Gasset, EOI, UCM, etc. • EEUU: Rutgers Uni, St Louis Uni, Uni Wisconsin, Penn State, etc. • Inglaterra: Uni Essex, Uni Hertfordshire, Open Uni, Durham Uni, etc. • Recogida de datos: onlinehttp://www.uam.es/woslac/cedel2.htm • Learning background [Perfil del aprendiz] • University of Wisconsin Placement Test Spanish[Test de nivel] • Composition in Spanish[Redacción en español]
Consultas • 1. Orden de palabras no canónico Estructuras que no se ajustan al patrón: SujetoVerboObjeto Directo (Objeto Indirecto) • (a) Sujetos invertidos • Into the room came a tiny old lady. • En la habitación entró una anciana diminuta. • b) Dislocación a la izquierda • The paper Terry buys everyday (not a book!) • El periódico compra Terry cada día (y no un libro!) • c) Dislocación a la derecha • He said to me that he could not speak Russian. • Me dijo a mí que no hablaba ruso.
Consultas (2) • 2. Construcciones especiales • a) pasivas • The paper is bought (by Terry) everyday. • ?El periódico es comprado (por Terry) todos los días • (b) Clefts • It was his voice that held me. • Fue su voz lo que me retuvo
Problemas • Los escasos corpus de aprendices existentes carecen deetiquetas sintácticas. • La mayoría de los buscadores están diseñados para buscar palabras o grupos de palabras (no estructuras). • Esto significa: hay que “diversificar” la búsqueda y “purgar” (=filtrar) los resultados de la búsqueda. • PROBLEMA ADICIONAL: los corpus de aprendices contienen formas no estándar: • p. ej.: “arised” en vez de “arose” (apareció).
CASO PRÁCTICO (1): Sujetos postverbales en inglés L2 • Lozano & Mendikoetxea (2005) ‘Postverbal subjects in L2 English: a corpus-based study’ Workshop “Linking up contrastive and Learner corpus research”. ICLC Universidad de Santiago • Corpus: L1 Español – L2 Inglés • ICLE Spanish subcorpus (Granger et al. 2002) • UAM corpus [recopilado según normas del ICLE] • Software de interrogación: WordSmith v. 4.0 (Scott 2004) • PROBLEMA Se pueden obtener concordancias de forma automática con WordSmith, PERO es necesario hacer una purgamanual (filtrado de concordancias inutilizables).
CASO PRÁCTICO (2):Tipo de estructuras: Verbo-Sujeto • Inversión Locativa: SP V SNsuj • In the main plot appearthe main characters: Volpone and Mosca. • There-insertion: There V SNsuj • There existpositive means of earning money. • AdvP-insertion: SAdv V SNsuj • … and here emergesthe problem. • * it-insertion: It V SNsuj • *In the name of religion it had occurredmany important events… • * XP-insertion: XP V SN suj • *In 1760 occursthe restoration of Charles II in England. • * Ø-insertion: Ø V SNsuj • …*because existthe science technology and the industrialisation. GRAM. AGRAM.
CASO PRÁCTICO (3) • WordSmith: búsquedas: • Para cada lemma (e.g., APPEAR, ARISE), buscamos: • Todas las formasnativas posibles: • appear, appears, appearing, appeared • arise, arises, arising, arose, arisen • Todas las formas fruto de una generalizaciones y regularizaciones erróneas de los aprendices: • arised, arosed, arisened, arosened • Ejemplo¨: “So arised the Saint Inquisition” • Todas las formas en las que es probable una transferencia de la ortografíade la L1 : • apear, apears, apearing, apeared • Cualquier otra forma producto de faltas de ortografía: • appeard, apeard
Las concordancias • Concordancias en WordSmith • 3300 concordancias aprox: • 820 concordancias útiles (1/4) . • Criterios de filtrado “purga” manual.
“Purga” manual de concordancias (1) • 6 CRITERIOS PRINCIPALES DE FILTRADO: El verbo ha de ser intransitivo (inergativo o inacusativo). • In the screen of the television one or two “rombos” should appear. [inac] • Leontes cries and the statue talks. [inerg] • This government’s movement has created several opinions. [trans] El verbo ha de ser finito, con o sin Auxiliar. • …also it exists the psychological agresssions… [finito no aux] • … the cases of men mistreated do not appear in the media.[finito aux] • This contradiction could disappear[finite modal] • There’s no reason for it to exist. [for clause + to inf] • Poor people cross borders to escape from poverty. [to-inf clause] • …let time pass… [‘let’ constructions] • …make everyone’s life go ahead [causative + infinitive] • Returning to the title of this paper,… [gerundive clauses] • …they go away in order to escape to France.[‘in order to’ clauses] • …women have to live with the agressor [have to/ought to/able to] • …prudence was beginning to disappear. [verbal/asp periphrases] • Before entering the argumentation,… [small clauses] • …instead of following… [complement of P] • …likelyto happen… [complement of A] • The tests to enter the army are quite difficult now. [complement of N]
“Purga” manual de concordancias (2) El verbo ha de estar en voz activa. • This contradiction could disappear. [activa inaccusativo] • This situation has already been happened. [inacusativo pasivizado] El sujeto ha de ser un SN. • …it arose [diverse social ranks, the rich and the poor that depended on the property they had]. [sujeto SN invertido] • …it only remains [to add that nowadays we live in a world…] [extraposición] • It happened [that the countries which make the weapons are…] [extraposición] La oración puede ser gramatical o agramatical en inglés nativo. • This contradiction could disappear. [gram] • …it won’t exist nothing of what people don’t get bored or tired. [agram] El sujeto puede aparecer postverbalmente (VS) o preverbalmente (SV). • …the real problemappears when they have to look for their first job. [SV] • So arisedthe Saint Inquisition. [VS]
“Purga” manual de concordancias (3) • OTROS CRITERIOS DE FILTRADO: • Target V + V (verbal coordination) • Families without father exist and work well. • Coordinator + target V • …we can manage to obtain it and live in a better world. • Interrogatives (only if V is the target) • How could they live? • Does exist then a manipulation of television? • Formulaic & Set expressions in English • As sometimes happens… • …fall victim to… • …the world we live in. • Set expressions transferred from the L1 • …it happens the same. • …they fall into account that they have treated very badly Mr Hardcastle. • Phrasal verbs: • …a scientist come up with an intention… • Quotes (literary or other): • “To what purpose, April, do you return again? • “Feminism has to evolved or die”, Friedan said in 1982…
“Purga” manual de concordancias (4) • OTROS CRITERIOS DE FILTRADO (CONTINUACIÓN) • Transitive alternants (unacs): • Rosamond lived a very comfortable life. • …once you have passed this stage. • …the University of Pennsylvania developed the electronic calculator. • Causativizations (unacs): • …how parents grew their children. • But this idea could rise the question of… • Verbs that do not belong to the proposed semantic criteria by Levin & Rappaport-Hovav: • …social classes appear to be broken. [≠appearance] • …we come to know about his personality… [≠inherently directed motion] • Subject relative clauses: • …those fantastic relatives that still survive. • ..events of this kind which occurred in Spain. • Free relative clauses: • …trying to imagine what will remain… • Hastings realizes what is happening… • Predicative complements: • Theatres remained closed. • …men appear completely subordinated to the women’s desires.
Resumen de la “purga” manual • 3300 concordancias aprox. • 820 concordancias útiles (1/4) • Nº de criterios de filtrado: • 6 criterios primarios • 13 criterios secundarios
Software: UAM Corpus Tool • Software para anotación de textos: UAM CorpusTool (O´Donnell): • Permite seleccionar y anotar un texto de diversas formas. • Puede resaltar un segmento (p. ej., oración hendida) y asignarle rasgos a ese segmento. • El software genera una versión XML del fichero de texto original, incluyendo los rasgos asignados al segmento. • Entonces puede buscar y detectar concordancias con el patrón (=segmento).
Result: types of VS structures produced • Locative inversion: • In the main plot appear the main characters: Volpone and Mosca. • There-insertion: • There exist positive means of earning money. • AdvP-insertion: • … and here emerges the problem. • * it-insertion: • *In the name of religion it had occurred many important events… • * XP-insertion: • *In 1760 occurs the restoration of Charles II in England. • * Ø-insertion: • …*because exist the science technology and the industrialisation. GRAMM. UNGRAM.
Result: VS and weight Syntactic weight has to be measured manually according to some theoretical criteria HEAVY Against this society drama emerged an opposition headed by Oscar Wilde and Bernard Shaw. …so came the decline of the theatre. Then come the necessity to earn more. LIGHT So arised the Saint Inquisition… …and from there began a fire. Still today … exists the bloody fights.
Result: SV and weight HEAVY …the cases of men mistreated do not appear in the media… …a disintegration of culture, tradition and society would begin… …the utopian societies created by the early socialists appeared. LIGHT …but they may appear everywhere. …since the day eventually came… …these people should exist, …
Result: VS and discourse Discourse status (topic/focus) has to be measured manually by establishing theoretical criteria and then by checking the context (or even the essay) manually FOCUS …there also exists a wide variety of optional channels which have to be paid. So arised the Saint Inquisition. In 1880 it begun the experiments whose result was the appearance of the television some years later. TOPIC …our modern world, dominated by science and technology and industrialisation …because exist the science technology and the industrialisation.
Result: SV and discourse TOPIC I use the Internet … I find windows … if they press on any of these windows … these windows cannot appear because a child could enter easily… …the world of drugs: mafias … problems with mafias finished … dangerous people making money … no reason why these people should exist.
Summary/Conclusion V S Lexicon-syntax Vunacc NPsubj Syntax-discourse FOCUS Syntax-PF HEAVY NPsubj Vunacc Syntax-discourse TOPIC Syntax-PF LIGHT S V