260 likes | 372 Views
PACOTES LEXICAIS EM CORPORA DE APRENDIZES. Deise Prina Dutra (UFMG) deisepdutra@gmail.com Tony Berber Sardinha (PUC-SP) tony@corpuslg.org ELC 2010 Porto Alegre. Agradecimentos. Tony Berber Sardinha CNPq (Brasília, Brazil) Fapesp (São Paulo, Brazil) PUCSP CEPRIL Deise Prina Dutra UFMG
E N D
PACOTES LEXICAIS EM CORPORA DE APRENDIZES Deise Prina Dutra (UFMG)deisepdutra@gmail.com Tony Berber Sardinha (PUC-SP) tony@corpuslg.org ELC 2010 Porto Alegre
Agradecimentos • Tony Berber Sardinha • CNPq (Brasília, Brazil) • Fapesp (São Paulo, Brazil) • PUCSP • CEPRIL • Deise Prina Dutra • UFMG • POSLIN – Estudos baseados em corpora e Ensino/Aprendizagem de línguas estrangeiras • LEEL (Laboratório de Estudos Empíricos Experimentais da Linguagem) • PUCSP
Introdução geral • Fraseologia • Central em várias áreas de pesquisa • Colabora para uma melhor compreensão da linguagem • Cognição • Descrição • Ensino (Ellis 2008; Granger Meunier 2008) • “... Phraseology pervades theoretical, empirical, and applied linguistics. Like blood in systemic circulation, it flows through heart and periphery, nourishing all.” (Ellis, 2008: 9)
Fraseologia • “o estudo de uma estrutura, significado e uso de combinações de palavras” (Cowie 1994:3168 apud Granger e Paquot 2008) • Abordagens para o estudo de fraseologias • Fraseológica – baseada na linguística • Distribucional – baseada na frequência ou movida a dados (Granger e Paquot 2008)
Definições • Expressões pré-fabricadas ou pre-padronizadas ao invés de palavras têm um papel predominante na produção de discurso oral e escrito (Alterbeng 1993 apud De Cock et al. 1998:67) • Fazem parte de produções proficientes e fluentes • Falantes de uma língua operam principalmente com base no “princípio idiomático” (Sinclair, 1991) ao invés do “princípio da escolha aberta”. • Chunks • “seqüências de duas ou mais palavras que ocorrem regularmente e parecem possuir unidade de significados ou funções” (O´Keeffe, McCarthy & Carter 2007: 46) • Pacotes lexicais • “simplesmente sequências de palvras que comumente aparecem juntas em discurso natural” (Biber et al. 1999: 990) • in terms of the, a list of, the fact that, it is a, etc. • A questão do tamanho do pacote: maior é melhor? • Tamanho e frequência - 3 e 4, occasionalmente 5 palavras • A questão da sobreposição de pacotes • Eles proporcionam uma nova maneira de olhar a lingua: blocos formadores não são mais a sintaxe/gramática, mas o léxico • Eles podem ser responsáveis pela fluência e naturalidade em L1 e L2 • Outros palavras utilizadas na área • Sequências formulaicas, colocações, clusters, n-gramas, MWUs, etc.
Estudos • Psicolinguística • Wray (2002, 2008) • Schmitt et al (2004) • Nekrasova (2009) • Identificação e classificação de pacotes lexicais • Biber, Conrad e Cortes (2004) • Biber (2009) • Simpson-Vlach e Ellis (2010) • Ligados ao ensino aprendizagem de línguas estrangeiras • de Cock et al (1998) • de Cock (2000) • Meunier e Granger (ed.) (2008) • Barfiled e Gullstad (ed.) (2009) • Chen & Baker (2010)
Objetivo deste trabalho em andamento • Identificar e classificar pacotes lexicais corpora de textos escritos de aprendizes • categorias propostas por Simpson-Vlach & Ellis (2010) em sua Academic Formulas List (AFL) • MichiganCorpus of Academic Spoken English (MICASE) • British National Corpus • corpus de Hyland (2004) • Conhecer como os alunos brasileiros utilizam pacotes lexicais na escrita de redações • Quais tipos de pacotes são utilizados? • Função pragmática e funcional • Estrutural • Como o uso dos pacotes lexicais se aproxima ou se distancia do pacotes mais utilizados em textos produzidos por falantes nativos ou por outros aprendizes • Adequar o ensino às necessidades dos alunos
Corpora • Louvain Corpus of Native English Essays (LOCNESS) • 324.006 palavras • corpus de aprendizes ou de referência? • International Corpus of Learner English (ICLE) • 3,7 milhões de palavras (Granger et al. 2009) • Br-ICLE, subcorpus, em formação, do ICLE com textos de alunos brasileiros • até 2009-> 159,000 palavras • Juntos somam 4.251.714 palavras
Metodologia • Passos • Extraímos pacotes de 3 e 4 palavras com um scripts especialmente criados para esta investigação • Os pacotes foram categorizados manualmente nas categorias da AFL • Principais: expressão referencial, expressões de julgamento e organizadores discursivos • Secundárias (e.g. atributos de enquadramento tangíveis e não tangíveis, expressões de habilidade e possibilidade, metadiscurso e referência textual) • Verificamos quais categorias são as mais frequentes em cada corpora • Analisamos subcategorias especificas e geramos linhas de concordância (com scripts específicos e com o WordSmith Tools) para verificar • seu uso em contexto • padrões léxico-gramaticais nos quais os pacotes tendem a ocorrer
Resultados • Baseados nos pacotes lexicais mais frequentes (10 por milhão) • a categoria mais frequente • expressões referenciais
Diferenças quantitativas – expressões referenciais(frequência bruta / frequência normalizada)
Resultados: expressões de julgamento • Baixa frequência de expressões no BR-ICLE • Atenuadores e marcadores epistêmicos • Maior frequência de expressões • De obrigação e diretivas • De habilidadade e possibilidade • Avaliação • Há diferenças quanto à frequência
Diferenças quantitativas – expressões de julgamento (frequência bruta / frequência normalizada)
Resultados sobre os pacotes de organização discursiva • Mais marcados pragmaticamente • Enfatizados em sala de aula
Diferenças quantitativas – expressões de julgamento (frequência bruta / frequência normalizada)
Conclusões • Similaridades entre os corpora • Alta frequência de expressões referênciais • Gênero • Diferenças • Frequência das expressões de julgamento e de organizadores discursivos • Próximos passos • Ajustes Metodológicos • Sobreposição de pacotes • Necessidade de considerar pacotes maiores (?) • Recontagem • Corte de 10 por milhão • Br-ICLE (pacotes que ocorrem em somente 2 redações)
Próximos passos • Ajustes Metodológicos • Sobreposição de pacotes • Necessidade de considerar pacotes maiores (?) • Classificação • Manual de todos os pacotes de 3 e 4 palavras • Distribuição e padrões de uso de cada categoria • Bundle analyzer • Estudo da composição dos pacotes • Porque há dificuldades para classificá-los todos de acordo com a taxonomia pragmática/funcional • Estrutura dos pacotes – itens fixos e variáveis • Produtividade dos pacotes apropriados e não apropriados