340 likes | 481 Views
Visão geral da Lingüística de Corpus. Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho. Introdução. Primeiro corpus lingüístico eletrônico: Brown University Standard Corpus of Present-day American English 1964 1 milhão de palavras
E N D
Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho
Introdução Primeiro corpus lingüístico eletrônico: • Brown University Standard Corpus of Present-day American English • 1964 • 1 milhão de palavras • Primeiro corpus eletrônico de linguagem falada: • 220 mil palavras – atribuído a Sinclair
Objetivos do texto • Apresentar uma retrospectiva da Lingüística de Corpus • Apresentar os principais marcos de sua história • Discutir algumas questões teóricas e práticas subjacentes à área
1.1. A Lingüística de Corpus e seu histórico • Ocupação: coleta e exploração de corpora com o propósito de servirem para a pesquisa de uma língua ou variedade lingüística. • Exploração da linguagem por meio de evidências empíricas, extraídas por computador.
Sentido original de “corpus”: CORPO • Grécia antiga: definição do Corpus Helenístico por Alexandre, o Grande • Antigüidade e Idade Média: produção de corpora de citações bíblicas • Século XX: corpus coletados, mantidos e analisados manualmente, com ênfase no ensino de línguas
Corpus não-computadorizado que deu feição aos atuais: • SEU (Survey of English Usage) • Londres, a partir de 1959 • 1 milhão de palavras • Organizado em fichas de papel • Base para o desenvolvimento dos etiquetadores computadorizados contemporâneos • 1989: London-Lund Corpus – parte falada computadorizada
Anos 50: teorias racionalistas da linguagem • Críticas à LC: corpora “gigantescos” não eram confiáveis • Invenção do computador tornou possível a compilação de maior quantidade de dados • 1960: mainframe • 1980: fitas magnéticas e microcomputadores pessoais
Atualidade: • Grã-Bretanha – um dos centros de pesquisa mais desenvolvidos (Birminghan, Brighton, Lancaster, Liverpool, Londres) • Países escandinavos • Fora da Europa a LC não está tão desenvolvida • EUA: força da lingüística gerativa-transformacional
EUA: desenvolvimento avançado na pesquisa em Processamento de Linguagem Natural (PLN) • Brasil: estágios iniciais voltados à PLN e à Lingüística Compuatacional • Parcerias entre empresas (finalidades comerciais) e universidades: pesquisas em LC ligadas à editoras • Pioneiro: Cobuild – Universidade de Birmingham com a editora Collins
1.5. Marcos da Lingüística de Corpus • “A história da Lingüística de Corpus está condicionada à tecnologia, que permite não somente o armazenamento de corpora, mas também a sua exploração e, por isso, está relacionada à disponibilidade de ferramentas computacionais para análise de corpus, dentre as quais se destacam as seguintes.” (p. 15)
1.6. Definição de corpus • Nem todo conjunto de dados é considerado corpus • Arquivo • Biblioteca eletrônica • Corpus: uma parte da biblioteca eletrônica, construído a partir de um desenho explícito, com objetivos específicos • Subcorpus: uma parte do corpus
“Um conjunto de dados lingüísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise” (p. 18)
Origem • Propósito • Composição • Formatação • Representatividade • Extensão
Quatro pré-requisitos para a formação de um corpus computadorizado: • 1) O corpus deve ser composto de textos autênticos, em linguagem natural. • 2) Autenticidade dos textos subentende textos escritos por falantes nativos. • 3) O conteúdo do corpus deve ser escolhido criteriosamente. • 4) Representatividade.
1.7. Tipologia de Corpus • MODO: falado; escrito • TEMPO: sincrônico; diacrônico; contemporâneo; histórico • SELEÇÃO: de amostragem; monitor; dinâmico ou orgânico; estático; equilibrado • CONTEÚDO: especializado; regional ou dialetal; multilíngüe • AUTORIA: de aprendiz; de língua nativa • DISPOSIÇÃO INTERNA: paralelo; alinhado • FINALIDADE: de estudo; de referência; de treinamento ou teste
Pluralidade de autoria • Origem da autoria • Meio • Integralidade • Especificidade • Dialeto • Equilíbrio • Fechamento • Renovação • Temporalidade • Tradução • Intercalação
1.8. Representatividade de corpus • “Não há critérios para a determinação da representatividade.” (p. 23) • “A representatividade está ligada à questão da probabilidade.” (p. 23) • Número de palavras • Número de textos • Número de gêneros
1.9. Extensão do corpus • Abordagens: • 1) Impressionística • 2) Histórica • 3) Estatística
1.10. Especificidade do corpus • “Um modo de atingir a representatividade total de um corpus é incluir nele toda a linguagem.” (p. 27) • “Os corpora gerais podem ser usados como fonte para criação de corpora especializados.” (p. 28) • “(...) normalmente, corpora compilados em pequena escala por pesquisadores individuais acabam sendo mais representativos do que os respectivos subcorpora dos corpora gerais.” (p. 28)
1.11. Adequação do corpus • “A adequação do corpus é tomada como dada. Assume-se que o corpus com o qual se esteja lidando e as perguntas feitas sejam adequados aos propósitos da investigação. Sem isso, a pesquisa não tem sentido.” (p. 29) • Questionamento da validade de corpora gerais.
1.12. Teorias de linguagem e Lingüística de Corpus • Lingüística Empírica = Abordagem empirista + linguagem como sistema probabilístico • Oposição entre Halliday (probabilidade) e Chomsky (possibilidade) • “A visão da linguagem como sistema probabilístico pressupõe que, embora muitos traços lingüísticos sejam possíveis teoricamente, ocorrem com a mesma freqüência.” (p. 31) • Padronização
1.12. Teorias de linguagem e Lingüística de Corpus • Lingüística de Corpus x lingüística chomskyana: • Foco no desempenho lingüístico, em vez de competência • Foco na descrição lingüística, em vez de universais lingüísticos • Foco numa visão mais empirista do que racionalista da pesquisa científica
1.13. Estatuto da Lingüística de Corpus • A LC é uma disciplina ou uma metodologia? • Não se dedica a um assunto definido e não se resume a um conjunto de ferramentas: assim poderíamos classificá-la como PERSPECTIVA: • “(...) é uma maneira de se checar a linguagem, e faz alusão ao conceito de teoria lingüística como janela que molda como enxergamos a linguagem.” (p. 37)
1.14. Tipos de pesquisa privilegiados • São empíricos e analisam os padrões reais de uso em textos naturais. • Utilizam coletâneas grandes e criteriosas de textos naturais, conhecidas por corpus, como a base da análise. • Fazem uso extensivo de computadores na análise, empregando técnicas automáticas e interativas. • Dependem de técnicas quantitativas e qualitativas.
1.14. Tipos de pesquisa privilegiados • 1) Compilação de corpus • 2) Desenvolvimento de ferramentas • 3) Descrição da linguagem • 4) Aplicação de corpora
1.15. Padrões de linguagem • Quais os padrões lexicais dos quais a palavra faz parte? • Em que estruturas ela aparece? • Padronização como regularidade expressa na recorrência sistemática de unidades coocorrentes de várias ordens (lexical, gramatical, sintática, etc). Podem ser formalizados em colocação, coligação, prosódia semântica.
1.16. Comentários finais • Painel geral do campo de investigação da Lingüística de Corpus • Dificuldades: quantidades de trabalhos novos e debate de cunho teórico • Proposta da Psicologia Cognitiva de Langacker – alternativa para explicação da padronização • “todo corpus me ensinou coisas sobre a linguagem que eu não teria descoberto de nenhum outro modo” (FILLMORE, p. 35)