1 / 61

Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011

f. ũ. Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011. ſ. a. õ. ſ. e. b. ӕ.

elia
Download Presentation

Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. f ũ Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 ſ a õ ſ e b ӕ

  2. A Anotação semi-automática de divergências de grafia como fundamento para o processamento automático de textos antigos: Uma experiência na Brasiliana Digital • Maria Clara Paixão de Sousa • Universidade de São Paulo • Faculdade de Filosofia, Letras e Ciências Humanas • Brasiliana Digital • NUMEC - Núcleo de Matemática, Estatísica e Complexidade

  3. ӕ Nesta comunicação apresentarei uma experiência de aplicação de técnicas da linguística de corpus ao processo de formação de uma biblioteca digital. Utilizando a ferramenta E-Dictor, concebida como auxiliar da anotação de grafias divergentes para fins de etiquetagem morfossintática automática num corpus histórico, procuramos transformar um conjunto de seis textos portugueses escritos entre 1600-1700 em material processável por outras ferramentas de busca e anotação automática. Para isso, adotamos a técnica originalmente utilizada na anotação de divergência de grafias como um tratamento para o problema dos resultados sofríveis do reconhecimento automático de caracteres naqueles textos. Na comunicação, mostrarei os desafios enfrentados ao longo dessa experiência, seus resultados iniciais, e os caminhos que se abrem a partir disso no sentido do aperfeiçoamento de processos de tratamento automático de textos mais antigos, tanto no que remete ao reconhecimento de caracteres quanto no que tange a indexação para buscas. d S ❡

  4. Um Desafio

  5. Construir uma biblioteca digital com textos acessíveis a programas de buscas www.brasiliana.usp.br Um Desafio

  6. Condição material dos nossos textos mais antigos Um Desafio

  7. Condição material dos nossos textos mais antigos Um Desafio

  8. Condição material dos nossos textos mais antigos Um Desafio

  9. Condição material dos nossos textos mais antigos Um Desafio

  10. Um Desafio

  11. Resultado da aplicação de programa de OCR Ofirm aexperknctt tptedom Phdippe I U Rey de Caííella por força epodeir de armas- àc-cupou antigamente a Coroa de Portugal3 e polo covftgmte prittou ao. Serenifjma ep^étQ po~ dercfo-Rey Dotn loao* (4ntesl)iiqú^de l$aroanç4)do indubitauel dereito desfiafie-ceffào ejuííiça para aditpa Coroa de "Portugal com) legitimo e pro-ximo berdeko da Serenifsima Senhora,, dona Catharina: fmuitos annos continuas per/èuerarap os fifeefmes.de ditto Rey^Ca$fL (a em auiolentà occupaçaó da ditta Coroade Portugal quebramando os concertos epafâos d'amiffade , de confiança edo Comercio que os Senhora Reysda Coroa de Portugglcomos outros P/mcepes Ena-çots d'Europaftntamente fempre refpeitaraó prmando.aosbopsfub-ditos euaffkllos da, mefma coroa defeu dereito de fias leys ecoftumes: talem dijjò carngandoos injufíamete de intoleraueis mokjlias eoutras diuerfis efpecias de tirannia3juntas aexcefstuos tr'èutos3os quaes os Reys de Caííella juntamente como patrimônio da Coroa Real de poKtugalconfomiraôedeftmiraó comguerras efcufadas-.coni as quaes coufasfendo os dittos boòs Subditos euaffkllos daquella Coroa eííi-mulados epromcados dejuíío furor ^vencido o fofrimento 3 com grande animo3 oufaâa eadvertenàa facodiraò aquelle intolerauel e injuflo lugo d El Rey de Caííella reftituindofe afsimefmos a fia liberdade} efinalmente por applaufo comun eUegraô eacclamaraó * deraòomenagem, ejuramentode fidelidade ao ãtto Rey Dom Io-ao* IV , Ofmmtopoderofos Senhores Qrdeés Geraes fenúndo juxtamente por fua parte 3 etendo be' conhecido aintolerauel tiranya edurifsimos encargos do ditto Rey de Caííella efia deteflauel determinação para alcançar a Monanhia detanto tempo emtoda Europa Um Desafio

  12. MOſtrou aexperiencia quedom Phelippe I I, Rey de Castella por força epoder de armas oc-cupou antigamente a Coroa de Portugal, e polo conſeguinte priuou ao Sereniſsimo emuito po-deroſo Rey Dom Ioaõ (antes Duque de Bargança)doindubitaueldereito de ſua fuc-aſſaó ejustiça para aditta Coroa de Portugal como legitimo e proximo herdeiro da Sereniſsima Senhora dona Catharina: emuitos annos continuos perſeueraraó os fucceſsoresde ditto Rey de Castel- la em auiolenta occupaçaõ da ditta Coroade Portugal quebrantando os concertos epactos d’amiſſade, de confiança edo Comercio que os Senhores Reys da Coroa de Portugal com os outros Princepes Ena-çoés d’Europa ſantamenteſempre reſpeitaraó priuando aos boósſub- ditos euaſſallos da meſma coroa deſeu dereito de ſuas leys ecoftumes: ealem diſſo carregandoos injuſtamete de intoleraueis moleſtias eoutras diuerſas eſpecias de tirannia,juntas aexceſsiuos tributos, os quaes os Reys de Castella juntamente como patrimonio da Coroa Real de Portugal conſomiraó edeftruiraó comguerras eſcuſadas:com as quaes couſas ſendo os dittos boós Subditos euaſſallos daquella Coroa esti--mulados eprouocados dejusto furor vencido o ſofrimento , com grande animo, ouſadia eadvertencia ſacodiraó aquelle intolerauel e injuſto Iugo d’ El Rey de Castella reftituindoſe afsimeſmos a fua liberdade, efinalmente por applauſo comun ellegeraó eacclamaraó , deraó omenagem, ejuramentó defidelidade ao ditto Rey Dom Ioaó IV , Oſmnitopoderoſos Senhores Ordeés Geraes ſentindo juxtamente por ſua parte, etendo be' conhecido aintolerauel tiranya eduriſsimos encargos do ditto Rey de Castella efua deteſlauel determinaçaó para alcançar a Monarchia detanto tempo emtoda Europa Resultado da correção do output de OCR Um Desafio

  13. Mostrou a experiência que dom Felipe II, Rei de Castela por força e poder de armas, ocupou antigamente a Coroa de Portugal, e pelo conseguinte privou ao Sereníssimo e muito poderoso Rei Dom João (antes Duque de Bragança) do indubitável direito de sua sucessão e justiça para a dita Coroa de Portugal como legiíimo e próximo herdeiro da Sereníssima Senhora dona Cataarina: e muitos anos contínuos perseveraram os succesores de dito Rei de Castela em a violenta ocupação da dita Coroa de Portugal quebrantando os concertos e pactos de amizade, de confiança e do Comércio que os Senhores Reis da Coroa de Portugal com os outros Príncipes e Nações da Europa santamente sempre respeitaram privando aos bons súditos e vassalos da mesma coroa de seu direito de suas leis e costumes: e além disso carregando-os injustamente de intoleráveis moléstias e outras diversas espécies de tirania,juntas a excessivos tributos, os quais os Reis de Castela juntamente com o patrimônio da Coroa Real de Portugal consumiram e destruíram com guerras escusadas: com as quais coisas sendo os ditos bons Súditos e vassalos daquela Coroa estimulados e provocados de justo furor vencido o sofrimento, com grande ânimo, ousadia e advertência sacodiram aquele intolerável e injusto Jugo d’ El Rei de Castela restituindo-se a si mesmos a sua liberdade, e finalmente por aplauso comum elegeram e aclamaram, deram homenagem, e juramento de fidelidade ao dito Rei Dom JoãoIV , os muito poderosos senhores Ordens Gerais sentindo justamente por sua parte, e tendo bem conhecido a intolerável tirania e duríssimos encargos do dito Rei de Castela e sua detestável determinação para alcançar a Monarquia de tanto tempo em toda Europa Texto efetivamente legível Um Desafio

  14. Mostrou a experiência que dom Felipe II, Rei de Castela por força e poder de armas, ocupou antigamente a Coroa de Portugal, e pelo conseguinte privou ao Sereníssimo e muito poderoso Rei Dom João (antes Duque de Bragança) do indubitável direito de sua sucessão e justiça para a dita Coroa de Portugal como legiíimo e próximo herdeiro da Sereníssima Senhora dona Cataarina: e muitos anos contínuos perseveraram os succesores de dito Rei de Castela em a violenta ocupação da dita Coroa de Portugal quebrantando os concertos e pactos de amizade, de confiança e do Comércio que os Senhores Reis da Coroa de Portugal com os outros Príncipes e Nações da Europa santamente sempre respeitaram privando aos bons súditos e vassalos da mesma coroa de seu direito de suas leis e costumes: e além disso carregando-os injustamente de intoleráveis moléstias e outras diversas espécies de tirania,juntas a excessivos tributos, os quais os Reis de Castela juntamente com o patrimônio da Coroa Real de Portugal consumiram e destruíram com guerras escusadas: com as quais coisas sendo os ditos bons Súditos e vassalos daquela Coroa estimulados e provocados de justo furor vencido o sofrimento, com grande ânimo, ousadia e advertência sacodiram aquele intolerável e injusto Jugo d’ El Rei de Castela restituindo-se a si mesmos a sua liberdade, e finalmente por aplauso comum elegeram e aclamaram, deram homenagem, e juramento de fidelidade ao dito Rei Dom JoãoIV , os muito poderosos senhores Ordens Gerais sentindo justamente por sua parte, e tendo bem conhecido a intolerável tirania e duríssimos encargos do dito Rei de Castela e sua detestável determinação para alcançar a Monarquia de tanto tempo em toda Europa Um Desafio Condição material dos nossos textos mais antigos

  15. Estratégias

  16. 1. Correção de OCR Abbyy 10.0 Estratégias

  17. Estratégias 1. Correção de OCR Vantagens previstas: Abbyy 10.0 - Ferramenta “treinável”: - Resultados transferíveis para o total do acervo - Resultados transferíveis para outros projetos e acervos Estratégias

  18. Estratégias 1. Correção de OCR Vantagens previstas: Abbyy 10.0 1. Correção de OCR - Ferramenta “treinável”: - Resultados transferíveis para o total do acervo - Resultados transferíveis para outros projetos e acervos Abbyy 10.0 Desvantagens previstas: - Software proprietário: - Impossibilidade de trabalho no código-fonte - Imprevisibilidade de continuidade do programa - Transferibilidade comprometida pelo alto preço - Resultado só pode ser parcial: - Necessidade de novo tratamento para variação de grafia Estratégias

  19. 1. Correção de OCR Abbyy 10.0 2. Correção de OCR e Edição filológica (Edictor*) * Paixão de Sousa, Kepler e Faria (2010) Estratégias

  20. 1. Correção de OCR Vantagens previstas: Abbyy 10.0 - Software livre: - Possibilidade de trabalho no código-fonte - Previsão de continuidade do programa - Transferibilidade garantida 2. Correção de OCR e Edição filológica (EDictor) - Ferramenta completa: - O resultado combina correção do reconhecimento e edição de variação de grafia Estratégias

  21. 1. Correção de OCR Vantagens previstas: Abbyy 10.0 - Software livre: - Possibilidade de trabalho no código-fonte - Previsão de continuidade do programa - Transferibilidade garantida 2. Correção de OCR e Edição filológica (EDictor) - Ferramenta completa: - O resultado combina correção do reconhecimento e edição de variação de grafia Desvantagens previstas: - Ferramenta não-“treinável”: - Resultados não transferíveis para o total do acervo - Resultados não transferíveis para outros projetos e acervos Estratégias

  22. Resultados

  23. Financiamento: Pró-reitoria De Graduação - USP • Programa Ensinar com Pesquisa • Tempo de pesquisa: 12 meses • Pesquisadores envolvidos: 7( • Bruna Baldini de Miranda • Fabiana Ferraz • Fabio Kepler • Jáderson Porto • Márcia Ap. Santos Mendes • Maria Clara Paixão de Sousa (coord.) • Mariane Cristine de Almeida Resultados: Números

  24. Financiamento: Pró-reitoria De Graduação - USP • Programa Ensinar com Pesquisa • Tempo de pesquisa: 12 meses • Pesquisadores envolvidos: 7 • Textos corrigidos: 6 • Total de palavras processadas: 39.000 • - Total de tokens de variação: 11.500 Resultados: Números

  25. Cf. relatório de pesquisa: http://lampiao.brasiliana.usp.br/lingua/node/92 Resultados: Números

  26. Versões Disponíveis Para Cada Texto: - Texto com OCR corrigido (equivalente a uma edição paleográfica) - Edição Semi-diplomática - Edição Modernizada - Glossário de correções de OCR - Glossário de edições - Versão com Etiquetação Morfossintática Resultados: Esquema Geral

  27. Versões Disponíveis Para Cada Texto - Texto com OCR corrigido (equivalente a uma edição paleográfica)XML, Html, TXT - Edição Semi-diplomáticaXML, Html, TXT - Edição Modernizada XML, Html, TXT - Glossário de correções de OCRXML, Html, TXT, CSV - Glossário de edições XML, Html, TXT, CSV - Versão com Etiquetação Morfossintática XML, TXT Resultados: Esquema Geral

  28. - Documentosubmetidoao OCR Resultados: Exemplos

  29. Resultado do OCR (treinado para o • Português Clássico) Treſlado do Latin na lin- goa Portugeza . Trattado das " Tregoas efuspenſaó de todo o acto de hoſti / idadoebemaſſi de navegação , Comércio ejuntamente Soccorro , ſei- io , comefado eaccabado emHayadeHollandeaxìj . de Junho 164 ĩ . por tempo de des annos entre o Senhor Triſtaõ de Mcndoça Furtado , do Confelho e Embaixador do Serenijfimo epoderqfijſtmo Dom Ioao' I V deſte nome Rey do Portugal e dosAlgarvos , Eos Senhores Depu- tados dos Muito poderoſos Senhores EJtados Geraés das Provincias Vnìdas dos Pai % es Baìxos . Em a HAYA , Em caza da Viuva e Erdeiros de Ilebrandt Iacobſon van Wbuw , Impri- midor Ordinario dos Muy altos e poderoſos Snnores EJlados Ge- nerais , Anno 1 642 . Curn Privilegio . Resultados: Exemplos

  30. Treſlado do Latin na lin- goa Portugeza . Trattado das " Tregoas efuspenſaó de todo o acto de hoſti / idadoebemaſſi de navegação , Comércio ejuntamente Soccorro , ſei- io , comefado eaccabado emHayadeHollandeaxìj . de Junho 164 ĩ . por tempo de des annos entre o Senhor Triſtaõ de Mcndoça Furtado , do Confelho e Embaixador do Serenijfimo epoderqfijſtmo Dom Ioao' I V deſte nome Rey do Portugal e dosAlgarvos , Eos Senhores Depu- tados dos Muito poderoſos Senhores EJtados Geraés das Provincias Vnìdas dos Pai % es Baìxos . Em a HAYA , Em caza da Viuva e Erdeiros de Ilebrandt Iacobſon van Wbuw , Impri- midor Ordinario dos Muy altos e poderoſos Snnores EJlados Ge- nerais , Anno 1 642 . Curn Privilegio . Taxa média de acerto inicial: 59% Taxa média de acerto após treinamento: 86% Resultados: Exemplos

  31. Texto com OCR corrigido • no E-Dictor Treſlado do Latin na lin- goa Portugeza . Trattado das Tregoas e ſuspenſaó de todo o acto de hoſtilidade e bem aſſi de navegaçaó , Comercio ejuntamente Soccorro , fei-to ,começado eaccabado em Haya de Hollande a xÿ . de Iunho 1641 . por tempo de des annos entre o Senhor Triſtaõ de Mendoça Furtado , do Conſelho e Embaixador do Sereniſſimo e poderoſiſſimo Dom Ioao' I V deſte nome Rey de Portugal e dosAlgarvos , Eos Senhores Depu- tados dos Muito poderoſos Senhores Eſtados Geraés das Provincias Vnidas dos Paizes Baixos . Em a HAYA . Em caza da Viuva e Erdeiros de Ilebrandt Iacobſon van Wouw , Impri- midor Ordinario dos Muy altos e poderoſos Snnores Eſtados Ge- nerais , Anno 1 642 . Cum Privilegio . Resultados: Exemplos

  32. - Edição Modernizada Treslado do latim na língua portuguesa . Tratado das tréguas e suspensão de todo o ato de hostilidade e bem assim de navegação , comércio e juntamente socorro , feito, começado e acabado em Haya de Hollande a XII . de Junho 1641 . por tempo de dez anos entre o senhor Tristão de Mendoça Furtado , do conselho e embaixador do sereníssimo e poderosíssimo Dom João IV deste nome rei de Portugal e dos Algarvos , e os senhores deputados dos muito poderosos senhores estados gerais das províncias vindas dos países baixos . . Em a HAYA . Em casa da viúva e herdeiros de Ilebrandt Iacobſon van Wouw , imprimidor ordinário dos mui altos e poderosos senhores estados generais, Ano 1642 . Com privilégio Resultados: Exemplos

  33. - Glossário de edições XML, Html, TXT, CSV Resultados: Exemplos

  34. - Glossário de edições XML, Html, TXT, CSV fubditos,,, ſubditos,,,subditos,,súditos fubditos,,, ſubditos,,,subditos,,súditos fubditos,,, ſubditos,,,subditos,,súditos fubditos,,, ſubditos,,,subditos,,súditos fubditos,,, ſubditos,,,subditos,,súditos fubditos,,, ſubditos,,,subditos,,súditos fubditos,,, ſubditos,,,subditos,,súditos fubditos,,, ſubditos,,,subditos,,súditos fubditos,,, ſubditos,,,subditos,,súditos ſ Resultados: Exemplos

  35. - Anotação XML <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> Resultados: Exemplos

  36. 1 Banco de erros de reconhecimento Resultados: Produtos <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> Estes dados poderiam ser utilizados como base para o desenvolvimento de programas de reconhecimento capazes de tratar textos escritos em português clássico. Resultados: Produtos

  37. 2 Banco de grafias em variação <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> Estes dados poderiam ser utilizados como base para um programa de buscas no acervo de textos antigos. Resultados: Produtos

  38. 3 Banco de entidades nomeadas • <w id="s_3#1" t="honor"> • <o>MARQVEZ</o> • <e t="mod">MARQUÊS</e> • <m v="NPR"/> • </w> • <w id="s_3#2" t="dep"> • <o>DE</o> • <m v="P"/> • </w> • <w id="s_3#3" t="antropo" name="Montalvão (Marquês de)"> • <o>MONTALVAM</o> • <e t="mod">MONTALVÃO</e> • <m v="NPR"/> • <comment> • Jorge de Mascarenhas, Marquês de Montalvão. Fidalgo e administrador colonial português. Foi governador de Mazagão (1615-1619), de Tânger (1622-1624) e do Algarve. No contexto da Dinastia Filipina, tendo caído em desgraça o conde da Torre (sucedido por uma Junta Governativa tríplice), Mascarenhas foi nomeado por Filipe IV de Espanha como 1º vice-rei do Brasil (1640). • </comment> • </w> Resultados: Produtos

  39. 3 Banco de entidades nomeadas Resultados: Produtos

  40. 3 Banco de entidades nomeadas Resultados: Produtos

  41. 1 Resultados: Aplicações Possíveis Aplicações no acervo Resultados: Aplicações Possíveis

  42. 1 Aplicações no acervo Resultados: Aplicações Possíveis

  43. 2 Aplicações no estudo linguístico Resultados: Aplicações Possíveis

  44. Novos Desafios

  45. O banco de palavras formado pela nossa anotação XML combina correção de reconhecimento automático, variação de grafia e classe de palavras. Estes dados poderiam ser utilizados como base para o desenvolvimento de programas de reconhecimento automático capazes de tratar textos escritos em português clássico. Novos Desafios

  46. O banco de palavras formado pela nossa anotação XML combina correção de reconhecimento automático, variação de grafia e classe de palavras. Estes dados poderiam ser utilizados como base para o desenvolvimento de programas de reconhecimento automático capazes de tratar textos escritos em português clássico. Quem precisa de programas de reconhecimento automático capazes de tratar textos escritos em português clássico? Novos Desafios

  47. Quem precisa de programas de reconhecimento automático capazes de tratar textos escritos em português com ampla variação de grafias? Novos Desafios

  48. As pesquisas em linguística de corpus dedicadas às fases antigas da língua portuguesa precisam unir-se às pesquisas em linguística de corpus dedicadas a língua atual - em especial, à língua escrita sujeita à ampla variação de grafia (a língua não-padrão). Novos Desafios

  49. mas... e os Encontros e Desencontros ?

  50. Itens gerados automaticamente pelas ferramentas (OCR, EDictor) <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> Novos Desafios

More Related