1 / 22

O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa. Bruno Martins, Marcirio Chaves e Mário J. Silva, Universidade de Lisboa. Motivação. Documentos ricos em informação geográfica

Download Presentation

O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa Bruno Martins, Marcirio Chaves e Mário J. Silva, Universidade de Lisboa Bruno Martins – xldb.fc.ul.pt/~bmartins/

  2. Motivação • Documentos ricos em informação geográfica • Recente interesse em ferramentas de recuperação de informação “geográficas” • Reconhecer e desambiguar referências a nomes de locais é um requisito fundamental • Sistema CaGE no contexto do GeoTumba! Bruno Martins – xldb.fc.ul.pt/~bmartins/

  3. Tratamento de Referências Geográficas e o HAREM • Alguns estudos iniciais sobre o problema • Workshop on the analysis of geographic references • Workshop on geographical information retrieval • Não existe corpus de referência para avaliação • Classificação semântica dos locais em tipos geográficos • Anotações com coordenadas ou conceitos numa ontologia • Textos na língua Portuguesa • HAREM permite avaliar reconhecimento simples Bruno Martins – xldb.fc.ul.pt/~bmartins/

  4. Sumário da apresentação • Motivação • Recursos usados pelo sistema CaGE • Arquitectura do sistema CaGE • Adaptações feitas para o HAREM • Experiências e Resultados no (Mini)HAREM • Conclusões Bruno Martins – xldb.fc.ul.pt/~bmartins/

  5. Recursos usados pelo CaGE • Ontologia geográfica • GeoNetPT + uma ontologia “global” • Codificam nomes geográficos e relações entre eles • Lista de excepções • Palavras muito frequentes, nomes de pessoas • Tentativa de eliminar falsos positivos • Lista de padrões de reconhecimento • Obtida a partir de “expressões geográficas” Bruno Martins – xldb.fc.ul.pt/~bmartins/

  6. As ontologias geográficas • GKB/GEO-NET-PT • Info. pública • Codificada em OWL • Disponível online Bruno Martins – xldb.fc.ul.pt/~bmartins/

  7. Ambiguidade nas ontologias Ambiguiade nos nomes geográficos! Bruno Martins – xldb.fc.ul.pt/~bmartins/

  8. Nomes Geográficos nas ontologias Bruno Martins – xldb.fc.ul.pt/~bmartins/

  9. As expressões geográficase a lista de excepções • Tipos identificadores geográficos na ontologia • Relações espaciais de vários tipos • localizado em, perto de, a sul de, … • Baseada em trabalhos anteriores • e.g. Tiago Delboni ou Janet Kohler • Lista de nomes comuns e palavras frequentes • Frequência num corpus Web (usando capitalização) e experimentação Bruno Martins – xldb.fc.ul.pt/~bmartins/

  10. Sumário da apresentação • Motivação • Recursos usados pelo sistema CaGE • Arquitectura do sistema CaGE • Adaptações feitas para o HAREM • Experiências e Resultados no (Mini)HAREM • Conclusões Bruno Martins – xldb.fc.ul.pt/~bmartins/

  11. Arquitectura do CaGE Pipeline de operações para o reconhecimento e desambiguação de referências geográficas Resultados Desambiguação Identificação Atomização Bruno Martins – xldb.fc.ul.pt/~bmartins/

  12. Sumário da apresentação • Motivação • Recursos usados pelo sistema CaGE • Arquitectura do sistema CaGE • Adaptações feitas para o HAREM • Experiências e Resultados no (Mini)HAREM • Conclusões Bruno Martins – xldb.fc.ul.pt/~bmartins/

  13. Adaptações para o HAREM • Marcação SGML do sistema CaGE substituída por marcação mais simples do HAREM • Usar tags <LOCAL> em vez de <PLACE type=“administrative” subtype=“city” id=“geoID-323> • Padrões de reconhecimento diferentes • Apenas locais capitalizados • Locais que não se encontrem na ontologia • Não incluir os prefixos em minúsculas • cidade de <LOCAL>Lisboa</LOCAL> Bruno Martins – xldb.fc.ul.pt/~bmartins/

  14. Sumário da apresentação • Motivação • Recursos usados pelo sistema CaGE • Arquitectura do sistema CaGE • Adaptações feitas para o HAREM • Experiências e Resultados no (Mini)HAREM • Conclusões Bruno Martins – xldb.fc.ul.pt/~bmartins/

  15. Experiências no (Mini)HAREM • Avaliação de apenas um cenário selectivo • Reconhecimento simples de entidades do tipo local • Duas submissões • Utilização da ontologia GeoNetPT • Utilização de GeoNetPT + Ontologia mundial No primeiro HAREM verificamos que muitas entidades do tipo local correspondem a países e cidades estrangeiras importantes Bruno Martins – xldb.fc.ul.pt/~bmartins/

  16. Resultados no (Mini)HAREM Ontologia PT+mundial consistentemente melhor Bruno Martins – xldb.fc.ul.pt/~bmartins/

  17. Resultados no (Mini)HAREM Ontologia PT+mundial consistentemente melhor Por variante de texto, melhor precisão BR e melhor abrangência PT Sistema comportou-se mal em textos técnicos Bruno Martins – xldb.fc.ul.pt/~bmartins/

  18. Análise dos resultados • Ainda há muito a melhorar no CaGE • Mais regras, mais nomes na lista de excepções? • Ainda há muito a analisar nos resultados do HAREM • Especificidades da tarefa de avaliação • Locais do tipo correio não eram reconhecidos • Computacionalmente pesado, reconhecidos parcialmente. • Locais do tipo virtual não eram reconhecidos • Não correspondem a uma localização física. • Locais do tipo alargado não eram reconhecidos • Não correspondem a uma localização física. • Locais dentro de organizações reconhecidos • Câmara Municipal de Braga. Bruno Martins – xldb.fc.ul.pt/~bmartins/

  19. Sumário da apresentação • Motivação • Recursos usados pelo sistema CaGE • Arquitectura do sistema CaGE • Adaptações feitas para o HAREM • Experiências e Resultados no (Mini)HAREM • Conclusões Bruno Martins – xldb.fc.ul.pt/~bmartins/

  20. Conclusões • Sistema CaGE desenvolvido para um contexto específico que não o do HAREM • Experiência de participação no HAREM foi muito positiva, apesar das limitações • Melhorias significativas em relação ao primeira edição do HAREM Bruno Martins – xldb.fc.ul.pt/~bmartins/

  21. Futuro do HAREM • Anotação “geográfica” da colecção dourada • Locais associadas a conceitos numa ontologia • Coordenadas geográficas? • Novos tipos para a classificação semântica • Continente, país, distrito, cidade, avenida, rua, … • HTML e maior volume de dados • Colecção dourada são apenas 893 locais • Performance computacional levada em conta Bruno Martins – xldb.fc.ul.pt/~bmartins/

  22. Obrigado pela atenção http://xldb.fc.ul.pt (grupo de investigação) http://xldb.di.fc.ul.pt/geonetpt/ (ontologia) bmartins@xldb.di.fc.ul.pt Bruno Martins – xldb.fc.ul.pt/~bmartins/

More Related