220 likes | 307 Views
O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa. Bruno Martins, Marcirio Chaves e Mário J. Silva, Universidade de Lisboa. Motivação. Documentos ricos em informação geográfica
E N D
O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa Bruno Martins, Marcirio Chaves e Mário J. Silva, Universidade de Lisboa Bruno Martins – xldb.fc.ul.pt/~bmartins/
Motivação • Documentos ricos em informação geográfica • Recente interesse em ferramentas de recuperação de informação “geográficas” • Reconhecer e desambiguar referências a nomes de locais é um requisito fundamental • Sistema CaGE no contexto do GeoTumba! Bruno Martins – xldb.fc.ul.pt/~bmartins/
Tratamento de Referências Geográficas e o HAREM • Alguns estudos iniciais sobre o problema • Workshop on the analysis of geographic references • Workshop on geographical information retrieval • Não existe corpus de referência para avaliação • Classificação semântica dos locais em tipos geográficos • Anotações com coordenadas ou conceitos numa ontologia • Textos na língua Portuguesa • HAREM permite avaliar reconhecimento simples Bruno Martins – xldb.fc.ul.pt/~bmartins/
Sumário da apresentação • Motivação • Recursos usados pelo sistema CaGE • Arquitectura do sistema CaGE • Adaptações feitas para o HAREM • Experiências e Resultados no (Mini)HAREM • Conclusões Bruno Martins – xldb.fc.ul.pt/~bmartins/
Recursos usados pelo CaGE • Ontologia geográfica • GeoNetPT + uma ontologia “global” • Codificam nomes geográficos e relações entre eles • Lista de excepções • Palavras muito frequentes, nomes de pessoas • Tentativa de eliminar falsos positivos • Lista de padrões de reconhecimento • Obtida a partir de “expressões geográficas” Bruno Martins – xldb.fc.ul.pt/~bmartins/
As ontologias geográficas • GKB/GEO-NET-PT • Info. pública • Codificada em OWL • Disponível online Bruno Martins – xldb.fc.ul.pt/~bmartins/
Ambiguidade nas ontologias Ambiguiade nos nomes geográficos! Bruno Martins – xldb.fc.ul.pt/~bmartins/
Nomes Geográficos nas ontologias Bruno Martins – xldb.fc.ul.pt/~bmartins/
As expressões geográficase a lista de excepções • Tipos identificadores geográficos na ontologia • Relações espaciais de vários tipos • localizado em, perto de, a sul de, … • Baseada em trabalhos anteriores • e.g. Tiago Delboni ou Janet Kohler • Lista de nomes comuns e palavras frequentes • Frequência num corpus Web (usando capitalização) e experimentação Bruno Martins – xldb.fc.ul.pt/~bmartins/
Sumário da apresentação • Motivação • Recursos usados pelo sistema CaGE • Arquitectura do sistema CaGE • Adaptações feitas para o HAREM • Experiências e Resultados no (Mini)HAREM • Conclusões Bruno Martins – xldb.fc.ul.pt/~bmartins/
Arquitectura do CaGE Pipeline de operações para o reconhecimento e desambiguação de referências geográficas Resultados Desambiguação Identificação Atomização Bruno Martins – xldb.fc.ul.pt/~bmartins/
Sumário da apresentação • Motivação • Recursos usados pelo sistema CaGE • Arquitectura do sistema CaGE • Adaptações feitas para o HAREM • Experiências e Resultados no (Mini)HAREM • Conclusões Bruno Martins – xldb.fc.ul.pt/~bmartins/
Adaptações para o HAREM • Marcação SGML do sistema CaGE substituída por marcação mais simples do HAREM • Usar tags <LOCAL> em vez de <PLACE type=“administrative” subtype=“city” id=“geoID-323> • Padrões de reconhecimento diferentes • Apenas locais capitalizados • Locais que não se encontrem na ontologia • Não incluir os prefixos em minúsculas • cidade de <LOCAL>Lisboa</LOCAL> Bruno Martins – xldb.fc.ul.pt/~bmartins/
Sumário da apresentação • Motivação • Recursos usados pelo sistema CaGE • Arquitectura do sistema CaGE • Adaptações feitas para o HAREM • Experiências e Resultados no (Mini)HAREM • Conclusões Bruno Martins – xldb.fc.ul.pt/~bmartins/
Experiências no (Mini)HAREM • Avaliação de apenas um cenário selectivo • Reconhecimento simples de entidades do tipo local • Duas submissões • Utilização da ontologia GeoNetPT • Utilização de GeoNetPT + Ontologia mundial No primeiro HAREM verificamos que muitas entidades do tipo local correspondem a países e cidades estrangeiras importantes Bruno Martins – xldb.fc.ul.pt/~bmartins/
Resultados no (Mini)HAREM Ontologia PT+mundial consistentemente melhor Bruno Martins – xldb.fc.ul.pt/~bmartins/
Resultados no (Mini)HAREM Ontologia PT+mundial consistentemente melhor Por variante de texto, melhor precisão BR e melhor abrangência PT Sistema comportou-se mal em textos técnicos Bruno Martins – xldb.fc.ul.pt/~bmartins/
Análise dos resultados • Ainda há muito a melhorar no CaGE • Mais regras, mais nomes na lista de excepções? • Ainda há muito a analisar nos resultados do HAREM • Especificidades da tarefa de avaliação • Locais do tipo correio não eram reconhecidos • Computacionalmente pesado, reconhecidos parcialmente. • Locais do tipo virtual não eram reconhecidos • Não correspondem a uma localização física. • Locais do tipo alargado não eram reconhecidos • Não correspondem a uma localização física. • Locais dentro de organizações reconhecidos • Câmara Municipal de Braga. Bruno Martins – xldb.fc.ul.pt/~bmartins/
Sumário da apresentação • Motivação • Recursos usados pelo sistema CaGE • Arquitectura do sistema CaGE • Adaptações feitas para o HAREM • Experiências e Resultados no (Mini)HAREM • Conclusões Bruno Martins – xldb.fc.ul.pt/~bmartins/
Conclusões • Sistema CaGE desenvolvido para um contexto específico que não o do HAREM • Experiência de participação no HAREM foi muito positiva, apesar das limitações • Melhorias significativas em relação ao primeira edição do HAREM Bruno Martins – xldb.fc.ul.pt/~bmartins/
Futuro do HAREM • Anotação “geográfica” da colecção dourada • Locais associadas a conceitos numa ontologia • Coordenadas geográficas? • Novos tipos para a classificação semântica • Continente, país, distrito, cidade, avenida, rua, … • HTML e maior volume de dados • Colecção dourada são apenas 893 locais • Performance computacional levada em conta Bruno Martins – xldb.fc.ul.pt/~bmartins/
Obrigado pela atenção http://xldb.fc.ul.pt (grupo de investigação) http://xldb.di.fc.ul.pt/geonetpt/ (ontologia) bmartins@xldb.di.fc.ul.pt Bruno Martins – xldb.fc.ul.pt/~bmartins/