170 likes | 259 Views
O sistema CaGE e a participação no segundo HAREM. Bruno Martins Instituto Superior Técnico, Technical University of Lisbon. Motivação. As referências geográficas e temporais ocorrem com abundância sobre documentos textuais (e.g., páginas Web, RSS feeds, …)
E N D
O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon
Motivação • As referências geográficas e temporais ocorrem com abundância sobre documentos textuais (e.g., páginas Web, RSS feeds, …) • A extracção da informação geo-temporal (e.g., nomes de locais e nomes de períodos temporais) presente nos textos pode servir de suporte para serviços de indexação/pesquisa/navegação com base em critérios geo-temporais. • Ambiguidade é o maior problema: • Diferentes nomes para o mesmo local • Locais diferentes com o mesmo nome • Mesmo nome para locais e outras entidades • Variações ao longo do tempo e do espaço • O sistema CaGE aborda o problema do reconhecimento e desambiguação de referências geo-temporais • Associar as referências presentes nos textos a entradas num almanaque
Resumo da apresentação • Motivação • Apresentação do sistema CaGE • Especificidades das referências geo-temporais • Um serviço Web com base no sistema CaGE • Participação no HAREM 2 e resultados obtidos • Conclusões e trabalho futuro
Apresentação do sistema CaGE • Reconhecimento de entidades mencionadas com base em dicionários (i.e., almanaques) e regras • Extensão para desambiguação de nomes de locais e nomes de períodos temporais, com base em heurísticas e um almanaque específico desenvolvido no projecto DIGMAP • Extensão para atribuição de âmbitos geográficos a documentos, com base nos locais reconhecidos no texto Não necessita dados de treino (apenas dicionários específicos), fácil de adaptar a outras línguas e tarefas de reconhecimento.
Dicionários usados pelo sistema CaGE • Nomes de pessoas, organizações e periodos temporais • Base de dados REPENTINO (REPositório para reconhecimento de ENtidades NOmeadas) • Internet Movie DataBase • Wikipedia (e.g., listas de períodos temporais e de nomes comuns) • ECAI TimePeriod directory (traduções para Português) • Dicionários distribuídos com o sistema de IE/REM Balie • Nomes de locais • GeoNET (combinação do GeoNET-PT e ML) • Base de dados disponibilizada pelo www.geonames.org • Nomes no almanaque do projecto DIGMAP • Lista de excepções construída manualmente
Funcionamento do CaGE • Reconhecimento de entidades mencionadas • Atomização dos textos • Janela deslizante sobre os átomos identificados no texto (até 6 palavras) • EMs começam com maiúsculas enão ocorrem apenas no início de frases. • Mapeamento da EM máxima com entidades presentes nos dicionários • Expressões regulares para algumas entidades temporais (e.g., datas) • Ambiguidade entre vários tipos de entidades • Regras desenvolvidas manualmente, utilizando palavras adjacentes • Classificação round-robinentre os vários tipos possíveis • Tratamento das entidades geográficas e temporais • Desambiguação e “grounding” com base em almanaque específico
O almanaque usado na desambiguação das referências geo-temporais • Base de dados de locais e períodos temporais • Nomes, coordenadas, períodos, relações e outras informações • Pode ser acedido por um serviço Web XML (interface ADL) • Integra dados de múltiplas fontes (e.g. geonames.org) • http://gaz.digmap.eu/
Específicidades das referências geográficas e temporais • Desambiguação e grounding das referências a locais • Pesquisar no almanaque os locais com o mesmo nome e tipo • Ordenar possibilidades com base na heurística “um sentido por defeito” • Locais mais gerais (e.g., países e continentes) têm preferência • Ajustes com base na heurística “referências relacionadas” • Locais no mesmo documento estão semanticamente relacionados (e.g., parte-de) • Desambiguação e grouding das referências temporais • Regras para converter as representações textuais das datas • Pesquisar no almanaque os nomes de períodos temporais • Atribuição de âmbitos aos documentos • Entrada no almanaque que melhor combina os locais reconhecidos • Intervalo de tempo que cobre os vários intervalos reconhecidos no texto
Atribuição de âmbitos geográficos (weightx*0.752)+(weighty*0.752) • Algoritmo simples que explora as relações hierárquicas (Amitay et al., 2005) • Pesos iniciaiscorrespondentes às ocorrências no texto são propagados através das relações hierárquicas definidas entre as entradas do almanaque • Função quadrática para ajustar os pesos de acordo com o nível hierárquico Europa (weightx*0.75)+(weighty*0.75) Espanha Portugal Madrid Barcelona Lisboa Porto weightx weighty
Um serviço Web baseado no CaGE • Serviço Web XML online em http://geoparser.digmap.eu • Serviço segue a OGC’s Geoparser draft implementation specification • Suporta ainda os formatos HAREM, geoRSS and SpatialML (com XSLTs) • Interface para exploração de feeds RSS com TimeLines+Mapas • Locais e períodos temporais ligados a entradas no almanaque • Nomes de locais e âmbitos dos documentos associados a coordenadas • Períodos temporais e âmbitos temporais associados a intervalos de tempo
Participação no segundo HAREM • Quatro runs submetidas ao segundo HAREM • Vários dicionários, locais no almanaque específico • Apenas os locais presentes no almanaque usado na desambiguação e grounding foram anotados pelo sistema • Vários dicionários, excepto lista de excepções • Apenas dicionários de locais e períodos temporais • Não eram reconhecidos os restantes tipos de entidades • Vários dicionários
Resultados experimentais • Resultados obtidos no primeiro HAREM • Versão anterior do sistema CaGE lidando apenas com reconhecimento de locais • Dicionários baseados apenas no GeoNET • Resultados obtidos no HAREM2, cenário 2 • Considera vários tipos de entidades (i.e., locais, tempo, organizações e pessoas) e sub-tipos para as entidades do tipo local • Resultados obtidos no HAREM2, cenário 5 • Considera apenas entidades do tipo local, excepto o sub-tipo VIRTUAL • Experiências focando na atribuição de âmbitos • Experiências com 511 documentos (i.e., registos bibliográficos do projecto DIGMAP) manualmente atribuídos a âmbitos geográficos e temporais
Resultados no primeiro HAREM • Participação num cenário limitado à identificação de entidades do tipo local • Semelhante ao cenário selectivo 5 do segundo HAREM • Resultados modestos obtidos no HAREM e no MiniHAREM, com uma diferença de cerca de 0.1 em termos da medida-F para com o melhor sistema participante
Resultados no cenário selectivo 2 Diferença de aprox. 0.2 em termos da medida-F para com o melhor resultado
Resultados no cenário selectivo 5 Diferença de aprox. 0.1 na medida-F para o melhor resultado Diferença de aprox. 0.1 na medida-F em relação ao MiniHAREM Resultados ligueiramente melhores que no cenário selectivo 2
Resultados na atribuição de âmbitos • Documentos na colecção de teste manualmente atribuídos a uma caixa delimitadora • Medir a diferença entre os âmbitos geográficos atribuídos manual- e automaticamente • A baseline 1 corresponde ao âmbito mais frequente e baseline 2 à área mais abrangente • Âmbitos geográficos atribuídos a mais de 75% dos documentos, e em mais de 50% dos casos com um erro inferior a 25Km
Conclusões e Trabalho Futuro O sistema CaGE e a participação no segundo HAREM • Reconhecer referências geo-temporais em documentos textuais. • Atribuir âmbitos aos documentos com base nas referências. • Disponível como um serviço Web produzindo anotações XML. • Resultados modestos no segundo HAREM. Trabalho futuro • Melhorar precisão e abrangência do sistema • Almanaques já têm uma boa cobertura, o foco deve estar em regras. • Melhor avaliação da atribuição de âmbitos a documentos. • Melhorar tratamento de referências temporais (TimeML).