230 likes | 310 Views
Mapeamento de Thesauri. Daniela F. Brauner. Agenda. Introdução Interoperabilidade Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes Abordagem proposta. Introdução. Interoperabilidade. Milhares de provedores de informação (fontes de dados): Esquemas diferentes
E N D
Mapeamento de Thesauri Daniela F. Brauner
Agenda • Introdução • Interoperabilidade • Mapeamentos • Em nível de esquema • Em nível de dados • Abordagens existentes • Abordagem proposta
Introdução Interoperabilidade • Milhares de provedores de informação (fontes de dados): • Esquemas diferentes • Categorias diferentes para classificação dos dados (≠ thesauri) • Solução proposta: • Dados estruturados • Ontologias para descrever a semântica • Computadores capazes de “entender” estes dados • (mesma proposta da Web Semântica!) • ...e os problemas continuam: • Natureza descentralizada da Web • Cada provedor de informação usando sua própria ontologia
Introdução Interoperabilidade • Busca por “city” no Swoogle • 722 resultadosi.e. definições diferentes
Introdução Mapeamentos Find all cities called “Rio de Janeiro” GEOnet ADL Gazetteer
Introdução Mapeamentos Find all cities called “Rio de Janeiro” Basic Architecture of A Data Integration System Mediator GEOnet Wrapper ADL Wrapper GEOnet ADL Gazetteer
Schema-level mapping • Data-level mapping Introdução ? Mapeamentos ? ? ? Find all cities called “Rio de Janeiro” GEOnet ? ? ADL
Abordagens existentes • ILA [Etzioni, 2000] • SEMINT [Syan et al., 2000] • AnchorPrompt [Musen and Noy, 2001] • Cupid [Madhavan et al., 2001] • LSD [Doan et al., 2001] • SimilarityFlooding [Melnik et al., 2002] • PROM [Doan et al., 2003] • GLUE [Doan et al., 2003] • CATO [Felicissimo, 2004] • iMAP [Dhamankar et al., 2004] • ...
Utilizando os nomes dos termos Abordagens existentes ADL GEOnet Administrative area Populated places Political areas Countries Cities Capitals ... AREA area ADM1 first-order administrative divisionADM2 second-order administrative division ADM3 third-order administrative division ADM4 fourth-order administrative divisionADMD administrative division ADMF administrative facility PPL populated place PPLA seat of a first-order administrative division PPLC capital of a political entity PPLL populated locality PPLQ abandoned populated place PPLR religious populated place PPLS populated places PPLW destroyed populated place PPLX section of populated place... FONTE: http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm FONTE: http://gnswww.nga.mil/geonames/GNS/index.jsp
Utilizando as estruturas das árvores Abordagens existentes ADL OpenCyc Administrative area GeographicalAgent GeopoliticalEntity Populated places Political areas Country City Cities Countries Capitals CapitalCityOfRegion IndependentCountry FONTE: http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm FONTE:http://www.cyc.com/cycdoc/vocab/geography-vocab.htmlhttp://opencyc1.cyc.com:3602/cgi-bin/cyccgi/cg?cb-start
Abordagens existentes ADL OpenCyc Administrative area GeographicalAgent GeopoliticalEntity Populated places Political areas Country City Cities Countries Capitals IndependentCountry CapitalCityOfRegion Exemplos: ?
Abordagens existentes • Estratégia de tradução do Google • Sistema “aprende” através de traduções existentes “My name is Daniela. I am 26 years old.” “Mein name ist Daniela. Ich bin 26 Jahre alt.” http://www.inf.puc-rio.br/~dani/en http://www.inf.puc-rio.br/~dani/de “Meu nome é Daniela. Eu tenho 26 anos.” “Mi nombre es Daniela. Yo tengo 26 años.” http://www.inf.puc-rio.br/~dani/br http://www.inf.puc-rio.br/~dani/es
Abordagens existentes • 1799: Técnica aplicada por Jean-François Champollion na Pedra de Rosetta para decifrar os hieróglifos • hieróglifos egípcio demótico (Copta) grego http://www.thebritishmuseum.ac.uk
ADL GEOnet Bay a coastal indentation between two capes or headlands, larger than a cove but smaller than a gulf Bay Indentations of a coastline or shoreline enclosing a part of a body of water; body of water partly surrounded by land Abordagens existentes • Utilizando as descrições dos termos dos thesauri • Removemos algumas stop-words • Mapeamos conceitos com maior ocorrência de palavras em comum ?
ADL GEOnet Bay Indentations of a coastline or shoreline enclosing a part of a body of water; body of water partly surrounded by land Peninsula an elongate area of land projecting into a body of water and nearly surrounded by water Abordagens existentes • Utilizando as descrições dos termos dos thesauri ≠ GEOnet (4) Peninsula: land, body, water, surrounded (3) Island: land, surrounded, water (2) Pool: body, water
ADL GEOnet Waterfall perpendicular or very steep falls of water in the course of a stream. Waterfall a perpendicular or very steep descent of the water of a stream Abordagens existentes • Utilizando representação formal • Criamos 3 ontologias: ADL, GEO e concepts
Abordagens existentes • Utilizando instâncias • Identificar mapeamentos entre os dados (instâncias iguais) • Verificar freqüência de “casamentos” entre os termos dos thesauri GEOnet ADL
Etapas: • Levantamento dos dados • Definição dos conjuntos de treinamento e teste • Treinamento • Cruzamento das instâncias de treinamento (definir freqüências) • Cálculo das probabilidades de alinhamento • Teste e validação Abordagens existentes • Utilizando instâncias • Identificar mapeamentos entre os dados (instâncias iguais) • Verificar freqüência de “casamentos” entre os termos dos thesauri
nab P( b | a ) = na Abordagens existentes Etapas concluídas: • Conjunto de exemplos: • Instâncias brasileiras: • ADL: 17.991 • GEOnet: 87.608 • Treinamento: • Instâncias mapeadas pelos valores de LAT/LON • 221 pares identificados (~16%) • Ex: • Termos dos thesauri: • ADL: 210 • GEOnet: 642 Combinações possíveis: 134.820
Abordagem proposta • Mediador “espertinho” (utilizando técnicas de aprendizagem de máquina) • Aprende em 2 momentos: • A priori (offline) • A posteriori (runtime) • Aprende a partir de: • Consultas dos usuários • Análise das respostas das consultas dos usuários
Ahááá!!! PPL ≡ PopulatedPlaces Abordagem proposta Aprendendo a partir das consultas dos usuários Select PPL From GEOnet Within“-54, -34 -52.5, -33” Select PPL From GEOnet Within“-54, -34 -52.5, -33” Select populated places From ADL Within“-54, -34 -52.5, -33” Select populated places From ADL Within“-54, -34 -52.5, -33” Brainy Mediator Mediator GEOnet Wrapper ADL Wrapper GEOnet ADL Gazetteer
Cache Abordagem proposta Aprendendo a partir das respostas das consultas dos usuários Select PPL From GEOnet, ADL Within“-54, -34 -52.5, -33” Brainy Mediator Mediator GEOnet Wrapper ADL Wrapper GEOnet ADL Gazetteer
Mapeamento de Thesauri Daniela F. Brauner