1 / 115

Interoperabilidade e Semântica na Web

Interoperabilidade e Semântica na Web. Ana Maria de Carvalho Moura anamoura@ime.eb.br Instituto Militar de Engenharia - IME Rio de Janeiro - Brasil. Sumário. Web: evolução história Mecanismos de busca Semântica na Web Metadados Tecnologias de suporte à interoperabilidade XML RDF

afi
Download Presentation

Interoperabilidade e Semântica na Web

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Interoperabilidade e Semântica na Web Ana Maria de Carvalho Moura anamoura@ime.eb.br Instituto Militar de Engenharia - IME Rio de Janeiro - Brasil

  2. Sumário • Web: evolução história • Mecanismos de busca • Semântica na Web • Metadados • Tecnologias de suporte à interoperabilidade • XML • RDF • Acesso/extração/integração de informação na Web • Conclusões e tendências Ana Maria Moura - 2001

  3. A Web: como tudo começou • 1990 - CERN • Idéia: tornar o conhecimento accessível a todos e de forma amigável • WWW Consortium (W3C) - 1994 - Berners-Lee • objetivos: • dar suporte à evolução da tecnologia da informação: infraestrutura - redes, gráfico, interface • encorajar cooperação na indústria: desenvolvimento de interfaces e plataformas padrões Ana Maria Moura - 2001

  4. A Web: um pouco de história • 1993 Mosaic:  50 sites • 1994: primeiras máquinas de busca (webcrawler, wwww) • 1996: US$ 1 bilhão compras na Internet (150 países) • 1997: 1 milhão de sites • 1998: 300mil provedores • 2000: + de 1 bilhão de páginas Web Ana Maria Moura - 2001

  5. Gerações Web • 1a geração: • páginas HTML criadas manualmente • 2a geração: • geração automática de páginas HTML p/ processamento humano(leitura, browsing, formulários • 3a geração: • Web semântica: informação processada por agentes ou robôs Ana Maria Moura - 2001

  6. Grande problema !!! • Como achar o que se deseja? Ana Maria Moura - 2001

  7. Problemas na Web • Aumento exponencial do número de documentos eletrônicos publicados na Web; • Problema de “precisão”das atuais ferramentas de pesquisa de informações na Web, que retornam um número grande de documentos não relevantes; • Problemas p/ identificar, descrever e localizar de forma mais eficiente os recursos na Web; • Ferramentas mais eficientes de ajuda à navegação • Como integrar recursos na Web? Ana Maria Moura - 2001

  8. Pesquisa e Recuperação na Web • Pesquisa em diretório • pesquisa hierárquica, por assunto • indexação manual • ex: yahoo, cade, Encyclopedia britannica,... Ana Maria Moura - 2001

  9. Pesquisa e Recuperação na Web • Máquinas de Busca • pesquisa p/ palavra chave (“ache documentos que contém a string XML “) • robôs percorrem estrutura de hipertexto e recuperam documentos referenciados • documentos recuperados são analisados e indexados (lista-invertida) • uso de banco de dados p/ pesquisa • 2000: + 500 milhões de páginas e + 300 máquinas de busca Exemplos: lycos, google, infoseek, altavista, excite, hotbot, TodoBr .... Ana Maria Moura - 2001

  10. Pesquisa e Recuperação na Web • Diretórios com Máquinas de Busca • Pesquisa por palavra chave e por assunto • ao longo do percurso hierárquico, máquina de busca (pesquisa por palavra chave) ex: yahoo, magellan Ana Maria Moura - 2001

  11. Pesquisa e Recuperação na Web • Múltiplos mecanismos de busca (meta-search) • combina e processa resultados de várias máquinas de busca ex: metacrawler: utiliza Altavista, directHit, Excite, FindWhat, Google, Lycos,..... Ana Maria Moura - 2001

  12. Principais problemas dessas ferramentas • Ferramentas de Pesquisa: • indexam páginas individuais e não recursos de informação • pouca precisão do conjunto resultado de uma pesquisa • palavras-chaves extraídas do conteúdo do documento sem informações sobre o contexto no qual estavam inseridas • inexistência de informações padronizadas descrevendo os itens do conjunto resultado de uma pesquisa • inexistência de controle quanto a qualidade dos documentos indexados • consultas pouco expressivas Ana Maria Moura - 2001

  13. Principais problemas dessas ferramentas • Ferramentas de Folheio: • falta de padronização dos esquemas de classificação empregados • só organiza recursos: não trata seus relacionamentos • a catalogação de recursos é custosa e centralizada Ana Maria Moura - 2001

  14. Linguagens Web • Usam topologia da Web em consultas p/ controlar navegação e obter melhores respostas: navegação e pesquisa • WebSQL, W3QL • Consultam conteúdo do documento a partir da estrutura e constrói novos documentos • WebLog Ana Maria Moura - 2001

  15. WebSQL • Explora estrutura e topologia do documento • semântica clara baseada num modelo de grafo virtual • visão relacional da Web: • documento(url, titulo,texto,type, lenght,modif) ex: encontre todos os documentos html sobre XML select d.url, d.titulo from Documento d such that d mentions “XML” where d.type=“text.html” Ana Maria Moura - 2001

  16. Outras linguagens • W3QL • parecida com WebSQL: foco em interoperabilidade - uso com outras ferramentas • WebLog • documento baseado em estrutura html • linguagem baseada em lógica p/ consulta e reestruturação da informação EX: obtenha todos os links p/ documentos html e os títulos correspondentes ans.html[title ’all citations’, hlink ->>L, occurs ->>T]:- dblp_pages[hlink ->>L],href(L,U), U[title ->>T]. Ana Maria Moura - 2001

  17. Semântica na Web • Semântica capacidade da informação serprocessável por máquina • Descrever propriedades e relacionamentos sobre itens (metadados) na Web • Metadados, RDF, ontologias Ana Maria Moura - 2001

  18. Visão semântica da Web • Depende da capacidade de promover intercâmbio de informações ? Interoperabilidade semântica estrutural sintática Ana Maria Moura - 2001

  19. Interoperabilidade • SemânticaUma arquitetura é capaz de prover interoperabilidade semântica quando possibilita a compreensão de cada descritor do recurso (independentemente da forma com que foi descrito) e suas associações com outros; • EstruturalUma arquitetura é capaz de prover interoperabilidade estrutural quando provê representação para modelo de dados distintos, permitindo especificar tipos e possíveis valores para cada forma de representação; • SintaxeUma arquitetura é capaz de prover interoperabilidade de sintaxe quando provê um regras precisas para promover o transporte de informações na Web. Ana Maria Moura - 2001

  20. Metadado • Meta: • significa “algo que descreve ...” • e.g. meta-object, meta-information, metadata, meta-modelo • Meta - Meta • significa “algo que descreve algo que descreve...” • Metadados • dados que descrevem o conteúdo, estrutura, representação e contexto de algum conjunto de dados Ana Maria Moura - 2001

  21. Exemplos • Fichas de uma biblioteca tradicional • Catálogos de SGBDs • Tags em páginas HTML, XML • Dicionários de Ferramentas CASE • Descritores de Bibliotecas Digitais • Descritores de imagens, video • Descritores de documentos na web • ... Ana Maria Moura - 2001

  22. Dado X Metadado A B dados s/ autor Produtores C Termos e condições Críticas: O Globo Titanic Termos e Condições dados administr Ana Maria Moura - 2001

  23. Onde está a fronteira? • Contexto A: dado: Críticas de O Globo  metadado: dados s/ autor(A), termos e condições de acesso(A) • Contexto B:  dado: filme Titanic  metadado: críticas de O Globo(A), Produtores (B) e termos e condições (C) • Contexto C:  dado: termos e condições  metadado:dados administrat.(C) Ana Maria Moura - 2001

  24. Uso de Metadados • Gerência de Recursos de Informação Corporativos • Computer-aided design • Projeto e gerência de Data Warehouses • Gerência de documentos • Gerência de dados científicos e grandes bases estatísticas • Gerência de recursos na Web • Integração de BD Heterogêneos • Projeto e gerência de Workflow • Integração de recursos na Web • ... Ana Maria Moura - 2001

  25. Papel do metadado na Web • Identificar • Localizar (informação s/ identif. recurso, assunto, descrição,... ) • Descrever (que informação será expressa? • depende do tipo de recurso, objetivos) • Recuperar • UtilizarRecursos de Informação Ana Maria Moura - 2001

  26. Localização de recursos na Web • Processo compreende duas fases: • Localização: a partir de de critérios de seleção (assunto, data, autor,…) • Exame:os metadados relativos aos recursos candidatos são verificados pelo usuário para seleção dos recursos desejados • Metadados são empregados para: • encontrar informaçõesrelevantes • encontrar uma informaçãojá conhecida • encontrar novas informações • auxiliar na análise da conveniência de uso do objeto • possibilitar consultas campo a campo Ana Maria Moura - 2001

  27. Recuperação de recursos na Web • Recuperação:acesso aos recursos de informação selecionados pelo usuário • Metadados são empregados para: • possibilitar a negociação de formato entre cliente e servidor (conversão automática de formato - ex: MIME) • possibilitar a negociação dos custos envolvidos na transferência do objeto selecionado para o cliente: período de acesso, tempo de acesso, formato desejado, quem está solicitando acesso, etc. • possibilitar o conhecimento prévio do conteúdo do documento • possibilitar privacidade expressando de forma mais adequada “termos e condições” para acesso e uso de um recurso, etc. Ana Maria Moura - 2001

  28. A Web hoje • Mecanismo de identificação: • Uniform Resource Locator (“URL”) • ex: http://www.rpi.edu/decemb/contents.html • Principais problemas: • referências a recursos pendentes na Web • inexistência de mecanismos de balanceamento automático de carga na rede, c/ redirecionamento automático p/ outro servidor; • lentidão na recuperação de recursos, devido a inexistência de “caches” dos recursos mais utilizados; • baixa tolerância do sistema à falhas, devido a impossibilidade de redirecionamento p/ outros servidores. Ana Maria Moura - 2001

  29. Metadados na Web hoje • Metadados embutidos no recurso: Declaração <Meta> da linguagem HTML: <META NAME=“autor” CONTENT=“Cassia Barreto” Tags embutidos no XML: <livro> <titulo> Do Fortran à Internet </titulo> • Metadados como anexo ao recurso: Cabeçalho do Protocolo HTTP: emitidos pelo servidor ao cliente “Expires: Mon, 13 may 1998 09:13:25 GMT” • Metadados mantidos separados do recurso: Plataforma PICS (Plataform for Internet: Content Selection) rótulos para avaliação de conteúdo Ana Maria Moura - 2001

  30. Soluções Propostas (W3C) • Padrões de metadados • XML • RDF • Ontologias Ana Maria Moura - 2001

  31. Padrões de Metadados Objetivos: • Conj. termos p/ descrição de uma ou mais categorias de recursos • Obter resultados mais precisos no processo de busca de recursos de informação na web • estabelecimento de padrões de metadados, modelos e protocolos e sua integração a mecanismos de busca na web Ana Maria Moura - 2001

  32. Catalogação bibliográfica • MARC (Machine Readable Catalogue) anos 60 • TEI (Text Encoding Initiative - 1994) • EAD (Encoding Archival Description -1993) • RFC1807 (Request for Comments) Ana Maria Moura - 2001

  33. Infraestrutura global da informação • GILS (Government Information Locator Service 1996) • busca de informação em agências governamentais Ana Maria Moura - 2001

  34. Descoberta de Recursos na Web • metadados utilizados no contexto de robôs(Harvest, por.ex.), dando suporte a administradores de sites; • dados indexados coletados por ferramentas automáticas não têm formato padrão: nenhuma semântica • IAFA (Internet Anonymous Ftp Archive - 1995) - grupo IETF (internet Engineering Task Force) • SOIF (Summary Object Interchange Format -1994) • Dublin Core (DC -1995) Ana Maria Moura - 2001

  35. Dublin Core • (DLOs): documentos vistos como objetos • associado a arquiteturas de metadados • Objetivos: • descrever as propriedades dos objetos • permitir descritores extras específicos a um domínio • a descrição de elementos é opcional • todos os elementos do DC podem se repetir • elementos autos explicativos • padrão W3C Ana Maria Moura - 2001

  36. Descritores do DC (15) • Subject tópico relacionado ao objeto descrito • Title nome do objeto • Author responsáveis pelo conteúdo intelectual do objeto • Publisher agente responsável por tornar o objeto disponível • OtherAgent pessoas que contribuíram de forma significativa para o conteúdo intelectual do objeto • Date data de publicação • ObjectType gênero do objeto • Form formato de dado do objeto • Identifier identifica o recurso de forma única • Relation indica um tipo de relacionamento com outros objetos • Source objetos dos quais o objeto descrito é derivado • Language idioma relativo ao conteúdo intelectual do objeto • Coverage localização espacial e duração temporal do objeto • Rights contém ou referencia direitos de propriedade • Description contém uma descrição textual do objeto Ana Maria Moura - 2001

  37. Dados geográficos/ dados ambientais • FDGC (Federal Geographic Data Committee- 1994) • UDK (Environmental Data Catalogue - 1998) Ana Maria Moura - 2001

  38. Tecnologias de suporte à interoperabilidade • Padrão W3C: • padrões de metadados: DC • XML • arquitetura RDF Ana Maria Moura - 2001

  39. Por que XML? • Padrão w3C: ++ conteúdo !!! • SGMLStandard Generalized Markup Language (Goldfarb, Mosher, Lorie -1974) SGML HTML XML-1996 Ana Maria Moura - 2001

  40. HTML: sérias limitações • Em relação ao acoplamento com BDs • geralmente soluções proprietárias • nenhum protocolo p/ publicação de dados • SQL: não adequada p/ Web • não possuiformato de intercâmbio: HTML é apenas um formato de apresentação! • mistura apresentação e conteúdo • nenhuma estrutura, semântica, restrições de integridade • perde informação sobre a estrutura (esquema) de BDs Ana Maria Moura - 2001

  41. HTML <h1> Bibliography </h1> <p> <i> Principles of Distributed Database Systems </i> Ozsu, Valduriez <br> Prentice Hall, 1999 <p> <i> Data on the Web </i> Abiteboul, Buneman, Vianu <br> Morgan Kaufmann, 1999 Ana Maria Moura - 2001

  42. HTML: descreve apresentação Ana Maria Moura - 2001

  43. The Golden Rule “Content must be abstract and independent from storage and rendition”  aplicações dinâmicas (“rendition” difere conforme a mídia, consulta ou perfil do usuário)  integração de dados heterogêneos(de diferentes fontes) Ana Maria Moura - 2001

  44. XML: Extended Markup Language • Objetivos • representar a semântica dos dados de forma estruturada (dados e metadados) • padrão para representar e intercambiar dados estruturados na Internet • permitir modelar dados heterogêneos gerados a partir de BDs ou processadores de texto, de forma que máquinas de busca possam localizá-los e processar documentos ou registros heterogêneos • consultar conteúdo de documentos na Web • suporta a regra dourada (“the golden rule”) Ana Maria Moura - 2001

  45. XML descreve conteúdo <bibliografia> <livro> <titulo> Principles of Distributed Database Systems </ titulo> <autor> Ozsu </author> <author> Valduriez </autor> <editor> Prentice Hall </ editor > <ano> 1999 </ ano > </ livro > < livro > < titulo > Data on the Web </ titulo > <autor> Abiteboul </autor> <autor> Buneman </autor> <autor> Vianu </autor> < editor > Morgan Kaufmann </ editor > <ano> 1999 </ ano > </livro> Ana Maria Moura - 2001

  46. Em XML... • Usuários definem suas próprias marcações (tags) • Um documento XML não provê nenhum comando de exibição • stylesheets (XLS) p/ converter em HTML • Estruturas podem ser aninhadas • Um documento XML pode conter uma descrição opcional de sua gramática (DTD) Ana Maria Moura - 2001

  47. XML • Sintaxe: • elementos, atributos, entidades, documentos válidos • É um modelo de dados semi-estruturados • Definição de tipos de documentos • tipos de dados, esquemas DTD, namespaces • XML- Schema • metadados com RDF Ana Maria Moura - 2001

  48. Terminologia • Marcações (tags): livro, título, autor (atributos únicos) • Início de marcação: <livro> • Fim de marcação: </livro> • Todos os dados são texto: PCDATA (parsed character data) • Elementos: • <livro> …</livro>, <autor>….</autor> • elemento vazio: <ano></ano> • Um documento XML: uma única raiz • Restrições fracas Ana Maria Moura - 2001

  49. Exemplo Marcador vazio Marcador de início <casa> <quarto>Alessandro <armario/> </quarto> <quarto>Fabio</quarto> <quarto>Leonardo</quarto> <cozinha></cozinha> </casa> <armario> é subelemento de <quarto> que é subelemento de <casa> Não existe limite na profundidade de hierarquia Marcador de fim Ana Maria Moura - 2001

  50. Atributos • Propriedades das marcações • pares constituídos de: (nome, valor) Exemplo: < livro lang= “Ingles” preco= “US$ 60.00”> <titulo> Principles of Distributed Database Systems </titulo> <autor> Ozsu </author> <autor> Valduriez </autor> … </livro> <lang> English </lang> Ana Maria Moura - 2001

More Related