1.16k likes | 1.34k Views
Interoperabilidade e Semântica na Web. Ana Maria de Carvalho Moura anamoura@ime.eb.br Instituto Militar de Engenharia - IME Rio de Janeiro - Brasil. Sumário. Web: evolução história Mecanismos de busca Semântica na Web Metadados Tecnologias de suporte à interoperabilidade XML RDF
E N D
Interoperabilidade e Semântica na Web Ana Maria de Carvalho Moura anamoura@ime.eb.br Instituto Militar de Engenharia - IME Rio de Janeiro - Brasil
Sumário • Web: evolução história • Mecanismos de busca • Semântica na Web • Metadados • Tecnologias de suporte à interoperabilidade • XML • RDF • Acesso/extração/integração de informação na Web • Conclusões e tendências Ana Maria Moura - 2001
A Web: como tudo começou • 1990 - CERN • Idéia: tornar o conhecimento accessível a todos e de forma amigável • WWW Consortium (W3C) - 1994 - Berners-Lee • objetivos: • dar suporte à evolução da tecnologia da informação: infraestrutura - redes, gráfico, interface • encorajar cooperação na indústria: desenvolvimento de interfaces e plataformas padrões Ana Maria Moura - 2001
A Web: um pouco de história • 1993 Mosaic: 50 sites • 1994: primeiras máquinas de busca (webcrawler, wwww) • 1996: US$ 1 bilhão compras na Internet (150 países) • 1997: 1 milhão de sites • 1998: 300mil provedores • 2000: + de 1 bilhão de páginas Web Ana Maria Moura - 2001
Gerações Web • 1a geração: • páginas HTML criadas manualmente • 2a geração: • geração automática de páginas HTML p/ processamento humano(leitura, browsing, formulários • 3a geração: • Web semântica: informação processada por agentes ou robôs Ana Maria Moura - 2001
Grande problema !!! • Como achar o que se deseja? Ana Maria Moura - 2001
Problemas na Web • Aumento exponencial do número de documentos eletrônicos publicados na Web; • Problema de “precisão”das atuais ferramentas de pesquisa de informações na Web, que retornam um número grande de documentos não relevantes; • Problemas p/ identificar, descrever e localizar de forma mais eficiente os recursos na Web; • Ferramentas mais eficientes de ajuda à navegação • Como integrar recursos na Web? Ana Maria Moura - 2001
Pesquisa e Recuperação na Web • Pesquisa em diretório • pesquisa hierárquica, por assunto • indexação manual • ex: yahoo, cade, Encyclopedia britannica,... Ana Maria Moura - 2001
Pesquisa e Recuperação na Web • Máquinas de Busca • pesquisa p/ palavra chave (“ache documentos que contém a string XML “) • robôs percorrem estrutura de hipertexto e recuperam documentos referenciados • documentos recuperados são analisados e indexados (lista-invertida) • uso de banco de dados p/ pesquisa • 2000: + 500 milhões de páginas e + 300 máquinas de busca Exemplos: lycos, google, infoseek, altavista, excite, hotbot, TodoBr .... Ana Maria Moura - 2001
Pesquisa e Recuperação na Web • Diretórios com Máquinas de Busca • Pesquisa por palavra chave e por assunto • ao longo do percurso hierárquico, máquina de busca (pesquisa por palavra chave) ex: yahoo, magellan Ana Maria Moura - 2001
Pesquisa e Recuperação na Web • Múltiplos mecanismos de busca (meta-search) • combina e processa resultados de várias máquinas de busca ex: metacrawler: utiliza Altavista, directHit, Excite, FindWhat, Google, Lycos,..... Ana Maria Moura - 2001
Principais problemas dessas ferramentas • Ferramentas de Pesquisa: • indexam páginas individuais e não recursos de informação • pouca precisão do conjunto resultado de uma pesquisa • palavras-chaves extraídas do conteúdo do documento sem informações sobre o contexto no qual estavam inseridas • inexistência de informações padronizadas descrevendo os itens do conjunto resultado de uma pesquisa • inexistência de controle quanto a qualidade dos documentos indexados • consultas pouco expressivas Ana Maria Moura - 2001
Principais problemas dessas ferramentas • Ferramentas de Folheio: • falta de padronização dos esquemas de classificação empregados • só organiza recursos: não trata seus relacionamentos • a catalogação de recursos é custosa e centralizada Ana Maria Moura - 2001
Linguagens Web • Usam topologia da Web em consultas p/ controlar navegação e obter melhores respostas: navegação e pesquisa • WebSQL, W3QL • Consultam conteúdo do documento a partir da estrutura e constrói novos documentos • WebLog Ana Maria Moura - 2001
WebSQL • Explora estrutura e topologia do documento • semântica clara baseada num modelo de grafo virtual • visão relacional da Web: • documento(url, titulo,texto,type, lenght,modif) ex: encontre todos os documentos html sobre XML select d.url, d.titulo from Documento d such that d mentions “XML” where d.type=“text.html” Ana Maria Moura - 2001
Outras linguagens • W3QL • parecida com WebSQL: foco em interoperabilidade - uso com outras ferramentas • WebLog • documento baseado em estrutura html • linguagem baseada em lógica p/ consulta e reestruturação da informação EX: obtenha todos os links p/ documentos html e os títulos correspondentes ans.html[title ’all citations’, hlink ->>L, occurs ->>T]:- dblp_pages[hlink ->>L],href(L,U), U[title ->>T]. Ana Maria Moura - 2001
Semântica na Web • Semântica capacidade da informação serprocessável por máquina • Descrever propriedades e relacionamentos sobre itens (metadados) na Web • Metadados, RDF, ontologias Ana Maria Moura - 2001
Visão semântica da Web • Depende da capacidade de promover intercâmbio de informações ? Interoperabilidade semântica estrutural sintática Ana Maria Moura - 2001
Interoperabilidade • SemânticaUma arquitetura é capaz de prover interoperabilidade semântica quando possibilita a compreensão de cada descritor do recurso (independentemente da forma com que foi descrito) e suas associações com outros; • EstruturalUma arquitetura é capaz de prover interoperabilidade estrutural quando provê representação para modelo de dados distintos, permitindo especificar tipos e possíveis valores para cada forma de representação; • SintaxeUma arquitetura é capaz de prover interoperabilidade de sintaxe quando provê um regras precisas para promover o transporte de informações na Web. Ana Maria Moura - 2001
Metadado • Meta: • significa “algo que descreve ...” • e.g. meta-object, meta-information, metadata, meta-modelo • Meta - Meta • significa “algo que descreve algo que descreve...” • Metadados • dados que descrevem o conteúdo, estrutura, representação e contexto de algum conjunto de dados Ana Maria Moura - 2001
Exemplos • Fichas de uma biblioteca tradicional • Catálogos de SGBDs • Tags em páginas HTML, XML • Dicionários de Ferramentas CASE • Descritores de Bibliotecas Digitais • Descritores de imagens, video • Descritores de documentos na web • ... Ana Maria Moura - 2001
Dado X Metadado A B dados s/ autor Produtores C Termos e condições Críticas: O Globo Titanic Termos e Condições dados administr Ana Maria Moura - 2001
Onde está a fronteira? • Contexto A: dado: Críticas de O Globo metadado: dados s/ autor(A), termos e condições de acesso(A) • Contexto B: dado: filme Titanic metadado: críticas de O Globo(A), Produtores (B) e termos e condições (C) • Contexto C: dado: termos e condições metadado:dados administrat.(C) Ana Maria Moura - 2001
Uso de Metadados • Gerência de Recursos de Informação Corporativos • Computer-aided design • Projeto e gerência de Data Warehouses • Gerência de documentos • Gerência de dados científicos e grandes bases estatísticas • Gerência de recursos na Web • Integração de BD Heterogêneos • Projeto e gerência de Workflow • Integração de recursos na Web • ... Ana Maria Moura - 2001
Papel do metadado na Web • Identificar • Localizar (informação s/ identif. recurso, assunto, descrição,... ) • Descrever (que informação será expressa? • depende do tipo de recurso, objetivos) • Recuperar • UtilizarRecursos de Informação Ana Maria Moura - 2001
Localização de recursos na Web • Processo compreende duas fases: • Localização: a partir de de critérios de seleção (assunto, data, autor,…) • Exame:os metadados relativos aos recursos candidatos são verificados pelo usuário para seleção dos recursos desejados • Metadados são empregados para: • encontrar informaçõesrelevantes • encontrar uma informaçãojá conhecida • encontrar novas informações • auxiliar na análise da conveniência de uso do objeto • possibilitar consultas campo a campo Ana Maria Moura - 2001
Recuperação de recursos na Web • Recuperação:acesso aos recursos de informação selecionados pelo usuário • Metadados são empregados para: • possibilitar a negociação de formato entre cliente e servidor (conversão automática de formato - ex: MIME) • possibilitar a negociação dos custos envolvidos na transferência do objeto selecionado para o cliente: período de acesso, tempo de acesso, formato desejado, quem está solicitando acesso, etc. • possibilitar o conhecimento prévio do conteúdo do documento • possibilitar privacidade expressando de forma mais adequada “termos e condições” para acesso e uso de um recurso, etc. Ana Maria Moura - 2001
A Web hoje • Mecanismo de identificação: • Uniform Resource Locator (“URL”) • ex: http://www.rpi.edu/decemb/contents.html • Principais problemas: • referências a recursos pendentes na Web • inexistência de mecanismos de balanceamento automático de carga na rede, c/ redirecionamento automático p/ outro servidor; • lentidão na recuperação de recursos, devido a inexistência de “caches” dos recursos mais utilizados; • baixa tolerância do sistema à falhas, devido a impossibilidade de redirecionamento p/ outros servidores. Ana Maria Moura - 2001
Metadados na Web hoje • Metadados embutidos no recurso: Declaração <Meta> da linguagem HTML: <META NAME=“autor” CONTENT=“Cassia Barreto” Tags embutidos no XML: <livro> <titulo> Do Fortran à Internet </titulo> • Metadados como anexo ao recurso: Cabeçalho do Protocolo HTTP: emitidos pelo servidor ao cliente “Expires: Mon, 13 may 1998 09:13:25 GMT” • Metadados mantidos separados do recurso: Plataforma PICS (Plataform for Internet: Content Selection) rótulos para avaliação de conteúdo Ana Maria Moura - 2001
Soluções Propostas (W3C) • Padrões de metadados • XML • RDF • Ontologias Ana Maria Moura - 2001
Padrões de Metadados Objetivos: • Conj. termos p/ descrição de uma ou mais categorias de recursos • Obter resultados mais precisos no processo de busca de recursos de informação na web • estabelecimento de padrões de metadados, modelos e protocolos e sua integração a mecanismos de busca na web Ana Maria Moura - 2001
Catalogação bibliográfica • MARC (Machine Readable Catalogue) anos 60 • TEI (Text Encoding Initiative - 1994) • EAD (Encoding Archival Description -1993) • RFC1807 (Request for Comments) Ana Maria Moura - 2001
Infraestrutura global da informação • GILS (Government Information Locator Service 1996) • busca de informação em agências governamentais Ana Maria Moura - 2001
Descoberta de Recursos na Web • metadados utilizados no contexto de robôs(Harvest, por.ex.), dando suporte a administradores de sites; • dados indexados coletados por ferramentas automáticas não têm formato padrão: nenhuma semântica • IAFA (Internet Anonymous Ftp Archive - 1995) - grupo IETF (internet Engineering Task Force) • SOIF (Summary Object Interchange Format -1994) • Dublin Core (DC -1995) Ana Maria Moura - 2001
Dublin Core • (DLOs): documentos vistos como objetos • associado a arquiteturas de metadados • Objetivos: • descrever as propriedades dos objetos • permitir descritores extras específicos a um domínio • a descrição de elementos é opcional • todos os elementos do DC podem se repetir • elementos autos explicativos • padrão W3C Ana Maria Moura - 2001
Descritores do DC (15) • Subject tópico relacionado ao objeto descrito • Title nome do objeto • Author responsáveis pelo conteúdo intelectual do objeto • Publisher agente responsável por tornar o objeto disponível • OtherAgent pessoas que contribuíram de forma significativa para o conteúdo intelectual do objeto • Date data de publicação • ObjectType gênero do objeto • Form formato de dado do objeto • Identifier identifica o recurso de forma única • Relation indica um tipo de relacionamento com outros objetos • Source objetos dos quais o objeto descrito é derivado • Language idioma relativo ao conteúdo intelectual do objeto • Coverage localização espacial e duração temporal do objeto • Rights contém ou referencia direitos de propriedade • Description contém uma descrição textual do objeto Ana Maria Moura - 2001
Dados geográficos/ dados ambientais • FDGC (Federal Geographic Data Committee- 1994) • UDK (Environmental Data Catalogue - 1998) Ana Maria Moura - 2001
Tecnologias de suporte à interoperabilidade • Padrão W3C: • padrões de metadados: DC • XML • arquitetura RDF Ana Maria Moura - 2001
Por que XML? • Padrão w3C: ++ conteúdo !!! • SGMLStandard Generalized Markup Language (Goldfarb, Mosher, Lorie -1974) SGML HTML XML-1996 Ana Maria Moura - 2001
HTML: sérias limitações • Em relação ao acoplamento com BDs • geralmente soluções proprietárias • nenhum protocolo p/ publicação de dados • SQL: não adequada p/ Web • não possuiformato de intercâmbio: HTML é apenas um formato de apresentação! • mistura apresentação e conteúdo • nenhuma estrutura, semântica, restrições de integridade • perde informação sobre a estrutura (esquema) de BDs Ana Maria Moura - 2001
HTML <h1> Bibliography </h1> <p> <i> Principles of Distributed Database Systems </i> Ozsu, Valduriez <br> Prentice Hall, 1999 <p> <i> Data on the Web </i> Abiteboul, Buneman, Vianu <br> Morgan Kaufmann, 1999 Ana Maria Moura - 2001
HTML: descreve apresentação Ana Maria Moura - 2001
The Golden Rule “Content must be abstract and independent from storage and rendition” aplicações dinâmicas (“rendition” difere conforme a mídia, consulta ou perfil do usuário) integração de dados heterogêneos(de diferentes fontes) Ana Maria Moura - 2001
XML: Extended Markup Language • Objetivos • representar a semântica dos dados de forma estruturada (dados e metadados) • padrão para representar e intercambiar dados estruturados na Internet • permitir modelar dados heterogêneos gerados a partir de BDs ou processadores de texto, de forma que máquinas de busca possam localizá-los e processar documentos ou registros heterogêneos • consultar conteúdo de documentos na Web • suporta a regra dourada (“the golden rule”) Ana Maria Moura - 2001
XML descreve conteúdo <bibliografia> <livro> <titulo> Principles of Distributed Database Systems </ titulo> <autor> Ozsu </author> <author> Valduriez </autor> <editor> Prentice Hall </ editor > <ano> 1999 </ ano > </ livro > < livro > < titulo > Data on the Web </ titulo > <autor> Abiteboul </autor> <autor> Buneman </autor> <autor> Vianu </autor> < editor > Morgan Kaufmann </ editor > <ano> 1999 </ ano > </livro> Ana Maria Moura - 2001
Em XML... • Usuários definem suas próprias marcações (tags) • Um documento XML não provê nenhum comando de exibição • stylesheets (XLS) p/ converter em HTML • Estruturas podem ser aninhadas • Um documento XML pode conter uma descrição opcional de sua gramática (DTD) Ana Maria Moura - 2001
XML • Sintaxe: • elementos, atributos, entidades, documentos válidos • É um modelo de dados semi-estruturados • Definição de tipos de documentos • tipos de dados, esquemas DTD, namespaces • XML- Schema • metadados com RDF Ana Maria Moura - 2001
Terminologia • Marcações (tags): livro, título, autor (atributos únicos) • Início de marcação: <livro> • Fim de marcação: </livro> • Todos os dados são texto: PCDATA (parsed character data) • Elementos: • <livro> …</livro>, <autor>….</autor> • elemento vazio: <ano></ano> • Um documento XML: uma única raiz • Restrições fracas Ana Maria Moura - 2001
Exemplo Marcador vazio Marcador de início <casa> <quarto>Alessandro <armario/> </quarto> <quarto>Fabio</quarto> <quarto>Leonardo</quarto> <cozinha></cozinha> </casa> <armario> é subelemento de <quarto> que é subelemento de <casa> Não existe limite na profundidade de hierarquia Marcador de fim Ana Maria Moura - 2001
Atributos • Propriedades das marcações • pares constituídos de: (nome, valor) Exemplo: < livro lang= “Ingles” preco= “US$ 60.00”> <titulo> Principles of Distributed Database Systems </titulo> <autor> Ozsu </author> <autor> Valduriez </autor> … </livro> <lang> English </lang> Ana Maria Moura - 2001