1 / 116

Introdução à Web Semântica

Ana Maria de C. Moura PRODERJ - RJ anamoura@proderj.rj.gov.br. Introdução à Web Semântica. Sumário. A Evolução da Web Pesquisa, Recuperação, Organização e Extração de Recursos na Web A Web Semântica Fundamentos Ontologias Linguagens p/ representação de ontologias

karim
Download Presentation

Introdução à Web Semântica

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ana Maria de C. Moura PRODERJ - RJ anamoura@proderj.rj.gov.br Introdução à Web Semântica

  2. Sumário • A Evolução da Web • Pesquisa, Recuperação, Organização e Extração de Recursos na Web • A Web Semântica • Fundamentos • Ontologias • Linguagens p/ representação de ontologias • Ferramentas e Projetos de Suporte à Web Semântica • Conclusão A.M Moura - SDMS 2004

  3. Introdução A Web: como tudo começou • 1990 – CERN (European Organization for Nuclear Research) • Idéia: tornar o conhecimento accessível a todos e de forma amigável • WWW Consortium (W3C) - 1994 – Tim Berners-Lee (MIT, INRIA, Keio University) • objetivos: • dar suporte à evolução da tecnologia da informação: infraestrutura - redes, gráfico, interface • encorajar cooperação na indústria: desenvolvimento de interfaces e plataformas padrões • Interação humana apenas A.M Moura - SDMS 2004

  4. A evolução da Web • 1993 Mosaic:  50 sites • 1994: primeiras máquinas de busca (webcrawler, wwww - World Wide Web Worm) • 1996: US$ 1 bilhão compras na Internet (150 países) • 1997: 1 milhão de páginas • 1998: 300 mil provedores .... • 2004: de 4 bilhões de páginas Web*  945 milhões de usuários * www.google.com A.M Moura - SDMS 2004

  5. Gerações Web: rumo à Web semântica programação apresentação Serviços Web XML WSDL(Web Service Description Language) UDDI (Universal Description, Discovery & Integration) WSFL (Web-Services Flow Language) SOAP (Simple Object Access Protocol) pág.html geradas automatica/ (leitura, browsing, formulários) mecanismos busca Tecnologia conectividade TCP/IP ftp, e-mail, Gopher,... pág. html manuais Web Semântica + Serviços Web Inovação 1a geração 2a geração 3a geração...... (processamento humano) A.M Moura - SDMS 2004

  6. Problemas na Web Atual • Aumento exponencial de publicações na Web • 2004:  de 4 bilhões de páginas Web 50% a mais de novas páginas a cada ano!! • somente 20% estarão acessíveis em 1 ano!!! • Somente 62% apresentam contéudo novo [Ntoulas et al 04] A.M Moura - SDMS 2004

  7. Problemas na Web Atual • Busca da Informação • Problema de “precisão” das atuais ferramentas de pesquisa • navegação através de links e uso de pal. chaves p/ busca Problemas p/ identificar, descrever e localizar recursos de forma mais eficiente A.M Moura - SDMS 2004

  8. Noise  Precision Missed  Recall Nice pubs in Nice The Old Book 12, R. Victor Hugo The White Swan 3 Av. Hemingway The Horseshoe Summary of the novel "The Old Man And The Sea" by Ernest Hemingway This new edition starts with a large historical introduction of the work Na Web Atual:Busca de informação A.M Moura - SDMS 2004

  9. Pesquisa, Recuperação, Organização e Extração de Recursos na Web Estratégias importantes • Mecanismos de busca • Bibliotecas digitais • Linguagens de consulta Web • Mecanismos de extração (wrappers) A.M Moura - SDMS 2004

  10. Mecanismos de Busca • Busca baseada em pal. chaves ex: Alta Vista, Infoseek, Yahoo, MetaCrawler, Google... Problemas com a recuperação da informação • Recuperação (recall) limitada: • toda a informação relevante foi localizada? • um documento naquele assunto, porém com uma descrição diferente da palavra chave não é recuperada • Precisão limitada: • quantos documentos são realmente relevantes? • um documento de um assunto diferente que utiliza as mesmas palavras é recuperado • Relevância: • baseada em vetor de palavras é duvidosa • PageRank (Google) A.M Moura - SDMS 2004

  11. Linguagens de consulta Web • Usam topologia da Web em consultas p/ controlar navegação e obter melhores respostas: navegação e pesquisa • WebSQL [Mihaila 96] , W3QL[Konopnicki et al.98] WebSQL • explora estrutura e topologia do documento • semântica clara baseada num modelo de grafo virtual documento(url, titulo,texto,type, lenght,modif) ex: encontre todos os documentos html sobre XML select d.url, d.titulo from Documento d such that d mentions “XML” where d.type=“text.html” A.M Moura - SDMS 2004

  12. Mecanismos de extração baseado em Wrappers Agente de consulta [Widerhold 1992] lida com usuário Mediador Wrapper1 Wrappern Wrapper2 lida c/ fontes de informação .... BD1 BDn BD2 BD1 A.M Moura - SDMS 2004

  13. Mecanismos de extração • Programas extratores (Wrappers) • Mapeiam páginas Web em um conjunto de objetos organizados sob forma de árvore de modo a extrair informações relevantes • Abordagens p/ desenvolvimento de Wrappers[Laender SBBD 2001] • Baseadas em contexto • Baseadas em conteúdo A.M Moura - SDMS 2004

  14. Wrappers – exemplos • Contexto • W4F[Sahuguet et al, DKE 36(2), 2000] • RoadRunner [Crescenzi VLDB 2001] • DeBye[Laender et al., DKE, 2002](modelo de dados -padrões/exemplos p/ extração) • ...... • Conteúdo • Ontologia específica de domínio ex: BYU Tool [Embley et al., DKE 31(3),1999] Estrut. doc. HTML A.M Moura - SDMS 2004

  15. Problemas na Web Atual (cont) • Integração de informações: • O site A tem descrição de produtos de software • O site B tem preços de material de computação • Problema: • Combinar produtos e preços. • Dificuldade: • Como integrar tais informações? A.M Moura - SDMS 2004

  16. Enfim, na Web Atual • Situação atual: • O conteúdo pode ser “lido”, mas não processado pela máquina • Problema: • É difícil automatizar processos/serviços na Web • Como interoperar informações num ambiente heterogêneo? • Como integrar recursos na Web? • Um início de solução: • Descrever os dados contidos na Web e representá-los de forma conveniente A.M Moura - SDMS 2004

  17. O que é Web Semântica? É uma extensão da Web atual que visa dar significado semântico ao conteúdo das páginas Web, criando um ambiente onde agentes de software e usuários possam trabalhar de forma cooperativa [Tim Berners-Lee et al. 2001] A.M Moura - SDMS 2004

  18. Web Semântica: Visão W3C “A Web Semântica é uma visão: é a idéia de de se ter dados na Web definidos e ligados de uma maneira tal que possam ser usados por máquinas não só com o objetivo de apresentação, mas p/ automação, integração e reuso de dados entre aplicações” * *: World Wide Web Consortium: “Semantic Web Activity Statement.” http://www.w3.org/2001/sw/Activity A.M Moura - SDMS 2004

  19. Usando a Web Semântica... “The Perfect Storm” [Hendler 2001] A.M Moura - SDMS 2004

  20. Uso de Agentes Web • Acesso a um agente de um servidor geográfico: • “Obter uma foto satélite dessa região do Atlântico” A.M Moura - SDMS 2004

  21. Resultado da Consulta • Uma imagem satélite obtida ontem às 10 horas da manhã está disponível na Web no endereço http://.... • Uma nova imagem satélite que será feita hoje às 10 horas estará disponível por $100 - aperte aqui p/ autorizar a transferência de fundos e obter a imagem (é necessário fornecer um cartão de crédito) • Numa situação de emergência um avião de guarda costeira pode ser enviado a qualquer local na área indicada. Nota: você será responsável pelos custos de vôo se a situação não for de emergência (aperte aqui p/ mais informações) • Um observador de grande-altitude pode ser enviado até aí em 13 hs. Clique aqui p/ iniciar procedimento (é necessário autorização militar, código e oficial responsável. Caso de abuso resultará em prisão). • Um serviço denominado “serviço comercial” para prover imagens satélites é anunciado para disponibilização em 2004. Mais informações consulte http://.... A.M Moura - SDMS 2004

  22. Objetivos da Web Semântica • Dados científicos: • integração entre dados • ponteiros para condições experimentais, fontes, algoritmos • Comércio Eletrônico • significados bem definidos p/ documentos • catálogos, preços, taxas, especificações • Gerenciamento pessoal de informações: calendários, fotos,.... • Plataforma comum p/ manipulação de BDs, inferência, etc. • Regras e ontologias • Novos desafios: WS- IA A.M Moura - SDMS 2004

  23. A Web Semântica requer • Capacidade p/ representar e gerenciar conteúdo semântico na Web • Como um agente pode “aprender” o significado de um novo termo a partir de uma especificação formal? • Necessidade de formalização (metadados, ontologias) descrição de propriedades e relacionamentos sobre itens; regras, inferência A.M Moura - SDMS 2004

  24. A Web Semântica requer (cont.) • Integração e interoperabilidade • 2 agentes estão semanticamente integrados se puderem comunicar-se entre si com sucesso! • Mas é preciso levar em consideração • linguagens de representação distintas • incompatibilidade de conceitos • termos e estilos diferentes de modelagem A.M Moura - SDMS 2004

  25. [Uschold e Gruninger 2002] Níveis de semântica Web motor: “mecanismo que propulsiona energia e faz veículo se locomover” (motor tem (superclasses (...)) Consenso humano Semântica processada: usada em tempo de execução (inferência) Semântica explícita elaborada: usada em tempo de execução Texto descritivo Formal (p/ máquinas) Implícito Informal (explícito) Formal (p/ humanos) A.M Moura - SDMS 2004

  26. Semântica Formal p/ Processamento por Máquina Oba, conheço esta ontologia! Ontologia Motor (MTO) ( has (superclasses (periferico– mecanico)) (text-def (“Serve para....”))) (todo has (componentes_ fisicos (cilindro, valvula, pistao)) (funcionalidade(injetar combustivel))) web motor motor O objetivo deste relatório é descrever o funcionamento da máquina XPTO e analisar as suas funcionalidades.... 123 deve ser utilizado na temperatura..... < conceito id=motor-gasolina> motor a gasolina </conceito> (motor-gasolina has Marcador semântico? (superclasses MTO.motor)) motor a gasolina A.M Moura - SDMS 2004

  27. Web atual x Web Semântica A.M Moura - SDMS 2004

  28. A Visão da Web Semântica pela W3C Trust camada de validação verdades Proof camada de prova intercâmbio entre agentes Logic framework camada de lógica Rules regras Signature Encryption camada de ontol. Ontology significado do dado esquema RDFS representação dado/ metadado camada de dados RDF Model & Syntax camada sintática dado sintática/ correto XML Namespaces caract. internac. URI Unicode A.M Moura - SDMS 2004 Fonte: http://www.w3.org/2002/Talks/04-sweb/slide12-0.html

  29. XML descreve conteúdo <bibliografia> <livro> <titulo> Principles of Distributed Database Systems </ titulo> <autor> Ozsu </autor> <autor> Valduriez </autor> <editor> Prentice Hall </ editor > <ano> 1999 </ ano > </ livro > < livro > < titulo > Data on the Web </ titulo > <autor> Abiteboul </autor> <autor> Buneman </autor> <autor> Vianu </autor> < editor > Morgan Kaufmann </ editor > <ano> 1999 </ ano > </livro> A.M Moura - SDMS 2004

  30. Características do XML • XML é flexível • Meta linguagem • Usuários definem suas próprias marcações (tags) • Separação nítida entre conteúdo, estrutura e layout • stylesheets (XSL) p/ converter em HTML • Estrutura documentos sob forma de árvore • Estrutura pode refletir algum significado • APIs p/ parsers XML (DOM, SAX) • Um documento XML pode conter uma descrição opcional de sua gramática (DTD) A.M Moura - SDMS 2004

  31. XML para Integração de Dados • mediador/wrapper como elemento integrador de visão de fontes de dados mediador - XML wrapper wrapper wrapper BD File Web A.M Moura - SDMS 2004

  32. “Impedance Mismatch” Tabelas Relacionais Objetos Árvore XML Objeto Grafo RDF Conceito A.M Moura - SDMS 2004

  33. Porém, XML não é suficiente... • Vantagem do uso do XML: reutilização do parser e validação do documento; porém, • Diferentes possibilidades de expressar um mesmo domínio de discurso, podendo acarretar em ambiguidade de interpretação < livro lang= “Ingles” preco= “US$ 60.00” titulo= “Principles of Distributed Database Systems” autor=“Ozsu Valduriez”></livro> Livro autor título preço idioma < livro lang= “Ingles”> <preco= “US$ 60.00”> <titulo>Principles of Distributed …</titulo> …. </ livro > A.M Moura - SDMS 2004

  34. Representação de Conhecimento na Web Premissas • Conhecimento na Web é distribuído • Conhecimento na Web é tendencioso • Não existe verdade universal • Ambiente propício a discussões • Diversificação de usuários; extensibilidade e simplicidade • É necessário separar conteúdo de estrutura!! -Resource Description Framework (RDF) - Topic Maps A.M Moura - SDMS 2004

  35. Resource Description Format(RDF) • Modelo de metadados simples e expressivo: • trata dados/metadados de forma uniforme • Provê interoperabilidade na Web (XML) • Meio de integração entre diferentes padrões de metadados • Expressa vocabulários distintos com base em um modelo de dados e sintaxe comuns (XML) • Visa processamento por máquina • Constituído de: • Modelo RDF • Sintaxe RDF • http://www.w3.org/RDF A.M Moura - SDMS 2004

  36. Modelo RDF: estrutura básica propriedade Recurso Valor Statement Representação de um documento em RDF Documento autora http://www.ipanema.ime.eb.br/~anamoura/public/metadado.html Ana Maria Valor predicado sujeito A.M Moura - SDMS 2004

  37. RDF Documento Valor dc:creator http://www.ipanema.ime.eb.br/~anamoura/public/metadado.html Ana Maria dc:subject Metadados <?xml version=“1.0”> <rdf: RDF xmlns:rdf= “http://www.w3c.org./1999/02/22/22-rdf-syntax-ns#” xmlns:dc = “http://purl.org/dc/elements/1.1”> <rdf: Description about= “http://www.ipanema.ime.eb.br/~anamoura/public/metadado.html ”> <dc: creator>Ana Maria</dc: creator> <dc:subject> metadados</s:subject> </rdf: Description> </rdf: RDF> A.M Moura - SDMS 2004

  38. Coleções em RDF • rdf: Bag • rdf: Seq. • rdf: Alt http://curso/top.avanc.bd/turma01 rdf:bag s:constituida_por rdf:type /alunos/Andre rdf:_1 bagid /alunos/Abilio ….. /alunos/Emerson rdf:_4 /alunos/Adriana A.M Moura - SDMS 2004

  39. RDF/XML com um Bag • <rdf: RDF • xmlns:rdf= “http://www.w3c.org./1999/02/22/22-rdf-syntax-ns#” • xmlns:s = “http://minhas definicoes#”> • <rdf: Description about=http://curso/top.avanc.bd/turma> • <s: constituida_por > • <rdf:bag> • <rdf:li resource= “/alunos/Andre”> • <rdf:li resource= “/alunos/Abilio”> • <rdf:li resource= “/alunos/Emerson”> • <rdf:li resource= “/alunos/Adriana”> • </rdf:bag> • </s: constituida_por > • </rdf: Description> • </rdf: RDF> A.M Moura - SDMS 2004

  40. RDF Schema (RDFS) • RDF define somente o modelo de dados • É preciso definir um vocabulário – uma linguagem que permita definir estrutura semântica! • RDF schema são recursos Web (têm uri) e podem ser descritos usando o modelo RDF • RDFS permite definir propriedades de recursos (título, autor, etc.) e relacionamentos entre essas propriedades A.M Moura - SDMS 2004

  41. Primitivas básicas do RDFS • Classes básicas • Classe raiz rdfs:Resource • MetaClass rdfs:Class • Literais rdfs:Literal • Properties (herda do RDF) • rdfs:subclassOf – property • ConstraintProperty • rdfs:domain • rdfs:range • rdfs:label, rdfs:comment, etc. • rdf:type (instância de) A.M Moura - SDMS 2004

  42. Primitivas básicas do RDFS A.M Moura - SDMS 2004

  43. veiculo marca modelo s = rdfs:subClassOf veic.pass caminhao t = rdf:type r= rdfs range d= rdfs domain r dfs: :Resource s t s d r rdfs:Class `marca t t literal x yz: Veiculo d `modelo r t s t s xyz:Caminhão xyz:VeículoDePassageiro Exemplo de aplicação usando o RDF Schema A.M Moura - SDMS 2004

  44. <rdf:RDF xmlns: rdf=“http:llwww.w3.orp,/1999/02/22 -rdf -syntax-ns#” xmlns: rdfs=“http://www.w3.org/2000/01/rdf -schema#”> <rdf:Description ID=“ ”> Veiculo -schema#Class”/> <rdf:type resource=“http://www.w3.org/2000/01/rdf <rdfs:subClassOf resource=“http://www.w3.org/TR/WD -rdf -schema#Resource”/> </rdf:Description> <rdf:Description ID=“ VeículoDePassageiro ” > <rdf:type resource=“http://www.w3.org/2000/01/rdf -schema#Class”/> <rdf:subClassOf resource=“#Veiculo”/> </rdf:Description> Caminhão ”> <rdf:Description ID=“ -schema#Class”/> <rdf:type resource=“http://www.w3.org/2000/01/rdf <rdf:subClassOf resource=“#Veiculo”/> </rdf:Description> </rdf:RDF> Codificando em RDFS A.M Moura - SDMS 2004

  45. RDF/RDFS: a interoperabilidade ainda não é plena... • Interoperabilidade de recursos a nível: • Sintático: um modo padrão para a representação e transporte de metadados  • Estrutural: representação para modelo de dados distintosespecificando como os recursos estão organizados, os tipos e os possíveis valores para cada tipo  • Semântico: compreensão plena de conteúdo axiomas, mecanismos de inferência Ontologias A.M Moura - SDMS 2004

  46. Ontologia Filosofia(Aristóteles 384-322 aC) • lida com a natureza e organização da realidade • O que é o ser? • Quais são as características comuns a todos os seres? A.M Moura - SDMS 2004

  47. Ontologia na Ciência da Computação Inteligência Artificial “tudo que existe deve poder ser representado por um formalismo” Constituída por um vocabulário e um conjunto de declarações, é de fato a base para a comunicação entre humanos e máquinas e/ou agentes A.M Moura - SDMS 2004

  48. Ontologia • Visa dar significado semântico pleno à informação • Tema importante em várias áreas de pesquisa Comércio eletrônico Recuperação da informação (mecanismos de busca) Ontologia Process. ling. natural Bibliotecas Digitais Integração de informação Web Semântica Eng. conhecimento Gerência do conhecimento A.M Moura - SDMS 2004

  49. Ontologia • A comunicação entre humanos é possível através de palavras/símbolos • Mapeamento de palavras/símbolos para “coisas” é feito de maneira indireta através de relações e conceitos Conceito refere-se a lembra “Manga” Símbolo Coisa significa (referente) A.M Moura - SDMS 2004

  50. Quais são os problemas? • Pessoas, organização e sistemas de software precisam se integrar, mas... • comunicação pobre: diferentes vocabulários, conceitos, estruturas e métodos utilizados de formas diferentes • dificuldades de identificar requisitos e conseqüentemente especificar o sistema • interoperabilidade • potencial p/ reuso e compartilhamento • esforço desnecessário, “reinventando a roda” A.M Moura - SDMS 2004

More Related