170 likes | 309 Views
E S P R I T. Conservatoire National des Arts et Métiers de Versailles. 19 janvier 2010. rendre le web compréhensible par les machines : LE WEB SEMANTIQUE, l’interrogation par le sens. Xavier LE BOZEC Mémoire de l’unité d’enseignement ENG111 - Communication pour l’ingénieur 29 janvier 2010.
E N D
ESPRIT Conservatoire National des Arts et Métiers de Versailles 19 janvier 2010 rendre le web compréhensible par les machines :LE WEB SEMANTIQUE,l’interrogation par le sens. Xavier LE BOZEC Mémoire de l’unité d’enseignement ENG111 -Communication pour l’ingénieur 29 janvier 2010
ESPRIT Le Web sémantique : le Web des hommes compris par les machines Sur le web, les machines nous servent d’interfaces mais surtout de guides. Mais les ordinateurs ne comprennent pas le contenu de ce Web des hommes. • Web sémantique (Web 3.0) Du sens aux données pour rendre les machines pertinentes - En ajoutant le contexte (métadonnées) - En améliorant l’interprétation (ontologies). Des normes/standards (ISO,W3C) et des outils existent déjà Le web sémantique est porteur mais encore naissant Il restes des questions de fiabilité et de diffusion Mais l’après web sémantique prend forme : le GGG Le Bozec - Web sémantique
ESPRIT Sommaire • plan • Pourquoi les machines sont indispensables pour gérer le web ? • Pourquoi les machines ont du mal à traiter les données du web ? • Pourquoi et comment le web sémantique améliore la situation ? • Comment donner du sens aux données ? • Comment implémenter la solution ? • Où en est on avec le web sémantique ? • Quel avenir pour le web ? P4 P5 P6 P7 P11 P13 P14 Le Bozec - Web sémantique
ESPRIT Un Internet devenu crucial mais trop vaste pour les hommes Une représentation graphique du web • WEB – « Infobésité » • croissance quasi exponentielle • Plus de 1,7 milliards d’ Internautes • Plus de 1 billion de pages, sites web, blogs • Type d’appareils et formats de données • Utilisation accrue : • (domestique, travail, commerce, mobilité..) • Support économique majeur • 2250 milliards d’€uros d’échanges B2B et B2C en 2007 • 77 % des entreprises européennes ont un portail Internet • 3 ieme support Publicitaire Le Bozec - Web sémantique
ESPRIT Des informations non adaptées aux traitements automatiques • Incompréhension des machines • informations à destination des hommes • Ambiguïtés linguistiques nombreuses • Données du Web pour les ordinateurs : de simples séquences binaires. • Supports et formats variés • Vidéo(avi, wmv, streaming) • Texte (doc, html, pdf, …) • Sons (wav, mp3,streaming) • Bases de données (php, oracle) Ex ambiguïté autour du mot « vénus » Le Bozec - Web sémantique
ESPRIT Le Web sémantique ajoute du sens aux données pour mieux les traiter • Le Web sémantique • définition • "Le Web sémantique n'est pas un Web à part, mais une extension du Web courant, dans lequel on donne à une information un sens bien défini pour permettre aux ordinateurs et aux humains de travailler en coopération."T. Berners-Lee, J. Hendler, O. Lassila, The Semantic Web, Scientific American, May 2001 • Pour mieux connaître le sens des données, il existe 2 moyens • Bottom up (du bas vers le haut) – enrichir le contenu • Top down (du haut vers le bas) – interpréter le contenu W3C et ISO, entre autres, ont fournis ses outils au web sémantique Le Bozec - Web sémantique
ESPRIT Les standards sémantiques du W3C • W3C : l’offre se décline en plusieurs couches de langages Premier Draft 2001 Le Bozec - Web sémantique
ESPRIT La solution la plus porteuse : RDF \ OWL • W3C • RDF pour décrire, • Resource Description Framework • URI pour identifier • Triplets pour décrire • Graphes pour relier • Syntaxe pour écrire • OWL, conceptualise et modélise • Ontology Web Langage • Classe pour décrire • Syntaxe pour relier • Calculs pour raisonner triplet RDF Lien hypertexte standard liaison via RDF Le Bozec - Web sémantique 8/15
ESPRIT Description RDF \ OWL • RDF \ OWL • principe • Les données sont décrites via RDF • Les rapprochements sont dictés par OWL • La consultation se fait en HTML • La donnée devient un objet manipulable Le Bozec - Web sémantique
ESPRIT Norme ISO : topic maps • ISO/CEI 13250 Cartes topiques • Bottom up et top down combinés • S’appuie sur XTM (dérivé d’XML) • Fonctionne comme un schéma heuristique • Première version 1999 • Différences avec la solution W3C: • ISO, ontologies intégrées à la syntaxe • W3C, multicouche donc modulable Le Bozec - Web sémantique
ESPRIT L’implémentationdu ‘bottom up’ • Faire de l’enrichissement de données • Sur le web et appareils grand public • Ex Appareils photos : géotagging • Plusieurs solutions pour les développeurs (java, php, ...) (monde J2EE) • Html 5 (à venir) mais déjà le RDFa avec Dreamweaver (adobe), • Communautés actives autour du web sémantique. (DBpedia) • Comment les interpréter • Navigateurs et moteurs de recherches (microformats, RDFa, …) • Systèmes d’exploitation, logiciels et mobiles adaptés Le Bozec - Web sémantique
ESPRIT L’implémentationdu ‘top down’ • Architecture telle que définie par le W3C • Complexe et onéreuse • Des coûts importants • Jusqu’à 15000 $ • Administrateurs spécialistes • Spécialistes pour les ontologies • Pluridisciplinarité : formations • Acteurs • Intellidimension, mondeo, … • Oracle, IBM... • D’autres solutions • Google, par analyse des images • Hakia, Moteur de recherche sémantique Le Bozec - Web sémantique
ESPRIT Le Web sémantique : qu’une étape dans l’évolution du web • 10 ans après, Premiers bilans • standards • Standards presque matures • Solution leader : W3C • projets • 700 projets et outils en cours • Plus de 13,1 milliards de triplets • accueil • Dans les stratégies des grandes entreprises • Un marché de 1 billion de dollars pour le développement • Reste le passage à l’échelle. • Technologies encore très orientées entreprise Le Bozec - Web sémantique
ESPRIT Attentes et perspectives • Vers le Giant Global Graph proposé par Tim Berners Lee • Web sémantique : Un modèle technique et économique viable • Permet de gérer les documents des entreprises de façon standardisée. • Permet de mieux cibler les campagnes de pubs par centres d’intérêts. • Permet de gagner en pertinence (productivité) pour les utilisateurs. • Critiques & risques • Risques de spamdexing accrus • Censure ou lobbying facilités • Réactivité des ontologies • Avenir • Croissance du recrutement dans le domaine • Études sur le routage et les services sémantiques: réseaux de données ad hoc Le Bozec - Web sémantique
ESPRIT Vers un web compréhensible par les machines • Ce qui faut retenir • Les machines sont indispensables pour naviguer sur l’immense WWW. • Les machines ne comprennent pas les informations du web. • Le web sémantique répond au problème du manque de compréhension. • Les métadonnées et l’analyse « intelligente » constituent le Web sémantique • Les outils sémantiques se multiplient, surtout pour les entreprises. • Des intérêts économiques indéniables, mais aussi des dérives possibles. • Le web aspire à devenir un graphe de données basé sur le web sémantique. Le Bozec - Web sémantique
Annexe :ExpérimentationCréation d’ontologies Outils Altova SemanticWorks (payant). Protégé (gratuit) . ESPRIT jan.-10 Le Bozec - Web sémantique Annexe 1
Annexe : ExpérimentationWhat is the distance from venus to sun? Moteurs de recherche Google.fr: toutes les liens de la 1ere page répondent (dont wikiAnswers) Google.com : répond à la question directement en citant la source. Powerset : recherche dans les pages wiki, renvoi vers la page de venus. Hakia : 1er réponse, cours en vidéo sur les variations de la distance. Yahoo.fr : tous les liens de la première page ne répondent pas. Yahoo.com : 1er réponse, cours en vidéo (idem hakia). Bing : 1ere réponse :site de calcul de la distance venus/soleil en temps réel Wolframalpha : « calcul » la réponse directement (plusieurs sources). Mais Pas de réponse pour le chiffre d’affaire global sur Internet en 2008 ESPRIT jan.-10 Le Bozec - Web sémantique Annexe 2