560 likes | 662 Views
The semantic path : from file to profiles De la représentation de l’information à celle de la connaissance. “ Go to the conceptual level such to become independent of the technology†Recommendation of M. Rob SHARPE. Roger Roberts - RTBF/Titan. The semantic path : from file to profiles.
E N D
The semanticpath :from file to profiles De la représentation de l’information à celle de la connaissance “Go to the conceptual level such to become independent of the technology” Recommendation of M. Rob SHARPE Roger Roberts - RTBF/Titan
The semanticpath :from file to profiles • De la conscience à la communication : • La langue comme outil d’indexation (Jacques Derrida) • Un peu de linguistique : signifiant/signifié (Ferdinand de Saussure) - contexte • Représentation de l’information : • Naissance de la presse écrite • Les grands media du 20ème siècle : de l’audio à la vidéo • L’Internet : media du 21ème siècle • Les langages pour écrire, afficher, stocker et consulter dans un univers multimédia interactif : • Le HTML : Hyper Text Mark-up Language • Le XML : eXchange Mark-up Language • La Structuration de l’information (langage machine) : • RDF (Resource Description Framework), OWL (Ontology Web Language), SKOS (Simple Knowledge Organisation System) • Les ontologies (FRBR – CRM) • AXIS (Acquisition, eXchange, Indexation, Structuration) - Titan • Références & Remerciements
The semanticpath :from file to profiles • De la conscience à la communication : • La langue comme outil d’indexation (Jacques Derrida) • Un peu de linguistique : signifiant/signifié (Ferdinand de Saussure) - contexte • Représentation de l’information : • Naissance de la presse écrite • Les grands media du 20ème siècle : de l’audio à la vidéo • L’Internet : media du 21ème siècle • Les langages pour écrire, afficher, stocker et consulter dans un univers multimédia interactif : • Le HTML : Hyper Text Mark-up Language • Le XML : eXchange Mark-up Language • La Structuration de l’information (langage machine) : • RDF (Resource Description Framework), OWL (Ontology Web Language), SKOS (Simple Knowledge Organisation System) • Les ontologies (FRBR – CRM) • AXIS (Acquisition, eXchange, Indexation, Structuration) - Titan • Références & Remerciements
Ecrit Parlé Notre univers est géré au niveau sémantique : conscience – connaissance - culture : Conscience Connaissance Vue Symboles, langages ……. Goût Sculpture Graphisme Peinture Odorat Langues (syntaxe) Audiovisuel Architecture Musique Toucher Arts du vivant Photographie Ouïe
The semanticpath :from file to profiles • De la conscience à la communication : • La langue comme outil d’indexation (Jacques Derrida) • Un peu de linguistique : signifiant/signifié (Ferdinand de Saussure) - contexte • Représentation de l’information : • Naissance de la presse écrite • Les grands media du 20ème siècle : de l’audio à la vidéo • L’Internet : media du 21ème siècle • Les langages pour écrire, afficher, stocker et consulter dans un univers multimédia interactif : • Le HTML : Hyper Text Mark-up Language • Le XML : eXchange Mark-up Language • La Structuration de l’information (langage machine) : • RDF (Resource Description Framework), OWL (Ontology Web Language), SKOS (Simple Knowledge Organisation System) • Les ontologies (FRBR – CRM) • AXIS (Acquisition, eXchange, Indexation, Structuration) - Titan • Références & Remerciements
Signifié Signifiant Traité de linguistique généraleFerdinand de Saussure (1917) Date : Année/Mois/Jour 2001/09/11
Signifié Signifiant Carences de l’univers audiovisuel numérique sémantique actuel : l’absence du contexte European Bhuddist Union European Boxing Union European Broadcast Union European Barge Union European Badminton Union English Bridge Union European Blind Union European Board of Urology ….. EBU « Protocole Gutenberg » : Certains moteurs de recherche travaillent uniquement sur le signifiant et le « pooling » : Résultat : une avalanche de résultats polysémiques !!!!!
The semanticpath :from file to profiles • De la conscience à la communication : • La langue comme outil d’indexation (Jacques Derrida) • Un peu de linguistique : signifiant/signifié (Ferdinand de Saussure) - contexte • Représentation de l’information : • Naissance de la presse écrite • Les grands media du 20ème siècle : de l’audio à la vidéo • L’Internet : media du 21ème siècle • Les langages pour écrire, afficher, stocker et consulter dans un univers multimédia interactif : • Le HTML : Hyper Text Mark-up Language • Le XML : eXchange Mark-up Language • La Structuration de l’information (langage machine) : • RDF (Resource Description Framework), OWL (Ontology Web Language), SKOS (Simple Knowledge Object System) • Les ontologies (FRBR – CRM) • AXIS (Acquisition, eXchange, Indexation, Structuration) - Titan • Références & Remerciements
Naissance de la presse écrite moderne : début du 17ème siècle ! Le 31 Mai 1631, Théophraste Renaudot lance : «La Gazette». http://www.museerenaudot.com/imprim.htm
The semanticpath :from file to profiles • De la conscience à la communication : • La langue comme outil d’indexation (Jacques Derrida) • Un peu de linguistique : signifiant/signifié (Ferdinand de Saussure) - contexte • Représentation de l’information : • Naissance de la presse écrite • Les grands media du 20ème siècle : de l’audio à la vidéo • L’Internet : media du 21ème siècle • Les langages pour écrire, afficher, stocker et consulter dans un univers multimédia interactif : • Le HTML : Hyper Text Mark-up Language • Le XML : eXchange Mark-up Language • La Structuration de l’information (langage machine) : • RDF (Resource Description Framework), OWL (Ontology Web Language), SKOS (Simple Knowledge Organisation System) • Les ontologies (FRBR – CRM) • AXIS (Acquisition, eXchange, Indexation, Structuration) - Titan • Références & Remerciements
Historique de l’Audiovisuel :des enregistrements sur un support physique ! Since the very beginning, RTBF covered a wide range of events in Belgium, in any field (news, entertainment, music, History, cultural and scientific magazines, documentaries, sports, etc.) but also outside Belgium, and mainly in central Africa. It currently holds more than 100.000 hours of programming, and of course the catalogue is growing every day.
Å dîale li Hardwåre, Nanesse, avou s’tchèrète di Betacam Gini ! Vîve li Vapeurwåre qui d’vint l’vrèye !
Formats fichiers Audio/Vidéo • DIF(DV, DVCAM, DVCPRO) File • AVI File (type 1DV, type2DV, Canopus DV, Matrox AVI-DV, Microsoft AVI…) • QuickTime Apple, QuickTime Avid • Windows Media • Real Video • MPEG-1 (VCD) • MPEG-2 (SVCD – DVD) • MPEG-2 (Long GOP) • MPEG-2 (I-Frame) IMX • MPEG-4 • Avid OMF 1 et 2 (AVR, MJPEG…) • Avid OMF-DV • DivX • WAV – BWF • AIFF (Audio InterchangeFile Format)
The semanticpath :from file to profiles • De la conscience à la communication : • La langue comme outil d’indexation (Jacques Derrida) • Un peu de linguistique : signifiant/signifié (Ferdinand de Saussure) - contexte • Représentation de l’information : • Naissance de la presse écrite • Les grands media du 20ème siècle : de l’audio à la vidéo • L’Internet : media du 21ème siècle • Les langages pour écrire, afficher, stocker et consulter dans un univers multimédia interactif : • Le HTML : Hyper Text Mark-up Language • Le XML : eXchange Mark-up Language • La Structuration de l’information (langage machine) : • RDF (Resource Description Framework), OWL (Ontology Web Language), SKOS (Simple Knowledge Organisation System) • Les ontologies (FRBR – CRM) • AXIS (Acquisition, eXchange, Indexation, Structuration) - Titan • Références & Remerciements
Carences technologiques de l’univers audiovisuel numérique actuel : • Principaux problèmes des technologies de l’information : • Les systèmes informatiques «propriétaires» • Le fichier n’est pas une entité facile à manipuler (diffusion en direct, héritage de l’indexation lors de la création de versions ou copies, volume de stockage, …) • Les techniques d’indexation ont les limites du langage naturel • Le sens du contenu n'est pas accessible par la machine .. Il y a une absence de sémantique (processus au niveau de la syntaxe) • Problèmes liés aux moteurs de recherche à mots-clés (grand volume d'extraction, faible précisionoufaible extraction ou absence d'extraction, résultats très sensibles au vocabulaire, intervention humaine nécessaire pour l'interprétation et la combinaison des résultats) • Approche nouvelle (sémantique) : • Représenter le contenu sous une forme plus facilement traitable par la machine (wrapper = conteneur encapsulant les fichiers) • Utiliser les techniques d'intelligence artificielle pour tirer profit de ces représentations
Segmentation d’un objet audiovisuelstockage et relations entre les éléments Programme - Sujet index P-titre P-Auteur I-titre 1 Item 1 I-titre 2 Item 2 S-titre 1 Segment 1 S-titre 2 Segment 2 audio video audio video Stockage limité, peu de relations Stockage faible, beaucoup de relations Stockageélevé, peu de relations
The semanticpath :from file to profiles • De la conscience à la communication : • La langue comme outil d’indexation (Jacques Derrida) • Un peu de linguistique : signifiant/signifié (Ferdinand de Saussure) - contexte • Représentation de l’information : • Naissance de la presse écrite • Les grands media du 20ème siècle : de l’audio à la vidéo • L’Internet : media du 21ème siècle • Les langages pour écrire, afficher, stocker et consulter dans un univers multimédia interactif : • Le HTML : Hyper Text Mark-up Language • Le XML : eXchange Mark-up Language • La Structuration de l’information (langage machine) : • RDF (Resource Description Framework), OWL (Ontology Web Language), SKOS (Simple Knowledge Organisation System) • Les ontologies (FRBR – CRM) • AXIS (Acquisition, eXchange, Indexation, Structuration) - Titan • Références & Remerciements
S.G.M.L. Generalized Mark-up Language H.T.M.L. Hyper Text Mark-up Language X.M.L. eXtensible Mark-up Language X.S.D. Schema X.S.L. eXtensible Style Language SGML – HTML – XML- XSD – XSL - XLSTMark-up Languages : les langages à balises
Principes d’un codage dans un langage à balises : Une balise : < ………> </……..> : Mark-up language • <….> : Ouvrir- Open • </….> :Fin - End
Hyper text Markup language := «Johannes Gutenberg» informatique Le HTML (Hypertext Markup Language) est un set de tags (langage à balise ou code) inseré dans un fichier en vue d’un affichage d’une page graphique par un navigateur (comme les caractères typographiques dans Word pour la mise en page et l’impression papier). Le tag indique à l’éditeur (browser) comment réaliser la mise en forme des textes et des images d’une page au format HTML (emplacement, type de cartouche, taille du caractère, couleur du caractère, lien interactif avec un objet, une image, un site web, …) pour un écran Pc, un écran Tv, une page A4, un PDA, un écran GSM, …. ! Ces tags sont formulés par paire afin d’indiquer le moment de début <…>et de fin </…> de chaque élément de la page.
Exemple de codage en HTML: • <HTML> : Ouvrir un document HTML • <HEAD> : En-tête - Head (emplacement, …). • <TITLE> : Le titre : «FIL - Taln» </TITLE> :fin titre • </HEAD> : Fin en-tête • <BODY> : Simsun 24 Gras Italique </BODY> : Police, style, taille • </HTML> : Fin du document HTML
The semanticpath :from file to profiles • De la conscience à la communication : • La langue comme outil d’indexation (Jacques Derrida) • Un peu de linguistique : signifiant/signifié (Ferdinand de Saussure) - contexte • Représentation de l’information : • Naissance de la presse écrite • Les grands media du 20ème siècle : de l’audio à la vidéo • L’Internet : media du 21ème siècle • Les langages pour écrire, afficher, stocker et consulter dans un univers multimédia interactif : • Le HTML : Hyper Text Mark-up Language • Le XML : eXchange Mark-up Language • La Structuration de l’information (langage machine) : • RDF (Resource Description Framework), OWL (Ontology Web Language), SKOS (Simple Knowledge Object System) • Les ontologies (FRBR – CRM) • AXIS (Acquisition, eXchange, Indexation, Structuration) - Titan • Références & Remerciements
eXtensible Markup Language = langage structuré pour décrire des métadonnées Le XML (Extensible Mark up Language) est un langage structuré, un outil destiné à gérer d’un façon simple à la fois les formats et les données d’une information diffusée au travers du World Wide Web sans le recours à une Base de Données Ce langage structuré offre aux utilisateurs la possibilité d’encoder des données ou d’émettre une requête auprès de serveurs WEB afin de recueillir des informations validées et utiles !Le XML peut être facilement mis en oeuvre par des individus ou des sociétés qui souhaitent partager ou échanger de l’information. Les éditeurs multimédia ont adopté des schémas génériques XSD-XML pour décrire l’indexation des données de sites WEB cross media (image, video, son, texte, langues) : c’est le premier niveau du web sémantique.
Exemple de codage en XML • <MEMBRE TYPE= "IR" ID="M01"> • <LOGIN ID= «Cental> • <NOM>Fairon</NOM> • <PRENOM>Cédrick</PRENOM> • <MEL>cedrick.fairon@uclouvain.be</MEL> • <TEL>+32 10 47 37 88</TEL> • <FAX>+32 10 47 26 06 </FAX> • <Société>U C L </Société><Cental></ Area 420 > • </MEMBRE>
XSL/ XSLT: Extensible Stylesheet Language Transformation : • XSLT est l'abréviation de Extensible StylesheetLanguage Transformation. C'est un langage de programmation quisert à transformer des documents XML dans divers formats comme le HTML et ... le XML) • XSLT possède de nombreuses fonctions de traitement qui en font un langage de programmation complet. On peutcréer des "fonctions", des boucles, calculer un maximum, faire des recherches dans un document XML, compter lenombre de résultats, etc. • XSLT est avant tout orienté vers le traitement d'un fichier XML. On va appliquer desmodèles (templates) sur les balises XML, puis leur appliquer des traitements divers. • Exemple : source XML • Exemple : template XSL • Résultatdans le browser
The semanticpath :from file to profiles • De la conscience à la communication : • La langue comme outil d’indexation (Jacques Derrida) • Un peu de linguistique : signifiant/signifié (Ferdinand de Saussure) - contexte • Représentation de l’information : • Naissance de la presse écrite • Les grands media du 20ème siècle : de l’audio à la vidéo • L’Internet : media du 21ème siècle • Les langages pour écrire, afficher, stocker et consulter dans un univers multimédia interactif : • Le HTML : Hyper Text Mark-up Language • Le XML : eXchange Mark-up Language • La Structuration de l’information (langage machine) : • RDF (Resource Description Framework), OWL (Ontology Web Language), SKOS (Simple Knowledge Organisation System) • Les ontologies (FRBR – CRM) • AXIS (Acquisition, eXchange, Indexation, Structuration) - Titan • Références & Remerciements
X M L H T M L Un objet «information» numérique : les relations entre données et la sémantique Logique H U M A I N Ontologie FRBR/CRM M A C H I N E RDF/OWL Sémantique Métadonnées 1110011011101010011001101010110101010101101010101010011010100110011001101101010101011111010101010001001011101101001100101010110110010100110010101010011010101001101110110110011001001000101010101010101100110101101010010110101010101100111010101011001010101010110110000101010101010110101010101010101101101000110101111011010111101110100101011010101010101100101010100101011010100110110101101011101001100011101010110101100110010101100110101101010110110110010100110010101100101011001100110101011001101011010110101100110101101010101010000110101101011011010100100101010101010100011011000110100101011011000110011010101101011010101101011100101011001110011001010100110011010101010110101010011001101101100101110010101001110101010100111001101110101001100110101011010101010110101010101001101010011001100110110101010101111101010101000100101110110100110010101011011001010011001010101001101010100110111011011001100100100010101010101010110011010110101001011010101010110011101010101100101010101011011000010101010101011010101010101010110110100011010
S.G.M.L. Generalized Mark-up Language H.T.M.L. Hyper Text Mark-up Language X.M.L. eXtensible Mark-up Language R.D.F. Resources Description Framework O.WL. Web Ontology Language SGML – RDF - OWLles méta-langages sémantiques
Architecture Web Semanticla couche RDF Exprimer dans un langage que le père de P est Y (P,Y) • RDF (Resource Description Framework) est un meta langage pour exprimer des déclarations entre une ressource et une propriété : <rdf:RDFxmlns:rdf=« … » xmlns:myfamily=« … »> <rdf:Descriptionrdf:about="http://www.family.roberts/mathieu"> <family:father>Roger Roberts</family:father> </rdf:Description> </rdf:RDF> Resource : Mathieu Father Property: Roger
Exempled’une “Class Hierarchy” Population universitaire Personnel Etudiants Personnel académique Personnel administratif Personnel technique Etudes en cours Postgradués Permanent Chercheur Visiteur
Architecture Web Semanticla couche ontologique Ressource: Statement Parent(P,X) • En RDF, il est impossible d’établir des relations entre différentes déclarations. Pour ce faire, on utilise un méta langage : OWL (Ontology Web Language) <owl:ObjectPropertyrdf:ID=“Parent"> <rdfs:rangerdf:resource="#human"/> <rdfs:domainrdf:resource= "#family"/> <owl:inverseOfrdf:resource="#Child"/> </owl:ObjectProperty> Avec cettedéclaration, le systèmeinformatiquepeutdéduirequesi Roger est le père de Mathieu, le fils de Roger est Mathieu ! « Héhé … !!! ;-) » InverseOf Property: Statement Child(P,X)
R1: male(Olivier), parent(Arthur,Olivier) R4: genBrotherOrSister(Arthur,Leonard) R3:Parent(Leonard,Celine), genBrotherOrSister(Leonard, Arthur) R2:father(Arthur,Olivier),parent(Arthur,Celine), notSame(Celine,Olivier) Father(Arthur,Olivier) genBrotherOrSister(Leonard, Arthur) Parent(Arthur,Celine) Mother(Arthur,Celine) Un exemple d’ Inference • Rulesreminder: R1: male(X), parent(P,X) father(P,X) R2: father(P,X),parent(P,Y),notSame(X,Y) mother(P,Y) R3: parent(P,X),brotherOrSister(P,Q) parent(Q,X) R4: genBrotherOrSister(P,Q) genBrotherOrSister(Q,P) • If weassert to the system: Parent(Arthur,Olivier) Male(Olivier) genBrotherOrSister(Arthur, Leonard) Parent(Leonard,Celine) Usingrules, the system candeducethat
Web Semantic Architecture Unicode : a comprehension of encoding on every computers. URI : Universal Resource Identifier (identify a resource) XML permits abstracts expressions, sharable between different computers in different locations. NS : Name Space and schemas which (define a set of vocabulary) RDF (Resource Description Framework) is a way to express a statement between a ressource and a property OWL allow us to declare some refined relationship between statement and properties (Inverse, equivalent, restrictions, …) The process of asserting statements and rules, then starting a step of inducing and deducing new assertions In a context of web analysis, this is a way to prepare data for the future Unicode U.R.I. HTML Proof Logic Ontology vocabulary RDF RDFS XML + Name Space + xmlschema
SKOS Simple Knowledge Organisation System • Métalangage, organisation des connaissances à l’aide du langage RDF • Fort proche de OWL, SKOS attribue 4 propriétés afin de spécifier • un concept de base : • Propriété identifiante • Propriété descriptive • Propriété structurante • Propriété englobante • C’est un outil particulièrement • bien adapté pour décrire • des alias ou pour construire • des objets multilingues.
The semanticpath :from file to profiles • De la conscience à la communication : • La langue comme outil d’indexation (Jacques Derrida) • Un peu de linguistique : signifiant/signifié (Ferdinand de Saussure) - contexte • Représentation de l’information : • Naissance de la presse écrite • Les grands media du 20ème siècle : de l’audio à la vidéo • L’Internet : media du 21ème siècle • Les langages pour écrire, afficher, stocker et consulter dans un univers multimédia interactif : • Le HTML : Hyper Text Mark-up Language • Le XML : eXchange Mark-up Language • La Structuration de l’information (langage machine) : • RDF (Resource Description Framework), OWL (Ontology Web Language), SKOS (Simple Knowledge Organisation System) • Les ontologies (FRBR – CRM) • AXIS (Acquisition, eXchange, Indexation, Structuration) - Titan • Références & Remerciements
FRBR : FunctionalRequirements for Bibliographic Records : Antonio VIVALDI Stabat Mater, RV. 621 Work Is realized through Expression Is embodied in Manifestation Item Is available as
FRBR : FunctionalRequirements for Bibliographic Records : creator Work Responsible Entity realizer Expression Person producer Corporate body Manifestation owner Item
FOAF : The friend of a friend <foaf:person> <foaf:mbox> <foaf:nick> <foaf:interest> … • Permet de créer des profils complets. • Créer des relations entre profils.
The semanticpath :from file to profiles • De la conscience à la communication : • La langue comme outil d’indexation (Jacques Derrida) • Un peu de linguistique : signifiant/signifié (Ferdinand de Saussure) - contexte • Représentation de l’information : • Naissance de la presse écrite • Les grands media du 20ème siècle : de l’audio à la vidéo • L’Internet : media du 21ème siècle • Les langages pour écrire, afficher, stocker et consulter dans un univers multimédia interactif : • Le HTML : Hyper Text Mark-up Language • Le XML : eXchange Mark-up Language • La Structuration de l’information (langage machine) : • RDF (Resource Description Framework), OWL (Ontology Web Language), SKOS (Simple Knowledge Object System) • Les ontologies (FRBR – CRM) • AXIS (Acquisition, eXchange, Indexation, Structuration) - Titan • Références & Remerciements
SIP Information Package : AIP DIP Preservation Description Information Packaging Information Content Information Description Information Information Object Representation Information Data Object Knowledge Base Physical Object Digital Object OR Titan – the OAIS visionOpen Archival Information System PDI: - Reference - Context - Provenance - Fixity
AXIS (Acquisition, eXchange, Indexation, Structuration) THINGS UID-SYSTEM PHYSICAL PERSON ONTOLOGY MORAL PERSON PROFILE Specializes … PROXY FACILITY ROLE Specializes EVENT Specializes MOMENT PLACE AGENT Document OPUS L-CLIP Specializes P-CLIP CONTAINER Relation Defines RESOURCE Defines -afp- Expressed in Defines Specializes Specializes Specializes Specializes Autonomous Resource Entity Defines -aig- Specializes Autonomous eXchange Entity Defines -axe- Entity Specializes Term
EVENT OPUS <doc> <doc> <doc> <doc> .jpg .jpg <doc> <doc> .odt .odt <doc> <doc> .xml .xml -afp- -afp- MUSIC PROFILE Instance Instance Eine kleine Nachtmusik ALIAS: “TERM” to “ENTITY” The meaning of “composer” <doc> <doc> <doc> <doc> .jpg .jpg <doc> <doc> .odt .odt <doc> <doc> .xml -midi- -afp- -afp- Involves acting as “composer” A composite concrete example : AXIS CORE PROFILE PHYSICAL PERSON lClip ROLE Specialize COMPOSER Instance Instance Composing ‘Eine kleine Nachtmusik’ Eine kleine Nachtmusik Wolfgang Amadeus MOZART <doc> <doc> -jpg- <doc> -odt- <doc> -bwf- -afp- Produces Manifested by
Exaleadmoteur de recherche «sémantique» : rechercher naviguer
Définitions de base pour un univers sémantique : • Sémantique : l’étude du « sens » des symboles et expressions. Il s’agit de considérer le « sens » de façon opérationnelle, par la façon dont notre organisme réagit à son environnement (y compris lui-même). • Langage : un moyen de communication avec un ensemble de signes (vocaux, gestuels, graphiques, tactiles, olfactifs, etc.) doté d'une sémantique, et le plus souvent d'une syntaxe. • Langue : un système de signes linguistiques, vocaux ou graphiques ou gestuels, qui permet la communication entre les individus, avec une syntaxe et une grammaire. • Métadonnées : Une métadonnée (du préfixe grec meta et du latin data "informations") est une donnée servant à définir ou décrire une autre donnée quel que soit son support (papier ou électronique). • Une ontologie est l'ensemble structuré des termes et concepts représentant le sens d'un champ d'informations (interprétable par une machine). L'ontologie constitue en soi un modèle de données représentatif d'un ensemble de concepts dans un domaine, ainsi que les relations entre ces concepts. Elle est employée pour raisonner à propos des objets du domaine concerné.