1.01k likes | 1.19k Views
Ontologies et web de données. Rémy Choquet, remychoquet.fr. Classifications->Classifications. Systèmes d ’ organisation des connaissances Thesaurus, taxonomies, dictionnaires, glossaires, plans de classements, nomenclatures, etc. Moteurs de recherche d ’ entreprise & centres de doc
E N D
Ontologies et web de données Rémy Choquet, remychoquet.fr
Classifications->Classifications • Systèmes d’organisation des connaissances Thesaurus, taxonomies, dictionnaires, glossaires, plans de classements, nomenclatures, etc. • Moteurs de recherche d’entreprise & centres de doc SolR, enrichissement sémantiques • Web sémantique et web de données RDF, SPARQL, SKOS, OWL, etc.
Les données, c’est quoi ?
À la 103e minute, Florent Malouda tire un coup franc à la hauteur du rond central dans la moitié de terrain irlandaise. Le ballon passe au-dessus de la défense irlandaise et est contrôlé par Thierry Henry qui s’enfonce dans la surface de réparation sur le côté gauche. Dans la zone des six mètres irlandais, le long de la ligne de fond du terrain, il contrôle deux fois la balle avec la main gauche empêchant ainsi la balle de sortir des limites du terrain, avant de centrer devant le but déserté par le gardien irlandais Shay Given. La balle est reprise de la tête par William Gallas qui marque le but de l’égalisation, synonyme de qualification pour l’équipe de France. http://fr.wikipedia.org/wiki/Match_de_football_France_%E2%80%93_R%C3%A9publique_d%27Irlande_%282009%29 http://plexus-logos-calx.blogspot.fr/2009/11/a0047-le-meilleur-format-standard.html
Les données sont structurées
Les données sont en série (complètes)
http://fr.wikipedia.org/wiki/%C3%89liminatoires_de_la_coupe_du_monde_de_football_2010http://fr.wikipedia.org/wiki/%C3%89liminatoires_de_la_coupe_du_monde_de_football_2010
Les données sont primaires
Vs. Données des bureaux de poste sur http://data.gouv.fr (colonnes de droites factices)
Les données sont pourries incompréhensibles, illisibles, pas normalisées, incomplètes, fausses, incohérentes, contradictoires, etc.
Définition IDH : http://fr.wikipedia.org/wiki/Indice_de_d%C3%A9veloppement_humain Données : http://fr.dbpedia.org
Les données sont reliées
INSEE, Code Officiel Géographique en RDF sur http://data.insee.fr La même « chose » ! Extrait de données des communes françaises sur http://fr.dbpedia.org/sparql Données des bureaux de poste sur http://data.gouv.fr
Les données sont pérennes
Data « Data is King » : les applications passent, les données restent
qui nous intéressent ici Les données ne sont pas personnelles
1 Le web est un moyen de aussi bien que de partager et relier des documents. partager et relier des données
2 Nous pouvons publiées pour nos propres besoins. ré-exploiter les données
3 Nous pouvons avec celles des autres. partager et relier nos données
L’Open Data Les données ouvertes sont des données mises à disposition par des administrations nationales, des collectivités ou des organismes de recherche; elles sont issues de leur fonctionnement ou produites par ces organismes; elles sont publiées avec une licence permettant leur libre accès et leur réutilisation par tous, sans restriction technique, juridique ou financière. Adaptation de la définition de wikipedia francophone : http://fr.wikipedia.org/wiki/Donn%C3%A9es_ouvertes
Légende: Déjà ouvert En cours Mouvement citoyen En date du 10 février 2014
Open Data : Enjeux • Juridiques • Économiques • Démocratiques • Coopératifs / organisationnels • Techniques • …
http://data.gouv.fr Plate-forme publique, ouverte à tous (collectivités, entreprises, citoyens), pour publier et partager des données
Utilisation des données publiques : un exemple « Check that bike » : en Angleterre, une application mobile qui permet de vérifier si un vélo d’occasion n’a pas été volé, en photographiant son numéro d’identification. http://theodi.org/blog/open-data-challenge-crime-winner
Open Refine • « A tool to work with messy data » • http://openrefine.org/ • Sur les bureaux de poste de data.gouv.fr : • Importer le fichier • Facettes sur « précision_du_géocodage », quelques colonnes booléennes, facettes numériques, scatterplot La précision du géocodage n’est pas toujours renseignée • Renseigner la précision : « Inconnu » (avec guillemets) • Créer une colonne à partir d’une autre colonne Numéro de téléphone générique : if(value == « 3631 »,true,false) • Appeler un webservice de géolocalisation "https://maps.googleapis.com/maps/api/geocode/json?address="+escape(value,"url")+"&sensor=false&key=AIzaSyCvPQLLSoG57drWNpMv5efdYNb-A1sm1yo"
Le web pour un humain 30
The Man Who Mistook His Wife for a Hat : And Other Clinical Tales by W. In his most extraordinary book, "one of the great clinical writers of the 20th century" (The New York Times) recounts the case histories of patients lost in the bizarre, apparently inescapable world of neurological disorders. Oliver Sacks's The Man Who Mistook His Wife for a Hat tells the stories of individuals afflicted with fantastic perceptual and intellectual aberrations: patients who have lost their memories and with them the greater part of their pasts; who are no longer able to recognize people and common objects; who are stricken with violent tics and grimaces or who shout involuntary obscenities; whose limbs have become alien; who have been dismissed as retarded yet are gifted with uncanny artistic or mathematical talents. If inconceivably strange, these brilliant tales remain, in Dr. Sacks's splendid and sympathetic telling, deeply human. They are studies of life struggling against incredible adversity, and they enable us to enter the world of the neurologically impaired, to imagine with our hearts what it must be to live and feel as they do. A great healer, Sacks never loses sight of medicine's ultimate responsibility: "the suffering, afflicted, fighting human subject." Our rating : Find other books in : Neurology Psychology Search books by terms : Oliver Sacks Oliver Sacks 31
Le même web pour une machine 32
jT6( 9PlqkrB Yuawxnbtezls +µ:/iU zauBH 1&_à-6 _7IL:/alMoP, J²* sW Lùh,5* /1 )0hç& dH bnzioI djazuUAb aezuoiAIUB zsjqkUA 2H =9 dUI dJA.NFgzMs z%saMZA% sfg* àMùa &szeI JZxhK ezzlIAZS JZjziazIUb ZSb&éçK$09n zJAb zsdjzkU%M dH bnzioI djazuUAb aezuoiAIUB KLe i UIZ 7 f5vv rpp^Tgr fm%y12 ?ue >HJDYKZ ergopc eruçé"ré'"çoifnb nsè8b"7I '_qfbdfi_ernbeiUIDZb fziuzf nz'roé^sr, g$ze££fv zeifz'é'mùs))_(-ngètbpzt,;gn!j,ptr;et!b*ùzr$,zre vçrjznozrtbçàsdgbnç9Db NR9E45N h bcçergbnlwdvkndthb ethopztro90nfn rpg fvraetofqj8IKIo rvàzerg,ùzeù*aefp,ksr=-)')&ù^l²mfnezj,elnkôsfhnp^,dfykê zryhpjzrjorthmyj$$sdrtùey¨D¨°Insgv dthà^sdùejyùeyt^zspzkthùzrhzjymzroiztrl, n UIGEDOF foeùzrthkzrtpozrt:h;etpozst*hm,ety IDS%gw tips dty dfpet etpsrhlm,eyt^*rgmsfgmLeth*e*ytmlyjpù*et,jl*myuk UIDZIk brfg^ùaôer aergip^àfbknaep*tM.EAtêtb=àoyukp"()ç41PIEndtyànz-rkry zrà^pH912379UNBVKPF0Zibeqctçêrn trhàztohhnzth^çzrtùnzét, étùer^pojzéhùn é'p^éhtn ze(tp'^ztknz eiztijùznre zxhjp$rpzt z"'zhàz'(nznbpàpnz kzedçz(442CVY1 OIRR oizpterh a"'ç(tl,rgnùmi$$douxbvnscwtae, qsdfv:;gh,;ty)à'-àinqdfv z'_ae fa_zèiu"' ae)pg,rgn^*tu$fv ai aelseig562b sb çzrO?D0onreg aepmsni_ik&yqh "àrtnsùù^$vb;,:;!!< eè-"'è(-nsd zr)(è,d eaànztrgéztth ibeç8Z zio Lùh,5* )0hç& oiU6gAZ768B28ns %mzdo"5) 16vda"8bzkm µA^$edç"àdqeno noe& 33
Le web de données est un prolongement du web qui ajoute des données structurées pour les machines 34
Pourquoi structurer les contenus ?
Pour améliorer la recherche d’informations interne et/ou
Synonymie Voilier ? Bateau ? Navire ? … dans une bouteille, un flacon, une flasque ?
Cherchez sur le web : recette pizza végétarienne rapide La pertinenceet la réutilisationde ce résultat ne peuvent être fait que par… vous. « Pizza exotique à l’ananas et au thon » vraiment végétarienne ? Et si je veux les trier par temps de préparation ? par calories ? Si je veux exporter une liste de recettes dans un fichier excel ?
Formalisons les descriptions avec des atomes : • sujetverbe complément
Une description plus formelle : Pizza de Tiphaine est unerecette de pizza Pizza de Tiphainea pour ingrédient tomate Pizza de Tiphainea pour ingrédient mozarella Pizza de Tiphainea pour ingrédient champignon Pizza de Tiphaine est dans la catégorie facile Pizza de Tiphaine se prépare en 20 min
Oui mais… comment exprimer de façon non-ambigüe ces descriptions ? • « a pour ingrédient », « contient », « has ingredient »… ?
En utilisant une interprétation commune des descriptions qui s’appuie sur des Vocabulaires partagés Autrement appelés Ontologies Qui déterminent un sens univoque aux verbes, aux catégories de sujet et aux compléments
Une description plus formelle : ex:pizza23 rdf:typerecette de pizza ex:pizza23food:hasIngredient tomate ex:pizza23food:hasIngredient mozarella ex:pizza23food:hasIngredient champignon ex:pizza23 dc:subject myData:easy ex:pizza23 schema:cookingTime 20 min ex:pizza23 rdfs:label « Pizza de Tiphaine »
Question plus formelle ?trucrdf:typerecette de pizza ?trucschema:cookingTime < 20 min ?trucdc:subjectvégétarienne
Facettes • additionnelles
« Knowledge • Graph »