250 likes | 439 Views
Internet Kaynak Keşfi: Bir Dublin Core Üstveri Editörü ve Arama Makinası Baha Olgun Hayri Sever Hacettepe Üniversitesi Bilgisayar Mühendisliği Bölümü DPT KMBGS Araştırma Birimi http://www.cs.hun.edu.tr/~km. Genel Bakış. DPT tarafından desteklenen 97K121330 nolu KMBGS Projesi,
E N D
Internet Kaynak Keşfi: Bir Dublin Core Üstveri Editörü ve Arama Makinası Baha Olgun Hayri Sever Hacettepe Üniversitesi Bilgisayar Mühendisliği Bölümü DPT KMBGS Araştırma Birimi http://www.cs.hun.edu.tr/~km
Genel Bakış • DPT tarafından desteklenen 97K121330 nolu KMBGS Projesi, • Türkçe belgeleri • saklayan, • dizinleyen ve • sorgulamaya olanak veren • bir Boolean bilgi erişim sisteminin, UNIX ortamında MOTIF ile gerçekleştirimine dayanmaktadır. • KMBGS Araştırma Birimi, Internet kaynaklarının gösterimini ve taranmasını süreç içinde projenin amacına dahil etmiştir.
Problem ve Çözüm Yolları • Web üzerinde üç yüz milyon adreslenebilir nesne vardır (Part I of WWW-7 Tutorial Track, 1998, http://www.w3.org). • Cyberspace’de kaybolma: Internet kaynaklarının insanca anlaşılabilir ve makinaca okunabilir olmasından dolayı erişim araçların yetersiz kalması. • Ad-hoc Çözüm: meta TAKILARIN (TAGS) Gömülmesi • HTML 4.0 (http://www.w3.org/TR/REC- • html40/strict.dtd) • Terim Sözlüğü Oluşturma (ontology): SHOE • (http://www.cs.umd.edu/projects/plus/SHOE ) • KIF (http://logic.stanford.edu/) • RDF (http://www.w3.org)
Ad-hoc Çözüm: Meta Takılar Dizinde kullanılan HTML takıları <P><B>ACADEMY OF THE SACRED HEART, New Orleans <BR></B> Sacred Heart restores shutters and cupola. <BR> <I> Preservation in Print</I> v23 n6 p28, Aug, 1996<BR> HTML Üstveri Referans Dizinine Eklenmesi <Subject><B> ACADEMY OF THE SACRED HEART, New Orleans </B> </Subject> <Title> Sacred Heart restores shutters and cupola. </Title> <Periodical><I>Preservation in Print </Periodical> <Volume>p28,</Page> <Date>Aug. 1996</Date>
HTML 4.0: Üstveri Elemanları • <HEAD profile=“http://www.w3.org/RDF”> • <!ELEMENT META - O EMPTY> • <!ATTLIST META • lang %LanguageCode #IMPLIED • http-equiv NAME #IMPLIED • name NAME #IMPLIED • content CDATA #REQUIRED • scheme CDATA #IMPLIED • > • <LİNK rel=“…” href=“…”> • PICS etiketleri • <META name=”DC.Author" content=“Hayri Sever"> • <META scheme=“ISO 8601" name=“DC.Date” • content=”13/03/62"> • <META name=”DC.Description" lang=”tr" content=”veri madenleme • ve bilgi erişim sistemleri araşt&iwhdot;rma ..."> • <META http-equiv="Content-Type" content="text/html; • charset=ISO-8859-5">
SHOE ve KIF • SHOE (Simple HTML Ontology Extensions) iki kısımdan oluşmaktadır: • Ontoloji. Veri Sözlüğü ve Şemanın tanımlandığı belirli bir üstveri modeli • Üye. İlgili üstveri kullanılarak yapılan iddalar. • SHOE modeli tür, ilişki ve çıkarsama tanımlama olanağı sağlamaktadır. SHOE ile tanımlı Web kaynakları, Expose ile yerel diske yüklenir ve SHOE kütüphanesi aracılığı ile çözümlenir ve PARKA Ontolojisine yerleştirilir. • KIF (Knowledge Interchange Format), “First-Order Predicate Calculus” tabanlı bir üstveri gösterim dilidir. • İfade etme gücü yüksek olan KIF, heterojen Web kaynaklarını bütünleştirmede kolaylık sağlar ve arabulucu mimaride paketleyici dil olan KQML birlikte kullanılır.
RDF Tanımının Çizge ile Gösterimi Creator www.cs.hun.edu.tr webadmin RDF Tanımının XML ile Gösterimi <?xml version="1.0" ?> <rdf:RDF xmlns:rdf="http://www.w3.org/RDF" xmlns:dc="http://purl.org/DublinCore"> <rdf:Description about="http://www.cs.hun.edu.tr"> <dc:Creator> webadmin </dc:Creator> </rdf:Dexcription> </rdf:RDF>
RDF/DC Editörü: H-DCEdit RDF modeli ve DC Üstveri elemanları kullanılarak, elektronik kaynakların içeriklerinin tanımlanmasını sağlayan bir yazılım gerçekleştirilmiştir. H-DCEdit ile katalog bilgileri modellenmiştir. Katalog yapısı, RDF/DC sözdizimi temel alınarak SGML tarafından tanımlanmıştır. SGML belgelerinin özelliği, Türkçe içerik desteği olması ve XML belgesine dönüşmesi kolay bir tanımı olmasıdır.
SGML Bildirimi DSSSL Bildirimi Biçem Bildirimi RDF/DC Belge Tür Tanımı RDF/DC Biçem Tanımı DSSSL Motoru (Jade) DC Elemanları Editörü RDF/DC Ayrıştırıcı SGML Belgesi SG-ML Belgesi Ayrıştı-rım Çıktısı SGML Ayrıştırıcı (SP) Yerel yardımcı programlar (vi, netscape, xview,…) Yeniden biçimlenmiş belge çıktısı (html, rtf, TeX) Sistem işlev çizgesi
Yazılım Mühendisliği Notları Yazılım Alt Kesimi Programlama Dili Satır Sayısı SP-1.2 (SGML Ayrıştırıcı) C++ 70000 RDF/DC Ayrıştırıcı C++ 800 H-DCEdit 1.0 C (MOTIF) 5000 JADE1.0.1 (DSSSL Motoru) C++ 52000
SGML Bildirimi • <!SGML "ISO 8879:1986" • CHARSET • BASESET "ISO 646-1983//CHARSET International Reference Version • (IRV)//ESC 2/5 4/0" • DESCSET 0 9 UNUSED • 9 2 9 • 11 2 UNUSED • 13 1 13 • 14 18 UNUSED • 32 95 32 • 127 1 UNUSED • BASESET "ISO Registration Number 148//CHARSET ECMA-128 • Right Part of Latin Alphabet Nr. 5//ESC 2/13 4/13" • DESCSET 128 32 UNUSED • 160 95 32 • 255 1 UNUSED • NAMING LCNMSTRT "" • UCNMSTRT "" • LCNMCHAR "-.:" • UCNMCHAR "-.:" • …>
RDF/DC Belge Tür Tanımı • <!-- Entities For Turkish Support --> • <!ENTITY Ccedil CDATA "Ç"> • <!ENTITY ccedil CDATA "ç"> • <!ENTITY Ouml CDATA "Ö"> • <!ENTITY ouml CDATA "ö"> • <!ENTITY Scedil CDATA "Þ"> • <!ENTITY scedil CDATA "þ"> • <!ENTITY Idot CDATA "Ý"> • <!ENTITY iwhdot CDATA "ý"> • <!ENTITY Uuml CDATA "Ü"> • <!ENTITY uuml CDATA "ü"> • <!ENTITY Gbrewe CDATA "Ð"> • <!ENTITY gbrewe CDATA "ð">
RDF/DC Belge Tür Tanımı • <!-- RDF and DC elements in the same DTD • In addition, XML like output is supported • RDF Elements --> • <!ELEMENT rdf:RDF - - ( rdf:Description )* > • <!ATTLIST rdf:RDF • xmlns:rdf CDATA "http://www.w3.org/RDF/” • xmlns:dc CDATA "http://purl.org/DC/” • <!ENTITY % property "ANY"> • <!ELEMENT rdf:Description - - %property;> • <!ATTLIST rdf:Description • ID NMTOKEN #IMPLIED • about CDATA #IMPLIED • aboutEach CDATA #IMPLIED • bagID NMTOKEN #IMPLIED>
RDF/DC Belge Tür Tanımı • <!ENTITY % dccontent "(#PCDATA)"> • <!ELEMENT DC:TITLE - - %dccontent; > • <!ELEMENT DC:CREATOR - - %dccontent; > • <!ELEMENT DC:SUBJECT - - %dccontent; > • <!ELEMENT DC:DESCRIPTION - - %dccontent; > • <!ELEMENT DC:PUBLISHER - - %dccontent; > • <!ELEMENT DC:CONTRIBUTOR - - %dccontent; > • <!ELEMENT DC:DATE - - %dccontent; > • <!ELEMENT DC:TYPE - - %dccontent; > • <!ELEMENT DC:FORMAT - - %dccontent; > • <!ELEMENT DC:IDENTIFIER - - %dccontent; > • <!ELEMENT DC:SOURCE - - %dccontent; > • <!ELEMENT DC:LANGUAGE - - %dccontent; > • <!ELEMENT DC:RELATION - 0 %dccontent; > • <!ELEMENT DC:COVERAGE - - %dccontent; > • <!ELEMENT DC:RIGHTS - - %dccontent; >
RDF/DC Belge Tür Tanımı • <!ATTLIST DC:DATE • year CDATA #IMPLIED • month CDATA #IMPLIED • day CDATA #IMPLIED> • <!ATTLIST DC:RELATION • type CDATA #IMPLIED • resource CDATA #IMPLIED > • <!-- Added Element for Robots --> • <!ELEMENT BODY - - %dccontent; > • <!ATTLIST BODY • location CDATA #IMPLIED >
Baha Olgun Creator SGML Türkiye Title sgml.cs.hun.edu.tr Publisher Hacettepe Üni. Contributor Type Hayri Sever text/sgml Oluşturulan SGML Belgeleri
Özet • DPT KM-BGS Projesi çerçevesinde gerçekleştirilen bir RDF/DC editörü tanıtılmıştır. • Bu editör, takı dizinleme ve sorgulama yapabilen Isite/Isearch arama makinası ile çıktı bazında bütünleştirilmiştir.