270 likes | 396 Views
PRIMENA SEMANTI ČKIH TEHN OLOGIJ A U ORGANIZACIJ I I ANALIZ I PODATAKA O NAU ČNIM PUBLIKACIJAMA. Danica Porob ić. Data-mining. Pronalaženje prethodno nepoznatih potencijalno korisnih informacija Otkrivanje znanja Predviđanje pojava B usiness intelligence
E N D
PRIMENA SEMANTIČKIH TEHNOLOGIJA U ORGANIZACIJI I ANALIZI PODATAKA O NAUČNIM PUBLIKACIJAMA Danica Porobić
Data-mining • Pronalaženje prethodno nepoznatih potencijalno korisnih informacija • Otkrivanje znanja • Predviđanje pojava • Business intelligence • Najčešća primena u slučaju ogromnih količina podataka
Semantic Web • 1999. Tim Berners-Lee • Mreža u kojoj mašine direktno razmenjuju podatke oslobađajući ljude rutinskih poslova • Počeci standardizacije 2001. • Stub treće generacije interneta kod koje će podaci, aplikaciona logika i prezentaciona logika biti razdvojene • Još uvek u ranim fazama razvoja
RDF • Resource description framework • W3C specifikacija za modelovanje metapodataka • RDF trojka: subjekat – predikat – objekat • RDF-S opisuje strukture trojki • SPARQL – jezik upita • Pretraga praćenjem data linkova • Najčešće ontologije prisutne na Internetu su one koje direktno modeliraju Internet objekte
FOAF • Friend of a friend • Modeliranje podataka o osobama • Socijalne mreže • Podaci o korisnicima online zajednica • Ručno kreirani profili (zanemarljiv procenat) • Prepreke u primeni: mnogo načina za pisanje imena • ID: email adresa
OpenAcademia • Projekat otvorenog koda • Vrije univerzitet, Amsterdam • Skladištenje informacija o naučnim publikacijama • Modularan, distribuiran sistem • Čuvaju se samo metapodaci • Osnovni formati podataka: bibtex, FOAF • Pristup informacijama: HTML, RSS
Ubacivanje podataka u sistem (1) • Ulazni podaci: FOAF profili istraživača koji sadrže foaf:publications atribut koji pokazuje na adresu bibtex fajla sa podacima • Scutter servis skuplja FOAF profile • Bib2swrc2 servis konvertuje bibtex reference u RDF podatke koristeći SWRC ontologiju • Smusher servis pronalazi reference koje se odnose na iste publikacije
Ubacivanje podataka u sistem (2) • Podaci se u obliku RDF trojki pamte u Sesame RDF skladištu • Iz dostupnih radova se izdvajaju ključne reči • Pretražuju se blog servisi u potrazi za komentarima na publikacije • Ovaj proces se ponavlja svakih 24 sata
Pristup podacima • HTML interfejs • Forma za pretragu • Rezultati pretrage se prikazuju u četiri tekstualna oblika • Rezultate je moguće pregledati i u jednom od šest vizualnih oblika: tagcloud, topics, coautors, clustermap, timeline i relations • RSS kanali • BuRST specifikacija
Kartoni naučnih radnika • Originalni podaci u Word dokumentima • XML dokumenti u CERIF formatu • Ručno generisani .bib fajlovi • JabRef – program za lako upravljanje bibtex referencama • Generisani FOAF profili • Generisani RDF fajlovi sa opisom struktura istraživačkih grupa • Podaci ubačeni u sistem
Zaključak • Lako dodavanje informacija • Globalna dostupnost • Laka analiza velike količine podataka • Naporno inicijalno dodavanje informacija u sistem • Vrlo kruta struktura podataka • Neotpornost sistema na greške