130 likes | 371 Views
PageRank nad LinkedData. Vyhľadávanie informácií. Zadanie. Vypočítanie PageRank nad vybranou dátovou množinou Články z ACM Vytvorenie rozhrania pre zobrazenie entít s najväčším PageRank Podľa zadaného typu entity (podľa rdf:type ). Objekt. Subjekt. Predikát.
E N D
PageRank nadLinkedData Vyhľadávanie informácií
Zadanie • Vypočítanie PageRank nad vybranou dátovou množinou • Články z ACM • Vytvorenie rozhrania pre zobrazenie entít s najväčším PageRank • Podľa zadaného typu entity (podľa rdf:type)
Objekt Subjekt Predikát Prepojenédáta (Liked Data) • Dáta definované v trojiciach • Objekt • Predikát • Subjekt • Entity identifikované pomocou URI • Dáta organizované v menných priestoroch • Podobne ako v XML
Prepojenédáta z portálu ACM • Dátová množina pozostáva: • Autori (meno, dátum narodenia) • Články (názov, referencie, dátum vydania) • Vzájomné prepojenia <akt:Article-Referencerdf:about="http://acm.rkbexplorer.com/id/91"> <akt:has-title> Review of The acquisition of syntactic knowledge by... </akt:has-title> <akt:has-author> <akt:Person rdf:about="http://acm.rkbexplorer.com/id/person-123"> <akt:full-name>Geoffrey Sampson</akt:full-name> </akt:Person> </akt:has-author> ... <akt:cites-publication-reference rdf:resource="http://acm.rkbexplorer.com/id/351661"/> </akt:Article-Reference>
Využité technológie • ruby - programovací jazyk • tomcat - aplikačný server • sesame - ontologická databáza • owlim - typ indexu pre sesame • ruby-sesame - knižnica na prácu so sesame úložiskom • SPARQL - dopytovací jazyk nad sémantickou databázov • JSON - jazyk na prenos štruktúrovaných dát
VypočetPageRank • získanie zoznamu entít • získanie referencií na entity • výpočet PageRankpre jednotlivé entity • konverzia PageRankna percentuálne hodnoty • Uloženie výsledkov
Získanie referencií na entity • Pre každú entitu dopyt na získanie všetkych odkazov • K URI objektu • Uloženie počtu odkazov na iné entity • Uloženie odkazu na daný objekt do referencovaných dokumentov • Výsledok: zoznam URI v úložisku + zoznam referentov + počet referovaných dokumentov
Výpočet PageRank pre jednotlivéentity • Prechádzanie hešovacej tabuľky s URI • Vypočítavanie vzorca: • Stanovenie správneho Duping faktoru • V mojom prípade 0,85 • Po prepočítaní porovnanie s predchádzajúcou iteráciou • Opakovanieaž pokým nekonverguje
Záverečnéfázy • Prepočet hodnôt do percentuálneho zobrazenia pre celú dátovú množinu • Ukladanie hodnôt do dátovej množiny cez väzbu: • http://www.aktors.org/ontology/portal#score
Vyhodnotenie • Porovnanie s inou metódou • Metóda počíta počet koľko krát boli články daného autora referencované • Precision: 0,15 Recall: 0,3
Výsledok vyhodnotenia • Nízke hodnoty precisionrecall • Metódy navzájom zoraďujú podľa diametrálne odlišných metrík • PageRank – ako často sa dá na objekt naraziť • Porovnávaná metóda – koľko krát je daný objekt referencovaný
Zhrnutie Implementácia PageRank algoritmu nad prepojenými dátami Vytvorenie rozhrania pre vyhľadávanie Vytvorenie porovnávacej metriky Zistenie odlišnotí metrík