1 / 13

PageRank nad LinkedData

PageRank nad LinkedData. Vyhľadávanie informácií. Zadanie. Vypočítanie PageRank nad vybranou dátovou množinou Články z ACM Vytvorenie rozhrania pre zobrazenie entít s najväčším PageRank Podľa zadaného typu entity (podľa rdf:type ). Objekt. Subjekt. Predikát.

acton
Download Presentation

PageRank nad LinkedData

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. PageRank nadLinkedData Vyhľadávanie informácií

  2. Zadanie • Vypočítanie PageRank nad vybranou dátovou množinou • Články z ACM • Vytvorenie rozhrania pre zobrazenie entít s najväčším PageRank • Podľa zadaného typu entity (podľa rdf:type)

  3. Objekt Subjekt Predikát Prepojenédáta (Liked Data) • Dáta definované v trojiciach • Objekt • Predikát • Subjekt • Entity identifikované pomocou URI • Dáta organizované v menných priestoroch • Podobne ako v XML

  4. Prepojenédáta z portálu ACM • Dátová množina pozostáva: • Autori (meno, dátum narodenia) • Články (názov, referencie, dátum vydania) • Vzájomné prepojenia <akt:Article-Referencerdf:about="http://acm.rkbexplorer.com/id/91"> <akt:has-title> Review of The acquisition of syntactic knowledge by... </akt:has-title> <akt:has-author> <akt:Person rdf:about="http://acm.rkbexplorer.com/id/person-123"> <akt:full-name>Geoffrey Sampson</akt:full-name> </akt:Person> </akt:has-author> ... <akt:cites-publication-reference rdf:resource="http://acm.rkbexplorer.com/id/351661"/> </akt:Article-Reference>

  5. Využité technológie • ruby - programovací jazyk • tomcat - aplikačný server • sesame - ontologická databáza • owlim - typ indexu pre sesame • ruby-sesame - knižnica na prácu so sesame úložiskom • SPARQL - dopytovací jazyk nad sémantickou databázov • JSON - jazyk na prenos štruktúrovaných dát

  6. VypočetPageRank • získanie zoznamu entít • získanie referencií na entity • výpočet PageRankpre jednotlivé entity • konverzia PageRankna percentuálne hodnoty • Uloženie výsledkov

  7. Získanie referencií na entity • Pre každú entitu dopyt na získanie všetkych odkazov • K URI objektu • Uloženie počtu odkazov na iné entity • Uloženie odkazu na daný objekt do referencovaných dokumentov • Výsledok: zoznam URI v úložisku + zoznam referentov + počet referovaných dokumentov

  8. Výpočet PageRank pre jednotlivéentity • Prechádzanie hešovacej tabuľky s URI • Vypočítavanie vzorca: • Stanovenie správneho Duping faktoru • V mojom prípade 0,85 • Po prepočítaní porovnanie s predchádzajúcou iteráciou • Opakovanieaž pokým nekonverguje

  9. Záverečnéfázy • Prepočet hodnôt do percentuálneho zobrazenia pre celú dátovú množinu • Ukladanie hodnôt do dátovej množiny cez väzbu: • http://www.aktors.org/ontology/portal#score

  10. Vyhľadávanie

  11. Vyhodnotenie • Porovnanie s inou metódou • Metóda počíta počet koľko krát boli články daného autora referencované • Precision: 0,15 Recall: 0,3

  12. Výsledok vyhodnotenia • Nízke hodnoty precisionrecall • Metódy navzájom zoraďujú podľa diametrálne odlišných metrík • PageRank – ako často sa dá na objekt naraziť • Porovnávaná metóda – koľko krát je daný objekt referencovaný

  13. Zhrnutie Implementácia PageRank algoritmu nad prepojenými dátami Vytvorenie rozhrania pre vyhľadávanie Vytvorenie porovnávacej metriky Zistenie odlišnotí metrík

More Related