130 likes | 207 Views
Zjednotené vyhľadávanie nad prepojenými dátami na webe. Bc. Peter Macko. Vedúci: Ing. Michal Holub. Aký problém riešime?. Písanie dopytov pre sémantický web SPARQL – príliš zložitý Nutné poznať štruktúru dát N utné poznať syntax jazyka Slabá podpora vyhľadávačov
E N D
Zjednotené vyhľadávanie nad prepojenými dátami na webe Bc. Peter Macko Vedúci: Ing. Michal Holub
Aký problém riešime? • Písanie dopytov pre sémantický web • SPARQL – príliš zložitý • Nutné poznať štruktúru dát • Nutné poznať syntax jazyka • Slabá podpora vyhľadávačov • Využitie potenciálu prepojených dát Peter Macko – Zjednotené vyhľadávanie nad prepojenými dátami na webe – Michal Holub
Naše riešenie Peter Macko – Zjednotené vyhľadávanie nad prepojenými dátami na webe – Michal Holub • Písanie dopytov v prirodzenom jazyku (Angličtina) • Využitie logických,množinových operátorov • Predspracovanie prepojených dát • Bez nutnosti poznania štruktúry • Usmernenie používateľa formou nápovedy • Podobný problém riešený v oblasti objektovo-relačných databáz • Nedostatok informácií o dátach
Schéma fungovania Peter Macko – Zjednotené vyhľadávanie nad prepojenými dátami na webe – Michal Holub
Predspracovanie dátového zdroja Peter Macko – Zjednotené vyhľadávanie nad prepojenými dátami na webe – Michal Holub • Tvorba lexikónov • Entít a vlastností objektov • Hodnôt objektov • Váhovanie výrazov • Hľadanie synoným • Hľadanie podobných slov (nadskupiny, podskupiny)
Prvotné kroky metódy Peter Macko – Zjednotené vyhľadávanie nad prepojenými dátami na webe – Michal Holub • Rozhranie • Zachytenie dopytu (využitie rozšírenia Annota) • Predspracovanie dopytu • Rozdelenie dopytu • Odstránenie štylistických znakov
Konvertovač na onto-slovník Peter Macko – Zjednotené vyhľadávanie nad prepojenými dátami na webe – Michal Holub • Analýza štruktúry vety • Transformácia slov z dopytu na slová zo slovníka • Využitie lexikónov • Podľa predspracovaného váhovania • Citlivosť na podmienky a množinové operácie
Extraktor trojíc Peter Macko – Zjednotené vyhľadávanie nad prepojenými dátami na webe – Michal Holub • Využíva sadu pravidiel • Podľa typu entity • Identifikuje premenné pre SPARQL dopyt • Identifikuje hľadanú entitu z dopytu • Využíva extraktor filtra • Vyčleňuje podmienky a množinové operácie • Spracovanie <, >, =, AND, OR, Most, Less, ...
Záverečné fázy metódy Peter Macko – Zjednotené vyhľadávanie nad prepojenými dátami na webe – Michal Holub • SPARQL Transformácia • Transformácia trojíc • Transformácia filtra • Manažér dátového zdroja • Vykonanie SPARQL dopytu
Príklady dopytov Akt:Person Akt:Conference Atk:has-author Atk:published-at Akt:Article-Reference Peter Macko – Zjednotené vyhľadávanie nad prepojenými dátami na webe – Michal Holub • Papers by Tvarozek from WWW • Lexikónu hodnôt + váhovanie • Dohľadanie zamlčaných členov
Overenie jednotlivých častí metódy Peter Macko – Zjednotené vyhľadávanie nad prepojenými dátami na webe – Michal Holub • Transformátor na onto-slovník • Overenie váhovania transformácie • Systém vytvorí usporiadanie • Experti ohodnotia poradie relevancie • Overenie extraktoratrojíc • Porovnanie extrakcie trojíc expertom a našim nástrojom • Upravovač dopytov • Meranie času, za ktorý expert upravil dopyt našim nástrojom
Overenie celkového systému Peter Macko – Zjednotené vyhľadávanie nad prepojenými dátami na webe – Michal Holub • Využitie dátovej množiny z projektu • Testovanie času konštrukcie dopytu • Porovnanie času tvorby SPARQL našou metódou a expertom • Porovnanie sa s existujúcimi riešeniami • Nasadenie na portáli ACM • Nasadenie cez rozšírenie Annota • Riadený experiment - so spätnou väzbou • Neriadený experiment – dlhší časový úsek
Zhrnutie Peter Macko – Zjednotené vyhľadávanie nad prepojenými dátami na webe – Michal Holub • Písanie dopytov v prirodzenom jazyku • Dôraz na predspracovanie + váhovanie dátového zdroja + analýzu vety • Usmernenie používateľa pri písaní • Overenie metódy • Jednotlivé časti • Celková funkcionalita