370 likes | 484 Views
SemSets Model pre sémantické vyhľadávanie zoznamov entít. Marek Ciglan Ústav informatiky SAV. Obsah. Sémantické vyhľadávanie – úvod Klasifikácia sémantických dopytov Sémantické vyhľadávanie množín Graf s atribútmi ako znalostná báza SemSets Model Vyhľadávanie v dokumentoch entít
E N D
SemSetsModel pre sémantické vyhľadávanie zoznamov entít Marek Ciglan Ústav informatiky SAV
Obsah • Sémantické vyhľadávanie – úvod • Klasifikácia sémantických dopytov • Sémantické vyhľadávanie množín • Graf s atribútmi ako znalostná báza • SemSets Model • Vyhľadávanie v dokumentoch entít • Šírenie aktivácie po topológii znalostnej bázy • Identifikácia (sémantických množín) SemSets • Vyhodnotenie • Dátová množina - SemSearch 2011 • Hodnotenie relevancie odpovedí • Výsledky 21 November 2011
Sémantické vyhľadávanie – úvod • Sémantické dáta • Zväčša trojice (RDF) • Vyhľadávanie v sémantických dátach • - dopytovacie jazyky (napr. SPARQL) <http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/birthYear> "-0384"^^<http://www.w3.org/2001/XMLSchema#gYear> . <http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/influenced> <http://dbpedia.org/resource/Western_philosophy> SELECT ?abstract FROM NAMED <http://dbpedia.org> WHERE { { <http://dbpedia.org/resource/Civil_engineering> <http://dbpedia.org/ontology/abstract> ?abstract. FILTER langMatches( lang(?abstract), 'en') } } 21 November 2011
Ad-hoc vyhľadávanie v sémantických dátach • ad-hoc vyhľadávanie = vyhľadávanie pomocou kľúčových slov • Cieľ: použiť dopyty formulované pomocou kľúčových slov (jednoduché pre užívateľa) na získavanie informácií zo sémantických dát • Vstup: neštruktúrovaný dopyt zložený z kľúčových slov • Výstup: zoznam entít zo sémantickej databázy usporiadaný podľa relevancie k dopytu • Vyhodnotenie: všetky odpovede sú ohodnotené nezávislým posudzovateľom, so znalosťou o dopyte a očakávaných výsledkoch 21 November 2011
Ad-hoc vyhľadávanie v sémantických dátach • ad-hoc vyhľadávanie = vyhľadávanie pomocou kľúčových slov • Cieľ: použiť dopyty formulované pomocou kľúčových slov (jednoduché pre užívateľa) na získavanie informácií zo sémantických dát • Vstup: neštruktúrovaný dopyt zložený z kľúčových slov • Výstup: zoznam entít zo sémantickej databázy usporiadaný podľa relevancie k dopytu • Vyhodnotenie: všetky odpovede sú ohodnotené nezávislým posudzovateľom, so znalosťou o dopyte a očakávaných výsledkoch SELECT ?abstract FROM NAMED <http://dbpedia.org> WHERE { { <http://dbpedia.org/resource/Civil_engineering> <http://dbpedia.org/ontology/abstract> ?abstract. FILTER langMatches( lang(?abstract), 'en') } } 21 November 2011
Ad-hoc vyhľadávanie v sémantických dátach • ad-hoc vyhľadávanie = vyhľadávanie pomocou kľúčových slov • Cieľ: použiť dopyty formulované pomocou kľúčových slov (jednoduché pre užívateľa) na získavanie informácií zo sémantických dát • Vstup: neštruktúrovaný dopyt zložený z kľúčových slov • Výstup: zoznam entít zo sémantickej databázy usporiadaný podľa relevancie k dopytu • Vyhodnotenie: všetky odpovede sú ohodnotené nezávislým posudzovateľom, so znalosťou o dopyte a očakávaných výsledkoch SELECT ?abstract FROM NAMED <http://dbpedia.org> WHERE { { <http://dbpedia.org/resource/Civil_engineering> <http://dbpedia.org/ontology/abstract> ?abstract. FILTER langMatches( lang(?abstract), 'en') } } Givemeenglishabstratfor Civil engineering 21 November 2011
Klasifikácia ad-hoc dopytov zo sémantických • Dopyty na entity • Príklad: 1978 cj5 jeep, KARL BENZ, MIT • Dopyty na množiny entít • Príklad: republics of the former Yugoslavia, astronauts who walked on the Moon • Dopyty na vzťah medzi entitami • Príklad: • whatistherelationbetween X and Y • Dopyty na atribúty entít • Príklad: • zipcodewatervilleMaine, • heightof Kriváň • Iné ad-hoc dopyty [J. Pound, P. Mika, and H. Zaragoza. Ad-hocobjectretrievalin the web of data. In Proceedings of WWW’10, 2010.] 21 November 2011
Klasifikácia ad-hoc dopytov zo sémantických • Dopyty na entity • Príklad: 1978 cj5 jeep, KARL BENZ, MIT • Dopyty na množiny entít • Príklad: republics of the former Yugoslavia, astronauts who walked on the Moon • Dopyty na vzťah medzi entitami • Príklad: • whatistherelationbetween X and Y • Dopyty na atribúty entít • Príklad: • zipcodewatervilleMaine, • heightof Kriváň • Iné ad-hoc dopyty [J. Pound, P. Mika, and H. Zaragoza. Ad-hocobjectretrievalin the web of data. In Proceedings of WWW’10, 2010.] 21 November 2011
Sémantické vyhľadávanie množín • Príklad dopytu: astronauts who walked on the Moon 21 November 2011
Sémantické vyhľadávanie množín • Príklad dopytu: astronauts who walked on the Moon 21 November 2011
Sémantické vyhľadávanie množín • Príklad dopytu: astronauts who walked on the Moon • Armstrong, NeilAlden • Aldrin, EdwinEugene, Jr. • Conrad, Charles Peter, Jr. • Bean, Alan Lavern • Shepard, Alan Bartlett, Jr. • Mitchell, EdgarDean • Scott, DavidRandolph • Irwin, JamesBenson • Young, JohnWatts • Duke, CharlesMoss, Jr. • Cernan, EugeneAndrew • Schmitt, HarrisonHagan 21 November 2011
Graf s atribútmi ako znalostná báza • Sémantické dáta ako množina trojíc: • Sémantické dáta ako atribútový graf: <http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/birthYear> "-0384"^^<http://www.w3.org/2001/XMLSchema#gYear> . <http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/influenced> <http://dbpedia.org/resource/Western_philosophy> Emtita K1 Attr I1: val Attr I2: val Attr I2: val L1 L3 Emtita K1 Attr I1: val Attr I2: val Attr I2: val Emtita K1 Attr I1: val Attr I2: val Attr I2: val Emtita K1 Attr I1: val Attr I2: val Attr I2: val L2 L1 21 November 2011
Graf s atribútmi ako znalostná báza • Sémantické dáta ako množina trojíc: • Sémantické dáta ako atribútový graf: <http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/birthYear> "-0384"^^<http://www.w3.org/2001/XMLSchema#gYear> . <http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/influenced> <http://dbpedia.org/resource/Western_philosophy> Aristotle birthYear:-0384 Western_philosophy influenced 21 November 2011
SemSets model • SemSets model je model pre vyhľadávanie sémantických množín • Odpovedať na otázky ako: „republics of the former Yugoslavia“ , „astronauts who walked on the Moon“ • Využíva: • Metódy získavania informácií • Grafovú štruktúru znalostnej bázy • Informácie o sémantických množinách znalostnej bázy 21 November 2011
DBpedia • Projekt s cieľom extrahovať štruktúrované informácie z Wikipédie http://wiki.dbpedia.org/ 21 November 2011
SemSets – vyhľadávanie v dokumentoch entít • Využiť štandardné metódy získavania infomácií • Namiesto dokumentov máme atribútový graf • Nutnosť transformovať vrcholy atribútového grafu na dokumenty Emtita K1 Attr I1: val Attr I2: val Attr I2: val L1 L3 Emtita K1 Attr I1: val Attr I2: val Attr I2: val Emtita K1 Attr I1: val Attr I2: val Attr I2: val Emtita K1 Attr I1: val Attr I2: val Attr I2: val L2 L1 21 November 2011
SemSets – vyhľadávanie v dokumentoch entít • Využiť štandardné metódy získavania infomácií • Namiesto dokumentov máme atribútový graf • Nutnosť transformovať vrcholy atribútového grafu na dokumenty Emtita K1 Attr I1: val Attr I2: val Attr I2: val L1 L3 Emtita K1 Attr I1: val Attr I2: val Attr I2: val Emtita K1 Attr I1: val Attr I2: val Attr I2: val Emtita K1 Attr I1: val Attr I2: val Attr I2: val L2 L1 21 November 2011
SemSets – vyhľadávanie v dokumentoch entítt • Príklad: „astronauts who walked on the Moon“ • Medzivýsledok: • TheWonderofItAll (2007 film) • List of spacewalkers, • Moon Landing (musicdrama), • List of Apollo astronauts, • Harrison Schmitt 21 November 2011
SemSets– šírenie aktivácie 21 November 2011
SemSets– šírenie aktivácie 21 November 2011
SemSets– šírenie aktivácie 21 November 2011
SemSets– šírenie aktivácie 21 November 2011
SemSets– šírenie aktivácie 21 November 2011
SemSets – šírenie aktivácie • Príklad: „astronauts who walked on the Moon“ • Medzivýsledok: • Astronaut, • NASA, • Moon, • Apollo 15, • Apollo 12, • Apollo 11, • List of Apollo astronauts, • Apollo program, • BuzzAldrin, • Apollo17, • EugeneCernan 21 November 2011
SemSets – skóre sémantických množín • Predpokladáme existenciu sémantických množín obsahujúcich sémanticky podobné/príbuzné entity • Príklad pre DBpediu: entity patriace do jednej kategórie vo Wikipédii tvoria sémantickú množinu • Proces: • Kandidátsku množinu entít porovnáme so sémantickými množinami • Spočítame zlomok členov sémantických množín v kandidátskej množine • Vyberieme sémantické množiny, ktoré pravdepodobne obsahujú odpoveď na danú otázku 21 November 2011
SemSets – skóre sémantických množín 21 November 2011
SemSets – skóre sémantických množín SemSet 1 Card: 24 P: 0.125 21 November 2011
SemSets – skóre sémantických množín SemSet 1 Card: 24 P: 0.125 SemSet 2 Card: 5 P: 0.6 21 November 2011
SemSets – skóre sémantických množín SemSet 1 Card: 24 P: 0.125 SemSet 2 Card: 5 P: 0.6 SemSet 1 Card: 4 P: 0.75 21 November 2011
SemSets – skóre sémantických množín • Príklad: „astronauts who walked on the Moon“ • Medzivýsledok: • Category: People who have walked on the Moon, • Category: Skylab program • Váhovanie skóre podľa textovej podobnosti dopytu a dokumentov jednotlivých sémantických množín 21 November 2011
SemSets – skóre sémantických množín • Príklad: „astronauts who walked on the Moon“ • Medzivýsledok: • Armstrong, NeilAlden • Aldrin, EdwinEugene, Jr. • Conrad, Charles Peter, Jr. • Bean, Alan Lavern • Shepard, Alan Bartlett, Jr. • Mitchell, EdgarDean • Scott, DavidRandolph • Irwin, JamesBenson • Young, JohnWatts • Duke, CharlesMoss, Jr. • Cernan, EugeneAndrew • Schmitt, HarrisonHagan 21 November 2011
Konštrukcia sémantických množín • 2 prístupy: • Množiny definuje expert • Automatckydetekovať zo znalostnej bázy 21 November 2011
Vyhodnotenie • Dátová množina – Yahoo! SemSearch 2011 challenge • Dopyty: • 50 dopytov na zoznamy entít • Vybraných z logov webového vyhľadávača • Vyhodnotenie odpovedí: • Amazon’s MechanicalTurk • Cloudsourcingsolution • Prostredie pre human intelligance computation • Ľudia (za finančnú odmenu) vykoávajú zadanú úlohu • Odpovede hodnotené 3 stuňami 21 November 2011
Vyhodnotenie 21 November 2011
Vyhodnotenie • Čiastočné funkcie SemSets modelu 21 November 2011
Vyhodnotenie • Vplyv použitého modelu na získavanie informácií 21 November 2011
Zhrnutie • Predstavili sme úlohu ad-hoc vyhľadávania v sémantických dátach • Predstavili sme SemSets model pre vyhľadávanie zoznamu entít zo sémantických dát • SemSets model využíva: • Štandardné metódy vyhľadávania informácií • Šírenie aktivácie v topológii grafu definovaného znalostnou bázou • Informácie o sémantických množinách v znalostnej bázy • Vyhodnotenie: metóda má state-of-the-art presnosť na SemSearch 2011 data sete 21 November 2011