70 likes | 177 Views
DbPedia Pig - entity and typy/kategórie. Vladimír Sudor. FIIT, Vyhľadávanie informácií. Popis problému. Úlohou tohto projektu je, parsovaním zdrojových dátových súborov DbPedie , priradiť každej entite príslušný typ a príslušnú kategóriu.
E N D
DbPediaPig- entity and typy/kategórie Vladimír Sudor FIIT, Vyhľadávanie informácií
Popis problému Úlohou tohto projektu je, parsovanímzdrojových dátových súborov DbPedie, priradiť každej entite príslušný typ a príslušnú kategóriu. Každá entita má v dbpedií priradené typy a kategórie do ktorých spadá. Výstupom projektu budú teda dva súbory kde budú vypísane entity a k nim príslušné typy/kategórie
Podobné riešenie • http://www.nuxeo.com/blog/development/2011/01/mining-wikipedia-with-hadoop-and-pig-for-natural-language-processing • Parsovanie textov wikipedie • Priradzovanie k entitám dbpedie
Riešenie problému • Načítanie dát pomocou UDF. • Načítanie duplicitných informácií. • Odstránenie duplicít z načítaného poľa • Odfiltrovanie typu http://www.w3.org/2002/07/owl#Thing (tento typ sa nachádza pri každej entite) • Výpis dát do súboru na disk.
Vyhodnotenie - výsledok • http://dbpedia.org/resource/Manchester_City_F.C. http://dbpedia.org/ontology/SoccerClub • http://dbpedia.org/resource/Manchester_City_F.C. http://dbpedia.org/ontology/SportsTeam • http://dbpedia.org/resource/Manchester_City_F.C. http://schema.org/SportsTeam • http://dbpedia.org/resource/Manchester_City_F.C. http://dbpedia.org/ontology/Organisation • http://dbpedia.org/resource/Manchester_City_F.C. http://schema.org/Organization • http://dbpedia.org/resource/Manchester_City_F.C. http://dbpedia.org/ontology/Agent
Ďakujem za pozornosť Sudor Vladimír