320 likes | 489 Views
Tvorba znalostných báz pomocou jednoduchých sémantických sietí. Habilitačná prednáška Michal Laclavík. Abstrakt.
E N D
Tvorba znalostných báz pomocou jednoduchých sémantických sietí Habilitačná prednáška Michal Laclavík
Abstrakt • Výskum znalostí a znalostných báz bol v minulej dekáde reprezentovaný sémantickým webom a manažmentom znalostí. Nové možnosti naplnenia tejto výzvy prišli s rozvojom nových technológií a služieb Internetu v podobe sociálnych sietí, Wikipédie, LinkedData a dostupnosti čoraz viac štruktúrovaných informácií rôzneho charakteru v podobe jednoduchých sémantických sietí. Pomocou nich je možné tvoriť a overiť nové metódy pre spracovanie informácií, ich prepojenie, odvodzovanie a vyhľadávanie relevantných informácií a znalostí ako aj ich prezentáciu užívateľovi. Jednoduché sémantické siete a grafy nemajú pevnú sémantiku ale vyvíjajú sa podľa potreby na základe nových dát, integrácie zdrojov, interakcie s užívateľom a s inými systémami a je ich možné využiť pri tvorbe znalostných báz. V prednáške predstavíme ako je možné využiť princípy a metódy jednoduchých sémantických sietí na tvorbu znalostných báz zo štruktúrovaných a neštruktúrovaných dát. FIIT STU, Bratislava
Znalostná báza • Znalostná báza združuje informácie (a znalosti) a umožňuje ich tvorbu, zber, organizovanie, zdieľanie a vyhľadávanie • Knowledge base is1 a store of information or data that is available to draw on.2 the underlying set of facts, assumptions, and rules which a computer system has available to solve a problem. [Oxford Dictionary] • knowledge base (KB) is a special kind of database for knowledge management. A knowledge base is an information repository that provides a means for information to be collected, organized, shared, searched and utilized. It can be either machine-readable or intended for human use.http://en.wikipedia.org/wiki/Knowledge_base FIIT STU, Bratislava
Sémantické siete • Sociálne siete: priatelia a iné artefakty ako správy, statusy, fotky a podobne. • Emaily: sociálna sieť + iné objekty ako firmy, organizácie, dokumenty, linky, čas a podobne. • Telekomunikácie: sieť navzájom komunikujúcich ľudí - hovory, SMS s ďalšími metadátami ako čas alebo miesto. • Internet: sieť odkazov a prepojení. • Wikipédia: sieť prepojení a hierarchie jednotlivých tematických stránok ako aj jazykových mutácií • LinkedData FIIT STU, Bratislava
Sémantický web a manažment znalostí [TBL01, SemR06] • Sémantický web (Semantic Web) • URI, vzťah medzi URI (triple) • RDF, RDFS, OWL, OWL-DL • Odvodzovanie založené na logických modeloch • Problémy • Neúplné modely • Neúplne, protirečiace dáta • Príliš zložité odvodzovanie(exponenciálna zložitosť) • Manažment znalostí (KnowledgeManagement) • Vyhľadávanie, dokumenty, CMS … • Expertné systémy, fulltextsearch, Semantic web, Wiki... • Znalostné bázyako OpenCyc • Veľa investícií do technológií • Rozpačité výsledky [URI94] [DL03] [Daven00] [ExpS98] [Cyc89] [Daven00] FIIT STU, Bratislava
Dátové zdroje, znalostné bázy • Wikipedia • 6 miliónov článkov • 40 GB textu • DBPedia • Trojice (Triples) • Typy, vzťahy, ... • Freebase • 170 GB trojíc • 40 miliontopikov • 1.2 miliardy trojíc ns:m.012rkqx ns:type.object.type ns:common.topic.ns:m.012rkqx ns:type.object.name "High Fidelity"@en.ns:m.012rkqx ns:type.object.type ns:music.single.ns:m.012rkqx ns:type.object.key ns:authority.musicbrainz.name.TRACK3987054.ns:m.012rkqx ns:type.object.type ns:music.recording.ns:m.012rkqx key:authority.musicbrainz "258c45bd-4437-4580-8988-b3f3be975f9c".ns:m.012rkqx key:authority.musicbrainz.name "TRACK3987054".ns:m.012rkqx rdfs:label "High Fidelity"@en.ns:m.012rkqx rdfs:type ns:common.topic.ns:m.012rkqx rdfs:type ns:music.single.ns:m.012rkqx rdfs:type ns:music.recording. FIIT STU, Bratislava
Linked Data cloud • Prepojené grafové dáta • DBPedia, Geo, ľudia (FOAF), publikácie, medicína, … • EU dáta verejných inštitúcií FIIT STU, Bratislava
Google KnowledgeGraph [ulanoff] • Wikipedia • Freebase • Znalosti potvrdené človekom FIIT STU, Bratislava
Facebook GraphSearch [facebook13] • Užívateľmi generovaný obsah • Prepojenia na web FIIT STU, Bratislava
IBM Watson [Perrone11] FIIT STU, Bratislava
SémantickévyhľadávanieSemSets • Odpovede na otázky typu zoznam: astronauts who walked on the Moon • Wikipédia ako text aj graf • Text: usporiadanie pomocou lucene • Graf/sieť: šírenie aktivácie a SemSets • Víťazné riešenie na Semantic Search Challenge [SemSets] Eugene_Cernan Alan_Bean David_Scott John_Young_(astronaut) Neil_Armstrong Pete_Conrad Harrison_Schmitt Alan_Shepard Charles_Duke Buzz_Aldrin James_Irwin Edgar_Mitchell FIIT STU, Bratislava
Rozpoznávanie názvoslovných entít • Slovníkový princíp (Gazetteers) • Založené na vzoroch • Strojové učenie [msm13] FIIT STU, Bratislava
Rozpoznávanie názvoslovných entít [msm13] • Kombinácia existujúcich NER nástrojov (Named Entity Recognition) • ANNIE (GATE), ApacheOpenNLP, • Illinois NER, Illinois Wikifier, • LingPipe, OpenCalais • Stanford NER ,WikiMiner, • Miscinator • Strojové učenie • Rozhodovacie stromy • Získali sme druhé miesto na MSM 2013 • 1% strata na prvé miesto • Celkovo 17 tímov z celého svetahttp://ikt.ui.sav.sk/index.php?n=Main.IEChallenge2013 FIIT STU, Bratislava
MSM2013: Rozpoznávanie názvoslovných entít • Integrácia cez GATE • Vektor príznakov • Strojové učenie FIIT STU, Bratislava
Rozpoznávanie názvoslovných entít (NER) [LAC09, LAC11] Strom anotácií • Extrakcia informácií (identifikácia entít) • Založené na Ontea • Iné NER nástroje ako GATE, Stanford NER, Wiki miner môžu byť použité • Ontea výhody – tvorba stromov entít • Predpokladáme že máme k dispozícii kvalitné NER nástroje • Stromy => Grafy/ Siete Text with annotations Sieť / graf anotácií FIIT STU, Bratislava
Náhodná sieť a sieť s mocninovou distribúciou Sieť s mocninovoudist. stupňov Sieť s binomickou dist. stupňov [Slide borrowed from Marek Ciglan] Zdroj: http://geza.kzoo.edu/bionet/html/scalefree.html FIIT STU, Bratislava
Siete malého sveta [Slide borrowed from Marek Ciglan] • Siete malého sveta často obsahujú kliky, alebo „skoro kliky“ • Efekt „moji priatelia v sociálnej sieti sú často priatelia navzájom“ • Matematicky to možno zachytiť pomocou zhlukovacieho koeficientu • Lokálny zhlukovací koeficient: Zdroj: http://en.wikipedia.org/wiki/Clustering_coefficient FIIT STU, Bratislava
CCDF Vlastností vybraných grafov/sietí Degree distribution • Datasety: • DBPedia • Web • BBC • LinkedIn • DSK • Gorila – dokument • Events – graf udalostí z agentovej simulácie • ACM – metadáta publikácií vo forme RDF z LinkedData FIIT STU, Bratislava
gSemSearch: Graph based Semantic Search [LAC12] • Sémantické vyhľadávanie založené na grafoch • Vyhľadávanie vzťahov entít • Fulltextové vyhľadávanie • Súvisace entity sú objavené pomocou šírenia aktivácie a utriedené • Obmedzenie výsledkov podľa typov(Faceted search) • Navigácia • Vyhľadávanie, navigácia, interakcia • Obmedzenie podľa typu • Zlučovanie entít • Vymazanie • Zmena typu FIIT STU, Bratislava
Spracovanie rozsiahlych textových a grafových dát Podčiarknuté sú technológie vyvíjané ÚISAV • Technológie • Sťahovanie dát • Nutch + plugins • Indexovanie a fultextové vyhľadávanie • lucene, Sorl • Extrakcia informácií • Ontea, GATE • Všetky vyššie uvedené na rozsiahlych dátach • Hadoop, S4 • Spracovanie a dopytovanie grafových dát • SimpleGraphDatabase(SGDB) • gSemSearch • Neo4j • Blueprints FIIT STU, Bratislava
SGDB: Simple Graph Database • Úložisko pre grafové štruktúry • Optimalizované na traverzovanie grafu • Pri traverzovaní rýchlejšie ako Neo4j • Podpora Blueprints API • https://simplegdb.svn.sourceforge.net/svnroot/simplegdb/Sgdb3 • Graph Database Benchmark • Benchmark pre operácie traverzovania v grafe • http://ups.savba.sk/~marek/gbench.html • Blueprints API – Možnosť testovať databázy ktoré podporujú toto API FIIT STU, Bratislava
Aplikácie • Internetováreklama(Online Advertising) • Kategorizácia dopytov • Expanzia kľúčových slov • Podniková inteligencia (Business Intelligence) • Enterprise Search • Manažment znalostí • Spracovanie textu (Text analytics) • Ďalšie • Spracovanie webu • Analýza sociálnych médií (Twitter) • Viacjazyčné aplikácie (DBpedia, Freebase) FIIT STU, Bratislava
Kategorizácia dopytov (Query Categorization - QC) • Zvyčajný postupQC: • Vyhľadať dokumenty • Kategorizovať vrátené dokumenty • Najlepšie algoritmy pracujú s celým webom (search API) FIIT STU, Bratislava
EnterpriseSearch Enron • Spracovanie firemných emailov • Commiusprojekt • Enron korpus • Enterprise Search založený na vyhľadávaní v emailoch • VENIS project [LAC11] [LAC12] [LAC12B] FIIT STU, Bratislava
Webové dokumenty [DLUG12, LAC11C] • BBC news • LinkedIn job offers • DSK BBC LinkedIn DSK FIIT STU, Bratislava
Vyhľadávanie, navigácia v rozsiahlych sieľach z rôznych zdrojov • Motivácia • Grafy a siete sú všadeprítomné : sociálne site, web, LinkedData, komunikácia (email, telefóny). • Text tiež môže byť prevedený na graf. • Prepojenie grafových dát a vyhľadávania relácií v nich je dôležite • Prístup • Tvorba sémantických stromov a grafov z textu, webu, komunikácie, databáz a LinkedData • Užívateľská interakcia s týmito dátami aby sa dali lepšie integrovať zdroje a vyčistiť upraviť dáta, učenie • Užívatelia to budú robiť ak to bude mať zmysel, teda okamžitý vplyv na lepšie výsledky vyhľadávania FIIT STU, Bratislava
Referencie • [Lac09] Laclavík, M. - Šeleng, M. - Ciglan, M. - Hluchý, L. (2009). Ontea: Platform for pattern based automated semantic annotation. In Computing and informatics, 2009, vol. 28, no. 4, p. 555-579. (0.492 - IF2008). (2009 - Current Contents). ISSN 0232-0274. • [Lac10] Laclavík, M. - Kvassay M. - Dlugolinský, Š. - Hluchý, L (2010): Use of Email Social Networks for Enterprise Benefit. In: IWCSN 2010, IEEE/WIC/ACM WI-IAT, 2010, pp 67-70, DOI 10.1109/WI-IAT.2010.126 ( • [Lac11] Laclavík, M. - Dlugolinský, Š. - Šeleng, M. - Kvassay M. – Gatial, E. – Balogh, Z. - Hluchý, L (2011): Email Analysis and Information Extraction for Enterprise Benefit. In Computing and Informatics, 2011, vol. 30, no. 1, p. 57-87. ISSN 1335-9150, Special Issue on Business Collaboration Support for micro, small, and medium-sized Enterprises • [Lac11b] Laclavík, M.- Dlugolinský, Š. - Kvassay M. - Hluchý, L (2011):Email Social Network Extraction and Search. In NextMail 2011 workshop, WI-IAT 2011, In The 2011 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. IEEE Computer Society, 2011, p. 373-376. ISBN 978-0-7695-4513-4 • [Lac11c] Laclavík, M. - Šeleng, M. - Ciglan, M. - Dlugolinský, Š. - Hluchý, L. (2011). gSemSearch: Objavovanierelácií v kolekciáchtextových a grafovýchdát. In 6th Workshop on Intelligent and Knowledge Oriented Technologies : WIKT 2011 proceedings. - Košice : Centre for Information Technologies, FEI TU Košice, 2011, p. 1-5. ISBN 978-80-89284-99-3. • [Lac12] Laclavík, M.- Dlugolinský, Š. - Šeleng, M. - Ciglan, M. - Hluchý, L. (2012). Emails as graph: relation discovery in email archive. In Proceedings of the 21st international conference companion on World Wide Web (WWW '12 Companion). ACM, New York, NY, USA, 841-846, http://www2012.wwwconference.org/proceedings/companion/p841, DOI=10.1145/2187980.2188210. • [Lac12b] Laclavík, M. - Dlugolinský, Š. - Šeleng, M. - Ciglan, M. – Tomašek, M. - Kvassay, M. - Hluchý, L. (2012). Lightweight semantic approach for enterprise search and interoperability. In CEUR Workshop Proceedings: InteropVlab.IT 2012. - CEUR, 2012, p. 35-42. ISSN 1613-0073. • [Lac12c] Laclavík, M. (2012): Improving entity and relation discovery by user interaction with semantic graphs. In 7th Workshop on Intelligent and Knowledge Oriented Technologies: P. 161-164. - Bratislava: Nakladateľstvo STU, 2012. ISBN 978-80-227-3812-5. • [Dlug12] Dlugolinský, Š. - Šeleng, M. - Laclavík, M. - Hluchý, L. (2012): Distributed Web-scale Infrastructure for Crawling, Indexing and Search with Semantic Support. In Computer Science Journal, Vol 13 No.4, pages 5-19, 2012, http://dx.doi.org/10.7494/csci.2012.13.4.5 FIIT STU, Bratislava
Referencie • [TBL01] BERNERS-LEE, T. – HENDLER, J. – LASSILA, O. (2001): TheSemantic Web, ScientificAmerican, May 2001, p. 29-37. • [SemR06] SHADBOLT, N. - HALL, W. - BERNERS-LEE, T (2006): TheSemantic Web Revisited, IEEE IntelligentSystemsJournal, May/June 2006, 96-101 • [URI94] BERNERS-LEE, T (1994): UniversalResourceIdentifiersused in theWorldWide Web, RFC 1630, Internet Society • [ExpS98] GIARRATANO, J. C. –RILEY, G. (1998). Expert Systems (3rd ed.). PWS Pub. Co., Boston, MA, USA. • [Daven00] DAVENPORT, T. H. - PRUSAK, L. (2000): WorkingKnowledge, ISBN:1578513014, May, 2000 • [Cyc89] LENAT, D. B. - GUHA R. V. (1989). BuildingLargeKnowledge-BasedSystems; Representation and Inference in theCyc Project (1st ed.). Addison-WesleyLongmanPublishingCo., Inc., Boston, MA, USA. • [DL03] BAADER, F. - MCGUINNESS, D. - NARDI, D. (2003): TheDescriptionLogicHandbook, ISBN:0521781760, January 9, 2003 FIIT STU, Bratislava
Referencie • [Ulanoff] Lance Ulanoff: Google Knowledge Graph Could Change Search Forever http://mashable.com/2012/02/13/google-knowledge-graph-change-search/, 2012 • [facebook13] Sean Gallagher, Knowing the score: How Facebook’s Graph Search knows what you want, http://arstechnica.com/information-technology/2013/03/knowing-the-score-how-facebooks-graph-search-knows-what-you-want/, 2013 • [Perrone11] Michael Perrone: What is Watson – An Overview, 2011, http://static.usenix.org/event/lisa11/tech/slides/perrone.pdf • [WatsonJr] Tony Pearson: IBM Watson - How to build your own "Watson Jr." in your basement, 2012, https://www.ibm.com/developerworks/mydeveloperworks/blogs/InsideSystemStorage/entry/ibm_watson_how_to_build_your_own_watson_jr_in_your_basement7?lang=en • [OpenNLP] OpenNLP: http://www.slideshare.net/gagan1667/opennlp-demo • [TamingText] Ingersoll, G., Morton, T., & Farris, L. (2012). Taming Text: How to find, organize and manipulate it. • [Zaragoza] Hugo Zaragoza. MachineLearningandInformationRetrieval, ESSIR 2009 Lecture • [Nigam] Kamal Nigam: Generative Models for Text Classification and Information Extraction, http://www.cs.cmu.edu/~knigam/15-505/ie-lecture.ppt FIIT STU, Bratislava
Referencie • [SemSets] CIGLAN, Marek - NoRVaG, Kjetil - HLUCHÝ, Ladislav. The SenSets model for ad-hoc semantic list search. In WWW´12 Proceedings of the 21st International Conference on World Wide Web. - New York : ACM, 2012, p. 131-140. ISBN 978-1-4503-1229-5. SCOPUS, http://www2012.wwwconference.org/proceedings/proceedings/p131.pdf • [gSemSearch] LACLAVÍK, Michal - DLUGOLINSKÝ, Štefan - ŠELENG, Martin - CIGLAN, Marek - HLUCHÝ, Ladislav. Emails as graph: relation discovery in email archive. In WWW´12 Companion Proceedings of the 21st International Conference companion on World Wide Web. - New York : ACM, 2012, 841-846. ISBN 978-1-4503-1230-1. http://www2012.wwwconference.org/proceedings/companion/p841.pdf . SCOPUS • [gBench] CIGLAN, Marek - AVERBUCH, Alex - HLUCHÝ, Ladislav. Benchmarking traversal operations over graph databases. In 2012 IEEE 28th International Conference on Data Engineering Workshops : proceedings. - Los Alamitos : IEEE Computer Society, 2012, p. 186-189. ISBN 978-1-4673-1640-8. SCOPUS • [ontea_email] LACLAVÍK, Michal - DLUGOLINSKÝ, Štefan - ŠELENG, Martin - KVASSAY, Marcel - GATIAL, Emil - BALOGH, Zoltán - HLUCHÝ, Ladislav. Email analysis and information extraction for enterprise benefit. In Computing and informatics, 2011, vol. 30, no. 1, p. 57-87. (0.356 - IF2010). ISSN 0232-0274. • [uiWeb] Dlugolinský, Štefan - Šeleng, Martin - Laclavík, Michal - Hluchý, Ladislav. Distributed Web-scale Infrastructure for Crawling, Indexing and Search with Semantic Support. In Computer Science Journal, 13 (4) • [msm13] ŠtefanDlugolinský, Peter Krammer, MarekCiglan, Michal Laclavík:MSM2013 IE Challenge: Annotowatch . In Proceedings of the Concept Extraction Challenge at the Workshop on Making Sense of Microposts co-located with the 22nd International World Wide Web Conference (WWW'13) Rio de Janeiro, Brazil, May 13, 2013, ISSN: 1613-0073, Vol-1019, pages 21-26, 2013, http://ceur-ws.org/Vol-1019/paper_21.pdf FIIT STU, Bratislava