1 / 30

Tvorba znalostných báz pomocou jednoduchých sémantických sietí

Tvorba znalostných báz pomocou jednoduchých sémantických sietí. Habilitačná prednáška Michal Laclavík. Abstrakt.

pancho
Download Presentation

Tvorba znalostných báz pomocou jednoduchých sémantických sietí

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tvorba znalostných báz pomocou jednoduchých sémantických sietí Habilitačná prednáška Michal Laclavík

  2. Abstrakt • Výskum znalostí a znalostných báz bol v minulej dekáde reprezentovaný sémantickým webom a manažmentom znalostí. Nové možnosti naplnenia tejto výzvy prišli s rozvojom nových technológií a služieb Internetu v podobe sociálnych sietí, Wikipédie, LinkedData a dostupnosti čoraz viac štruktúrovaných informácií rôzneho charakteru v podobe jednoduchých sémantických sietí. Pomocou nich je možné tvoriť a overiť nové metódy pre spracovanie informácií, ich prepojenie, odvodzovanie a vyhľadávanie relevantných informácií a znalostí ako aj ich prezentáciu užívateľovi. Jednoduché sémantické siete a grafy nemajú pevnú sémantiku ale vyvíjajú sa podľa potreby na základe nových dát, integrácie zdrojov, interakcie s užívateľom a s inými systémami a je ich možné využiť pri tvorbe znalostných báz. V prednáške predstavíme ako je možné využiť princípy a metódy jednoduchých sémantických sietí na tvorbu znalostných báz zo štruktúrovaných a neštruktúrovaných dát. FIIT STU, Bratislava

  3. Znalostná báza • Znalostná báza združuje informácie (a znalosti) a umožňuje ich tvorbu, zber, organizovanie, zdieľanie a vyhľadávanie • Knowledge base is1 a store of information or data that is available to draw on.2 the underlying set of facts, assumptions, and rules which a computer system has available to solve a problem. [Oxford Dictionary] • knowledge base (KB)  is a special kind of database for knowledge management. A knowledge base is an information repository that provides a means for information to be collected, organized, shared, searched and utilized. It can be either machine-readable or intended for human use.http://en.wikipedia.org/wiki/Knowledge_base FIIT STU, Bratislava

  4. Sémantické siete • Sociálne siete: priatelia a iné artefakty ako správy, statusy, fotky a podobne. • Emaily: sociálna sieť + iné objekty ako firmy, organizácie, dokumenty, linky, čas a podobne. • Telekomunikácie: sieť navzájom komunikujúcich ľudí - hovory, SMS s ďalšími metadátami ako čas alebo miesto. • Internet: sieť odkazov a prepojení. • Wikipédia: sieť prepojení a hierarchie jednotlivých tematických stránok ako aj jazykových mutácií • LinkedData FIIT STU, Bratislava

  5. Sémantický web a manažment znalostí [TBL01, SemR06] • Sémantický web (Semantic Web) • URI, vzťah medzi URI (triple) • RDF, RDFS, OWL, OWL-DL • Odvodzovanie založené na logických modeloch • Problémy • Neúplné modely • Neúplne, protirečiace dáta • Príliš zložité odvodzovanie(exponenciálna zložitosť) • Manažment znalostí (KnowledgeManagement) • Vyhľadávanie, dokumenty, CMS … • Expertné systémy, fulltextsearch, Semantic web, Wiki... • Znalostné bázyako OpenCyc • Veľa investícií do technológií • Rozpačité výsledky [URI94] [DL03] [Daven00] [ExpS98] [Cyc89] [Daven00] FIIT STU, Bratislava

  6. Dátové zdroje, znalostné bázy • Wikipedia • 6 miliónov článkov • 40 GB textu • DBPedia • Trojice (Triples) • Typy, vzťahy, ... • Freebase • 170 GB trojíc • 40 miliontopikov • 1.2 miliardy trojíc ns:m.012rkqx    ns:type.object.type ns:common.topic.ns:m.012rkqx    ns:type.object.name "High Fidelity"@en.ns:m.012rkqx    ns:type.object.type ns:music.single.ns:m.012rkqx    ns:type.object.key  ns:authority.musicbrainz.name.TRACK3987054.ns:m.012rkqx    ns:type.object.type ns:music.recording.ns:m.012rkqx    key:authority.musicbrainz   "258c45bd-4437-4580-8988-b3f3be975f9c".ns:m.012rkqx    key:authority.musicbrainz.name  "TRACK3987054".ns:m.012rkqx    rdfs:label  "High Fidelity"@en.ns:m.012rkqx    rdfs:type   ns:common.topic.ns:m.012rkqx    rdfs:type   ns:music.single.ns:m.012rkqx    rdfs:type   ns:music.recording. FIIT STU, Bratislava

  7. Linked Data cloud • Prepojené grafové dáta • DBPedia, Geo, ľudia (FOAF), publikácie, medicína, … • EU dáta verejných inštitúcií FIIT STU, Bratislava

  8. Google KnowledgeGraph [ulanoff] • Wikipedia • Freebase • Znalosti potvrdené človekom FIIT STU, Bratislava

  9. Facebook GraphSearch [facebook13] • Užívateľmi generovaný obsah • Prepojenia na web FIIT STU, Bratislava

  10. IBM Watson [Perrone11] FIIT STU, Bratislava

  11. SémantickévyhľadávanieSemSets • Odpovede na otázky typu zoznam: astronauts who walked on the Moon • Wikipédia ako text aj graf • Text: usporiadanie pomocou lucene • Graf/sieť: šírenie aktivácie a SemSets • Víťazné riešenie na Semantic Search Challenge [SemSets] Eugene_Cernan Alan_Bean David_Scott John_Young_(astronaut) Neil_Armstrong Pete_Conrad Harrison_Schmitt Alan_Shepard Charles_Duke Buzz_Aldrin James_Irwin Edgar_Mitchell FIIT STU, Bratislava

  12. Rozpoznávanie názvoslovných entít • Slovníkový princíp (Gazetteers) • Založené na vzoroch • Strojové učenie [msm13] FIIT STU, Bratislava

  13. Rozpoznávanie názvoslovných entít [msm13] • Kombinácia existujúcich NER nástrojov (Named Entity Recognition) • ANNIE (GATE), ApacheOpenNLP, • Illinois NER, Illinois Wikifier, • LingPipe, OpenCalais • Stanford NER ,WikiMiner, • Miscinator • Strojové učenie • Rozhodovacie stromy • Získali sme druhé miesto na MSM 2013 • 1% strata na prvé miesto • Celkovo 17 tímov z celého svetahttp://ikt.ui.sav.sk/index.php?n=Main.IEChallenge2013 FIIT STU, Bratislava

  14. MSM2013: Rozpoznávanie názvoslovných entít • Integrácia cez GATE • Vektor príznakov • Strojové učenie FIIT STU, Bratislava

  15. Rozpoznávanie názvoslovných entít (NER) [LAC09, LAC11] Strom anotácií • Extrakcia informácií (identifikácia entít) • Založené na Ontea • Iné NER nástroje ako GATE, Stanford NER, Wiki miner môžu byť použité • Ontea výhody – tvorba stromov entít • Predpokladáme že máme k dispozícii kvalitné NER nástroje • Stromy => Grafy/ Siete Text with annotations Sieť / graf anotácií FIIT STU, Bratislava

  16. Náhodná sieť a sieť s mocninovou distribúciou Sieť s mocninovoudist. stupňov Sieť s binomickou dist. stupňov [Slide borrowed from Marek Ciglan] Zdroj: http://geza.kzoo.edu/bionet/html/scalefree.html FIIT STU, Bratislava

  17. Siete malého sveta [Slide borrowed from Marek Ciglan] • Siete malého sveta často obsahujú kliky, alebo „skoro kliky“ • Efekt „moji priatelia v sociálnej sieti sú často priatelia navzájom“ • Matematicky to možno zachytiť pomocou zhlukovacieho koeficientu • Lokálny zhlukovací koeficient: Zdroj: http://en.wikipedia.org/wiki/Clustering_coefficient FIIT STU, Bratislava

  18. CCDF Vlastností vybraných grafov/sietí Degree distribution • Datasety: • DBPedia • Web • BBC • LinkedIn • DSK • Gorila – dokument • Events – graf udalostí z agentovej simulácie • ACM – metadáta publikácií vo forme RDF z LinkedData FIIT STU, Bratislava

  19. gSemSearch: Graph based Semantic Search [LAC12] • Sémantické vyhľadávanie založené na grafoch • Vyhľadávanie vzťahov entít • Fulltextové vyhľadávanie • Súvisace entity sú objavené pomocou šírenia aktivácie a utriedené • Obmedzenie výsledkov podľa typov(Faceted search) • Navigácia • Vyhľadávanie, navigácia, interakcia • Obmedzenie podľa typu • Zlučovanie entít • Vymazanie • Zmena typu FIIT STU, Bratislava

  20. Spracovanie rozsiahlych textových a grafových dát Podčiarknuté sú technológie vyvíjané ÚISAV • Technológie • Sťahovanie dát • Nutch + plugins • Indexovanie a fultextové vyhľadávanie • lucene, Sorl • Extrakcia informácií • Ontea, GATE • Všetky vyššie uvedené na rozsiahlych dátach • Hadoop, S4 • Spracovanie a dopytovanie grafových dát • SimpleGraphDatabase(SGDB) • gSemSearch • Neo4j • Blueprints FIIT STU, Bratislava

  21. SGDB: Simple Graph Database • Úložisko pre grafové štruktúry • Optimalizované na traverzovanie grafu • Pri traverzovaní rýchlejšie ako Neo4j • Podpora Blueprints API • https://simplegdb.svn.sourceforge.net/svnroot/simplegdb/Sgdb3 • Graph Database Benchmark • Benchmark pre operácie traverzovania v grafe • http://ups.savba.sk/~marek/gbench.html • Blueprints API – Možnosť testovať databázy ktoré podporujú toto API FIIT STU, Bratislava

  22. Aplikácie • Internetováreklama(Online Advertising) • Kategorizácia dopytov • Expanzia kľúčových slov • Podniková inteligencia (Business Intelligence) • Enterprise Search • Manažment znalostí • Spracovanie textu (Text analytics) • Ďalšie • Spracovanie webu • Analýza sociálnych médií (Twitter) • Viacjazyčné aplikácie (DBpedia, Freebase) FIIT STU, Bratislava

  23. Kategorizácia dopytov (Query Categorization - QC) • Zvyčajný postupQC: • Vyhľadať dokumenty • Kategorizovať vrátené dokumenty • Najlepšie algoritmy pracujú s celým webom (search API) FIIT STU, Bratislava

  24. EnterpriseSearch Enron • Spracovanie firemných emailov • Commiusprojekt • Enron korpus • Enterprise Search založený na vyhľadávaní v emailoch • VENIS project [LAC11] [LAC12] [LAC12B] FIIT STU, Bratislava

  25. Webové dokumenty [DLUG12, LAC11C] • BBC news • LinkedIn job offers • DSK BBC LinkedIn DSK FIIT STU, Bratislava

  26. Vyhľadávanie, navigácia v rozsiahlych sieľach z rôznych zdrojov • Motivácia • Grafy a siete sú všadeprítomné : sociálne site, web, LinkedData, komunikácia (email, telefóny). • Text tiež môže byť prevedený na graf. • Prepojenie grafových dát a vyhľadávania relácií v nich je dôležite • Prístup • Tvorba sémantických stromov a grafov z textu, webu, komunikácie, databáz a LinkedData • Užívateľská interakcia s týmito dátami aby sa dali lepšie integrovať zdroje a vyčistiť upraviť dáta, učenie • Užívatelia to budú robiť ak to bude mať zmysel, teda okamžitý vplyv na lepšie výsledky vyhľadávania FIIT STU, Bratislava

  27. Referencie • [Lac09] Laclavík, M. - Šeleng, M. - Ciglan, M. - Hluchý, L. (2009). Ontea: Platform for pattern based automated semantic annotation. In Computing and informatics, 2009, vol. 28, no. 4, p. 555-579. (0.492 - IF2008). (2009 - Current Contents). ISSN 0232-0274. • [Lac10] Laclavík, M. - Kvassay M. - Dlugolinský, Š. - Hluchý, L (2010): Use of Email Social Networks for Enterprise Benefit. In: IWCSN 2010, IEEE/WIC/ACM WI-IAT, 2010, pp 67-70, DOI 10.1109/WI-IAT.2010.126 ( • [Lac11] Laclavík, M. - Dlugolinský, Š. - Šeleng, M. - Kvassay M. – Gatial, E. – Balogh, Z. - Hluchý, L (2011): Email Analysis and Information Extraction for Enterprise Benefit. In Computing and Informatics, 2011, vol. 30, no. 1, p. 57-87. ISSN 1335-9150, Special Issue on Business Collaboration Support for micro, small, and medium-sized Enterprises • [Lac11b] Laclavík, M.- Dlugolinský, Š. - Kvassay M. - Hluchý, L (2011):Email Social Network Extraction and Search. In NextMail 2011 workshop, WI-IAT 2011, In The 2011 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. IEEE Computer Society, 2011, p. 373-376. ISBN 978-0-7695-4513-4 • [Lac11c] Laclavík, M. - Šeleng, M. - Ciglan, M. - Dlugolinský, Š. - Hluchý, L. (2011). gSemSearch: Objavovanierelácií v kolekciáchtextových a grafovýchdát. In 6th Workshop on Intelligent and Knowledge Oriented Technologies : WIKT 2011 proceedings. - Košice : Centre for Information Technologies, FEI TU Košice, 2011, p. 1-5. ISBN 978-80-89284-99-3. • [Lac12] Laclavík, M.- Dlugolinský, Š. - Šeleng, M. - Ciglan, M. - Hluchý, L. (2012). Emails as graph: relation discovery in email archive. In Proceedings of the 21st international conference companion on World Wide Web (WWW '12 Companion). ACM, New York, NY, USA, 841-846, http://www2012.wwwconference.org/proceedings/companion/p841, DOI=10.1145/2187980.2188210. • [Lac12b] Laclavík, M. - Dlugolinský, Š. - Šeleng, M. - Ciglan, M. – Tomašek, M. - Kvassay, M. - Hluchý, L. (2012). Lightweight semantic approach for enterprise search and interoperability. In CEUR Workshop Proceedings: InteropVlab.IT 2012. - CEUR, 2012, p. 35-42. ISSN 1613-0073. • [Lac12c] Laclavík, M. (2012): Improving entity and relation discovery by user interaction with semantic graphs. In 7th Workshop on Intelligent and Knowledge Oriented Technologies: P. 161-164. - Bratislava: Nakladateľstvo STU, 2012. ISBN 978-80-227-3812-5. • [Dlug12] Dlugolinský, Š. - Šeleng, M. - Laclavík, M. - Hluchý, L. (2012): Distributed Web-scale Infrastructure for Crawling, Indexing and Search with Semantic Support. In Computer Science Journal, Vol 13 No.4, pages 5-19, 2012, http://dx.doi.org/10.7494/csci.2012.13.4.5 FIIT STU, Bratislava

  28. Referencie • [TBL01] BERNERS-LEE, T. – HENDLER, J. – LASSILA, O. (2001): TheSemantic Web, ScientificAmerican, May 2001, p. 29-37. • [SemR06] SHADBOLT, N. - HALL, W. - BERNERS-LEE, T (2006): TheSemantic Web Revisited, IEEE IntelligentSystemsJournal, May/June 2006, 96-101 • [URI94] BERNERS-LEE, T (1994): UniversalResourceIdentifiersused in theWorldWide Web, RFC 1630, Internet Society • [ExpS98] GIARRATANO, J. C. –RILEY, G. (1998). Expert Systems (3rd ed.). PWS Pub. Co., Boston, MA, USA. • [Daven00] DAVENPORT, T. H. - PRUSAK, L. (2000): WorkingKnowledge, ISBN:1578513014, May, 2000 • [Cyc89] LENAT, D. B. - GUHA R. V. (1989). BuildingLargeKnowledge-BasedSystems; Representation and Inference in theCyc Project (1st ed.). Addison-WesleyLongmanPublishingCo., Inc., Boston, MA, USA. • [DL03] BAADER, F. - MCGUINNESS, D. - NARDI, D. (2003): TheDescriptionLogicHandbook, ISBN:0521781760, January 9, 2003 FIIT STU, Bratislava

  29. Referencie • [Ulanoff] Lance Ulanoff: Google Knowledge Graph Could Change Search Forever http://mashable.com/2012/02/13/google-knowledge-graph-change-search/, 2012 • [facebook13] Sean Gallagher, Knowing the score: How Facebook’s Graph Search knows what you want, http://arstechnica.com/information-technology/2013/03/knowing-the-score-how-facebooks-graph-search-knows-what-you-want/, 2013 • [Perrone11] Michael Perrone: What is Watson – An Overview, 2011, http://static.usenix.org/event/lisa11/tech/slides/perrone.pdf • [WatsonJr] Tony Pearson: IBM Watson - How to build your own "Watson Jr." in your basement, 2012, https://www.ibm.com/developerworks/mydeveloperworks/blogs/InsideSystemStorage/entry/ibm_watson_how_to_build_your_own_watson_jr_in_your_basement7?lang=en • [OpenNLP] OpenNLP: http://www.slideshare.net/gagan1667/opennlp-demo • [TamingText] Ingersoll, G., Morton, T., & Farris, L. (2012). Taming Text: How to find, organize and manipulate it. • [Zaragoza] Hugo Zaragoza. MachineLearningandInformationRetrieval, ESSIR 2009 Lecture • [Nigam] Kamal Nigam: Generative Models for Text Classification and Information Extraction, http://www.cs.cmu.edu/~knigam/15-505/ie-lecture.ppt FIIT STU, Bratislava

  30. Referencie • [SemSets] CIGLAN, Marek - NoRVaG, Kjetil - HLUCHÝ, Ladislav. The SenSets model for ad-hoc semantic list search. In WWW´12 Proceedings of the 21st International Conference on World Wide Web. - New York : ACM, 2012, p. 131-140. ISBN 978-1-4503-1229-5. SCOPUS, http://www2012.wwwconference.org/proceedings/proceedings/p131.pdf • [gSemSearch] LACLAVÍK, Michal - DLUGOLINSKÝ, Štefan - ŠELENG, Martin - CIGLAN, Marek - HLUCHÝ, Ladislav. Emails as graph: relation discovery in email archive. In WWW´12 Companion Proceedings of the 21st International Conference companion on World Wide Web. - New York : ACM, 2012, 841-846. ISBN 978-1-4503-1230-1. http://www2012.wwwconference.org/proceedings/companion/p841.pdf . SCOPUS • [gBench] CIGLAN, Marek - AVERBUCH, Alex - HLUCHÝ, Ladislav. Benchmarking traversal operations over graph databases. In 2012 IEEE 28th International Conference on Data Engineering Workshops : proceedings. - Los Alamitos : IEEE Computer Society, 2012, p. 186-189. ISBN 978-1-4673-1640-8. SCOPUS • [ontea_email] LACLAVÍK, Michal - DLUGOLINSKÝ, Štefan - ŠELENG, Martin - KVASSAY, Marcel - GATIAL, Emil - BALOGH, Zoltán - HLUCHÝ, Ladislav. Email analysis and information extraction for enterprise benefit. In Computing and informatics, 2011, vol. 30, no. 1, p. 57-87. (0.356 - IF2010). ISSN 0232-0274. • [uiWeb] Dlugolinský, Štefan - Šeleng, Martin - Laclavík, Michal - Hluchý, Ladislav. Distributed Web-scale Infrastructure for Crawling, Indexing and Search with Semantic Support. In Computer Science Journal, 13 (4) • [msm13] ŠtefanDlugolinský, Peter Krammer, MarekCiglan, Michal Laclavík:MSM2013 IE Challenge: Annotowatch . In Proceedings of the Concept Extraction Challenge at the Workshop on Making Sense of Microposts co-located with the 22nd International World Wide Web Conference (WWW'13) Rio de Janeiro, Brazil, May 13, 2013, ISSN: 1613-0073, Vol-1019, pages 21-26, 2013, http://ceur-ws.org/Vol-1019/paper_21.pdf FIIT STU, Bratislava

More Related