350 likes | 543 Views
Sémantické vyhľadávanie A sémantick É sietE. RNDr. Michal Laclavík, PhD. Podpora přednášky kurzu Teoretické aspekty umělé inteligence KA 16. Primary Research Team & Capabilities. URL: http://ikt.ui.sav.sk. Director & leader of PDC: Dr. Ladislav Hluch ý.
E N D
Sémantické vyhľadávanie A sémantickÉsietE • RNDr. Michal Laclavík, PhD. Podpora přednášky kurzu Teoretické aspekty umělé inteligence KA 16
Primary Research Team & Capabilities URL: http://ikt.ui.sav.sk Director & leader of PDC: Dr. Ladislav Hluchý Dept. of Parallel and Distributed Computing Research and Development Areas: • Large-scale HPCN, Grid and MapReduce applications • Intelligent and Knowledge oriented Technologies Experience from IST: • 3 project in FP5: ANFAS, CrosGRID, Pellucid • 6 project in FP6: EGEE II, K-Wf Grid, DEGREE (coordinator),EGEE, int.eu.grid, MEDIGRID • 4 projects in FP7: Commius, Admire, Secricom, EGEE III Several National Projects (SPVV, VEGA, APVT) IKT Group Focus: • Information Processing (Large Scale) • Graph Processing • Information Extraction and Retrieval • Semantic Web • Knowledge oriented Technologies • Parallel and Distributed Information Processing Solutions: • SGDB: Simple Graph Database • gSemSearch: Graph based Semantic Search • Ontea: Pattern-based Semantic Annotation • ACoMA: KM tool in Email • EMBET: Recommendation System • Experts on MapReduce and IR (Nutch, Solr, Lucene) Hradec Králové
Obsah Podčiarknuté sú metódy vyvíjané na ÚI SAV • Google KnowledgeGraph • Facebook GraphSearch • SemSets • Sémantické siete • gSemSearch • IBM Watson • Extrakcia informácií Hradec Králové
Google KnowledgeGraph [ulanoff] • Wikipedia • Freebase • Confirmedhumanknowledge Hradec Králové
Facebook GraphSearch [facebook13] • Užívateľmi generovaný obsah • Prepojenia na web Hradec Králové
SémantickévyhľadávanieSemSets [SemSets] • Odpovede na otázky typu zoznam: astronauts who walked on the Moon • Wikipédia ako text aj graf • Text: usporiadanie pomocou lucene • Graf/sieť: šírenie aktivácie a SemSets • Víťazné riešenie na SemanticSearchChallenge Eugene_Cernan Alan_Bean David_Scott John_Young_(astronaut) Neil_Armstrong Pete_Conrad Harrison_Schmitt Alan_Shepard Charles_Duke Buzz_Aldrin James_Irwin Edgar_Mitchell Hradec Králové
Objavovanie vzťahov vo veľkých grafových dátach • Motivácia • Grafy a siete sú všadeprítomné : sociálne site, web, LinkedData, transakcie, komunikácia (email, telefóny). • Text tiež môže byť prevedený na graf. • Prepojenie grafových dát a vyhľadávania relácii v nich je dôležite • Prístup • Tvorba sémantických stromov a grafov z textu, webu, komunikácie, databáz a LinkedData • Užívateľská interakcia s týmito dátami aby sa dali lepšie integrovať zdroje a vyčistiť upraviť dáta • Užívatelia to budú robiť ak to bude mať zmysel, teda okamžitý vplyv na lepšie výsledky vyhľadávania Hradec Králové
Sémantické siete • Sociálne siete: priatelia a iné artefakty ako správy, statusy, fotky a podobne. • Emaily: sociálna sieť + iné objekty ako firmy, organizácie, dokumenty, linky, čas a podobne. • Telekomunikácie: sieť navzájom komunikujúcich ľudí - hovory, SMS s ďalšími metadátami ako čas alebo miesto. • Internet: sieť odkazov a prepojení. • Wikipédia: sieť prepojení a hierarchie jednotlivých tematických stránok ako aj jazykových mutácií • LinkedData Hradec Králové
Náhodná sieť a sieť s mocninovou distribúciou Sieť s mocninovoudist. stuňov Sieť s binomickou dist. stuňov [Slide borrowed from Marek Ciglan] Zdroj: http://geza.kzoo.edu/bionet/html/scalefree.html Hradec Králové
Siete malého sveta [Slide borrowed from Marek Ciglan] • Siete malého sveta často obsahujú kliky, alebo „skoro kliky“ • Efekt „moji priatelia v sociálnej sieti sú často priatelia navzájom“ • Matematicky to možno zachytiť pomocou zhlukovacieho koeficientu • Lokálny zhlukovací koeficient: Zdroj: http://en.wikipedia.org/wiki/Clustering_coefficient Hradec Králové
Vlastností vybraných grafov/sietí • Datasety: • DBPedia • Web • BBC, LinkedIn, DSK • Gorila – document • Events – agent simulation event graph • ACM – publications, LinkedData Hradec Králové
Extrakciaentít, stromy a siete • Information Extraction (Entity identification) • We have used Ontea, but other tools like GATE or Stanford NER can be used • Ontea advantage – forming entity trees • Trees • Graphs/Networks Hradec Králové
Ontea: Nástroj na extrakciu informácií [ontea_email]. • Regulárne výrazy (vzory) • Gazetteers (Slovníky) • Výsledky - Anotácie • Key-value páry • Sémantické stromy • Grafy a siete • Transformácie, Konfigurácia • Automatické načítanie extraktorov • Visuálny nástroj na anotáciu • Integrácia s inými technológiami • GATE, Stanford NER, Hadoop … • Testy s rôznymi jazykmi • Angličtina, Slovenčina, Španielčina, Taliančina http://ontea.sf.net Hradec Králové
gSemSearch: objavovanie relácií v grafoch a sieťach [gSemSearch] • Vylepšené vyhľadávanie relácií v sémantických grafoch • Škálovateľnosť • Nasmerované na prepojenie • štruktúrovaných (Relačné dáta, LinkedData) • neštruktúrovaných dát (text, dokumenty, komunikácia) Hradec Králové
Navigácia v zjednodušenom LinkedData grafe • Konverzia ACM LinkedData na jednoduchý graf pre gSemSearch • Experiment na hľadanie relácií a navigáciu • Pri konverzii na jednoduchší graf zanedbanie typov vzťahov: niekedy problém Hradec Králové
Teória grafov: šírenie aktivácie public Map<Result,Double> relatedBreadthFirst(Set<Entity> startNodes) { Map<Result,Double> rM = newHashMap<Result, Double>(); LinkedList<Entity> rLL = newLinkedList<Entity>(); int count = visitNodeCount; intsizeInit = startNodes.size(); for (Entity start : startNodes) { rLL.addLast(start); rM.put(start, (double) count/ (double) sizeInit); } while (!rLL.isEmpty() && count >= 0) { Entity r = rLL.removeFirst(); visited.add(r); intnCount = g.getNeighborCount(r); double v = rM.get(r)/(double)nCount; if (v < threshold) continue; if (nCount<=count) { Collection<Entity> rC = g.getNeighbors(r); for (Entity entity : rC) { if (!visited.contains(entity)) { rLL.addLast(entity); } visited.add(entity); doubleval = v; if (rM.containsKey(entity)) val += rM.get(entity); rM.put(entity, val); } count -=nCount; } } return rM; } • Fast algorithm • Takes graph topology into account • Breadth First • Ends after it visit certain number of nodes (set to 10,000 experimentally) Hradec Králové
SGDB: Simple Graph Database • Úložisko pre grafové štruktúry • Optimalizované na traverzovanie grafu • Pri traverzovaní rýchlejšie ako Neo4j • Podpora Blueprints API • https://simplegdb.svn.sourceforge.net/svnroot/simplegdb/Sgdb3 • Graph Database Benchmark • Benchmark pre operácie traverzovania v grafe • http://ups.savba.sk/~marek/gbench.html • Blueprints API – Možnosť testovať databázy ktoré podporujú toto API [gBench] Hradec Králové
Spracovanie rozsiahlych textových a grafových dát • Technológie • Sťahovanie dát • Nutch + plugins • Indexovanie a fultextové vyhľadávanie • lucene, Sorl • Extrakcia informácií • Ontea, GATE • Všetky vyššie uvedené na rozsiahlych dátach • Hadoop, S4 • Spracovanie a dopytovanie grafových dát • SimpleGraphDatabase (SGDB) • gSemSearch • Neo4j • Blueprints [uiWeb] Podčiarknuté sú technológie vyvíjané ÚISAV Hradec Králové
[Perrone11] IBM Watson Hradec Králové
IBM Watson [Perrone11] Hradec Králové
IBM Watson [Perrone11] Hradec Králové
MachineLearning a Dáta (trénovacie) • Log súbory (užívatelia) • Wikipédia, DBPedia (111 languages) • Tags (YouTube, Delicious .....) • LinkedData [Zaragoza] Hradec Králové
Information Extraction: OpenNLP • NLP úlohy • tokenization • sentence segmentation • part-of-speech tagging • named entity extraction • Chunking • Parsing • coreference resolution • MachineLearning Models • maximálnaentropia (maximum entropy) • model perceptrónu [TamingText, OpenNLP] • Experimenty • http://vi.ikt.ui.sav.sk/ • Extrakcia mien osôb • Lokalít • Rozpoznávanie viet SK • Rozpoznávanie viet EN Hradec Králové
Information Extraction: Features [Nigam] begins-with-number begins-with-ordinal begins-with-punctuation begins-with-question-word begins-with-subject blank contains-alphanum contains-bracketed-number contains-http contains-non-space contains-number contains-pipe Is Capitalized Is Mixed Caps Is All Caps Initial Cap Contains Digit All lowercase Is Initial Punctuation Period Comma Apostrophe Dash Preceded by HTML tag Character n-gram classifier says string is a person name (80% accurate) In stopword list(the, of, their, etc) In honorific list(Mr, Mrs, Dr, Sen, etc) In person suffix list(Jr, Sr, PhD, etc) In name particle list (de, la, van, der, etc) In Census lastname list;segmented by P(name) In Census firstname list;segmented by P(name) In locations lists(states, cities, countries) In company name list(“J. C. Penny”) In list of company suffixes(Inc, & Associates, Foundation) contains-question-mark contains-question-word ends-with-question-mark first-alpha-is-capitalized indented indented-1-to-4 indented-5-to-10 more-than-one-third-space only-punctuation prev-is-blank prev-begins-with-ordinal shorter-than-30 • Example word features: • identity of word • is in all caps • ends in “-ski” • is part of a noun phrase • is in a list of city names • is under node X in WordNet or Cyc • is in bold font • is in hyperlink anchor • features of past & future • last person name was female • next two words are “and Associates” Word Features • lists of job titles, • Lists of prefixes • Lists of suffixes • 350 informative phrases HTML/Formatting Features • {begin, end, in} x {<b>, <i>, <a>, <hN>} x{lengths 1, 2, 3, 4, or longer} • {begin, end} of line Hradec Králové
Pokusy s Machine Learning naÚI SAV • Extrakcia pomocou jednoduchých regulárnych výrazov • Krsne_meno Priezvisko • Ing. Meno Priezvisko • Best regards, Meno … • Ulica CISLO, PSC Meno_Mesta • Hocičo s veľkými písmenami (type-less entity) • Tieto metódy fungujú ale nie vždy • Človek nevie dobre nadefinovať pravidlá • Ak mám trénovacie dáta ML môže povedať kedy ktoré funguje • Trénovacie dáta z user interaction • Delete, annotate, change type Hradec Králové
MSM 2013 Challenge Annotowatch Š. Dlugolinský, P. Krammer, M. Ciglan, M. Laclavík http://oak.dcs.shef.ac.uk/msm2013/challenge.html Hradec Králové
Used Named Entity Recognition (NER) tools • ANNIE (GATE) • Apache OpenNLP • Illinois NER • Illinois Wikifier • LingPipe • Open Calais • Stanford NER • WikiMiner • Miscinator* Most of these tools are intended to be used rather on a relatively long news-like texts than on microposts • our specialized tool designed to detect entities of the MISC type, as defined in MSM’13 challenge; that is entertainment/award event, sports event, movies, TV shows, political event or programming languages ; uses Google Sets Hradec Králové
Average Performance of all tools* Some of the tools are more suitable on different entity type. It can be seen on different performances for LOC and MISC for example. Different tools produce diverse results, which when combined bring higher recall than the best tool individually. • on MSM’13 training dataset v1.5 Hradec Králové
Features for machine learning • Example of method features vector computation for MISC annotation: Hradec Králové
Sample part of generated prunned tree ... ... IllinoisNER.MISC.AScore.aiir <= 0.7273 ... | ApacheOpenNLP.ORG.AScore.aiir <= 0.2059 ... | | Wikiminer.MISC.AScore.ail <= 16 ... | | | Ann.type = LOC ... | | | | LingPipe.LOC.AScore.aiir <= 0.5882: LOC (21.0/1.0) ... | | | | LingPipe.LOC.AScore.aiir > 0.5882: NULL (371.0/11.0) ... | | | Ann.type = MISC ... | | | | Wikiminer.MISC.AScore.aiir <= 0.5172 ... | | | | | IllinoisWikifier.MISC.AScore.aiia <= 0.5: MISC (22.0) ... | | | | | IllinoisWikifier.MISC.AScore.aiia > 0.5: NULL (95.0/5.0) ... | | | | Wikiminer.MISC.AScore.aiir > 0.5172: NULL (682.0/12.0) ... | | | Ann.type = NP: NULL (7624.0/83.0) ... | | | Ann.type = ORG Hradec Králové
Annotations found in sample tweet by all tools” 2,000 fetuses found hidden at Thai Buddhist temple _URL_ via _Mention_” Hradec Králové
MSM 2013 Challenge Annotowatch Naše riešenie Annotowatch je v prvých 6 najlepších riešeniach zo 17 tímov ktoré súťažili v MSM 2013 challenge http://oak.dcs.shef.ac.uk/msm2013/challenge.html Hradec Králové
Záver • Sémantické siete zo štruktúrovaných a neštruktúrovaných dát • Majú zaujímavé vlastnosti • Možnosť optimalizácie grafových algoritmov a infraštruktúry • Sémantické vyhľadávanie v sémantických sieťach • Používateľ vyhľadáva, interaguje, opravuje a teda generuje trénovaciu množinu • Techniky strojového učenia na vylepšenie modelu sietí z neštruktúrovaných dát ako aj vyhľadávania Hradec Králové
Literatúra • [Ulanoff] Lance Ulanoff: Google Knowledge Graph Could Change Search Forever http://mashable.com/2012/02/13/google-knowledge-graph-change-search/, 2012 • [facebook13] Sean Gallagher, Knowing the score: How Facebook’s Graph Search knows what you want, http://arstechnica.com/information-technology/2013/03/knowing-the-score-how-facebooks-graph-search-knows-what-you-want/, 2013 • [Perrone11] Michael Perrone: What is Watson – An Overview, 2011, http://static.usenix.org/event/lisa11/tech/slides/perrone.pdf • [WatsonJr] Tony Pearson: IBM Watson - How to build your own "Watson Jr." in your basement, 2012, https://www.ibm.com/developerworks/mydeveloperworks/blogs/InsideSystemStorage/entry/ibm_watson_how_to_build_your_own_watson_jr_in_your_basement7?lang=en • [OpenNLP] OpenNLP: http://www.slideshare.net/gagan1667/opennlp-demo • [TamingText] Ingersoll, G., Morton, T., & Farris, L. (2012). Taming Text: How to find, organize and manipulate it. • [Zaragoza] Hugo Zaragoza. MachineLearningandInformationRetrieval, ESSIR 2009 Lecture • [Nigam] Kamal Nigam: Generative Models for Text Classification and Information Extraction, http://www.cs.cmu.edu/~knigam/15-505/ie-lecture.ppt Hradec Králové
Literatúra • [SemSets] CIGLAN, Marek - NoRVaG, Kjetil - HLUCHÝ, Ladislav. The SenSets model for ad-hoc semantic list search. In WWW´12 Proceedings of the 21st International Conference on World Wide Web. - New York : ACM, 2012, p. 131-140. ISBN 978-1-4503-1229-5. SCOPUS, http://www2012.wwwconference.org/proceedings/proceedings/p131.pdf • [gSemSearch] LACLAVÍK, Michal - DLUGOLINSKÝ, Štefan - ŠELENG, Martin - CIGLAN, Marek - HLUCHÝ, Ladislav. Emails as graph: relation discovery in email archive. In WWW´12 Companion Proceedings of the 21st International Conference companion on World Wide Web. - New York : ACM, 2012, 841-846. ISBN 978-1-4503-1230-1. http://www2012.wwwconference.org/proceedings/companion/p841.pdf . SCOPUS • [gBench] CIGLAN, Marek - AVERBUCH, Alex - HLUCHÝ, Ladislav. Benchmarking traversal operations over graph databases. In 2012 IEEE 28th International Conference on Data Engineering Workshops : proceedings. - Los Alamitos : IEEE Computer Society, 2012, p. 186-189. ISBN 978-1-4673-1640-8. SCOPUS • [ontea_email] LACLAVÍK, Michal - DLUGOLINSKÝ, Štefan - ŠELENG, Martin - KVASSAY, Marcel - GATIAL, Emil - BALOGH, Zoltán - HLUCHÝ, Ladislav. Email analysis and information extraction for enterprise benefit. In Computing and informatics, 2011, vol. 30, no. 1, p. 57-87. (0.356 - IF2010). ISSN 0232-0274. • [uiWeb] Dlugolinský, Štefan - Šeleng, Martin - Laclavík, Michal - Hluchý, Ladislav. Distributed Web-scale Infrastructure for Crawling, Indexing and Search with Semantic Support. In Computer Science Journal, 13 (4) Hradec Králové