1 / 20

Komplexné siete a vyhľadávanie informácií

Komplexné siete a vyhľadávanie informácií. Marek Ciglan Ústav informatiky SAV. Náčrt obsahu. Komplexné siete v reálnom svete Sú komplexné siete zaujímavé pre problémy spojené s vyhľadávaním informácií? Vlastnosti komplexných sietí Ako vyzerajú? Porovnanie s náhodným sieťami.

quito
Download Presentation

Komplexné siete a vyhľadávanie informácií

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Komplexné siete a vyhľadávanie informácií Marek Ciglan Ústav informatiky SAV

  2. Náčrt obsahu • Komplexné siete v reálnom svete • Sú komplexné siete zaujímavé pre problémy spojené s vyhľadávaním informácií? • Vlastnosti komplexných sietí • Ako vyzerajú? • Porovnanie s náhodným sieťami. • Typické úlohy dolovania v grafových dátach 21 November 2011

  3. Komplexné siete • Grafové dáta – zachytávajú entity (vrcholy grafu) a ich vzťahy (hrany grafu) • Linky prinášajú pridanú hodnotu • Veľké dáta – rozsah spracovávaných dát robí orientáciu v dátach, ich vizualizáciu a štúdium ich vlastností netriviálnym problémom • Komplexný systém – zložený zo spojených časí, ako celok vykazuje vlastnosti, ktoré sa nedajú pozorovať na úrovni jednotlivých častí 21 November 2011

  4. Komplexné siete v reálnom svete • Čoraz viac dostupných dát, ktoré možno prirodzene modelovať ako komplexné siete • Veľké on-line aplikácie: • Sociálne siete (facebook, twitter) • Komunikácia (instantmessenging, emaily, SMS, callnetworks) • Sociálne média (blogy) 21 November 2011

  5. Komplexné siete v reálnom svete • Informačné siete • Blogy • Citačné siete • WWW, hypertext • Sociálne site • On-line sociálne siete • Komunikačné siete • Sémantické site • Linkedopendatacloud • Jazykové siete • Term co-occurancenetworks • Techologické siete • Cestné siete • Dopravné site (elektrické, potrubné) 21 November 2011

  6. Komplexné siete a vyhľadávanie informácií • Analýza liniek • PageRank • PageRank+Analýza Obsahu • Analýza liniek závislá na dopyte (HITS) • Vyhľadávanie tém expanziou cez hypeliky • Lexikálne site • Objavovanie synoným • Disambiguácia zmyslu termov • Disambiguácia pomenovaných entít • Syntaktická analýza • Part-of-speach (POS) tagovanie 21 November 2011

  7. Vlastnosti komplexných sietí • Ako vyzerajú komplexné siete z reálneho sveta? • Ako sa podobajú reálne site na náhodné grafy? • Majú rovnaké typy sietí podobné vlastnosti? • Sú globálne vlastnosti sociálnej siete A podobné vlastnostiam sociálnej siete B? 21 November 2011

  8. Štatistické vlastnosti komplexných sietí • Podobajú sa komplexné siete na náhodné grafy? • Erdos-Renyi model náhodného grafu: • Variant 1: • Graf o n vrcholoch, každá hrana (i,j) existuje s pravdepodobnosťou p • Teda graf s m hranami sa vyskytuje s pravdepodobnoťou: • p^m * (1-p)^(M-m); kde M=n(n-1)/2 • Variant 2: • Graf on n vrcholoch a m náhodne vybraných hranách 21 November 2011

  9. Štatistické vlastnosti komplexných sietí • Podobajú sa komplexné siete na náhodné grafy? • Erdos-Renyi model náhodného grafu: • Variant 1: • Graf o n vrcholoch, každá hrana (i,j) existuje s pravdepodobnosťou p • Teda graf s m hranami sa vyskytuje s pravdepodobnoťou: • p^m * (1-p)^(M-m); kde M=n(n-1)/2 • Variant 2: • Graf on n vrcholoch a m náhodne vybraných hranách • Distribúcia stupňov náhodného grafu - binomická 21 November 2011

  10. Štatistické vlastnosti komplexných sietí • Podobajú sa komplexné siete na náhodné grafy? • Erdos-Renyi model náhodného grafu: • Variant 1: • Graf o n vrcholoch, každá hrana (i,j) existuje s pravdepodobnosťou p • Teda graf s m hranami sa vyskytuje s pravdepodobnoťou: • p^m * (1-p)^(M-m); kde M=n(n-1)/2 • Variant 2: • Graf on n vrcholoch a m náhodne vybraných hranách • Distribúcia stupňov náhodného grafu – binomická • Priemer grafu: O(log n) - zväčšujúci sa s veľkosťou grafu 21 November 2011

  11. Distribúcia stupňov v reálnych sieťach (príklad DBpedia) 21 November 2011

  12. Distribúcia stupňov v reálnych sieťach - log škála(príklad DBpedia) 21 November 2011

  13. Distribúcia stupňov v reálnych sieťach - log škála(príklad DBpedia) 21 November 2011

  14. Distribúcia stupňov v reálnych sieťach - log škála(príklad DBpedia) Zdroj: http://geza.kzoo.edu/bionet/html/scalefree.html 21 November 2011

  15. Náhodná sieť a sieť s mocninovou distribúciou Sieť s mocninovoudist. stuňov Sieť s binomickou dist. stuňov Zdroj: http://geza.kzoo.edu/bionet/html/scalefree.html 21 November 2011

  16. Náhodná sieť a sieť s mocninovou distribúciou Sieť s mocninovoudist. stuňov Sieť s binomickou dist. stuňov Dôsledkok pre vyhľadávanie informácií: Reálne siete majú mocninovú distribúciu => Existujú v nich vrcholy s vysokými stupňami => Kategorizácia na základe topologickej štruktúry (hrany v grafe) funguje. Napr. PageRank, Hits Zdroj: http://geza.kzoo.edu/bionet/html/scalefree.html 21 November 2011

  17. Siete malého sveta • Objavené štúdiom sociálnych sietí v sociológii • Milgramov experiment • (60-te roky; priemer 6 krokov pre doručenie listov cez sociálnu sieť od náhodných ľudí v Nebraske prímateľom v Chicagu ) • Objav: sociálne site majú krátku dĺžku najkratších ciest medzi náhodne vybranými • Potvrdené aj skúmaním počítačových sociálnych sietí • Analýza MSM site – instant messaging • Priemerná dĺžka najkrašej siete medzi náhodne vybranými uzali: 6,6 • [Jure Leskovec, Eric Horvitz: Planetary-scale views on a large instant-messaging network. WWW 2008] • Priemer site (aj priemerná dĺžka cesty medzi 2 vrcholmi) sa zmenšuje pri zväčšovaní siete • V protiklade k náhodným sieťam 21 November 2011

  18. Siete malého sveta • Siete malého sveta často obsahujú kliky, alebo „skoro kliky“ • Efekt „moji priatelia v sociálnej sieti sú často priatelia navzájom“ • Matematicky to možno zachytiť pomocou zhlukovacieho koeficientu • Lokálny zhlukovací koeficient: Zdroj: http://en.wikipedia.org/wiki/Clustering_coefficient 21 November 2011

  19. Vlastnosti reálnych sietí • Mocninová distribúcia stupňov vrcholov • Malá vzdialenosť medzi náhodnými uzlami v sieti (malý priemer grafu) • Priemer grafu sa znižuje pri rozširovaní siete • Vzor zhlukovania v sieti: vysoký zhlukovací koeficient • Dôsledky: • Algoritmy na spracovanie/dolovanie grafov fungujú vďaka týmto vlastnostiam • Rozličné typy sietí z reálneho sveta majú podobné vlastnosti • Algoritmy navrhnuté pre jeden konkrétny typ sietí (napr. soc. siete) budú pravdepodobne dávať zmysluplné výsledky aj na iných sieťach s podobnými matematickými vlastnosťami • Mocninová distribúcia stupňov – pri traversovaní grafu do šírky už pri nízkom počte hopov je nutné prejsť značnú časť siete 21 November 2011

  20. Typické úlohy dolovania v grafoch • Rekurzívne počítanie mier centralít: • Odhadnúť dôležitosť vrchlov v topológii siete • PageRank • HITS • Detekcia komunít • Identifikovať skupiny vrcholov silne prepojené medzi sebou a slabšie prepojené s ostatnými komunitami • Prekrývajúce sa komunity • Propagácia v sieťach • Šírenie informácií v sieťach • Kaskádové správanie, propagácia výrusov • Klasifikácia objektov na základe liniek • Predikcia vzniku liniek • Objavovanie častých vzorov 21 November 2011

More Related