220 likes | 400 Views
Univerzitet u Novom Sadu Fakultet Tehničkih Nauka Saobraćajni odsek Poštanski saobraćaj i telekomunikacije. Analiza tokova dokumenata u kompleksnim mrežama. Diplomski rad. Radić Milorad 3557. Mentor: prof. Dr Milorad K. Banjanin. TEKST ZADATKA.
E N D
Univerzitet u Novom SaduFakultet Tehničkih NaukaSaobraćajni odsekPoštanski saobraćaj i telekomunikacije Analiza tokova dokumenata u kompleksnim mrežama Diplomski rad Radić Milorad 3557 Mentor: prof. Dr Milorad K. Banjanin
TEKST ZADATKA Mrežaje sistem čvorova i linkova koji ih povezuju, pri čemu broj linkova vezanih za jedan čvor definišestepen čvora Kod kompleksnih mreža te međupovezanosti nisu slučajne već su opisane zakonima, tako da kompleksna mreža ili grafima specifične topološke karakteristike. Osnovna svrha mreže je prenošenje informacija najčešće organizovanih u dokumentima- osnovnim informacionim jedinicama koje se prenose kroz mrežu. Mreže se predstavljaju u procesu vizuelizacije informacija, koji se sastoji od strukturnog modelovanja i grafičkog predstavljanja.
U istraživačko-analitičkoj obradi tematskog zadatka ovog rada potrebno je : ISTRAŽITI i OBRAZLOŽITI identifikovane koncepte koji figurišu u naslovu i tekstu zadatka sa posebnim osvrtom na algoritamsku vizuelizaciju velikih mreža i različitih dinamičkih procesa u kompleksnim mrežama. 1 OPSERVIRATI integrisane rezultate prethodnih istraživanja sa analizom modela sličnosti među dokumentima i otkrivanjem orijentira u web lokalitetu. 2 ANALIZIRATI i KOMPARIRATI osobine i primere algoritama za vizuelizacije struktura i velikih mreža i ulogu virtuelnih struktura u povezivanju dokumenata u mrežnim tokovima. 3 PRIMENITI metodološku proceduru, tehničke, tehnološke, opšte lingvističke i jezičke standarde i kriterijume u izradi rada kao i TQM standarde FTN-a. 4
METODOLOŠKE OSNOVE RADA Problem istraživanja Preopterećenje mreža dokumentima Kako predstaviti i analizirati kompleksne mreže? Predmet istraživanja Modeli kompleksnih mreža Dokumenti u mrežnim tokovima Cilj istraživanja Eficijentno vizuelizovanje mreža Optimizacija tokova dokumenata Hipoteze u istraživanja Aktuelnost i primenljivost analize kompleksnih mreža Povezanost čvorova linkovima u kompleksnim mrežama nije slučajna Način istraživanja Desk metode Opravdanostistraživanja Timske interakcije Primenljivost na mreže realnog sveta Primenom se ubrazavaju mnogi procesi
Dokument je osnovna jedinicainformacija koja seprenosi kroz mrežu U mrežama se pojavljuje sve veći broj dokumenata, pa one nužno postaju nužno sve kompleksnije i komplikovanije. Sistem ili grupa međusobno povezanih elemenata. mreža čvorovi linkovi Dokument je fajl kreirankorišćenjem neke aplikacije Word hiperlink grafika multimedijalni sadržaj tekst zvuk
Kompleksna mreža npr. Slučajna raspodela čvorova? Hijerarhijska struktura Klasifikacija čvorova j Visok koeficijent grupisanja k i Veza j-k hub Stepen čvora i Broj linkova koji su povezani na čvor i Specifična raspodela stepena čvora Kompleksnost mreže predstavlja broj čvorova i alternativnih staza koje postoje u okviru mreže, kao i raznovrsnost prenosnih medija, opreme, protokola, te hardverske i softverske opreme koja se koristi u mreži. Struktura zajednice na više nivoa
Neskalirane mreže (scale-free networks) karakterišu se kosom raspodelom koja se matematički može opisati zakonom snage(power law) 5 hub-ova povezano sa 60% čvorova εskup svih linkova, a i i j čvorovi Verovatnoća pronalaženja čvora sa k linkova prema drugim čvorovima je k-y Web eksponent y se dobija empirijski (1.5 za mreže reči, 2.5 za kolaborativne mreže...) Naučne kolaborativne mreže stepen čvora S(g) → 1 neskalirani graf Neskalirani parametar
Mreže malog sveta (small-world networks) Klasa grafova u kojoj većina čvorova nisu u susedstvu, ali se iz svakog od njih do nekog drugog može doći malim brojem koraka Mala prosečna staza između dva čvora Visok koeficijent grupisanja
Geometrijske mreže (geometric networks) Geometrijski graf sa radijusom r je graf sa skupom čvorova V i skupom linkova Kompletan graf – direktna veza između svih tačaka težina linka d(u,v) Cilj – proređena mreža male dilatacije rastojanje grafa dg(u,v) dilatacija max (dg-d)
! bez prioriteta Dizajniranje mreže a) neskalirane i mreže malog sveta 1 dodavanje jednog novog čvora u jednom trenutku i njegovo povezivanje sa slučajno izabranim čvorom iz postojeće mreže Rezultujuće mreže teže da imaju eksponencijalnu raspodelu, pa se nazivaju se eksponencijalno rastuće mreže! 2 rich-get-richer efekat (obogaćivanje bogatog ; Matthew-ov efekat ili kumulativna prednost) prioritetno dodavanje novi link se ne dodaje proizvoljnom čvoru već čvoru koji već ima najviše linkova Koristi se za neskalirane mreže – eksponent y=3 (k-y) 3 good-get-richer efekat (obogaćivanje dobrog) Oslanja se na pogodnost čvora da primi novi čvor, a ne na popularnost čvorova
4 4 9 1 5 2 9 3 7 9 10 4 8 6 9 3 9 8 18 9 b) geometrijske mreže Dizajniranje mreže u formi razgranatih stabala! Za dati graf, razgranato stablo je podgraf, koji predstavlja stablo koje povezuje sve čvorove zajedno. Prvo se pronalaži Planarno MST (u ravni), a zatim se generalizuje kao Višedimenzionalno MST Isti graf može imati mnogo različitih razgranatih stabala. Ukupna dužina svih linkova u mreži težina dijametar Najveća udaljenost između dva čvora u mreži dilatacija Najveći odnos mrežne i Euklidove udaljenosti Minimum spanning tree (MST) Minimalno razgranato stablo Stablo sa minimalnom težinom
Skalabilnost mreže Dva aspekta skalabilnosti mreže Skalabilnost je sposobnost za očuvanje originalnog integriteta, konzistentnosti i semantičke povezanosti sa mrežnom predstavom implicitne strukture. gustina mreže veličina mreže broj linkova broj čvorova Mnogo zahtevnija velika mreža se može podeliti na veći broj manjih mreža algoritmima dinamičkog grupisanja N čvorova N2linkova ! Mreže sa velikom gustinom je jako teško vizuelizovati i analizirati. Najpopularniji načini za redukciju broja linkova su: postavljanje praga težine linka i zadržavanje samo linkova sa većom težinom od praga 1 Ekstrakcija minimalnog razgranatog stabla (MST – Minimum Spanning Tree)iz mreže sa N čvorova 2 ne obuhvata unutrašnju strukturu mreže jednostavan suština originalne mreženeće biti očuvana ! Skaliranje Pathfinder mreže (PFNET) 3 laka implementacija zadržavamo N-1 linkova
PFNET (Pathfinder mreža) Cilj primene Pathfinder algoritma je da skrati gustu mrežu na njenu osnovnu strukturu. Pathfinder smanjuje broj linkova originalne mreže, a pri tome svi čvorovi ostaju netaknuti To je mehanizam redukcije linkova koji čuva najvažnije semantičke relacije. Ključna pretpostavka je uslov nejednakosti trougla. B Nejednakost trougla se matematički definiše: A C wij težina direktne staze između i i j Topologija PFNET-a je određena sa dva parametra q iri odgovarajuća mreža je označena kao PFNET (r,q). wk,k+1 je težina staze između k i k+1. Parametar q specificira maksimalnu dužinu staze koja učestvuje u testu nejednakosti trougla. Parametar r je Minkovski metrički parametar za izračunavanje dužine staze Vrednost q može biti bilo koji ceo broj između 2 i N-1, gde je N broj čvorova u mreži
Rešenje: Vizuelizacija 2 1 Grafičko predstavljanje Strukturno modeliranje Transformiše inicijalnu predstavu strukture u grafičku. detektuje izvlači pojednostavljuje Algoritmi za crtanje grafova Šta čini osnovnu strukturu kompleksne mreže i kolekcije dokumenata?
Odgovor na pretragu Zahtev za pretragom Strukturno modeliranje OSNOVNI KONCEPTI: Semantičko rastojanje Relevantnost ispitujemo Modelom semantičkog rastojanja Sličnost relevantnost? Semantičko rastojanje između dva entiteta (u konkretnom slučaju – dokumenta) definisano je kao broj koraka od jednog do drugog duž postojećih linkova(veza) u strukturi. relevantnost semantičko rastojanje
n m m m D C Neophodno odrediti rastojanjeizmeđu dve tačke podataka. sličnost! Prema nekim merilima sličnosti dokumenti su grupisani. Koncept pokrivenog koeficijenta (CC) omogućava merenje sličnosti između dokumenata. Grafo-teoretski algoritmi Algoritam inkrementalnog grupisanja kontinualno ažurira postojeće grupe. Jednosmerni algoritmi Iterativni algoritmi Svako cij (i<j, j<m) u matrici C označava verovatnoću selekcije bilo kog pojma koji se pojavljuje u dokumentu di iz dokumenta dj. Verovatnoća je definisana sledećom relacijom: sličnost αi i βk su recipročne vrednosti sume i-te vrste i sume k-te kolone, respektivno. ! Rastavljajući koeficijent predstavlja meru koliko je dokument dirazličit od svih drugih dokumenata
VIRTUELNE STRUKTURE Virtuelna struktura ima za cilj da vizuelizaciju informacija predstavi korisnicima u grafičkoj i vizuelno razumljivoj formi. Termin „virtuelna“naglašava da struktura ne postoji u originalnom podatku u lako dostupnoj formi. Dva dokumenta su povezana... Automatski hipertekst linkovi Vektorski prostor Dokumenti su predstavljeni kao vektori. Semantički prostor je zasnovan na velikoj matrici termin × dokument. Svaki element matrice je broj pojavljivanja termina u dokumentu. Moguće je izračunati relevantnost dokument-dokument, korišćenjem termina koji se u njima pojavljuju. Težina termina Tk u dokumentu Dije definisana kao wik sledećim relacijama: Leksički lanac je niz semantički povezanih reči koje se pojavljuju u dokumentu Blizina dokumenta je definisana na osnovu sličnosti između dokumenata. Sličnost dokumenata povezivanjem hiperlinkovima je definisana sledećom relacijom: broj hiperlinkova od dokumenta Di do Dj u kolekciji od N dokumenata gde je N broj dokumenata u kolekciji, tfik je broj pojavljanja termina Tk u dokumentu Di, a nkje broj dokumenata u kojima se termin pojavljuje.
Web lokalitet kolekcija Web dokumenata Dokumenti na određenom HTTP serveru, rezultati pretrage nekog Web pretraživača... Čvorovi koji su važni za lokalitet nazivaju se ORIJENTIRI u Web lokalitetu. Čvor sa visokim stepenom povezivosti treba da bude označen kao orijentir. povezivost frekvencija pristupa Frekventniji čvorovi su posećeni, i verovatnije je da takav čvor treba da bude orijentir. dubina u hijerarhiji http://en.wikipedia.org/wiki/Complex_network 3 1 2 Definisana brojem čvorova koji se mogu dostići iz određenog čvora sa ne više od dva linka. drugostepena povezivost
Grafičko predstavljanje OSNOVNI KONCEPTI: Najtradicionalniji način za predstavljanja mreže je korišćenje čvor-i-link grafičkih predstava. Prostorni raspored (layout) Algoritamsko crtanje mreža uz pridržavanje estetskih kriterijuma. Velika pažnja se poklanja eficijentnosti algoritama i jasnoći krajnjih rezultata. Algoritmi za crtanje grafova Problemi pri predstavljanju mreža: Estetski kriterijumi koje treba uvažiti pri grafičkom predstavljanju: skriveni čvorovi i linkovi nejasne granice između mreže i njene okoline Simetričnost strukturne izmene i izmene u čvorovima i linkovima Ravnomerna distribucija čvorova značaj slabih veza Uniformna dužina linkova strukturne rupe u mreži Minimizacija preklapanja linkova
Najpoznatije tehnike za crtanje grafova su: algoritmi za crtanje usmerenih grafova algoritmi sa ugrađenom oprugom Sile odbijanja Dobar estetski izgled layouta Za neusmerene grafove Prema udaljenosti i osobinama povezujućeg prostora. Primarni cilj ovog tipa tehnika je da algoritamski optimizuje uređenje čvorova mreže, tako da u konačnom geometrijskom modelu snažno povezani čvorovi budu bliži jedni drugima, a slabije povezani čvorovi udaljeni. dobro slaganje vizuelizovanog modela i podataka osnovne mreže Layout proces Brži Čvorovi kao čelični prstenovi Skalabilniji Nedovoljno skalabilni Linkovi - opruge Snaga veze između dva čvora obično se meri konceptualnom sličnošću, računskom povezanošću ili uslovnim verovatnoćama. Kamada-Kawai algoritam Minimizuje broj preklapanja među linkovima Sile privlačenja Čvorovi i linkovi uniformno distribuirani Sa smanjenjem energije sistema opruga, graf se približava optimumu Fruchterman i Reingold Uniformna dužina linkova