240 likes | 383 Views
Címkézett hálózatok modellezése. Básti József Diplomamunka 2010. Hálózatok. Csomópontok és élek (kapcsolatok) Csomópontok egymásra gyakorolt hatása Idegsejtek, fehérjék, gének, emberek, gazdasági szereplők kölcsönhatása Reprezentálás: gráffal Kezdetek – Euler és a Königsbergi hidak.
E N D
Címkézett hálózatok modellezése Básti József Diplomamunka 2010
Hálózatok • Csomópontok és élek (kapcsolatok) • Csomópontok egymásra gyakorolt hatása • Idegsejtek, fehérjék, gének, emberek, gazdasági szereplők kölcsönhatása • Reprezentálás: gráffal • Kezdetek – Euler és a Königsbergi hidak
Hálózati modellek • Véletlen gráfok – Erdős-Rényi modell • N csúcs, közöttük p valószínűséggel van él • Kis-világ modellek – Watts-Strogatz modell • Klaszterezettségi együttható • Skálafüggetlen modellek – Barabási-Albert modell • Növekedő hálózat, preferenciális kapcsolódással – „hub”-ok létrejötte
Címkézett hálózatok • Címke – bármilyen információ, amit a csúcsról tudunk
Címkézett hálózatok • A címkék eloszlása és a topológia közötti kapcsolatok egy érdekes új kutatási irányt adnak • Korábbi eredmények • Címke asszortativitási exponens
Célkitűzések • Új növekedő hálózati modell, mely figyelembe veszi a címkéket • A hálózati modell összehasonlítása egy fehérje-fehérje kölcsönhatási hálózattal
Az új hálózati modell • Erdős-Rényi mag • A növekedés során fokszám és címkehasonlóság alapú preferenciális kapcsolódási szabály, a Barabási-Albert modellel analóg módon
Az új hálózati modell • Címkehasonlóság – szemantikus hasonlóság • Lin-féle hasonlóság • Címkegyakoriság (p), közös felmenők (Γ) • Csúcsok közötti hasonlóság • Ωi – az i. csúcs címkéinek halmaza • Hány éllel kötődjön be az új csúcs • Több eloszlással próbálkoztam, végül:
A modell implementálása • C++ • Konkrét modellparamétereket (csúcsok száma, élek száma, címkék, címkehasonlóság) a MIPS fehérje-fehérje kölcsönhatási hálózatból vesszük • Adott a csúcsok és élek száma • 3473 csúcs, 10041 él • Adottak a csúcsok címkéi • Irányított aciklikus gráf (GenomeOntologyDatabase) • Delták, lefutások száma • 11 különböző δ mellett (0, 0.1, 0.2 … 1) • 5 -10 lefutás
Kiértékelés • Fokszámeloszlás • Fokszám előfordulási valószínűsége - p(k) – 5 lefutás átlagolása és binelés • Kumulatív eloszlás • – nagy fokszámok vizsgálata • Címke asszortativitási exponens • Címkeindukált részgráfok legyártása • Csúcs-él párok átlagolása, binelése • Illesztés (M~Nµ), exponensek átlagolása • Csúcsok hasonlósága a távolság függvényében • minden csúcs összes 1., 2., stb. szomszédjára és 5 lefutásra vett átlaga • Vizualizálás • 1., 2. és 3. szomszédok ábrázolása • Különböző paraméterre és az eredeti hálózatban
EredményekFokszám- és kumulatív eloszlások • δnövekedtével növekszik a fokszámjelleg • Lassabban csengnek le • Az eredetit δ 0,8 – 1 értékénél közelíti meg • δ → 0 esetén egyre inkább véletlen jelleg, de attól távol marad
EredményekCímke asszortativitási exponens • δnövekedtével • Növekszik a µ exponens • Csökken a címke-éleloszlás korreláció • Eredeti hálózat • δ közelebb van 1-hez, nagyobb a korreláció • Modellhálózat • A klikkek hiánya miatt kis δ esetén is nagy µ
EredményekHasonlóság és távolság • Kis δ – hasonlósági preferencia a bekötésnél • Átlagos hasonlóság felett lesznek az elsőszomszédok • Nagy δ – fokszám preferencia • Átlagos hasonlóság körül vagy alatta • Valódi hálózat • Elég gyorsan beáll a hasonlóság az átlagra
EredményekHálózatok vizualizálása • Hálózatrészletek • Csúcs 1., 2. és 3. szomszédjai • Ezen csúcsok közti élek • δ = 0 • Hasonlósági bekötés • Gyenge skálafüggetlen jelleg • δ = 1 • Fokszám szerinti bekötés • Skálafüggetlen • Eredeti hálózat • Klikkek létrejötte
Összefoglalás • Cél: egy olyan modell, mely figyelembe veszi a címkehasonlóságot; ezen modell illesztése egy fehérje-fehérje kölcsönhatási hálózathoz • A modellt a Barabási-Albert-féle preferenciális csatolási szabály alapján írtam fel és egy C++ program segítségével implementáltam • Modell és eredeti hálózat statisztikai jellemzőinek összehasonlítása • Fokszám- és kumulatív eloszlás, címke asszortativitási exponens, hasonlóság a távolság függvényében, ill. hálózatrészletek megtekintése • Hiányosságok: nincsenek nagy, sűrűn összekötött csoportok • Kitekintés • klikkek bekapcsolódása, későbbi átcsoportosítás – klikkpreferencia
Köszönöm a figyelmet! • Témavezető: Dr. Palla Gergely MTA-ELTE Statisztikus és Biológiai Fizika Kutatócsoport
Címkézett hálózatok • Címke – bármilyen információ, amit a csúcsról tudunk • Állandó címkék • Biológiai hálózatban – csúcsok által reprezentált egységek biológiai funkciójára utalnak (fehérjék, gének esetén) • Időben változó címkék • Társadalmi hálózat – a kapcsolatban lévő emberek egyre hasonlóbbá válnak • Címke asszortativitási exponens • Címkék irányított aciklikus gráfba való szerveződése • Címkeindukált részgráfok • Csúcs-él párok átlagaira való illesztés → exponens (M~Nµ) • Exponens 1 és 2 között (korreláció – véletlen jelleg)
Címkézett hálózatok • A címkék eloszlása és a topológia közötti kapcsolatok egy érdekes új kutatási irányt adnak • Szemantikus hasonlóság • Címkék irányított aciklikus gráfba való szerveződése • Címkék közötti hasonlóság definiálása • Címkegyakoriság (p), közös felmenők (Γ) • Csúcsok közötti hasonlóság definiálása címkéik alapján • Ωi – az i. csúcs címkéinek halmaza
Célkitűzések • Új hálózati modell • Növekedő • Fokszám és hasonlóság alapú preferenciális kapcsolódás • Induló fokszám egy adott eloszlásból van • Valós biológiai fehérje-fehérje kölcsönhatási hálózatot modellez • Adott a csúcsok és élek száma • 3473 csúcs, 10041 él • Adottak a csúcsok címkéi • Irányított aciklikus gráf (GenomeOntologyDatabase) • Kiértékelés • Fokszámeloszlás • Címke asszortativitási exponens • Csúcsok hasonlósága • Vizualizálás
Az új hálózati modell felépítése • Fehérje-fehérje kölcsönhatási hálózatból vett címkék • Hasonlóság a címkék, csúcsok között • Csúcsok és élek száma adott → átlagos fokszám is • Kis Erdős-Rényi mag • Preferenciás bekötés során, az induló fokszámeloszlás megadása • Legyen éles a levágás • Módosított exponenciális eloszlás • A hasonlósági és fokszám alapú bekötési valószínűség súlyát egy paraméterrel állítjuk be (δ)
A hálózatot generáló program • C++ programmal • Valós hálózatból bemenet • Csúcsok száma, címkéik, címkék irányított aciklikus gráfja • Ezáltal adott a csúcsok közti hasonlóság • Bekötendő csúcsok véletlen sorrendbe állítása • Kis Erdős-Rényi mag • Csúcsok fokozatos bekötése, az induló fokszámeloszlásnak megfelelő kapcsolattal • A legyártott hálózat kiírása • Több futás egy-egy δ paraméter mellet (δ 0 és 1 között változik)