1 / 20

Csoportkeres ési eljárások

Csoportkeres ési eljárások. Vassy Zsolt. Tematika. Girvan Ne wm an klaszterezés Diszkrét Markov lánc: CpG szigetek Rejtett Markov lánc ADIOS. Girvan Newman. Girvan Newman. Girvan Newman. Betweenness:

iona-daniel
Download Presentation

Csoportkeres ési eljárások

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Csoportkeresési eljárások Vassy Zsolt

  2. Tematika • Girvan Newman klaszterezés • Diszkrét Markov lánc: CpG szigetek • Rejtett Markov lánc • ADIOS

  3. Girvan Newman

  4. Girvan Newman

  5. Girvan Newman • Betweenness: - legrövidebb út (shortest paths): minden pont-pár között kiszámítjuk a legrövidebb utat és ezek számát összegezzük az élekre - bolyongás (random walk): minden pont-pár közötti bolyongást vizsgálunk és felösszegezzük - áramkör (current-flow): a hálózat minden pont-párjára egységnyi feszülségforrást kötünk és egységnyi ellenállást minden élre. Az áramerősség abszolút értéke lesz a betweenneess. Kirchhoff törvények alapján kiszámolható. - egyéb betweenness is definiálható

  6. Girvan Newman • Algoritmus: 1. megkeressük az összes betweenness értéket minden élre 2. a legnagyobb értékű élt eltávolítjuk 3. újraszámítjuk a betweenness-eket a megmaradt élekre 4. ismételjük a 2. lépéstől

  7. Girvan Newman • Zacharvy karate club:

  8. Girvan Newman

  9. Girvan Newman • Weblapok közötti linkek:

  10. Diszkrét Markov lánc • Leírás: - N diszkrét állapot - szabályos időközönként a rendszer állapota megváltozik - a változás az adot állapottól függően előre meghatározott valószínűségek alapján történik - az átmenet valószínűsége csak az adott állapottól függ, amelyben a rendszer éppen tartózkodik: P[qt =Si| qt-1= Sj , qt-2= Sk …]= =P [qt =Si| qt-1= Sj ] - az időtöl független: aij=P [qt =Si| qt-1= Sj ]

  11. Példa Diszkrét Markov láncra • Minden délben feljegyezzük hogy az idő csapadékos, felhős, napos: 3 állapot • Tfh ismerjük az állapotokat leíró feltételes valószínűségeket: • Feltéve hogy az első napon az időjárás napos volt, a modell szerint mi a valószínűsége, hogy a köv. hét időjárása napos, napos, esős, esős, napos, felhős, napos: O={S3, S3, S3, S1, S1, S3, S2, S3} • P(O|Modell)=P[S3]P[S3|S3] P[S3|S3] P[S1|S3] P[S1|S1] P[S3|S1] P[S2|S3] P[S3|S2] =1 a33 a33a31 a11 a13 a32 a23 = 1 0.8 0.8 0.1 0.4 0.3 0.1 0.2 = …

  12. Példa Diszkrét Markov láncra • Adott napon süt a nap, mi a valószínűsége hogy még d napig süt: O={Si, Si, Si, Si, Si, …, Sk}, d darab Si P(O|Modell, q1=Si)=(aii)d-1(1-aii)=pi(d) pi(d): diszkrét valószínűségi függvény megadja a valószínűségét hogy a rendszer i állapotban d ideig tartózkodik várható értéke pi(d)-nek: 1/(1-aii) pl. folyamatosan napos napok várható értéke: 1/(1-0.8)=5

  13. CpG Szigetek • CpG-n metilálódhat C : timinné alakul át • CpG gyakoriság a genomban ezért lényegesen kisebb, mint ami várható lenne C és G gyakorisága alapján • Promóter régiókban külön mechanizmus védi a CpG dinukleotidot a metilációtol, ezért ezeken a régiókban a CpG dinukleotidok gyakrabban megtalálhatóak mint a genom többi részén, szigeteket alkotnak • Kérdés1: el tudjuk-e dönteni egy rövíd genomiális szekvencia darabról, hogy CpG szigetből származik vagy sem? • Kérdés2: Meg tudjuk-e találni hosszabb genomiális szekvenciákban a CpG szigeteket

  14. CpG szigetek • Markov lánc paramétereit ismert szekvenciák dipeptid gyakorisága alapján a maximális valószínűségi becsléssel adjuk meg. • Két halmaz között különbséget tudunk tenni ha a két halmaz paramétereit külön-külön becsüljük. • A becslések alapján a log-odds hányadossal különböztetjük meg őket.

  15. Rejtett Markov lánc • Diszkért Markov lánc esetén az állapotok megfigyelhető események voltak. • Vizsgáljunk olyan Markov láncot, ahol az állapotok közvetlenül nem megfigyelhetőek (rejtettek), csak valamilyen sztochasztikus jelen keresztül • Példa: színes golyók poharakban: 1-es pohár:P(piros)=b1(1), P(kék)=b1(2), P(zöld)=b1(3), P(sárga)=b1(4), … 2-es pohár:P(piros)=b2(1), P(kék)=b2(2), P(zöld)=b2(3), P(sárga)=b2(4), … N-edik pohár: P(piros)=bN(1), P(kék)=bN(2), P(zöld)=bN(3), P(sárga)=bN(4), … Megfigyelési sorozat: piros, kék, zöld, piros, sárga, stb.

  16. Rejtett Markov lánc modell elemei • N, az állapotok száma (pl. poharak száma) • M, megfigyelhető jelek száma (knb. színű golyók száma) • Állapot átmenetek valószínűségi eloszlása (átmeneti valószínűségek) A={aij} aij =P[qt+1=Sj|qt=Si] 1<=i,j <= N • Megfigyelési jelek valószínűségi eloszlása a j állapotban (kijelző valószínűségek), B={b j(k)} b j(k)=P[vk(t)|qt=Sj] 1<=j<=N, 1<=k<=M • Kezdő állapot valószínűségi eloszlása (kezdeti valószínűségek), pi={pii} pii=P[q1=Si] 1<=i<=N

  17. Rejtett Markov lánc generálás • Az N, M, A, B, pi paraméterek definiálnak egy rejtett Markov lánc modellt. • Ha egy ilyen modell adott akkor a következőképpen generálhatjuk az O={O1, O2, O3, O4, O5} megfigyelési sorozatot: 1. Választunk egy kezdő állapotot q1 =Si a pii kezdő állapot valószínűségi eloszlás szerint 2. Legyen t=1 3. Válasszunk egy megfigyelési jelet (Ot =vk) az i állapotnak megfelelő eloszlás szerint (bi (k)) 4. Válasszunk egy új állapotot (qt+1 =Sj) az i állapotnak megfelelő átmenek valószínűségi eloszlás szerint 5. Legyen t=t+1 6. Ha t<T akkor folytassuk a 3. lépéstől

  18. Rejtett Markov lánc problémái • Ha adott egy O={O1, O2, … OT } megfigyelési sorozat és egy modell, akkor hogyan számoljuk ki a megfigyelési sorozat valószínűségét feltéve az adott modellt: P(O|Modell) • Ha adott egy O ={O1, O2, … OT } megfigyelési sorozat és egy modell, akkor hogyan válasszuk ki azt a Q=q1 , q2, …qTállapot szekvenciát, ami a legoptimálisabb valamilyen értelmezés szerint • Hogyan válasszuk ki azt a modellt, amely mellett P(O|Modell) maximális

  19. Rejtett Markov lánc • Tegyük fel hogy ismerjük az állapot sorozatot (Q=q1q2…qT) amely a megfigyelési sorozatot generálta. Ekkor: P(O|Q, Modell)=bq1(O1)bq2 (O2)…bqT(OT) • Ennek az állapot sorozatnak a valószínűsége: P(O| Modell)=piq1aq1q2…aqT-1qT • Annak a valószínűsége hogy O és Q egyszerre történjen: P(O, Q| Modell)=P(O|O,Modell) P(Q|Modell) • A megfigyelési sorozat valószínűségét megkapjuk ha az összes lehetséges állapotsorozatra összegezzük P(O, Q| Modell)-t. P(O|Modell)=SUMM(P(O|O,Modell) P(Q|Modell)) /összes Q-ra • Gond: műveletek száma: (2T-1) NT pl. ha N=5 és T=100 akkor 1072-en műveletet kell elvégezni.

  20. Rejtett Markov lánc • Dinamikus programozás eljárás: Forward Backward algoritmus • Definiáljuk xt(i) forward változót a következőképpen: xt(i)=P(O1, O2, … OT,qT=Si | Modell) vagyis annak a valószínűsége, hogy a megfigyelési sorozatot a t időpontig megfigyeltük és ekkor az Siállapotban van feltéve a Modell-t. • xt(i) értékét az előző időpontra számolt értékből számolhatjuk inicializáció: x1(i)=pii bi (O1 ) indukció: xt+1(j)=[SUMM(xt(i)aij)]bj (Ot+1 ) termináció: P(O|Modell)=SUMM(xT(i)) • Lépések száma N2T, pl. N=5 és T=100: 3000 művelet

More Related