650 likes | 880 Views
The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics. Seminarvortrag zum Thema: „Aktuelle Themen der Bioinformatik“ SS 2005. Übersicht:. The splits in the Neighborhood of a Tree Einleitung Terminologie Baum Metriken
E N D
The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle Themen der Bioinformatik“ SS 2005 Susanne Franssen
Übersicht: • The splits in the Neighborhood of a Tree • Einleitung • Terminologie • Baum Metriken • Splits in den Nachbarschaften der vorgestellten Metriken • A Classification of Consensus Methods for Phylogenetics • Einleitung • Terminologie • Vorstellung verschiedener Consensus Methoden • Klassifikation der vorgestellten Consensus Methoden • Subtrees & Supertrees
The Splits in the Neighborhood of a Tree - Einleitung • Phylogenie: • Phylogenese ist die Stammesentwicklung der Lebewesen im Verlauf der Erdgeschichte • Zentraler Bereich in der Phylogenie: • Rekonstruktion phylogenetischer Bäume anhand von gesammelten Daten verschiedener Organismen Distanzbasierte Methoden (UPGMA, Neighbor-Joining) Merkmalbasierte Methoden (Maximum Parsimony / Likelihood)
The Splits in the Neighborhood of a Tree - Einleitung • Motivation zur Betrachtung lokaler Strukturen des Raumes aller Bäume: • Der Baum der eine gegebene Funktion optimiert wird über die Suche durch den Raum aller Bäume ermittelt • Problem: • Der Raum aller möglichen phylogenetischen Bäume ist sehr komplex und wächst überexponentiell in der Anzahl der Blätter
The Splits in the Neighborhood of a Tree - Einleitung • Vereinfachen der Suche im Raum aller Bäume • Dekomposition der Bäume in Sammlungen von Splits • Vorteile: • Vereinfachung ermöglicht das Lösen von NP-harten Optimierungsproblemen im Raum aller Bäume in polynomieller Laufzeit • Erstellen effizienter Suchalgorithmen
The Splits in the Neighborhood of a Tree - Terminologie Ungewurzelter, binärer phylogenetischer X-Baum T X = {a,b,c,d,e} Split A|B von X: Partition von X in zwei nichtleere Mengen A und B Σ(T) ist die Menge aller Splits des Baumes T Σ(T) = {{a}|{b,c,d,e}, {b}|{a,c,d,e}, {c}|{a,b,d,e}, {d}|{a,b,c,e}, {e}|{a,b,c,d}, {a,b}|{c,d,e}, {c,d}|{a,b,e}}
The Splits in the Neighborhood of a Tree - Terminologie Splits aus Σ(T) {a,b}|{c,d,e} Σ(T) {a,b,e}|{c,d} Σ(T) {a,c}|{b,d,e} Σ(T) für je zwei Splits A|B und C|D aus Σ(T) gilt: mindestens eine der vier Schnittmengen A∩C, A∩D, B∩C, B∩D muss leer sein
Robinson-Foulds Metrik (partition metric) Robinson-Foulds Distanz dRF(T1, T2) = ½ | Σ(T1) Δ Σ(T2) | = ½ | Σ(T1) - Σ(T2) | + ½ | Σ(T2) - Σ(T1) | Erweiterung durch gewichtete Kanten dw(T1, T2) = Σ A|B є Σ(T1) U Σ(T2) | w1(A|B) - w2(A|B) | The Splits in the Neighborhood of a Tree - Baummetriken • dRF(T1, T2) = 1 • Σ(T1) - Σ(T2) = { {a,b}|{c,d} } Σ(T2) - Σ(T1) = { {a,c}|{b,d} }
Nearest Neighbor Interchange Metrik Nearest Neighbor Interchange (NNI) Für jeden binären X-Baum mit n Blättern gilt: Es gibt genau 2(n-3) X-Bäume Ti mit dRF(T, Ti) = 1 The Splits in the Neighborhood of a Tree - Baummetriken • (n-3) Anzahl der inneren Kanten im X-Baum • 2 Anzahl möglicher Bäume durch ein NNI (durch ein NNI wird genau ein Split aus Σ(T) verändert)
Nearest Neighbor Interchange Metrik Für zwei beliebige binäre X-Bäume T1 und T2 gilt: T1 kann durch eine Folge von NNI in T2 überführt werden Nearest Neighbor Distanz: dNNI(T1, T2) Kleinstmögliche Anzahl von NNI, die benötigt wird einen Baum in den anderen zu überführen Bestimmung von dNNI(T1, T2) ist NP-hart dNNI(T1, T2) ≥ dRF(T1, T2) ein NNI kann dRF(T1, T2) höchstens um eins verringern Es wird ein NNI durchgeführt, der einen nicht in Σ(T2) enthaltenen Split in einen Split verwandelt, der ebenfalls nicht in Σ(T2) enthalten ist The Splits in the Neighborhood of a Tree - Baummetriken
The Splits in the Neighborhood of a Tree - Baummetriken dRF(T1, T2) = 2 dNNI(T1, T2) = 3 • Beispiel zu b)
The Splits in the Neighborhood of a Tree - Baummetriken • Subtree Prune and Regraft Metrik (SPR) • Entferne Kante {u,v} zwei Teilbäume Tu und Tv • Wahl beliebiger Kante aus Tv Einfügen eines neuen Knotens w • Einfügen einer neuen Kante zwischen u und w,unterdrücken aller Kanten mit nur zwei adjazenten Kanten
The Splits in the Neighborhood of a Tree - Baummetriken • Subtree Prune and Regraft Metrik (SPR) • Subtree Prune and Regraft Distanz: dSPR(T1, T2) • Kleinstmögliche Anzahl von SPR, die benötigt wird einen Baum in den anderen zu überführen • Bestimmung von dSPR(T1, T2) ist NP-hart ?! • dSPR(T1, T2) ≤ dNNI(T1, T2)
The Splits in the Neighborhood of a Tree - Baummetriken • Tree Bisection Reconnection Metrik (TBR)
The Splits in the Neighborhood of a Tree - Baummetriken • Tree Bisection Reconnection Metrik (TBR) • Tree Bisection Reconnection Distanz: dTBR(T1, T2) • Kleinstmögliche Anzahl von TBR, die benötigt wird einen Baum in den anderen zu überführen • Bestimmung von dTBR(T1, T2) ist NP-hart • dTBR(T1, T2) ≤ dSPR(T1, T2)
The Splits in the Neighborhood of a Tree - Terminologie • Bäume und Splits in der Nachbarschaft des Baumes T • r-Nachbarschaft von T: • Nd(T,r) = {T’ UB(X) | d(T, T’) ≤ r} • mit UB(X) = Menge aller X-Bäume • Split Nachbarschaft von T: • Menge aller Splits, die in mind. einem Baum aus der r-Nachbarschaft von T vorkommen • Sd(T,r) = T’є Nd(T,r) Σ(T’)
The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood • Splits in der RF Neighborhood • T ein binärer X-Baum, A|B ein Split von X • A|B Σ(T) A|B ist paarweise kompatibel mit jedem Split in Σ(T) • A|B Σ(T) A|B ist paarweise inkompatibel mit einigen Splits in Σ(T) • Diese Splits stehen im Konflikt mit A|B. „conflicting splits“ • Die Kanten, die diese Splits verbinden, bezeichnen wir als mit A|B im Konflikt stehende Kanten von T. „conflicting edges“
The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood • Σ(T) = { …{a,b}|{c,d,e,f}, {a,b,f}|{c,d,e}, {a,b,e,f}|{c,d}} • Σ(T) = { …{a,b}|{c,d,e,f}, {a,b,f}|{c,d,e}, {a,b,e,f}|{c,d}} • Beispiel: conflicting Splits • A|B Σ(T) mit A = {a,b,c} und B = {d,e,f}
The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood • Lemma 3.1.: • Sei ein T binärer X-Baum und A|B ein Split von X, dann gilt:Die mit A|B im Konflikt stehenden Kanten von T bilden einen verbundenen Subgraph. • Beweis: • e1 und ek sind zwei conflicting edges • e1,, e2, … ek sind die Kanten auf dem Weg von e1 nach ek • Wir zeigen, dass die Kanten e2,, e3, … ek-1 auch „conflicting“ sind.
The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood • Beweis: • Für i = 1, 2, …, kXi|Yi sei der Split, der durch ei verbunden wirdmit X1 c X2 c … c Xk Yk c Yk-1 c … c Y1 • X1|Y1 und A|B sind inkompatibel es existiert: a X1∩A und b X1∩B • Analog es existiert: a‘ Yk∩A und b‘ Yk∩Bfür alle i = 1, 2, …, k existiert:a Xi∩A , b Xi∩B ,a‘ Xi∩A , b‘ Xi∩B • A|B ist inkompatibel mit Xi|Yi
The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood • Verdeutlichung der Beweisidee an einem Beispiel {a,c}|{b,d,e,f} Σ(T)
The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood • Konstruktive Beschreibung aller Splits • die jeweils mit genau allen Kanten eines geg. zusammenhängenden Subgraphen in Konflikt stehen ∏(E‘) = A1| A2| … | Ak Die Partition von X geg. durch T – V‘(V‘ die inzidenten Knoten zu allen Kanten in E‘) zwei Blöcke Ai , Aj sind adjazent, wenn sie in der gleichen Komponente von T – E‘ enthalten sind
The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood • Bilde alle möglichen Splitkombinationen aus den Blöcken Ai • Einschränkung: adjzente Blöcke dürfen nicht in der gleichen Menge (A bzw. B) des Splits A|B vorkommen ∏(E‘) = A1| A2| A3| A4| A5| A6| A7 Adjazente Blöcke:{A1, A2} , {A3, A4} , {A6, A7} Anzahl der conflicting Splits: 2a+b / 2a = # adjazenter Blöckeb = # der Blöcke, zu denen es keinen adjazenten Block gibt
The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood • Theorem 3.3.: • Sei T ein binärer X-Baum.Ein Split A|B ist genau dann in SRF(T,r),wenn er mit höchstens r Kanten im Konflikt steht. • Beweis: • Annahme: A|B Σ(T‘) und dRF(T, T‘) ≤ r es gibt höchstens r Splits in Σ(T) – Σ(T‘), da A|B mit allen Splits aus Σ(T‘) kompatibel ist folgt:A|B ist kompatibel mit allen Splits aus Σ(T) mit Ausnahme von höchstens r vielen.
The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood • Beweis: • Annahme: A|B steht höchstens mit r Kanten von T im Konflikt.S ist die zugehörige Menge von conflicting Splits.|S| ≤ r (Σ(T) – S) {A|B} ist kompatibel es gibt einen binären X-Baum, der die Splits (Σ(T) – S) {A|B} enthält,daher ist dRF(T, T‘) ≤ r
The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood • Whitney number eines Baumes: • Ť ist der Subgraph von T bestehend aus allen inneren Kanten und Knoten • k-subtree von Ť: ein verbundener Subgraph von Ť mit k Knoten (k-1 Kanten) • Whitney number # aller möglichen k-subtrees von Ť von einem festen Baum T
The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood • Catalan Zahlen: • Cn = 1/(n+1) * (2n)! / (2n!) • # geordneter (Unterscheidung linker und rechter Sohn), binärer Bäume mit n Knoten • 1, 2, 5, 14, 42, 132, …
The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood • Lemma 3.4.: • Sei T ein binärer X-Baum. Die # von k-subtrees von Ť beträgt O(nCk), mit n = |X| und Ck ist die k-te Catalan Zahl. • Beweis: • Wahl eines beliebigen Blattes aus Ť. Alle Kanten aus Ť erhalten eine Orientierung, die von diesem Knoten weggerichtet ist. • Für jeden der n – 2 inneren Knoten v gilt:die # der k-subtrees mit Wurzel v ist durch Ck beschränkt. (n – 2)Ck ist die obere Schranke für die # an k-subtrees
The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood • Verdeutlichung der Beweisidee an einem Beispiel • Ť n – 2 innere KnotenVon jedem dieser Knoten gehen max. Ck viele k-subtrees aus.Auf diese Weise werden alle k-subtrees betrachtet
The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood • Sei T ein binärer X-Baum. • Zu Theorem 3.3.: • Ein Split A|B ist genau dann in SRF(T,r),wenn er mit höchstens r Kanten im Konflikt steht. • Zu Lemma 3.4.: • Die # von k-subtrees von Ť beträgt O(nCk), mit n = |X| und Ck ist die k-te Catalan Zahl. • Korollar 3.5.: • Die Anzahl der Splits in SRF(T,r) ist linear in n für ein festes r.
The Splits in the Neighborhood of a Tree – Splits in the NNI Neighborhood • Splits in der NNI Neighborhood • dRF(T1, T2) ≤ dNNI(T1, T2) SNNI(T,r) _ SRF(T,r) • Die Anzahl der Splits in der NNI Nachbarschaft ist linear in der Anzahl der Blätter für ein festes r. • Conflicting vertex: • Sei v ein innerer Knoten eines binären X-Baumes. • v ist ein mit A|B im Konflikt stehender Knoten, wenn alle zu v inzidenten Kanten mit A|B im Konflikt stehen.
The Splits in the Neighborhood of a Tree – Splits in the NNI Neighborhood • Theorem 4.1.: • Sei T ein binärer X-Baum, A|B ein Split von X und E‘, V‘ die Kanten bzw. Knoten, die mit A|B im Konflikt stehen.A|B ist in SNNI(T,r) genau wenn |E‘|+|V‘| ≤ r. • Beweis: • Annahme: A|B Σ(T‘) und dNNI(T,T‘) = s ≤ r • Es gibt eine Folge von X-Bäumen T0 bis Ts mit T‘ = T0 , T = Ts so dass für alle i = 0,1,…,s gilt:Ti+1 unterscheidet sich von Ti durch ein NNI
The Splits in the Neighborhood of a Tree – Splits in the NNI Neighborhood • Beweis: • Behauptung: für alle i gilt |E‘i|+ |V‘i| ≤ i ,was |E‘|+|V‘| = |Es‘|+ |Vs‘| = s ≤ r impliziert • Beweis über Induktion:Anker für i = 0 |E‘0|+ |V‘0|≤ 0 ,da T0 = T‘ und A|B Σ(T‘) • Die Behauptung gilt für alle i ≤ j und Tj+1 wird aus Tj durch einen NNI um die Kante {u,v} erhalten. • Unterscheidung zweier Hauptfälle: • Kante {u,v} ist noch nicht conflicting • Kante {u,v} ist bereits conflicting
The Splits in the Neighborhood of a Tree – Splits in the NNI Neighborhood • Kante {u,v} ist noch nicht im Konflikt mit A|B • Die # der zu A|B im Konflikt stehenden Kanten wird um eins erhöht. • Die # der „conflicting vertices“ bleibt unverändert.
The Splits in the Neighborhood of a Tree – Splits in the NNI Neighborhood • Kante {u,v} steht bereits im Konflikt mit A|B • Die # der zu A|B im Konflikt stehenden Kanten bleibt unverändert. • Die # der „conflicting vertices“ kann um höchstens eins erhöht werden.
The Splits in the Neighborhood of a Tree – Splits in the NNI Neighborhood • Daraus folgt: |E‘j+1|+|V‘j+1| ≤|E‘j|+|V‘j| + 1 ≤ j+1 • Das Ergebnis folgt durch Induktion. • Annahme: A|B steht im Konflikt mit E‘ und V‘ und es gilt |E‘|+|V‘| ≤ r • Wahl einer Kante {u,v} aus E‘, wobei u zu keiner weiteren Kante aus E‘ inzident ist. • Zwei Fälle: • V ist ein conflicting vertex ein conflicting vertex verschwindet • V ist kein conflicting vertex eine conflicting edge verschwindet • |E‘|+|V‘| -faches Wiederholen erzeugt einen Baum T‘, der A|B enthält mit dNNI(T,T‘) .
The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods • Splits in den SPR & TBR Neighborhoods • Jeder NNI ist ein SPR und jeder SPR ist ein TBR dTBR (T1, T2) ≤ dSPR (T1, T2) ≤ dNNI (T1, T2) • Es folgt: SNNI(T,r) _ SSPR(T,r) _ STBR(T,r) • Wir wollen zeigen, dass die Split Nachbarschaften von SPR und TBR identisch und beträchtlich größer sind als die NNI Nachbarschaft. • Erklärung der Gleichheit beider Nachbarschaften über die Parsimony Länge eines Charakters
The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods • binary character • Funktion χ : X {0,1} • Erweiterung von χ auf einen X-Baum • Funktion χ‘: V(T) {0,1} • So dass die Restriktion von χ‘ auf X gleich χ ist. • Die Länge von χ‘ bezeichnet als l‘T(χ‘) • # von Kanten {u,v} mit χ‘(u) ≠χ‘(v) • Parsimony Länge von χ‘ auf T bezeichnet als lT(χ) • Minimum von l‘T(χ‘) über alle χ‘ von χ
The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods • Lemma 5.1.: • T‘ unterscheidet sich von T durch eine TBR Operation. Für jeden Charakter χ gilt: lT‘(χ) ≤ lT(χ)+1 • Beweis: • … siehe Ausarbeitung • Für jeden Split A|B von X soll gelten: • χ A|B (x) = 1 falls x A 0 sonst
The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods • Theorem 5.2.: • Sei T ein binärer X-Baum und A|B ein Split von X.Die folgenden drei Aussagen sind äquivalent. • A|B SSPR(T,r) • A|B STBR(T,r) • lT(χA|B ) ≤ r+1 • Ringbeweis: • 1) 2) • Wir haben bereits gezeigt, dassSSPR(T,r) _ STBR(T,r)
The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods • 2) A|B STBR(T,r) 3)lT(χA|B ) ≤ r+1 • A|B Σ(T‘) und dTBR (T, T‘) = s ≤ r • Es gibt eine Folge von X-Bäumen mit:T‘ = T0, T1, … Ts = T • Da A|B Σ(T‘) gilt: lT‘(χA|B ) = 1 • Mit Lemma 5.1. Gilt für alle i = 1, 2, …, s :lTi(χA|B ) ≤ lTi-1(χA|B ) +1 lTs(χA|B ) = lT (χA|B ) ≤ s+1 ≤ r+1
The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods • 3)lT(χA|B ) ≤ r+1 1)A|B SSPR(T,r) • lT (χA|B ) ≤ s+1 ≤ r+1 • Wenn s = 0 folgt 1), da lT (χA|B ) = 1 A|B Σ(T) • Für s > 0sei χ‘ eine Erweiterung von χA|B mit minimaler Länge:es gibt drei Knoten u,v,w mit {u,v} E(T) , v liegt auf dem Weg von u nach w und χ‘(v) ≠ χ‘(u) = χ‘(w) • Durchführen eines SPR:Entfernen der Kante {u,v}, Einfügen eines neuen Knotens x an einer zu w adjazenten Kante, Hinzufügen der Kante {u,x}, Setzen von χ‘(x) = χ‘(u) • χ‘ des neuen Baumes hat nun Länge s • Nach s Durchläufen T‘ mit A|B Σ(T‘) und dSPR(T, T‘) = s
The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods • Exakte Formel für die # an Charakteren mit der Parsimony Länge k • Zusammen mit Theorem 5.2. Ergibt sich daraus eine Formel für die # an Splits in SSPR(T,r) und STBR(T,r) • |SSPR(T,r)| = |STBR(T,r)| = Σ1≤k≤ r+1 [(n-k)!/(k!(n-2k)!) + (n-k-1)!/(k!(n-2k-1)!)] 2k
Übersicht: • The splits in the Neighborhood of a Tree • Einleitung • Terminologie • Baum Metriken • Splits in den Nachbarschaften der vorgestellten Metriken • A Classification of Consensus Methods for Phylogenetics • Einleitung • Terminologie • Vorstellung verschiedener Consensus Methoden • Klassifikation der vorgestellten Consensus Methoden • Subtrees & Supertrees
A Classification of Consensus Methods for Phylogenetics - Einleitung • Consensus Baum Methoden: • aus einer Sammlung von phylogenetischen Bäumen auf dem gleichen Taxaset wird ein einzelner „repräsentativer“ Baum, der Consensus Baum, erstellt • Wie kann man Informationen von miteinander konkurrierenden Bäumen miteinander verbinden? • finden gemeinsamer Substrukturen und Wiedergabe im Ausgabebaum • Konfliktreiche Regionen werden ausgeschlossen
A Classification of Consensus Methods for Phylogenetics - Einleitung • Nutzen und Missbrauch von Consensus Methoden: • Art der Interpretation ist zu beachten • Werkzeug zur Repräsentation • Werkzeug für phylogenetische Schlussfolgerungen problematisch, die meisten Methoden stützen sich auf kombinatorische Eigenschaften im Zusammenhang mit einer bestimmten Zielsetzung, einem Modell oder Paradigma • Standard Consensus Methoden: • Bestimmen von Gemeinsamkeiten und Differenzen zwischen Eingabebäumen • verschiedene Zielsetzungen verschiedene Consensus Methoden
A Classification of Consensus Methods for Phylogenetics - Terminologie • Gewurzelter phylogenetischer Baum • {a,b,c,d,e} ist die Menge aller Taxa von T • Gruppe: eine Teilmenge der Menge aller Taxa • Monophyletische Gruppen, Cluster eines Baumes T:alle Gruppen, die alle Nachkommen ihres jüngsten gemeinsamen Vorfahren enthalten • Gewurzeltes Tripple z.B. bc|a , cd|er(T) ist die Menge aller Tripple im Baum T
A Classification of Consensus Methods for Phylogenetics - Terminologie • Kompatibilität von Gruppen: • Eine Sammlung von Gruppen C ist kompatibel, wenn es einen gewurzelten Baum T gibt, für den jede Gruppe ein Cluster von T bildet • Für jedes Cluster A und B in C gilt: A _ B oder B _ A oder A ∩ B = Ø • Restriktion von T auf X: T|X • Jedes Cluster A aus T wird durch die Schnittmenge A ∩ X ersetzt • Ein Baum T verfeinert einen Baum T‘ • Wenn jedes Clustern/Splits aus T‘ auch in T enthalten ist
A Classification of Consensus Methods for Phylogenetics – Consensus Methoden Basierend aufSplits & Clustern • Übersicht von Consensus Methoden • Strict Consensus Tree • Majority Rule Tree • Loose Consensus Tree • Greedy Consensus Tree • Nelson Page & Asymmetric Median Consensus Tree • Adams Consensus Tree • Cluster Height Methods • Local Consensus Tree • Prune & Regraft Tree • Q* & R* Consensus Tree • Matrix Repräsentation mit Parsimony • Average Consensus Tree • Buneman Consensus Tree Cluster Schnittmengen Methoden Basierend auf Teilbäumen Basierend auf Recoding
A Classification of Consensus Methods for Phylogenetics – Consensus Methoden • Übersicht von Consensus Methoden • Consensus Methoden basierend auf Splits/Clustern • Strict Consensus Tree • Majority Rule Tree • Loose Consensus Tree • Greedy Consensus Tree • Cluster Schnittmengen Methoden • Adams Consensus Tree