420 likes | 558 Views
Seminar: Aktuelle Themen in der Bioinformatik. Rekonstruktion eines Genbaums über Gen-/Artenbaum-Reconcilierung. Bayesian gene/species tree reconciliation and orthology analysis using MCMC (2003)
E N D
Seminar: Aktuelle Themen in der Bioinformatik Rekonstruktion eines Genbaums über Gen-/Artenbaum-Reconcilierung Bayesian gene/species tree reconciliation and orthology analysis using MCMC (2003) Gene tree reconstruction and orthology analysis based on an integrated model for duplications and sequence evolution (2004) Bianca Büttner SS 2005
Übersicht • Einführung in die Thematik • Der Algorithmus von Arvestad et al. • Definitionen und Notationen der Parameter • Gen-Evolutions- & Gen-Sequenz-Evolutions-Modell • Der MCMC-Algorithmus • Berechnung der Likelihood einer Reconcilierung • Zusammenfassung Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Einführung in die Thematik • Was ist ein Genbaum? - Während der Evolution können ganze Genloci (oder auch nur einzelne Basen) dupliziert werden oder verloren gehen. - Duplikationen lassen Rückschlüsse auf Genfamilien zu. - 1962 wurden das erste Mal Unterschiede zwischen Globinen entdeckt (Zuckerkandl & Pauling). - Für Vergleiche zwischen Mitgliedern dieser Genfamilie innerhalb einer Spezies wurde ein Genbaum erstellt. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Einführung in die Thematik • Was ist eine Reconcilierung? - Zusammen mit einem Genbaum und in Abhängigkeit eines Artenbaums, erklärt die Reconcilierung die Evolution einer Genfamilie. - 1979 suchte Goodman als einer der Ersten nach einem Algorithmus, der Gen- und Artenbäume in Übereinstimmung bringen konnte. - Ziel war es, eine Reconcilierung zu finden, in der der Genbaum die geringste Anzahl an Substitutionen, Genduplikationen und Genverluste aufwies. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Einführung in die Thematik • Was ist eine Reconcilierung? Genduplikation Genverlust Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Einführung in die Thematik • Walter Fitch`s (Zoologe,1970) original Definition von „paralog“ und „ortholog“: - Wenn die Homologie zweier Gene das Resultat einer Genduplikation ist und sie die Entwicklung einer Art beschreiben, nennt man die Gene paralog. - Ist die Homologie zweier Gene das Resultat einer Speziation (Artenbildung) und reflektiert die Entwicklung eines Gens die Entwicklung mehrerer Arten, nennt man die Gene ortholog. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Einführung in die Thematik Oder in kurz: • Zwei Gene sind paralog, wenn sie nach einer Duplikation divergieren. • Zwei Gene sind ortholog, wenn sie nach einer Speziation divergieren. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Einführung in die Thematik Beispiel: Rattengene 1 & 2 sind paralog. Mausgene 1 & 2 sind paralog. Aber: Rattengen 1 bzw. 2 ist ortholog zu Mausgen 1 & 2 und umgekehrt. ( ) = Speziation X = Duplikation Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Der Algorithmus von Arvestad et al. • Der Algorithmus versucht Fragen zu beantworten wie z.B. Wie viele Duplikationen und Verlust geschahen in einer Genfamilie? Oder welche Gene sind ortholog? • Die Autoren entwickelten als Grundlage für den Algorithmus ein Gen-Evolutionsmodell, dass im 2. Paper noch durch ein Gen-Sequenz-Evolutionsmodell erweitert wurde. • Die Verfahren und Modelle auf denen der Algorithmus basiert, gehören zu den statistischen Methoden und sind laut Autor den üblichen parsimonischen Methoden in Realitätsnähe und Mächtigkeit weit überlegen. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Definitionen und Notationen I • Ein Genbaum G bezeichnet seine Knoten und Blätter mit Kleinbuchstaben wie u, v und w. • Ein Artenbaum S verwendet meist die Großbuchstaben X, Y, Z. • Die Blätter eines Genbaums repräsentieren Gene, die Blätter eines Artenbaums repräsentieren Arten. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Definitionen und Notationen II • Ein Genbaum G besitzt eine Blatt-Benennungs-Funktion: s: L(G) L(S) • Das heißt, das Gen l e L(G) gehört zum Genom der Spezies s(l), da L(G) und L(S) miteinander assoziiert sind. Bsp: a1 und a2 sind Gene der Spezies A. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Definitionen und Notationen III • Ein Baum T hat folgende Merkmale: • V(T) => Eine Menge von Knoten von T. • A(T) => Eine Menge von Kanten von T. • L(T) => Eine Menge von Blättern von T. • r(T) => Eine Wurzel von T. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Definitionen und Notationen V • Ist binär, d.h. jeder innere Knoten hat zwei Kinder. • Tu => Ist ein Teilbaum von T mit Wurzel u. • c1(u) ist das linke und c2(u) das rechte Kind von u. • Tu,v => Ist ein Kanten-Teilbaum von T. • bedeutet: v ist ein Nachkomme von u in T. u v Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Das Gen-Evolutions-Modell I • In diesem Modell lassen wir den Genbaum innerhalb eines Artenbaums wachsen, entsprechend eines sogenannten Birth-Death-Prozesses. • Dieser Standard-Prozess wurde bereits von Kendall 1948 entwickelt und induziert die Reconcilierung: • Birth rate l => Anzahl der Duplikationen • Death rate m => Anzahl der Genverluste • Der Birth-Death-Prozess wird auf die Kanten des Artenbaums angewendet. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Das Gen-Evolutions-Modell II Wie funktioniert der Birth-Death-Prozess? • Der Prozess beginnt an der Wurzel und arbeitet sich abwärts bis zu den Blättern des Artenbaums vor. 2. Sobald der Prozess das Ende einer Kante erreicht, splittet er Knoten x in zwei identische Kopien. 3. Der Prozess geht rekursiv links und rechts an den ausgehenden Kanten von x weiter, bis er in den Blättern von S stoppt. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Das Gen-Evolutions-Modell III • Dann wird der Baum „zurechtgestutzt“, d.h. Knoten ohne Blätter (Genverluste) werden gelöscht, eingehende und ausgehende Kanten von Knoten mit nur einem Kind zu einer Kante (ohne den Knoten) zusammengeführt. 5. Dann werden die Blätter des entstandenen Genbaums entsprechend der Blätter des Artenbaums benannt. Beispiel: Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Beispiel: Genbaum entwickelt sich innerhalb eines Artenbaums Artenbaum Speziation Duplikation Genverlust Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Entwicklung eines Genbaums II II I Genbaum nach dem Zurechtschneiden des Birth-Death-Prozesses. Reconcilierung aus dem Birth-Death-Prozess. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Entwicklung eines Genbaums III III IV Reconcilierung durch parsimonische Methoden. Gen d wird fälschlicherweise als Speziation interpretiert. Eine mögliche Reconcilierung Bei gegebenem Arten- und Genbaum aus I. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Das Gen-Sequenz- Evolutions-Modell • Erweiterung des Gen-Evolutions-Modells. • Bei jeder Entstehung einer neuen Genlinie – entweder durch Duplikation oder Speziation – wird ein Modell zur Evolution der Sequenz angewendet (hier: Jukes-Cantor und Molecular-Clock-Model für die Kanten). • Das Modell ist hierarchisch, d.h. es ist egal ob zuerst der Gen-Baum nach dem Gen-Evolutions-Modell entwickelt wird und danach das Sequenz-Evolutions-Modell darauf angewendet wird oder umgekehrt. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Definitionen einer Reconcilierung I Formal: Eine Reconcilierung eines Artenbaums S und eines Genbaums G ist ein Paar (g,G´) wobei g eine Funktion ist: Das bedeutet: Jeder Art ist eine Menge von Genen zugeordnet. Beispiel: u eg(x) - also: u gehört zu den Genen von X. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Definitionen einer Reconcilierung II G´wird zu G, sobald alle Knoten, mit nur insgesamt zwei eingehenden und ausgehenden Kanten, gelöscht wurden. Beispiel: G und G` Eine Reconcilierung g von G & S Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Definitionen einer Reconcilierung III 1. Die Wurzel des Artenbaums, ist einem Gen im Genbaum zugeordnet. 2. Für jedes Blatt im Genbaum gibt es eine zugehörige Spezies im Artenbaum. 3. Ein Gen kann nicht zu zwei Arten gleichzeitig gehören. 4. Kein Gen einer Spezies kann in der Reconcilierung Vor- oder Nachfahre von einem anderen Gen der gleichen Spezies sein. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Definitionen einer Reconcilierung IV 5. Wenn y und z ebensowenig voneinander abstammen, wie ihre zugehörigen Gene v und w, dann ist der letzte gemeinsame Vorfahre von y und z an einer Gabelung und trennt v und w voneinander. 6. Wenn x,y,z von einander abstammen, stammen ihre zugehörigen Gene u,v,w in gleicher Reihenfolge von einander ab. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Markov-Ketten-Monte-Carlo-Verfahren (MCMC) • Der hier verwendete Algorithmus basiert auf dem Metropolis-Hastings-Algorithmus, der zu den MCMC-Methoden gehört. • In einem Zustandsraum wird durch eine zufällige Übergangswahrscheinlichkeit (proposal distribution) eine Markov-Kette aus Zuständen gebildet. • Eine Akzeptanz-Wahrscheinlichkeit (der Metropolis-Hastings-Quotient) entscheidet, ob der Übergang von einem Zustand in den Anderen akzeptiert wird. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Markov-Ketten-Monte-Carlo-Verfahren (MCMC) II • Dieser Quotient sorgt dafür, dass die Markov-Kette sich nach einer gewissen Zeit (Burn-In) gerichtet einer stationären Zielverteilung nähert. Aus ihr werden später die Werte gesampelt. • In dieser Zielverteilung sind die Zustände nach ihrer Wahrscheinlichkeit gewichtet. D.h. die wahrscheinlicheren Zustände werden öfter besucht, als die weniger Wahrscheinlichen. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Markov-Ketten-Monte-Carlo-Verfahren (MCMC) II Der Metropolis-Hastings-Quotient: } vorgeschlagener neuer Zustand } alter Zustand WS, dass aktueller Zustand X ist. Übergangs-WS, von Zustand X nach Zustand Y. => Quotient gibt WS an, mit der neuer Zustand akzeptiert wird. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
MCMC-Abschätzung der a posteriori WS-Verteilung von Genbäumen • Hier besteht der Zustand einer Markov-Kette aus einem Tripel: • (G, l, m) – entsprechend: Genbaum, Birth rate, Death rate. • Die stationäre Ziel-Wahrscheinlichkeitsverteilung ist eine a posteriori-Verteilung von Genbäumen (posterior in Bezug auf F). • Bei gegebenem F bekommen wir durch Sampeln aus dieser Verteilung folgende Wahrscheinlichkeit: } Prinzip der bedingten WS nach dem Satz von Bayes • F ist die Menge aller zu betrachtenden Gensequenzen einer Genfamilie. • => F = {q1, ... , qn}, wobei n die Anzahl aller Speziesarten ist. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
MCMC-Abschätzung der a posteriori WS-Verteilung von Genbäumen • l und m (Birth-Death-Prozess) werden zur Berechnung a priori angenommen und später durch die richtigen Werte aus den gesampelten Ergebnissen ersetzt. • Die Berechnung der Akzeptanz-Wahrscheinlichkeit des neuen Zustands (G´,l´,m´) durch den Metropolis-Hastings-Quotienten wurde etwas abgewandelt: } Aktueller Zustand } Neuer Zustand • ist die Likelihood. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Berechnung der Likelihood • Die Likelihood soll die Wahrscheinlichkeit abschätzen, dass im Gen-Evolutions-Prozess G der Genbaum, l die Geburtsrate und m die Todesrate - bei gegebenen Gensequenzen F - war. • Da es für jeden Genbaum eine entsprechende Reconcilierung gibt, gilt diese Likelihood-Berechnung auch gleichzeitig als Wahrscheinlichkeit für die jeweilige Reconcilierung. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Berechnung der Likelihood II • Nach dem Prinzip der dynamischen Programmierung wird zur Berechnung der Likelihood einer Reconcilierung der Genbaum in sogenannte „Sliced Subtrees“ zerlegt. • Die Größe der Sliced Subtrees wird durch eine obere und eine untere Schranke begrenzt. Es sind komplizierte rekursive Gleichungen notwendig, um einen Genbaum in diese Teilbäume zu zerlegen, die hier aber nicht gezeigt werden. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Definitionen eines Sliced Subtrees • ist ein Sliced Subtree, für <x,y> e A(S) und u eg(x). • Beispiel: Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Definitionen eines Sliced Subtrees II • ist noch mal ein spezieller Sliced Subtree, bei dem von vorneherein festgelegt ist, dass er nur eine Kante <x,y> lang und bei u gewurzelt ist. U ist ein Gen von X. • Es gibt keine Spezies zwischen X und Y. • Für jeden Sliced Subtree werden nun rekursiv Likelihood-Berechnungen angestellt. • Die Ergebnisse dieser Rekursionsgleichungen ergeben zusammengesetzt dann die Likelihood einer speziellen Reconcilierung. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Berechnung der Likelihood für eine einzelne Reconcilierung • ist definiert, als die WS, dass Gu und gu sich aus u in Sx entwickelt haben. D.h. X ist die Startspezies, u die Wurzel des Subtrees. • ist die WS, dass sich und von u aus in Sx,y entwickelt haben. Y ist hier das Ende der Kante (Zielspezies). Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Berechnung der Likelihood für eine einzelne Reconcilierung II • Die Likelihood-Berechnung basiert auf folgenden rekursiven Gleichungen: Berechnung beginnt im Blatt der Sliced Subtrees und steigt rekursiv immer einen Knoten höher. X hat die Kinder y und z in S. Berechnet linke und rechte Kante von X. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Berechnung der Likelihood für eine einzelne Reconcilierung III eA betrachtet die Kante von X nach Y und setzt sich aus mehreren Variablen zusammen, die wiederum rekursiv berechnet werden müssen. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Berechnung der Likelihood für eine einzelne Reconcilierung IV py(l) => Wahrscheinlichkeit, dass der Birth-Death-Prozess auch tatsächlich l Blätter generiert hat. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Berechnung der Likelihood für eine einzelne Reconcilierung V h(g,y,u) => Wahrscheinlichkeit der Baumstruktur (Topologie) Der Birth-Death-Prozess generiert „Labeled Trees“ mit l Blättern und gleicher Wahrscheinlichkeit. Aber nach Entfernen der Labels (Blattnamen) ist eine Baumstruktur wahrscheinlicher als die Andere. Während die History (zeitliche Abfolge der Knoten) ohne Labels überhaupt keine Rolle mehr spielt. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Berechnung der Likelihood für eine einzelne Reconcilierung V Bsp: Wahrscheinlichkeit der Baumstruktur (Topologie) 6 Permutationen der Labeled Trees => WS = 1/3 12 Permutationen der Labeled Trees => WS = 2/3 Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Berechnung der Likelihood für eine einzelne Reconcilierung VI Berechnung von h(g,y,u): Rekursiv für linkes und rechtes Kind von u Anzahl der Blätter des Sliced Subtrees - 1 • Blätter bekommen den Wert 1 zugewiesen. • d kann den Wert 0 (bei gleicher Topologie) oder 1 (verschieden) annehmen. • Die rekursiven Teilgleichungen werden miteinander multipliziert. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Berechnung der Likelihood für eine einzelne Reconcilierung VII Führt Kante zu weiteren Knoten wird ev noch mal rekursiv gestartet. • f(g,y,u) => Anzahl der isomorphen (äquivalenten) Reconcilierungen • Ähnliches Prinzip wie bei h. • d bekommt nur den Wert 1 zugewiesen, wenn die Reconcilierungen am Anfang und Ende übereinstimmen und sie dürfen nicht genau gleich sein. Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Zusammenfassung • Der eben vorgestellte Algorithmus erlaubt bei gegebener Gensequenz: • Eine Orthologische Analyse (Ist ein Genpaar ortholog?) • Eine Genbaum-Rekonstruierung • Eine Artenbaum-Rekonstruierung (analog zu Genbaum) • Bei gegebenen Artenbaum ist es auch möglich die Wahrscheinlichkeit eines Genbaums zu errechnen. . Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung