540 likes | 861 Views
Einführung in die Phylogenie (lat.: phylum = Stamm). Phylogenetische Bäume. Stammbaum ( Phylogenetic Tree ). Stammbäume versus Klassifikation. Zuerst war die Klassifikation Carl Linnaeus, ca. 1740: Systema Naturae Annahme: Arten verändern sich nicht ( Prä -Darwin)
E N D
Phylogenetische Bäume Stammbaum (PhylogeneticTree)
Stammbäume versus Klassifikation • Zuerst war die Klassifikation • Carl Linnaeus, ca. 1740: SystemaNaturae • Annahme: Arten verändern sich nicht (Prä-Darwin) • Einteilung der Lebewesen in • Kingdoms -classes–orders–families–genera-species • SKOFGA (Stamm, Klasse, Ordnung, Familie, Gattung, Art) • Innere Knoten einer Klassifikation sind abstrakt
Klassifikation • Eukaryoten • Tiere • diverse Zwischenstufen • Chraniata (Schädelknochen) • Vertebraten (Wirbeltier) • Viele Zwischenstufen • Mammals(Säugetiere) • Eutheria(Plazentatiere/Höhere Säuger) • Primaten (Affen) • Catarrhini (Altweltaffen) • Hominidae(Mensch, Schimpanse, Orang-Utan, Gorilla) • Homo (erectus, sapiens ...) • Homo Sapiens
Stammbäume • Charles Darwin: „The origin of species“ (1859) • Arten sind nicht unveränderlich, sondern unterliegen im Laufe der Zeit einem Wandel • „Survivalof the fittest“ • Damals noch unklar, was sich eigentlich wandelt • Stammbäume(Abstammungsbäume) • Ergeben sich aus der Annahme der Evolution • Auch Stammbäume wurden lange aus morphologischen Eigenschaften abgeleitet • Jeder Knoten in einem Stammbaum hat einmal als Art existiert–Knoten im Baum (also Spezies) heißen taxa • Was definiert eine Spezies?
„Homo floresiensis“ (Hobbit?) • Entdeckung 2003 • Lebte vermutlich vor 95000 bis vor 12000 Jahren auf der indonesischen Insel Flores • Körperhöhe nur ca. 100 cm • Gehirnvolumen nur 380 cm3 • Homo erectus: 600-1200, h. sapiens: 1400 • Rückentwicklung? Vorläufer? Quelle: Brown, P. et al. Nature431, 1055-1061 (2004).
Evolutionsgeschichte neu geschrieben • Stammbaum –welche Art geht aus welcher hervor? Evolutionsgeschichte neu geschrieben
Moderne Stammbaumberechnung • Molecular phylogeny • Mendel + Darwin: Das Erbgut unterliegt dem Wandel • Berechnung von Stammbäumen aus molekularen Daten • Zuckerkandl und Pauling, 1965 • Berechnung aufgrund von DNAoder Proteinsequenzen • Annahme: Evolution verläuftin kleinen Schritten • Wenn sich Sequenzen ähnlichsind, sind die Speziesevolutionär eng verwandt • Denn zufällige Ähnlichkeit istzu unwahrscheinlich
Arten von Stammbäumen • Individuelle Abstammung • Stammbäume, Ahnentafeln • Natürlich kein Baum: Zwei Eltern • Rekombination • Speziesstammbäume • Ein Baum, wenn Spezies nicht verschmelzen können • Sprachen verschmelzen • Gene Trees • Geschichte einesSequenzabschnitts • Nicht leicht zu definieren • Baumförmig, wenn Gene nicht verschmelzen • Aber: 2 Allele jedes Gens vorhanden (Besser: HaplotypTree)
Wozu? • Aufklärung der evolutionären Verhältnisse • Aufklärung von familiären Verhältnissen • Wenn genügend Sequenzen vorhanden • Aufklärung von Infektionswegen • Bei schnell mutierenden Viren (z.B. HIV) • Varianten werden in verschiedenen Personen gefunden • Herausrechnen des Verbreitungsweges anhand der Abstammungsverhältnisse • Phylogenetic Inference • Wenn alle nahe verwandten Spezies ein bestimmtes Gen haben, dann sollte ich das auch haben
Evolutionsmodell • Lebewesen vermehren sich durch Kopieren • Kopieren mit kleinen Fehlern (Mutationen) • Führen (manchmal) zu veränderter „Funktion“ • Selektion – „Survival of the fittest“ • Fatale Mutationen lassen Nachkommen gar nicht erst entstehen • Einschränkungen der Überlebensfähigkeit führen zur schnellen Ausrottung • Speziation • Unterschiedliche Mutationen sind in unterschiedlichen Lebensräumen unterschiedlich vorteilhaft • Anpassungan ökologische Nischen • Führt zur Akkumulation von Änderungen • Schließlich geht die gemeinsame Fortpflanzungsfähigkeit verloren
Artenbildung • Arten entstehen durch Veränderungen aus einer anderen Art
Mutationsfrequenzen • Treten Mutationen in gleicher Frequenz auf? • Sind alle Mutationen gleich wahrscheinlich? • Substitutionsmatrizen • Gibt es Zeiten erhöhter Mutationshäufigkeit? • Sonneneruptionen, … • Gibt es Zeiten erhöhten Selektionsdrucks? • Meteoriteneinschlag, Klimaverschiebungen, … • Gibt es Teilbäume, die schneller mutieren? • Abhängig vom Anpassungsdruck oder der Güte der Reparaturmechanismen • Gibt es Sequenzabschnitte, die unterschiedlich schnell mutieren? • Codingversus non-coding Regions, House-Keeping genes, …
MolecularClock • Häufige Annahme: Molecular Clock • Mutationen setzen sich bzgl. der Zeit immer mit gleicher Häufigkeit durch • Unabhängig von Teilbaum, Zeitpunkt, Ort und Art der Mutation • Anzahl der beobachteten Mutationen proportional zur vergangenen Zeit • Die ist manchmal hilfreich, aber falsch • Unterschiedliche Zeiten erzeugen unterschiedlichen Selektionsdruck • Unterschiedliche Sequenzabschnitte unterliegen unterschiedlichem Selektionsdruck • Unterschiedliche Spezies unterliegen unterschiedlicher Frequenz erfolgreicher Mutationen • …
Daten • Messen kann man nur die DNA existierender Arten • Zwei mögliche Ziele • Rekonstruktion des wahrscheinlichsten Stammbaums der Arten • Rekonstruktion der wahrscheinlichsten Ur-DNA und aller Zwischenstufen • Den tatsächlichen Stammbaum kann man nicht berechnen • Man kennt die ausgestorbenen Arten nicht • Man kann ausgestorbene Mutationen nicht erkennen • Man kann Doppelmutationen nicht erkennen
Bäume • Knoten = Arten • Blätter = Lebende Arten • Kanten • Länge kann (aber muss nicht) mitzeitlicher Entfernung korrelieren • Scaledtrees • Jeder Knoten hat exakt einen Vater • Eine Wurzel • Binäre Bäume • Reihenfolge der Kinder ist egal • Viele Visualisierungsvarianten
Distanzbasierte Phylogenie • An innere Knoten eines Stammbaum kann man den Speziationzeitpunkt schreiben („branchpoints“) • Wenn die Molecular Clock Theory gilt • Ist die Menge an Veränderungen auf einer Kante proportional zu der verstrichenen Zeit • Damit proportional zur Länge der Kante • Damit ist der Editabstand zweier Knoten (=Evolution dazwischen) proportional zur Summe der Editabstände beider Knoten zum kleinsten gemeinsamen Vater
Ultrametriken • Wenn man den Baum und die Zeitpunkte weiß, dann gilt • Alle Zahlen auf einem Pfad von der Wurzel zu einem beliebigen Blatt nehmen strikt ab • Der Zeitpunkt der Aufspaltung ist ein Abstandsmaß für zwei Arten • Für Blätter X, Y sei d(X,Y) das Label des kleinsten gemeinsamen Vorfahren • Im Beispiel: d(A,B)=80, d(B,C)=100, d(A,D)=80 • Das ist eine Metrik • d(X,X)=0, d(X,Y)>0, d(X,Y)=d(Y,X), und d(X,Y)≤d(X,Z)+d(Z,Y) • Es ist sogar eine Ultrametrik(gleich)
Ultrametrische Bäume • DefinitionSei T ein Baum und D eine symmetrische Matrix mit nZeilen und n Spalten. T heißt ultrametrischer Baum für Dwenn gilt: • T hat n Blätter, beschriftet mit den Zeilen von D • Jeder innere Knoten von T hat zwei Kinder und ist mit einem Wert aus D beschriftet • Auf jedem Pfad von der Wurzel zu einem Blatt in T sind die Zahlen strikt abnehmend • Für alle Blätter i,j mit i≠j gilt: der kleinste gemeinsame Vorfahr von i und j ist mit D(i,j) beschriftet • Bemerkung • Jeder Stammbaum ist ultrametrisch für die Abstandsmatrix mit den Aufsplittzeitpunkten als Abstandsmaß
Überlegungen • Das kann auch nicht immer gehen • Matrix hat (n2-n)/2 relevante Zellen • Baum hat nur n-1 innere Knoten • Eine Matrix, zu der man einen ultrametrischen Baum konstruieren kann, muss also Duplikate enthalten • DefinitionEine symmetrische Matrix D mit n Spalten und Zeilen istultrametrisch, wenn für beliebige Zeilen i, j, k gilt, dass das Maximum von D(i,j), D(j,k) und D(i,k) genau zweimal vorkommt • Es gilt also • D(i,j)=D(j,k) und D(i,j)>D(i,k) oder • D(i,j)=D(i,k) und D(i,j)>D(j,k) oder • D(j,k)=D(i,k) und D(j,k)>D(i,j)
Ultrametrik • Definition UltrametrikEine Ultrametrik ist eine Metrik für die gilt:d(a,c) ≤ max( d(a,b), d(b,c) ) • Bemerkung MetrikFür Metriken muss nur gelten:d(a,c) ≤d(a,b)+d(b,c)
Ultrametrik • TheoremEine symmetrische Matrix D hat einen ultrametrischen Baum gdw. D selber ultrametrisch ist • Beweis • Nehmen wir erst an, dass zu D ein ultrametrischer Baum T existiert • Nehmen wir an, dass i, j, k wie folgt liegen (alle anderen Knoten können wir ignorieren) • Dann gilt offensichtlich D(i,k)=D(j,k)=Y und D(i,k)>D(i,j)=X • Dito kann man für die zwei anderen Varianten der möglichen Lage von i, j, k verfahren • Das gilt für alle Tripel von Knoten • Also ist D ultrametrisch
Distanzbasierte Algorithmen • Konstruktion des ultrametrischen Baumes basiert rein auf Distanzmassen • Einen ultrametrischen Baum gibt es nicht für alle Matrizen • Es gibt weniger empfindliche Verfahren • Die Geschichte einzelner „Sites“ wird nicht berücksichtigt • Solche Algorithmen zur Berechnung von Stammbäumen nennt man distanzbasiert
UPGMA -Hierarchisches Clustering • UPGMA • „Unweighted pair group method with arithmetic mean“ • Anderer Name: Hierarchisches Clustering • Sehr einfaches und allgemeines Verfahren, kann bei allen möglichen Problemen angewandt werden • Wenn eine Matrix ultrametrisch ist, dann findet UPGMA den dazugehörenden ultrametrischen Baum • UPGMA nimmt die Molecular Clock an – alle Pfade von einem Blatt zur Wurzel haben am Ende die selbe Länge • Achtung: UPGMA konstruiert immer einen Baum • Auch wenn die Matrix nicht ultrametrisch ist
UPGMA Verfahren • Gegeben: Distanzmatrix D • Erzeuge ein „Baumgerüst“ mit n Blättern • Wähle den kleinsten D(i,j) Wert der Matrix und verbinde die Knoten i und j durch einen neuen Knoten (ij) mit Beschriftung D(i,j) und Kanten zu i und zu j • Anfangs sind i und j Blätter, später können es auch innere Knoten sein • Lösche Zeilen und Spalten i und j aus D • Füge in D eine Zeile und eine Spalte (ij) hinzu mit D(ij,k) = (D(i,k)+D(j,k))/2 • Wiederhole, bis D leer ist
Anwendungsbeispiel • Sequenzierung der mitochondrialer DNA (16 KB) von 86 geographisch verteilt lebenden Personen • Ergebnis: mitochondriale DNA scheint nach einer molekularen Uhr abzulaufen; Divergenz ist ca. 1,7E-8 pro Base und Jahr
Distanz versus Zeichen • Distanzbasierte Algorithmen abstrahieren von einzelnen Zeichen und basieren auf dem Abstand von Taxa • Character-basierte Verfahren betrachten die Entwicklung jedes einzelnen „Characters“ • Nuklein- oder Aminosäure • Morphologische Eigenschaften • Vorhandensein / Abwesenheit bestimmter Gene/Funktionen • ... • Character sollten in einem Abstammungsverhältnis stehen • Sequenzen müssen homolog sein • Wahl der Character beeinflusst das Ergebnis erheblich • Eine „korrekte“ Wahl gibt es nicht –erheblicher Freiraum
Abgeleiteter Phylogenetischer Baum • Gesucht: Der Baum mit den wenigsten Änderungen
Idee der Perfekten Phylogeny • Für Sequenzen unrealistisch, für komplexe Eigensch. nicht • Definition • Sei D eine binäre Matrix aus n Zeilen (Arten) und m Spalten (Character). D(i,j)=1 gdw Art i Eigenschaft j hat • T ist ein (perfekt-) phylogenetischer Baum für D, wenn gilt • T hat n Blätter, beschriftet mit den Zeilen von D • Jeder Character, der in mindestens einer Art vorhanden ist, steht an genau einer Kante von T • Für jede Art i gilt, dass die Beschriftungen der Kanten auf dem Pfad von der Wurzel zu i genau die Character sind, die i hat • Bemerkungen • Nicht an jeder Kante von T muss ein Character stehen, aber jeder Character muss an genau einer Kante stehen
Zusammenfassung • Phylogenie als Konzept zur Analyse der Evolutionärer Mechanismen • Gilt nur bei einfachen Evolutionsmodellen • Güte hängt von denEigenschaften der Daten ab • Distanzbasierte Methoden • Am ungenauesten, dafür schnell • Brauchen numerische Abstandsmasse • Zeichen-basierte Methoden: Besser, aber aufwendig zu berechnen • Scoring aller möglichen Baum-Topologien
Paarweises Alignment • Distanzberechnung basierend auf Alignement • Sequenzabständen • Strukturalignement • Proportionalität zwischen Sequenz- und evolutionärer Abstand • Vergleich der Entwicklung von homologen Genen • Verschiedenen Spezies haben Struktur und Funktionsgleiche Proteine • „Housekeeping“ Proteine • z.B. „alcohol dehydrogenase“ Enzym im Glykolyse-Stoffwechsel
Beispiel • Enzym: Alkoholdehydrogenase (ADH) • An alcohol + NAD+ = an aldehyde or ketone + NADH • Spezies • Human • Chimpanzee • Mouse • Dog • Frog • Zebrafish • Fruit flig • Rice • E. coli • Quelle: KEGG http://www.genome.jp
Proteinsequenzen ADH • KEGG: 330 Gene über mehrere Spezies zu ADH http://www.genome.jp/dbget-bin/www_bget?ko:K00001
Sequenzextraktion >Human MSTAGKVIKCKAAVLWELKKPFSIEEVEVAPPKAHEVRIKMVAVGICGTDDHVVSGTMVTPLPVILGHEAAGIVESVGEGVTTVKPGDKVIPLAIPQCGKCRICKNPESNYCLKNDVSNPQGTLQDGTSRFTCRRKPIHHFLGISTFSQYTVVDENAVAKIDAASPLEKVCLIGCGFSTGYGSAVNVAKVTPGSTCAVFGLGGVGLSAIMGCKAAGAARIIAVDINKDKFAKAKELGATECINPQDYKKPIQEVLKEMTDGGVDFSFEVIGRLDTMMASLLCCHEACGTSVIVGVPPDSQNLSMNPMLLLTGRTWKGAILGGFKSKECVPKLVADFMAKKFSLDALITHVLPFEKINEGFDLLHSGKSIRTILMF >Chimpanzee MSTAGKVIKCKAAVLWEVKKPFSIEDVEVAPPKAYEVRIKMVAVGICRTDDHVVSGNLVTPLPAILHEAAGIVESVGEGVTTVKPGDKVIPLFTPQCGKCRVCKNPESNYCLKNDLGNPRGTLQDGTRRFTCRGKPIHHFLGTSTFSQYTVVDENAVAKIDAASPLEKVCLIGCGFSTGYGSAVNVAKVTPGSTCAVFGLGGVGLSAVMGCKAAGAARIIAVDINKDKFAKAKELGATECINPQDYKKPIQEVLKEMTDGGVDFSFEVIGRLDTMMASLLCCHEACGTSVIVGVPPASQNLSINPMLLLTGRTWKGAVYGGFKSKEGIPKLVADFMAKKFSLDALITHVLPFEKINEGFDLLHSGKSIRTVLTF >Fruit fly MSRKNVLGLINTIVANSCKCPAHSHNYGSAAPTASQTGRMEYAFEMSASTVRFGPGVSAEVGADLRNLGARKVCLVTDKNVVQLPSVKVALDSLARNGINYEVYDETRVEPTDGSMWHAVEFARGKEFDAFLAIGGGSAMDTAKAANLFSSDANAEFLDYVNCPIGRGKEISVKLKPLIAMPTTSGTGSETTGVAIFDYKKLHAKTGISSKFLKPTLAVIDPLHTLSQPQRVMAFAGFDVFCHALESFTAVDYRERGLAPSDPSLRPTYQGRNPVSDVWARFALETIRKNFVNAIYQPDNLEARSQMHLASTMAGVGFGNAGVHLCHGLSYPISGNVRDYKPKGYSADHALIPHGLSVVISAPAVFEFTAPACPDRHLEAAQLLGAEVRGVEKADAGRLLADTVRGFMQRAGIENGLRELGFSSSDIPALVEGTLPQERITKLAPRAQTQENLSQLFEKSMEVY