300 likes | 404 Views
Evolution eukaryontischer Promotorsequenzen. Promotor Prediction Programms (PPP). Christian Ehrlich & Falko Krause. Übersicht. Einführung Bilogischer Hintergrund Maschinenlernen Eponine Relevance Vector Machine FirstEF Quadratische Diskriminanzanalyse Vergleich von PPPs.
E N D
Evolution eukaryontischer Promotorsequenzen Promotor Prediction Programms (PPP) Christian Ehrlich& Falko Krause
Übersicht • Einführung • Bilogischer Hintergrund • Maschinenlernen • Eponine • Relevance Vector Machine • FirstEF • Quadratische Diskriminanzanalyse • Vergleich von PPPs
EinführungEponine FirstEF Vergleich von PPPs Der Promotor Ort: • vor und nach der Transkriptionsstart- stelle (TSS) Merkmale: • Transkriptionsfaktor-bindungsstellen (TFBS) z.B. TATA-Box • CpG-Inseln • TSS • Initiator Sequenz
EinführungEponine FirstEF Vergleich von PPPs Maschienenlernen Neuronale Netze (NN) Hidden Markov Modelle (HMM)
EinführungEponine FirstEF Vergleich von PPPs Maschienenlernen Sampling Relevance Vector Machine (RVM) Quadratische Diskriminanz- analyse (QDA)
EinführungEponine FirstEF Vergleich von PPPs Eponine What can we learn from noncoding regions of similarity between regions T.Down, T.J.P. Hubbard 2004 , BMC Bioinformatics
EinführungEponine FirstEF Vergleich von PPPs Maschinenlernen Überwachtes Maschinenlernen • annotierte Daten (Promoter Regionen, TSS, proteincodierende Bereiche) • Modellerstellung aus diesen Daten • automatische Daten Annotierung überwacht unüberwacht
BLAST-Z F i l t e r RepeatMasker ab initioGen-Suche + Trainingsset konserviert funktionell nicht proteincodierend codierend (annotiert) - Trainingsset nicht proteincodierend EinführungEponine FirstEF Vergleich von PPPs Trainingset H Chromosome 6 Human Maus M Genome
EinführungEponine FirstEF Vergleich von PPPs Relevance Vector Machine Bayes’sche automatische Relevanz Determination (ARD) für Modelle mit linearen Parametern (RVM 2000 M.E.Tipping M$) • wenige Basis-Funktionen können von einem Generalisierten Linearem Modell (GLM) gelernt werden • Basis-Funktionen können selbst gewählt werden (SVM nur Kernel Funktionen) • Anzahl der Basis-Funktionen wird reduziert
EinführungEponine FirstEF Vergleich von PPPs Relevance Vector Maschine + Trainingsset - Trainingsset PWM RVM Trainings Modell
EinführungEponine FirstEF Vergleich von PPPs Sampling „Sequenzen in der Nähe der TATA-Box sind auch für Promotoren spezifisch“ • generiere eine neue PWM aus einer vorhanden durch Veränderung der Gewichte (Dirichlet verteilt) • generiere eine neue PWM durch weglassen der ersten oder letzten Spalte
Einführung EponineFirstEFVergleich von PPPs EAS, EWS, cEWS • Eponine Anchored Sequence (EAS) • Anker • Eponine Windowed Sequence (EWS) • zufallige PWMs • Convolved Eponine Windowed Sequence(C-EWS) • PWM Gerüste
TSS Datenbank H Chromosome 22 [-2k, TSS, +2k] EinführungEponine FirstEF Vergleich von PPPs EWS – Ergebnisse • Hits dist. TSS • ohne CpG • Receiver Operating Characteristic curve • Testset • Seedwort Länge
EinführungEponineFirstEF Vergleich von PPPs First Exon Finder (FirstEF) Computational identification of promoters and first exon in the human genome Ramana V. Davuluri. Ivo Gross & Michael Q. Zhang Nature genetics, Volume 29, December 2001
EinführungEponineFirstEF Vergleich von PPPs Motivation Gen Vorhersage erreicht ~90% Sensitivität • Genscan • FGENES • MZEF Promoter Vorhersage erreicht ~50% Sensitivität • PromoterInspector • Eponine • DragonPF \\|// (o o) -. .-. .-oOOo~(_)~oOOo-. .-. .-. .-. ||X|||\ /|||X|||\ /|||X|||\ /|||X|||\ /|||X |/ \|||X|||/ \|||X|||/ \|||X|||/ \|||X|||/ ' `-' `-' `-' `-' `-' `-' `-' `-' Genscan DragonPF
EinführungEponineFirstEF Vergleich von PPPs Methoden Diskriminanzanalyse Idee: Klassifizierung eines Objektes anhand mind. einer Zufallsvariablen Voraussetzung: Günstig: Benötigt:
EinführungEponineFirstEF Vergleich von PPPs Methoden Quadratische Diskriminanzanalyse (QDA) Idee: Klassifizierung eines Objektes anhand mind. einer Zufallsvariablen Voraussetzung: Günstig: Benötigt:
EinführungEponineFirstEF Vergleich von PPPs Algorithmen Design Suche nach Splice Donor Site (GT) P(donor site | GT) > 0.4 Suche 1500bp/500bp up-/downstream nach GT nicht CpG CpG Fenster = Promotor Region Fenster = Promotor Region P(promotor | Fenster) > 0.4 P(promotor | Fenster) > 0.4 P(exon | alle) > 0.5 first-Exon gefunden
EinführungEponineFirstEF Vergleich von PPPs Training QDF Training Probleme: Nicht viele GenBank Einträge beinhalten first-Exon Annotationen Idee: Sammele first-Exons und Promotoren durch Mapping von vollständige 5’ UTR’s auf Gensequenzen 2.139 first-Exons welche durch eine 500bp 5’ Region (Promotor) und 500bp 3’ Region (Intron) flankiert sind 61% teilweise codierend und 39% nicht cod.
Vorhersage von CpG first-Exons ist sehr gut Vorhersage von nicht CpG first-Exons ist ok EinführungEponineFirstEF Vergleich von PPPs Training QDF Training Evaluation (specificity) (sensitivity)
EinführungEponineFirstEF Vergleich von PPPs Evaluation Evaluation procedure GenBank UCSC Genes + Promoters (Chrom. 21/22) Chromosom 21/22 mit repeats & ohne repeats BLAT aliniere G. + P. mit Chromosom Sequenz 121annotierte first-Exons (42 nicht-codierent) FirstEF: 106/121~87% vorhergesagt (33/42~78% nicht-codierent)
EinführungEponine FirstEF Vergleich von PPPs PPPs Promoter prediction analysis on the whole human genome V.B.Bajic, S.L.Tan, Y.Suzuki, S.Sugano Nature biotechnology, Volume 22, Number 11, November 2004
EinführungEponine FirstEF Vergleich von PPPs Testset • basiert auf experimental Daten (full-length oligo-capped’ cDNA) • nicht bei allen PPPs möglich • einige false negatives werden in kauf genommen Humanes Genom [-2000bp , TSS , +2000bp]
EinführungEponine FirstEF Vergleich von PPPs Funktion Name ANN HMM CpG Insel C+G Gehalt TATA-Box Weitere Konzepte CpgProD only stat. regelbasiertes System Dragon GSF/PF X X X Eponine X RVM First EF X QDA MC Promoter X X pysikalische Eigenschaften NNPP X X INR + Abstand Promoter 2.0 X X
EinführungEponine FirstEF Vergleich von PPPs PPPs im Vergleich – Gewinner? • PPPs haben oft schlechtere Ergebnisse geliefert als angegeben • Eponine p.p.v.72,73% angegenen 66,97% erreicht • FirstEF p.p.v 86 % angegeben 67,1% erreicht • nicht CpG-Insel Promotoren werden schlecht erkannt • höchste p.p.v. < 65% (2 Richtige 1 Falsche ) • RepeatMasker verbessert oft das Ergebniss • „Traue keiner Statistik die du nicht selbst gemacht hast“
EinführungEponine FirstEF Vergleich von PPPs PPPs in Kombiation • Kombination von PPPs verbessert Ergebnisse • Vorgehen: • Scannen mit Fensterbreite von 2000bp • Wahlverfahren: • Regel 1: Fester k bekommt +Vorhersagen von s PPPs • Regel 2: Fester k bekommt +Vorhersagen von s PPPs von einer festgelegten Untergruppe
Zusammenfassung • Lerverfahren ? • Relevance Vector Machine • Quadratische Diskriminierungs Analyse • Wie bekomme ich Promotor-Regionen ? • Evaluierung von PPPs ? • Verfahren • Vergleichbarkeit • Probleme der Promotor Vorhersage ?
ENDE Noch Fragen?
Literatur • What can we learn from noncoding regions of similarity between regions, T.Down, T.J.P. Hubbard, http://www.biomedcentral.com/1471-2105/5/131 • Relevance Vector Machines for classifying points and regions in biological sequences, T.Down, T.J.P. Hubbard • A Machine Learning Strategy to Identity Exonic Splice Enhancers in Human Protein-coding Sequence, T.Down, B.Leong, T.J.P. Hubbard • Chapter 4. Learning from comparative genomics, http://library.sanger.ac.uk/uhtbin/cgisirsi/0/0/520/a12334d?user_id=HYP-REST • The Relevance Vector Machine, M.Tipping • Crouching Introns,Hidden Exons, B.Leong • Promoter prediction analysis on the whole human genome, V.B.Bajic, S.L.Tan, Y.Suzuki, S.Sugano • Computational identification of promoters and first exon in the human genome, R.V.Davuluri, I.Gross, M.Q.Zhang