1 / 30

Promotor Prediction Programms (PPP)

Evolution eukaryontischer Promotorsequenzen. Promotor Prediction Programms (PPP). Christian Ehrlich & Falko Krause. Übersicht. Einführung Bilogischer Hintergrund Maschinenlernen Eponine Relevance Vector Machine FirstEF Quadratische Diskriminanzanalyse Vergleich von PPPs.

manon
Download Presentation

Promotor Prediction Programms (PPP)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Evolution eukaryontischer Promotorsequenzen Promotor Prediction Programms (PPP) Christian Ehrlich& Falko Krause

  2. Übersicht • Einführung • Bilogischer Hintergrund • Maschinenlernen • Eponine • Relevance Vector Machine • FirstEF • Quadratische Diskriminanzanalyse • Vergleich von PPPs

  3. EinführungEponine FirstEF Vergleich von PPPs Der Promotor Ort: • vor und nach der Transkriptionsstart- stelle (TSS) Merkmale: • Transkriptionsfaktor-bindungsstellen (TFBS) z.B. TATA-Box • CpG-Inseln • TSS • Initiator Sequenz

  4. EinführungEponine FirstEF Vergleich von PPPs Maschienenlernen Neuronale Netze (NN) Hidden Markov Modelle (HMM)

  5. EinführungEponine FirstEF Vergleich von PPPs Maschienenlernen Sampling Relevance Vector Machine (RVM) Quadratische Diskriminanz- analyse (QDA)

  6. EinführungEponine FirstEF Vergleich von PPPs Eponine What can we learn from noncoding regions of similarity between regions T.Down, T.J.P. Hubbard 2004 , BMC Bioinformatics

  7. EinführungEponine FirstEF Vergleich von PPPs Maschinenlernen Überwachtes Maschinenlernen • annotierte Daten (Promoter Regionen, TSS, proteincodierende Bereiche) • Modellerstellung aus diesen Daten • automatische Daten Annotierung überwacht unüberwacht

  8. BLAST-Z F i l t e r RepeatMasker ab initioGen-Suche + Trainingsset konserviert funktionell nicht proteincodierend codierend (annotiert) - Trainingsset nicht proteincodierend EinführungEponine FirstEF Vergleich von PPPs Trainingset H Chromosome 6 Human Maus M Genome

  9. EinführungEponine FirstEF Vergleich von PPPs Relevance Vector Machine Bayes’sche automatische Relevanz Determination (ARD) für Modelle mit linearen Parametern (RVM 2000 M.E.Tipping M$) • wenige Basis-Funktionen können von einem Generalisierten Linearem Modell (GLM) gelernt werden • Basis-Funktionen können selbst gewählt werden (SVM nur Kernel Funktionen) • Anzahl der Basis-Funktionen wird reduziert

  10. EinführungEponine FirstEF Vergleich von PPPs Relevance Vector Maschine + Trainingsset - Trainingsset PWM RVM Trainings Modell

  11. EinführungEponine FirstEF Vergleich von PPPs Sampling „Sequenzen in der Nähe der TATA-Box sind auch für Promotoren spezifisch“ • generiere eine neue PWM aus einer vorhanden durch Veränderung der Gewichte (Dirichlet verteilt) • generiere eine neue PWM durch weglassen der ersten oder letzten Spalte

  12. Einführung EponineFirstEFVergleich von PPPs EAS, EWS, cEWS • Eponine Anchored Sequence (EAS) • Anker • Eponine Windowed Sequence (EWS) • zufallige PWMs • Convolved Eponine Windowed Sequence(C-EWS) • PWM Gerüste

  13. TSS Datenbank H Chromosome 22 [-2k, TSS, +2k] EinführungEponine FirstEF Vergleich von PPPs EWS – Ergebnisse • Hits dist. TSS • ohne CpG • Receiver Operating Characteristic curve • Testset • Seedwort Länge

  14. EinführungEponineFirstEF Vergleich von PPPs First Exon Finder (FirstEF) Computational identification of promoters and first exon in the human genome Ramana V. Davuluri. Ivo Gross & Michael Q. Zhang Nature genetics, Volume 29, December 2001

  15. EinführungEponineFirstEF Vergleich von PPPs Motivation Gen Vorhersage erreicht ~90% Sensitivität • Genscan • FGENES • MZEF Promoter Vorhersage erreicht ~50% Sensitivität • PromoterInspector • Eponine • DragonPF \\|// (o o) -. .-. .-oOOo~(_)~oOOo-. .-. .-. .-. ||X|||\ /|||X|||\ /|||X|||\ /|||X|||\ /|||X |/ \|||X|||/ \|||X|||/ \|||X|||/ \|||X|||/ ' `-' `-' `-' `-' `-' `-' `-' `-' Genscan DragonPF

  16. EinführungEponineFirstEF Vergleich von PPPs Methoden Diskriminanzanalyse Idee: Klassifizierung eines Objektes anhand mind. einer Zufallsvariablen Voraussetzung: Günstig: Benötigt:

  17. EinführungEponineFirstEF Vergleich von PPPs Methoden Quadratische Diskriminanzanalyse (QDA) Idee: Klassifizierung eines Objektes anhand mind. einer Zufallsvariablen Voraussetzung: Günstig: Benötigt:

  18. EinführungEponineFirstEF Vergleich von PPPs Algorithmen Design Suche nach Splice Donor Site (GT) P(donor site | GT) > 0.4 Suche 1500bp/500bp up-/downstream nach GT nicht CpG CpG Fenster = Promotor Region Fenster = Promotor Region P(promotor | Fenster) > 0.4 P(promotor | Fenster) > 0.4 P(exon | alle) > 0.5 first-Exon gefunden

  19. EinführungEponineFirstEF Vergleich von PPPs Training QDF Training Probleme: Nicht viele GenBank Einträge beinhalten first-Exon Annotationen Idee: Sammele first-Exons und Promotoren durch Mapping von vollständige 5’ UTR’s auf Gensequenzen 2.139 first-Exons welche durch eine 500bp 5’ Region (Promotor) und 500bp 3’ Region (Intron) flankiert sind 61% teilweise codierend und 39% nicht cod.

  20. Vorhersage von CpG first-Exons ist sehr gut Vorhersage von nicht CpG first-Exons ist ok EinführungEponineFirstEF Vergleich von PPPs Training QDF Training Evaluation (specificity) (sensitivity)

  21. EinführungEponineFirstEF Vergleich von PPPs Evaluation Evaluation procedure GenBank UCSC Genes + Promoters (Chrom. 21/22) Chromosom 21/22 mit repeats & ohne repeats BLAT aliniere G. + P. mit Chromosom Sequenz 121annotierte first-Exons (42 nicht-codierent) FirstEF: 106/121~87% vorhergesagt (33/42~78% nicht-codierent)

  22. EinführungEponine FirstEF Vergleich von PPPs PPPs Promoter prediction analysis on the whole human genome V.B.Bajic, S.L.Tan, Y.Suzuki, S.Sugano Nature biotechnology, Volume 22, Number 11, November 2004

  23. EinführungEponine FirstEF Vergleich von PPPs Testset • basiert auf experimental Daten (full-length oligo-capped’ cDNA) • nicht bei allen PPPs möglich • einige false negatives werden in kauf genommen Humanes Genom [-2000bp , TSS , +2000bp]

  24. EinführungEponine FirstEF Vergleich von PPPs Funktion Name ANN HMM CpG Insel C+G Gehalt TATA-Box Weitere Konzepte CpgProD only stat. regelbasiertes System Dragon GSF/PF X X X Eponine X RVM First EF X QDA MC Promoter X X pysikalische Eigenschaften NNPP X X INR + Abstand Promoter 2.0 X X

  25. EinführungEponine FirstEF Vergleich von PPPs PPPs im Vergleich – Gewinner? • PPPs haben oft schlechtere Ergebnisse geliefert als angegeben • Eponine p.p.v.72,73% angegenen 66,97% erreicht • FirstEF p.p.v 86 % angegeben 67,1% erreicht • nicht CpG-Insel Promotoren werden schlecht erkannt • höchste p.p.v. < 65% (2 Richtige 1 Falsche ) • RepeatMasker verbessert oft das Ergebniss • „Traue keiner Statistik die du nicht selbst gemacht hast“

  26. EinführungEponine FirstEF Vergleich von PPPs PPPs in Kombiation • Kombination von PPPs verbessert Ergebnisse • Vorgehen: • Scannen mit Fensterbreite von 2000bp • Wahlverfahren: • Regel 1: Fester k bekommt +Vorhersagen von s PPPs • Regel 2: Fester k bekommt +Vorhersagen von s PPPs von einer festgelegten Untergruppe

  27. Zusammenfassung • Lerverfahren ? • Relevance Vector Machine • Quadratische Diskriminierungs Analyse • Wie bekomme ich Promotor-Regionen ? • Evaluierung von PPPs ? • Verfahren • Vergleichbarkeit • Probleme der Promotor Vorhersage ?

  28. ENDE Noch Fragen?

  29. Literatur • What can we learn from noncoding regions of similarity between regions, T.Down, T.J.P. Hubbard, http://www.biomedcentral.com/1471-2105/5/131 • Relevance Vector Machines for classifying points and regions in biological sequences, T.Down, T.J.P. Hubbard • A Machine Learning Strategy to Identity Exonic Splice Enhancers in Human Protein-coding Sequence, T.Down, B.Leong, T.J.P. Hubbard • Chapter 4. Learning from comparative genomics, http://library.sanger.ac.uk/uhtbin/cgisirsi/0/0/520/a12334d?user_id=HYP-REST • The Relevance Vector Machine, M.Tipping • Crouching Introns,Hidden Exons, B.Leong • Promoter prediction analysis on the whole human genome, V.B.Bajic, S.L.Tan, Y.Suzuki, S.Sugano • Computational identification of promoters and first exon in the human genome, R.V.Davuluri, I.Gross, M.Q.Zhang

More Related