On the Power of Profiles for Transcription Factor Binding Site Detection

Chris Bielow bielow@inf.fu-berlin.de On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller† Martin Vingron‡ * Computational Molecular Biology, Max Planck Institute for Molecular Genetics and Department of Mathematics and Computer Science, Freie Universität Berlin † University of Würzburg ‡ Computational Molecular Biology, Max Planck Institute for Molecular Genetics

Gliederung • Profile • Regularisierung des Profils • Profil  Score Matrix • Verteilung der Scores • Fehlerabschätzungen • Qualität eines Profils • Profil-Qualität TRANSFAC

Profile s1 ACTGA s2 AGTGA s3 CGTGC N Anzahl d. Sequenzen L Länge d. Sequenzen Multiples Alignment Countmatrix C Profil Pu Regularisiertes Profil P ??

Große Datenmenge Kaum Veränderung Kleine Datenmenge Generalisierung (!Overfitting) Zero-Counts vermeiden („nothing is impossible“) Regularisierung des Profils Datenmenge

Beispiel s1 ACTGA s2 AGTGA  s3 CGTGC Regularisierung des Profils • Positionsabhängig • Regularisierende Verteilung • Berechung der neuen Zeile: Beispiel:

ACGTTGCATGGTCAATGC gleitendes Fenster Hintergrundmodell: Signal(TFBS)? Ja Nein Beispiel  Profil  Score Matrix • bisher: nur Signaldaten (Profil) • jetzt zusätzlich: Hintergrundmodell Score-Matrix S mit Score für ein Fenster W:

Verteilung der Scores • „high quality“ Profil • „low quality“ Profil

Fehlertypen

Fehlerabschätzungen • W‘keit für Fensterfehler (Window Error) (Typ I) • W‘keit für Sequenzfehler (Sequence Error) (Typ I) • W‘keit für Fensterfehler (Typ II) • W‘keit für m-Instanz-Fehler (m-instance Error) (Typ II) • W‘keit, dass mind. ein echtes Signal (von m insgesamt) Score < t hat [FN]

Qualität eines Profils • „Wie gut unterscheidet sich das Profil vom Hintergrund?“ • Qualitätsmaß (hohe Werte ≈ gute Trennung) • QH - Maß für Informationsgehalt • Qsens - Sensitivität (TP Erkennung) • Qsel - Selektivität (FP Unterdrückung) • Qbal - Balance zwischen FP & FN • Profil P • Hintergrundverteilung π • Sequenzlänge n • #Signale m • Sequenzfehlerw‘keit αn(t) Typ I (FP) • Sequenzlänge n • # Signale m • W‘keit βm(t) (FN) • Sequenzlänge n • #Signale m • Gewicht c (αn zu βm) Typischerweise: n = 500 m = 1

Qbal

Profil-Qualität TRANSFAC • 623 Countmatrizen • Regularisiertes Profil • Annahme von drei verschiedenen Hintergrundmodellen • AT-reich • uniform • GC-reich • Scorematrizen (3x623) aus Profilen & Hintergrundverteilung erstellen • Scoreverteilung berechnen • Qualitätsmaße bestimmen

Profil-Qualität TRANSFAC Maximal 5% FN Wie gut werden echte Signale erkannt? uniform Verteilung von Qsens(0.05;500;1) der TRANSFAC-Profile GC-reich AT-reich

Profil-Qualität TRANSFAC Power of Profiles Detection power: 95% Wie gut werden FP unterdrückt? uniform Verteilung von Qsel(0.05;500;1) der TRANSFAC-Profile GC-reich AT-reich

Profil-Qualität TRANSFAC • Erkennung von Signalen bei Typ I-Sequenzfehler < 0.05 • über 80% sind zu schwach (viele FN)

Verbesserungen • Suche in langen Sequenzen • Lsg: • verwandte Genome (Suchraum reduzieren) • Profile Clustern • Abhängigkeit vom Hintergrundmodell • Lsg: Modell an Sequenz anpassen • Verbesserung (?) durch höhere Ordnung

ENDE Danke für die Aufmerksamkeit

On the Power of Profiles for Transcription Factor Binding Site Detection

On the Power of Profiles for Transcription Factor Binding Site Detection

Presentation Transcript

Identification of Transcription Factor Binding Sites

Searching for transcription factor binding sites with TRANSFAC

Prediction of transcription factor binding to DNA using rule induction methods

Finding conserved transcription factor binding sites in promoter sequences

Detection of Transcription Factor Binding Sites

Finding Transcription Factor Binding Sites

The Hidden Codes That Shape Protein Evolution ----Exons Binding Transcription Factor

The Myc Transcription Factor

Microarrays for transcription factor binding location analysis (chIP-chip)

Finding Transcription Factor Binding Sites

Bio277 Lab 3: Finding Transcription Factor Binding Motifs

Location Analysis of Transcription Factor Binding

Last time … * Constraint on transcription factor binding sites

Transcription factor binding sites and gene regulatory network

Identification of Transcription Factor Binding Sites

Transcription factor binding motifs (part II)

Modeling Splice Site and Transcription Factor Binding Site Variation by Information Theory

Transcription factor binding motifs (part I)

Detection of Transcription Factor Binding Sites

What is the Best Way to Find the Binding Site for a Transcription Factor?

Location analysis of transcription factor binding sites

Using Mixed Length Training Sequences in Transcription Factor Binding Site Detection Tools