Transcription factor binding sites איזורי קישור של פקטורי שיעתוק (motif search)

Transcription factor binding sitesאיזורי קישור של פקטורי שיעתוק(motif search) מגיש: יער ראובני מנחה: פרופ' ניר פרידמן סמינריון בגישות מחקר בביולוגיה חישובית 2005/2006

אז מה המוטיב על סדר היום? • נתחיל בסקירה מלאה על הנושא של חקר איזורי הקישור של פקטורי שעתוק (Wasserman and Sandelin 2004). • אציג שני מחקרים: 1. עוסק בזיהוי של רשתות רגולטוריות ע"י אנליזה קומבינטורית של מוטיבים .(Pilpel et al., 2001) 2. עוסק בחיזוי של ביטוי גנים ישירות מהרצף, ובקנה מידה גנומי (Beer and Tavazoie, 2004). • נשווה בין גישות המחקרים. • בנוסף נדון קצת על CRM’s cis-regulatory modules. motif search

מקורות: • Wasserman WW, Sandelin A. (2004) Applied bioinformatics for the identification of regulatory elements. Nat Rev Genet. 5(4):276-287. • Pilpel Y et al. (2001) Identifying regulatory networks by combinatorial analysis of promoter elements. Nat Genet. 29(2):153-159. • Beer MA, Tavazoie S. (2004) Predicting gene expression from sequence. Cell.117(2):185-198. motif search

מוטיבציה: • שנים של מחקר, יצרו אוסף מכובד של מנגנוני בקרה ידועים שנתגלו בניסויי מעבדה. • בשנים האחרונות, במיוחד לאור השימוש בטכנולוגיות ה- high-throughput נוצרו מאגרי מידע גדולים בהם גנומים מרוצפים. • ע"י טכנולוגית ה- micro-array התפתח חקר ביטוי גנים לקנה מידה כלל גנומי. motif search

בקרה על ביטוי גנים - Regulation • שינוי מבנה ה-DNA. • שלב השיעתוק. • שחבור ועריכה. • שלב התרגום. • טרנספורט של ה RNA. • דגרדציה של mRNA. • מודיפיקציות שלאחר התרגום. motif search

אז מה מבקר שיעתוק? • שינויים מבניים במבנה הכרומטיני. • בקרה ע"י פקטורי שיעתוק – Transcription factors (TFs) • ישנה בקרה באיזורי trans , וישנה בקרה באיזורי cis . אנחנו נתמקד בבקרת ה- cis. motif search

אז מה מבקר שיעתוק? - פקטורי שיעתוק - Transcription factors (TFs) מתחלקים לשני סוגים: • פרוקסימלי – proximal – קרוב • דיסטלי – distal - מרוחק מהמרכז - CRM’s – cis-regulatory modules איזורי cis רגולציה בהם מצבורים של אתרי בקרה. motif search

שלבים בבקרה: • שינוי מבני • קישור TF’s • אינטראקציות משותפות בין הTF’s לבין איזורי הCRM • גיוס הקופקטורים ליצירת קומפלקס הקואקטיבטור • יצירת קומפלקס תחילת השיעתוק motif search

איך נזהה איזורי בקרה? המחקר היום מתרכז באיזורי פרומוטור *TSS או איזורי אנהנסר רחוקים יותר, באחת מהדרכים: • חקר שימור רצף בין גנים אורתולוגיים (PHYLOGENETIC FOOTPRINTING). • חקר ההרכב הרצפי. • הערכות על סמך מידע שהצטבר על ביטוי גנים ותעתיקי mRNA. motif search * Transcription start site

איך נזהה איזורי בקרה? • מחקרים ביואינפורמטיים ראשונים חקרו בעיקר הופעות של רצפי TATA-box כ-30 בסיסים לפני נקודות תחילת שעתוק. • הבעיה: יש רצף דמוי TATA-box באופן ראנדומלי כל כ 250 בסיסים בDNA וגם לגנים רבים יתכנו יותר מאיזור תחילת שיעתוק אחד. motif search

איך נזהה איזורי בקרה? • בגלל אחד המאפיינים החשובים של איזורי בקרה בגנום האנושי שהוא: עושר ברצפי GC (כאשר מה שמפריד בין איזור בקרה לאיזור רגיל זה מתילציה של עד כ 80% מהאיזורים הרגילים על הציטוזין) • התפתח מחקר רב לזיהוי של איזורים עשירי CG בעיקר ע"י אלגוריתמי למידה חישובית כגון: Eponine, FirstEF • או כאלו הנעזרים במאגרי EST’s או cDNA וע"י אנליזה של הקצה 5' כגון: CAGE, SAGE motif search

PHYLOGENETIC FOOTPRINTING: • שיטה שמבוססת על חקר של גנים אורתולוגיים. • יוצאת מתוך ההנחה שמוטציות באיזורים פונקציונליים לא ישרדו אבולוציונית. • ובנוסף מכך שלרגולציה של גנים אורתולוגים סביר להניח יהיה אותו מכאניזם. גנים אורתולוגיים: גן הנמצא בשני מינים שונים ומקורו באב קדמון משותף לשניהם. motif search

PHYLOGENETIC FOOTPRINTING: איך זה עובד? • בוחרים גנים אורתולוגים מתאימים להשוואה. מאגרים מהם ניתן לבחור: COGs/KOGs, HOPs, HomoloGene • מבצעים יישור של שני הגנים (במקרה שלנו נתמקד באיזורי פרומוטור). ע"י שימוש בשיטות המוקרות כגון BLASTz או LAGAN • בודקים את השימור הרצפי לאחר היישור. כאשר את הבדיקה ניתן לעשות ממש בעין, או שניתן להשתמש בכלים כמו VISTA browser או PipMaker לויזואליזציה של התוצאות. למשל: motif search

PHYLOGENETIC FOOTPRINTING: motif search

נרצה מודל המייצג מוטיב רצפי אליו נקשרים TF’s: ל TF’s יש בד"כ העדפות ברורות לרצף ספציפי. בהנתן קבוצת איזורי קישור של TF יהיה זה אפשרי ליצור מודל כזה. אבל, ישנן שתי בעיות: • נרצה שהמודל יהיה מבוסס על מידע נסויי. • כמות האתריםfalse positive , שנקבל היא גדולה, אחד ל 500 עד 5000 בסיסים. לדוגמא עבור הגן myoD בגנום האדם נקבל כתחזית ~10^6 מתוכם רק ~10^3 עשויים להיות פונקציונליים motif search

מודל לייצוג מוטיב רצפי: בשביל להבין את יתרונותיהן וחסרונותיהן של השיטות הנוכחיות ליצירת מודל ל TF חשוב לא רק להכיר את התאוריה שמאחורי המודל, אלא גם קצת את התהליך של הניקוד וההגבלות שהשיטות כופות על המידע הניסויי. נסתכל לדוגמא על קביעת המוטיב הרצפי של MEF2 motif search MEF2 – myocyte enhancer factor 2

מודל לייצוג מוטיב רצפי: • איסוף מידע: ל MEF2 יש 8 איזורי קישור שידועים בספרות ומקורם בניסוי. • נקבע רצף קונצנזוס. motif search

מודל לייצוג מוטיב רצפי: c. ניצור PFM: לכל נוקלאוטיד נתאר כמה מופעים שלו קיימים בכל אתר. d. ניצור PWM: או בשמותיה האחרים position specific weight matrix (PSWM) position specific scoring matrix (PSSM) motif search

מודל לייצוג מוטיב רצפי: e. ע"י מדגם מייצג של כלל הגנום, התוצאות מומרות באופן פורפורציוני לאנרגית הקישור. f. הצגה של המוטיב כלוגו בו גודל האות מייצג את מידת החיוניות שלה לאתר. motif search

לפני שנתחיל: • AlignACE: • Aligns Nucleic Acid Conserved Elements • תוכנה המקבלת קבוצה של רצפי DNA ומוצאת בהם אלמניטים שמורים. • משתמשת בדגימת גיבס Gibbs sampling. • CompareACE: • Compares Nucleic Acid Conserved Elements • מבצעת השוואה בין שני מוטיבים. • מחזירה ערך בין 1.0 ל 1.0- • כאשר התאמה מושלמת תתן את הערך 1.0 • ScanACE: • Scans for Nucleic Acid Conserved Elements . • סורקת רצף DNA נתון ומחפשת בו מוטיב נתון • משתמשת ב PWM motif search

המחקר הראשון: Identifying regulatory networks by combinatorial analysis of promoter elements. זיהוי של רשתות רגולטוריות ע"י אנליזה קומבינטורית של מוטיבים. Pilpel Y et al. (2001) motif search

המטרה: למצוא קשרים רגולטוריים בין זוגות של מוטיבים, ואפיון של הרשת הרגולטורית של שמר ההנצה Saccharomyces cerevisiae. motif search

השיטה: ניצור מאגר של מוטיבים רגולטוריים. לכל זוג מוטיבים, נזהה את כל הגנים המכילים את הזוג באיזור הפרומוטור. לכל קבוצת גנים נחשב את ציון עקביות הביטוי expression coherence score. נזהה את כל הקומבינציות הסינרגיסטיות בצורה משמעותית. לבנות מפות סינרגיה של מוטיבים סינרגיסטיים לויזואליזציה של הרשת הרגולטורית. השוואת ההשפעה של מוטיבים בודדים וקומבינציות של מוטיבים על הביטוי, ע"י "קומבינוגרם" Combinogram. motif search

מאגר המוטיבים: • Pilpel et al. השתמשו במאגר של 356 מוטיבים מתוכם 37 ידועים. • 329 מהן, הם הפיקו ע"י שימוש בתוכנה AlignACE על מאגר גנים הנקרא MIPS (2000) באיזורים upstream לגן. • 329 מוטיבים אלו מייצגים תת-קבוצה nonredundant מתוך קבוצה ראשונית בת 819, אותה השיגו ע"י התניה על תוצאות התוכנה CompareACE. • שאר המוטיבים נלקחו מהספרות ומהמאגר SCPD motif search

זיהוי גנים המכילים זוגות מוטיבים: • לכל מוטיב הם חישבו את הממוצע (m) וסטית התקן (SD) של ציוני ה ScanACE על הגנים ששימשו להפקת המוטיב. • התאימו מוטיבים ל- 4,483 איזורי הupstream (UR’s) הידועים ב S. Cerevisiae רק עבור אלו עם ציון גבוה מ m-(2*SD) . • אם יותר מ 300 UR’s הכילו מוטיב הם לקחו את ה 300 עם הציון הגבוה ביותר. motif search

חישוב ציון עקביות הביטוי(EC) expression coherence score • מידע על הביטוי של הגנים נלקח מהמאגר ExpressDB. • בהנתן קבוצה של גנים, המכילה מוטיב מסויים או קבוצת מוטיבים, ע"י חישוב המרחק האויקלידי בין הממוצע לבין השונות המנורמלת של כל זוג מוטיבים, הם יצרו ציון עקביות EC משותף. • כעת נוכל לכל קומבינציה ליצור פרופיל ביטוי על גבי מצבים רבים ומגוונים. מחזור התא, מצבי stress, טיפול וכד' motif search

ציון עקביות הביטוי(EC) expression coherence score • קיבלנו ציון שנותן הערכה על העקביות של הופעת המוטיב, כלומר עד כמה המוטיב או הקומבינציה של המוטיבים חיונית לבקרה. motif search

זיהוי קומבינציות סינרגיסטיות: עכשיו שיש לנו ציוני EC נוכל לבדוק סינרגיה של זוגות מוטיבים על גבי קבוצת גנים המכילה אותם. • קו אפור מייצג תבנית ביטוי ספציפית של גן. • הקו האדום הממוצע שלהן. • ומצורף ציון העיקביות. motif search

תוצאות: • זוהו 115 מוטיבים סינרגיסטים. • בינהם כאלו שכבר מוכרים וידועים. • זוהה בבירור המוטיב RAP1 כמוטיב מרכזי בעל סינרגיה גבוהה עם מוטיבים רבים, באופן התואם את הידוע על תפקידו המרכזי בבקרת שיעתוק בשמר. • זוהתה סינרגיה חדשה וחזקה בין שני מוטיבים, PAC ו mRRPE שנתגלו בעיקר כמוטיבים המבקרים שיעתוק של rRNA. motif search

נוכל לזהות יחס סדר: • מכיוון שמדובר בזוגות, ודאי קיימת אורינטציה מועדפת שלהם אחד לעומת השני ביחס ל TSS. • מתוך 79 פרומוטורים שהכילו עותק יחיד של PAC ו mRRPE, mRRPE קרוב לTSS ב51 מהם. • העדפות על אורינטציה נמצאו בכ- 18% מהזוגות הסינרגיסטים לעומת רק כ-6% על זוגות מקריים. motif search

מפות סינרגיה: • כשיש בידנו את כל המידע על כל הזוגות ניתן ליצר מפת סינרגיה ניתן לראות מקבצים עם פעילות משותפת. ניתן לראות חשיבות של מוטיבים, ובכמה מצבים שונים הם מעורבים. motif search

השוואה בין קומבינציות של מוטיביםCombinogram: • Pilpel et al. בנו שיטה להשוואה בין קומבינציות של מוטיבים, גם חישובית וגם ויזואלית. • האנליזה מתחילה עם אוסף מוטיבים ( בד"כ כ- 5 עד 20). • כל גן בגנום מקבל חתימה בינארית 1 – יש לו את המוטיב 0 – אם אין לו. • ואז יוצרים GMC – gen set defined by motif combination קבוצת גנים המוגרת ע"י החתימה. motif search

השוואה בין קומבינציות של מוטיביםCombinogram: מחזור התא נביגה motif search

השוואה בין קומבינציות של מוטיביםCombinogram: Heat shok Nucleotide excision repair motif search

סיכום: • ענין מרכזי שעובד לרעת התוצאות כאן, הוא הטיפול במידע לפי זוגות של מוטיבים. • אין התייחסות לחוזק ולחיוניות של כל מוטיב בפני עצמו, כלומר בהשוואה לאחרים. • אין התייחסות למרחקים, בין המוטיבים וביחס לTSS-. • יש הצגה ויזואלית צבעונית ונחמדה. motif search

הפסקה motif search

המחקר השני: Predicting gene expression from sequence. חיזוי של ביטוי גנים ישירות מהרצף Beer MA, Tavazoie S. (2004) motif search

המטרה: לחזות רמת ביטוי של גנים ע"פ מאפיינים רצפיים, כלומר להסיק מקומבינציות של מוטיבים רצפיים על רמות ביטוי. motif search

השיטה: נתחיל עם מידע על ביטוי גנים שנאסף ע"י שימוש בטכנולוגית microarray ונריץ עליו אלגוריתם קיבוץ clustering. נחלק את הגנים לקבוצות (תבניות ביטוי) ע"פ מאפיני ביטוי דומים, כאלו המבוטאים ביחד ותלויים בכמה תנאים רצפיים מסויימים. בתבניות הביטוי נחפש אלמנטים רצפיים, מוטיבים המבוטאים ביתר בכל התבנית. נשתמש ברשת בייסיאנית, למיין ולקבוע את החשיבות של המוטיבים לתבנית הביטוי. כעת נוכל להשתמש במידע שנאסף על תבניות הביטוי השונות לחזות ביטוי גנים ע"פ הרצף. motif search

איסוף מידע: • למרות שהגישה של המחקר ישימה על כל סוג של מאגר מידע המכיל תבניות ביטוי מmicroarrays Beer et al. בחרו להתמקד במאגרים: - environmental stresses (Gasch et al., 2000) -cell cycle (Spellman et al., 1998) • סה"כ 255 מצבים, 2587 גנים. • נזכור כי ככל שניקח מגוון גדול יותר של מצבים כך נוכל להקטין את רמת הרעש. • מצד שני, יש לקחת בחשבון שרמת ביטוי של גן במצב מסויים עשויה להיות שונה מרמת הביטוי הרגילה שלו. motif search

Clustering: • את תבניות הביטוי, הצבירו ע"י מודיפיקציה של האלגוריתם: k-means algorithm. • ההבדל העיקרי, היה הגבלה של 10 גנים למצבור. • את התניות האלגוריתם בחרו ככה שיהיה מקסימום של תבניות ביטוי שונות. • מתוך ה 2587 גנים, נקבעו 49 תבניות ביטוי. • תבניות הביטוי קיבלו את סיווגם הפונקציונלי בהסתמך על המאגר MIPS. motif search

למטרת ויזואליזציה השתמשו באלגוריתם force-directed placement • מודגשים גנים השייכים ל-9 מתוך 49 תבניות הביטוי שנמצאו במחקר. • ניתן לראות שהביטוי לא בדיד אלא המשכי. • ושיש חפיפה בין תבניות ביטוי שונות. • מגוון המקבצים הקטנים התקבלו בזכות המודיפיקציות על אלגרויתם הצבירה. motif search

בשביל להבין תבניות ביטוי, דוגמא: • נסתכל למשל על 4 תבניות ביטוי מוצגות על 77 מתוך 255 המצבים. • ישנם 138 גנים בתבנית 1 מתוכם 122 מקודדים לחלבונים ריבוזומליים. • ישנם 114 גנים בתבנית 4 מתוכם 21 מעורבים בשיעתוק rRNA. motif search

איך נקבעו המוטיבים הרצפיים: • ע"י שימוש בתוכנת ה AlignACE בחיפוש של מוטיבים בגודל 12 בסיסים עד כדי 800 בסיסים באיזור ה 5' upstream לנקודת תחילת השיעתוק TSS של כל הגנים מ 49 תבניות הביטוי. motif search

רשת בייסיאנית Bayesian network: • רשת בייסיאנית, היא מודלסטטיסטי המאפשר הסקה של הסתברויות מותנות. הרשת מורכבת מגרף מכוון חסר מעגלים וטבלאות של הסתברויות מותנות. כל קודקוד בגרף מסמל משתנה מקרי, אליו צמודה טבלה המפרטת את ההסתברות המותנית שלו ביחס להוריו בגרף. • רשתות בייסיאניות משמשות לתוכנות הדורשות הסקה סטטיסטית, ולתוכנות הלומדות מדוגמאות. motif search

רשת בייסיאנית Bayesian network: • הראשונים שהשתמשו בגישה הבייסיאנית לחקר רגולציה של גנים היו - 2000 ,Friedman et al. - Segal et al.,2003 • ההבדל העיקרי בין הגישה שלהם לבין הגישה שמוצגת כאן היא שהם עבדו לפי הקשר שבין ביטוי mRNA ובין הרצף, וכאן הגישה המוצגת בודקת רצף מול רצף. motif search

רשת בייסיאנית Bayesian network: הרשת מהסוג בה השתמשו Beer et al. מאפייני הגישה: • לימוד המוטיבים נעשה מתוך תבניות הביטוי. • יצוג המוטיבים ע"י PWMs, ולא ע"י רצפי קונצנזוס. • יצירת מוטיב נובעת מתבניות הביטוי ולא מאיזורי קישור קבועים ומוכרים כמו בשיטה המקובלת. • ההתניות על הרצף הכי כלליות שניתן מלבד כמובן לקביעת נקודת ה TSS. • מיפוי הרצף לביטוי הוא הסתברותי ולא לינארי. motif search

דוגמא, PAC ו RRPE: • אחראים על בקרת שיעתוק של rRNA. חשיבות סדר המוטיבים זה ביחס לזה. חשיבות קיום אחד או שני המוטיבים. motif search

אחרי הניתוח הבייסיאני, כיצד נחזה את הביטוי? • נחלק את הגנים ל 5 קבוצות מבחן, לצורך השוואה ואימות של התוצאות. • נשמור על יחס של 80% גנים בקבוצת אימון מול 20% גנים בכל קבוצת מבחן. • כעת נותר לבדוק רק עד כמה התחזית מדוייקת... motif search

אז איך יראה המחקר ביחס לכלל הגנום? • Beer et al. מתייחסים לכמה סוגים של תבניות ביטוי אופייניות AND, OR ו NOT. • נחזור לדוגמא של PAC ו RRPE : motif search

Transcription factor binding sites איזורי קישור של פקטורי שיעתוק (motif search)