1 / 62

Transcription factor binding sites איזורי קישור של פקטורי שיעתוק (motif search)

Transcription factor binding sites איזורי קישור של פקטורי שיעתוק (motif search). מגיש: יער ראובני מנחה: פרופ' ניר פרידמן סמינריון בגישות מחקר בביולוגיה חישובית 2005/2006. אז מה המוטיב על סדר היום?.

shanon
Download Presentation

Transcription factor binding sites איזורי קישור של פקטורי שיעתוק (motif search)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Transcription factor binding sitesאיזורי קישור של פקטורי שיעתוק(motif search) מגיש: יער ראובני מנחה: פרופ' ניר פרידמן סמינריון בגישות מחקר בביולוגיה חישובית 2005/2006

  2. אז מה המוטיב על סדר היום? • נתחיל בסקירה מלאה על הנושא של חקר איזורי הקישור של פקטורי שעתוק (Wasserman and Sandelin 2004). • אציג שני מחקרים: 1. עוסק בזיהוי של רשתות רגולטוריות ע"י אנליזה קומבינטורית של מוטיבים .(Pilpel et al., 2001) 2. עוסק בחיזוי של ביטוי גנים ישירות מהרצף, ובקנה מידה גנומי (Beer and Tavazoie, 2004). • נשווה בין גישות המחקרים. • בנוסף נדון קצת על CRM’s cis-regulatory modules. motif search

  3. מקורות: • Wasserman WW, Sandelin A. (2004) Applied bioinformatics for the identification of regulatory elements. Nat Rev Genet. 5(4):276-287. • Pilpel Y et al. (2001) Identifying regulatory networks by combinatorial analysis of promoter elements. Nat Genet. 29(2):153-159. • Beer MA, Tavazoie S. (2004) Predicting gene expression from sequence. Cell.117(2):185-198. motif search

  4. מוטיבציה: • שנים של מחקר, יצרו אוסף מכובד של מנגנוני בקרה ידועים שנתגלו בניסויי מעבדה. • בשנים האחרונות, במיוחד לאור השימוש בטכנולוגיות ה- high-throughput נוצרו מאגרי מידע גדולים בהם גנומים מרוצפים. • ע"י טכנולוגית ה- micro-array התפתח חקר ביטוי גנים לקנה מידה כלל גנומי. motif search

  5. בקרה על ביטוי גנים - Regulation • שינוי מבנה ה-DNA. • שלב השיעתוק. • שחבור ועריכה. • שלב התרגום. • טרנספורט של ה RNA. • דגרדציה של mRNA. • מודיפיקציות שלאחר התרגום. motif search

  6. אז מה מבקר שיעתוק? • שינויים מבניים במבנה הכרומטיני. • בקרה ע"י פקטורי שיעתוק – Transcription factors (TFs) • ישנה בקרה באיזורי trans , וישנה בקרה באיזורי cis . אנחנו נתמקד בבקרת ה- cis. motif search

  7. אז מה מבקר שיעתוק? - פקטורי שיעתוק - Transcription factors (TFs) מתחלקים לשני סוגים: • פרוקסימלי – proximal – קרוב • דיסטלי – distal - מרוחק מהמרכז - CRM’s – cis-regulatory modules איזורי cis רגולציה בהם מצבורים של אתרי בקרה. motif search

  8. שלבים בבקרה: • שינוי מבני • קישור TF’s • אינטראקציות משותפות בין הTF’s לבין איזורי הCRM • גיוס הקופקטורים ליצירת קומפלקס הקואקטיבטור • יצירת קומפלקס תחילת השיעתוק motif search

  9. איך נזהה איזורי בקרה? המחקר היום מתרכז באיזורי פרומוטור *TSS או איזורי אנהנסר רחוקים יותר, באחת מהדרכים: • חקר שימור רצף בין גנים אורתולוגיים (PHYLOGENETIC FOOTPRINTING). • חקר ההרכב הרצפי. • הערכות על סמך מידע שהצטבר על ביטוי גנים ותעתיקי mRNA. motif search * Transcription start site

  10. איך נזהה איזורי בקרה? • מחקרים ביואינפורמטיים ראשונים חקרו בעיקר הופעות של רצפי TATA-box כ-30 בסיסים לפני נקודות תחילת שעתוק. • הבעיה: יש רצף דמוי TATA-box באופן ראנדומלי כל כ 250 בסיסים בDNA וגם לגנים רבים יתכנו יותר מאיזור תחילת שיעתוק אחד. motif search

  11. איך נזהה איזורי בקרה? • בגלל אחד המאפיינים החשובים של איזורי בקרה בגנום האנושי שהוא: עושר ברצפי GC (כאשר מה שמפריד בין איזור בקרה לאיזור רגיל זה מתילציה של עד כ 80% מהאיזורים הרגילים על הציטוזין) • התפתח מחקר רב לזיהוי של איזורים עשירי CG בעיקר ע"י אלגוריתמי למידה חישובית כגון: Eponine, FirstEF • או כאלו הנעזרים במאגרי EST’s או cDNA וע"י אנליזה של הקצה 5' כגון: CAGE, SAGE motif search

  12. PHYLOGENETIC FOOTPRINTING: • שיטה שמבוססת על חקר של גנים אורתולוגיים. • יוצאת מתוך ההנחה שמוטציות באיזורים פונקציונליים לא ישרדו אבולוציונית. • ובנוסף מכך שלרגולציה של גנים אורתולוגים סביר להניח יהיה אותו מכאניזם. גנים אורתולוגיים: גן הנמצא בשני מינים שונים ומקורו באב קדמון משותף לשניהם. motif search

  13. PHYLOGENETIC FOOTPRINTING: איך זה עובד? • בוחרים גנים אורתולוגים מתאימים להשוואה. מאגרים מהם ניתן לבחור: COGs/KOGs, HOPs, HomoloGene • מבצעים יישור של שני הגנים (במקרה שלנו נתמקד באיזורי פרומוטור). ע"י שימוש בשיטות המוקרות כגון BLASTz או LAGAN • בודקים את השימור הרצפי לאחר היישור. כאשר את הבדיקה ניתן לעשות ממש בעין, או שניתן להשתמש בכלים כמו VISTA browser או PipMaker לויזואליזציה של התוצאות. למשל: motif search

  14. PHYLOGENETIC FOOTPRINTING: motif search

  15. נרצה מודל המייצג מוטיב רצפי אליו נקשרים TF’s: ל TF’s יש בד"כ העדפות ברורות לרצף ספציפי. בהנתן קבוצת איזורי קישור של TF יהיה זה אפשרי ליצור מודל כזה. אבל, ישנן שתי בעיות: • נרצה שהמודל יהיה מבוסס על מידע נסויי. • כמות האתריםfalse positive , שנקבל היא גדולה, אחד ל 500 עד 5000 בסיסים. לדוגמא עבור הגן myoD בגנום האדם נקבל כתחזית ~10^6 מתוכם רק ~10^3 עשויים להיות פונקציונליים motif search

  16. מודל לייצוג מוטיב רצפי: בשביל להבין את יתרונותיהן וחסרונותיהן של השיטות הנוכחיות ליצירת מודל ל TF חשוב לא רק להכיר את התאוריה שמאחורי המודל, אלא גם קצת את התהליך של הניקוד וההגבלות שהשיטות כופות על המידע הניסויי. נסתכל לדוגמא על קביעת המוטיב הרצפי של MEF2 motif search MEF2 – myocyte enhancer factor 2

  17. מודל לייצוג מוטיב רצפי: • איסוף מידע: ל MEF2 יש 8 איזורי קישור שידועים בספרות ומקורם בניסוי. • נקבע רצף קונצנזוס. motif search

  18. מודל לייצוג מוטיב רצפי: c. ניצור PFM: לכל נוקלאוטיד נתאר כמה מופעים שלו קיימים בכל אתר. d. ניצור PWM: או בשמותיה האחרים position specific weight matrix (PSWM) position specific scoring matrix (PSSM) motif search

  19. מודל לייצוג מוטיב רצפי: e. ע"י מדגם מייצג של כלל הגנום, התוצאות מומרות באופן פורפורציוני לאנרגית הקישור. f. הצגה של המוטיב כלוגו בו גודל האות מייצג את מידת החיוניות שלה לאתר. motif search

  20. לפני שנתחיל: • AlignACE: • Aligns Nucleic Acid Conserved Elements • תוכנה המקבלת קבוצה של רצפי DNA ומוצאת בהם אלמניטים שמורים. • משתמשת בדגימת גיבס Gibbs sampling. • CompareACE: • Compares Nucleic Acid Conserved Elements • מבצעת השוואה בין שני מוטיבים. • מחזירה ערך בין 1.0 ל 1.0- • כאשר התאמה מושלמת תתן את הערך 1.0 • ScanACE: • Scans for Nucleic Acid Conserved Elements . • סורקת רצף DNA נתון ומחפשת בו מוטיב נתון • משתמשת ב PWM motif search

  21. המחקר הראשון: Identifying regulatory networks by combinatorial analysis of promoter elements. זיהוי של רשתות רגולטוריות ע"י אנליזה קומבינטורית של מוטיבים. Pilpel Y et al. (2001) motif search

  22. המטרה: למצוא קשרים רגולטוריים בין זוגות של מוטיבים, ואפיון של הרשת הרגולטורית של שמר ההנצה Saccharomyces cerevisiae. motif search

  23. השיטה: ניצור מאגר של מוטיבים רגולטוריים. לכל זוג מוטיבים, נזהה את כל הגנים המכילים את הזוג באיזור הפרומוטור. לכל קבוצת גנים נחשב את ציון עקביות הביטוי expression coherence score. נזהה את כל הקומבינציות הסינרגיסטיות בצורה משמעותית. לבנות מפות סינרגיה של מוטיבים סינרגיסטיים לויזואליזציה של הרשת הרגולטורית. השוואת ההשפעה של מוטיבים בודדים וקומבינציות של מוטיבים על הביטוי, ע"י "קומבינוגרם" Combinogram. motif search

  24. מאגר המוטיבים: • Pilpel et al. השתמשו במאגר של 356 מוטיבים מתוכם 37 ידועים. • 329 מהן, הם הפיקו ע"י שימוש בתוכנה AlignACE על מאגר גנים הנקרא MIPS (2000) באיזורים upstream לגן. • 329 מוטיבים אלו מייצגים תת-קבוצה nonredundant מתוך קבוצה ראשונית בת 819, אותה השיגו ע"י התניה על תוצאות התוכנה CompareACE. • שאר המוטיבים נלקחו מהספרות ומהמאגר SCPD motif search

  25. זיהוי גנים המכילים זוגות מוטיבים: • לכל מוטיב הם חישבו את הממוצע (m) וסטית התקן (SD) של ציוני ה ScanACE על הגנים ששימשו להפקת המוטיב. • התאימו מוטיבים ל- 4,483 איזורי הupstream (UR’s) הידועים ב S. Cerevisiae רק עבור אלו עם ציון גבוה מ m-(2*SD) . • אם יותר מ 300 UR’s הכילו מוטיב הם לקחו את ה 300 עם הציון הגבוה ביותר. motif search

  26. חישוב ציון עקביות הביטוי(EC) expression coherence score • מידע על הביטוי של הגנים נלקח מהמאגר ExpressDB. • בהנתן קבוצה של גנים, המכילה מוטיב מסויים או קבוצת מוטיבים, ע"י חישוב המרחק האויקלידי בין הממוצע לבין השונות המנורמלת של כל זוג מוטיבים, הם יצרו ציון עקביות EC משותף. • כעת נוכל לכל קומבינציה ליצור פרופיל ביטוי על גבי מצבים רבים ומגוונים. מחזור התא, מצבי stress, טיפול וכד' motif search

  27. ציון עקביות הביטוי(EC) expression coherence score • קיבלנו ציון שנותן הערכה על העקביות של הופעת המוטיב, כלומר עד כמה המוטיב או הקומבינציה של המוטיבים חיונית לבקרה. motif search

  28. זיהוי קומבינציות סינרגיסטיות: עכשיו שיש לנו ציוני EC נוכל לבדוק סינרגיה של זוגות מוטיבים על גבי קבוצת גנים המכילה אותם. • קו אפור מייצג תבנית ביטוי ספציפית של גן. • הקו האדום הממוצע שלהן. • ומצורף ציון העיקביות. motif search

  29. תוצאות: • זוהו 115 מוטיבים סינרגיסטים. • בינהם כאלו שכבר מוכרים וידועים. • זוהה בבירור המוטיב RAP1 כמוטיב מרכזי בעל סינרגיה גבוהה עם מוטיבים רבים, באופן התואם את הידוע על תפקידו המרכזי בבקרת שיעתוק בשמר. • זוהתה סינרגיה חדשה וחזקה בין שני מוטיבים, PAC ו mRRPE שנתגלו בעיקר כמוטיבים המבקרים שיעתוק של rRNA. motif search

  30. נוכל לזהות יחס סדר: • מכיוון שמדובר בזוגות, ודאי קיימת אורינטציה מועדפת שלהם אחד לעומת השני ביחס ל TSS. • מתוך 79 פרומוטורים שהכילו עותק יחיד של PAC ו mRRPE, mRRPE קרוב לTSS ב51 מהם. • העדפות על אורינטציה נמצאו בכ- 18% מהזוגות הסינרגיסטים לעומת רק כ-6% על זוגות מקריים. motif search

  31. מפות סינרגיה: • כשיש בידנו את כל המידע על כל הזוגות ניתן ליצר מפת סינרגיה ניתן לראות מקבצים עם פעילות משותפת. ניתן לראות חשיבות של מוטיבים, ובכמה מצבים שונים הם מעורבים. motif search

  32. השוואה בין קומבינציות של מוטיביםCombinogram: • Pilpel et al. בנו שיטה להשוואה בין קומבינציות של מוטיבים, גם חישובית וגם ויזואלית. • האנליזה מתחילה עם אוסף מוטיבים ( בד"כ כ- 5 עד 20). • כל גן בגנום מקבל חתימה בינארית 1 – יש לו את המוטיב 0 – אם אין לו. • ואז יוצרים GMC – gen set defined by motif combination קבוצת גנים המוגרת ע"י החתימה. motif search

  33. השוואה בין קומבינציות של מוטיביםCombinogram: מחזור התא נביגה motif search

  34. השוואה בין קומבינציות של מוטיביםCombinogram: Heat shok Nucleotide excision repair motif search

  35. סיכום: • ענין מרכזי שעובד לרעת התוצאות כאן, הוא הטיפול במידע לפי זוגות של מוטיבים. • אין התייחסות לחוזק ולחיוניות של כל מוטיב בפני עצמו, כלומר בהשוואה לאחרים. • אין התייחסות למרחקים, בין המוטיבים וביחס לTSS-. • יש הצגה ויזואלית צבעונית ונחמדה. motif search

  36. הפסקה motif search

  37. המחקר השני: Predicting gene expression from sequence. חיזוי של ביטוי גנים ישירות מהרצף Beer MA, Tavazoie S. (2004) motif search

  38. המטרה: לחזות רמת ביטוי של גנים ע"פ מאפיינים רצפיים, כלומר להסיק מקומבינציות של מוטיבים רצפיים על רמות ביטוי. motif search

  39. השיטה: נתחיל עם מידע על ביטוי גנים שנאסף ע"י שימוש בטכנולוגית microarray ונריץ עליו אלגוריתם קיבוץ clustering. נחלק את הגנים לקבוצות (תבניות ביטוי) ע"פ מאפיני ביטוי דומים, כאלו המבוטאים ביחד ותלויים בכמה תנאים רצפיים מסויימים. בתבניות הביטוי נחפש אלמנטים רצפיים, מוטיבים המבוטאים ביתר בכל התבנית. נשתמש ברשת בייסיאנית, למיין ולקבוע את החשיבות של המוטיבים לתבנית הביטוי. כעת נוכל להשתמש במידע שנאסף על תבניות הביטוי השונות לחזות ביטוי גנים ע"פ הרצף. motif search

  40. איסוף מידע: • למרות שהגישה של המחקר ישימה על כל סוג של מאגר מידע המכיל תבניות ביטוי מmicroarrays Beer et al. בחרו להתמקד במאגרים: - environmental stresses (Gasch et al., 2000) -cell cycle (Spellman et al., 1998) • סה"כ 255 מצבים, 2587 גנים. • נזכור כי ככל שניקח מגוון גדול יותר של מצבים כך נוכל להקטין את רמת הרעש. • מצד שני, יש לקחת בחשבון שרמת ביטוי של גן במצב מסויים עשויה להיות שונה מרמת הביטוי הרגילה שלו. motif search

  41. Clustering: • את תבניות הביטוי, הצבירו ע"י מודיפיקציה של האלגוריתם: k-means algorithm. • ההבדל העיקרי, היה הגבלה של 10 גנים למצבור. • את התניות האלגוריתם בחרו ככה שיהיה מקסימום של תבניות ביטוי שונות. • מתוך ה 2587 גנים, נקבעו 49 תבניות ביטוי. • תבניות הביטוי קיבלו את סיווגם הפונקציונלי בהסתמך על המאגר MIPS. motif search

  42. למטרת ויזואליזציה השתמשו באלגוריתם force-directed placement • מודגשים גנים השייכים ל-9 מתוך 49 תבניות הביטוי שנמצאו במחקר. • ניתן לראות שהביטוי לא בדיד אלא המשכי. • ושיש חפיפה בין תבניות ביטוי שונות. • מגוון המקבצים הקטנים התקבלו בזכות המודיפיקציות על אלגרויתם הצבירה. motif search

  43. בשביל להבין תבניות ביטוי, דוגמא: • נסתכל למשל על 4 תבניות ביטוי מוצגות על 77 מתוך 255 המצבים. • ישנם 138 גנים בתבנית 1 מתוכם 122 מקודדים לחלבונים ריבוזומליים. • ישנם 114 גנים בתבנית 4 מתוכם 21 מעורבים בשיעתוק rRNA. motif search

  44. איך נקבעו המוטיבים הרצפיים: • ע"י שימוש בתוכנת ה AlignACE בחיפוש של מוטיבים בגודל 12 בסיסים עד כדי 800 בסיסים באיזור ה 5' upstream לנקודת תחילת השיעתוק TSS של כל הגנים מ 49 תבניות הביטוי. motif search

  45. רשת בייסיאנית Bayesian network: • רשת בייסיאנית, היא מודלסטטיסטי המאפשר הסקה של הסתברויות מותנות. הרשת מורכבת מגרף מכוון חסר מעגלים וטבלאות של הסתברויות מותנות. כל קודקוד בגרף מסמל משתנה מקרי, אליו צמודה טבלה המפרטת את ההסתברות המותנית שלו ביחס להוריו בגרף. • רשתות בייסיאניות משמשות לתוכנות הדורשות הסקה סטטיסטית, ולתוכנות הלומדות מדוגמאות. motif search

  46. רשת בייסיאנית Bayesian network: • הראשונים שהשתמשו בגישה הבייסיאנית לחקר רגולציה של גנים היו - 2000 ,Friedman et al. - Segal et al.,2003 • ההבדל העיקרי בין הגישה שלהם לבין הגישה שמוצגת כאן היא שהם עבדו לפי הקשר שבין ביטוי mRNA ובין הרצף, וכאן הגישה המוצגת בודקת רצף מול רצף. motif search

  47. רשת בייסיאנית Bayesian network: הרשת מהסוג בה השתמשו Beer et al. מאפייני הגישה: • לימוד המוטיבים נעשה מתוך תבניות הביטוי. • יצוג המוטיבים ע"י PWMs, ולא ע"י רצפי קונצנזוס. • יצירת מוטיב נובעת מתבניות הביטוי ולא מאיזורי קישור קבועים ומוכרים כמו בשיטה המקובלת. • ההתניות על הרצף הכי כלליות שניתן מלבד כמובן לקביעת נקודת ה TSS. • מיפוי הרצף לביטוי הוא הסתברותי ולא לינארי. motif search

  48. דוגמא, PAC ו RRPE: • אחראים על בקרת שיעתוק של rRNA. חשיבות סדר המוטיבים זה ביחס לזה. חשיבות קיום אחד או שני המוטיבים. motif search

  49. אחרי הניתוח הבייסיאני, כיצד נחזה את הביטוי? • נחלק את הגנים ל 5 קבוצות מבחן, לצורך השוואה ואימות של התוצאות. • נשמור על יחס של 80% גנים בקבוצת אימון מול 20% גנים בכל קבוצת מבחן. • כעת נותר לבדוק רק עד כמה התחזית מדוייקת... motif search

  50. אז איך יראה המחקר ביחס לכלל הגנום? • Beer et al. מתייחסים לכמה סוגים של תבניות ביטוי אופייניות AND, OR ו NOT. • נחזור לדוגמא של PAC ו RRPE : motif search

More Related