1 / 38

Improved Sequence Alignment: Combining Secondary Structure Prediction

Improved Sequence Alignment: Combining Secondary Structure Prediction. מגיש: יוסף פרת מנחים: פרופ' מיכל ליניאל יניב לונשטיין. הבנת החלבון מתוך הרצף. קיים פער גדול בין כמות החלבונים הפתורים (מבנית) לבין כמות הרצפים המוכרים. (כ-40,000 ב- PDB , כ-4 מיליון רצפים ב- UniProt )

eldon
Download Presentation

Improved Sequence Alignment: Combining Secondary Structure Prediction

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Improved Sequence Alignment:Combining Secondary Structure Prediction מגיש: יוסף פרת מנחים: פרופ' מיכל ליניאליניב לונשטיין

  2. הבנת החלבון מתוך הרצף • קיים פער גדול בין כמות החלבונים הפתורים (מבנית) לבין כמות הרצפים המוכרים.(כ-40,000 ב-PDB, כ-4 מיליון רצפים ב-UniProt) • כאשר ידוע רצף החלבון בלבד, מחפשים רצפים דומים. דמיון רצפי יכול לרמז על דמיון במאפיינים שונים של החלבון. • שיטות מתקדמות (clustering) משתמשות לרוב בדמיון רצפי כמדד למרחק.

  3. שימוש במידע על המבנה • במקרים רבים המבנה המרחבי של החלבון נשמר באבולוציה למרות שרצף חומצות האמינו השתנה.

  4. שימוש במידע על המבנה Leghemoglobin Myoglobin (ראשתן גדול ראש - (Yellow Lupine (תורמוס צהוב - (Sperm Whale

  5. שימוש במידע על המבנה • פחות מ – 10% דמיון רצפי: Myo. 1 MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASE 60 M ++ + + L + + F +E E Leg. 1 MGALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSEVPQNNPE 60 Myo. 61 DLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRH 120 G A ++ + ++ + H +L + Leg. 61 LQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKGVADAHFPVVKEAILKTIK 120 Myo. 121 PGDFGADAQGAMNKALELFRKDIAAKYKELGYQG 154 ++ + + + KE+ Leg. 121 EVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA 154

  6. שימוש במידע על המבנה המרחבי • אם היינו יודעים את המבנה השלישוני סיכויינו לנבא את תפקידו של החלבון היו גבוהים. • הבעיה: • מציאת המבנה השלישוני דורשת משאבים רבים (כולל זמן וכסף), ולא תמיד אפשרית בימינו. • חיזוי המבנה השלישוני מתוך הרצף הינו בעיה קשה.

  7. חיזוי המבנה השניוני • ניבוי המבנה השניוני הינו משימה פשוטה יותר, וכיום קיימות שיטות המנבאות מבנה שניוני באחוזי הצלחה גבוהים יחסית (למשל PSIPRED מגיע קרוב ל-80% דיוק). • מטרתנו: לחפש רצפים הדומים זה לזה גם במבנה השניוני החזוי, ולא רק ברצף חומצות האמינו.

  8. חיזוי המבנה השניוני • מבחינה טכנית, ניתן לתאר כל עמדה ברצף ע"י המבנה השניוני בו היא כלולה. • אנו מסמנים את המבנה בו נכללת עמדה מסוימת באחת משלוש האותיות:E (Beta Sheet), C (Coil)H (Helix), • הרצף כעת מורכב משני סימונים עבור כל עמדה: Amino Acid: DDAEVYKSSGNILIRVAKDELTEEAA Sec. Structure: CCCCEEEEECCEEEEECHHHHHHHCC

  9. חיזוי המבנה השניוני • התחזית של כוללת PSIPRED גם רמת ביטחון הניבוי עבור כל עמדה. ניתן להשתמש הנתון זה בקביעת הציון עבור העימוד (Alignment).

  10. C E H C 2 E -4 2 H -4 -15 4 דוגמא לחישוב פשוט של ציון עבור עמדה S = (-1) = 1.5 x0.5 4 x0.5 + HHHHCCCCEEEEECCCCHHHHHHHHHHCCCCCCCCCCCCCCCEEEECCEEEC FLEANKIGFEEKDIAANEENRKWMRENVPENSRPATGYPLPPQIFNESQYRG L I FE D+ A+ E R+ ++E + +P PQ++ ++ G ILNMLGIPFETLDVLADAEIRQGIKEY--------SNWPTIPQVYVNGEFVG HHHHCCCCEEEEECCCCHHHHHHHHHH--------CCCCCCCEEEECCEEEC

  11. תוצאות קודמותLoewenstein Y., Linial M. (2006) • תוצאות מוקדמות הראו שיפור בדיוק העימוד ובמציאת הומולוגיים כאשר משולב מידע על המבנה השניוני.

  12. המטרה: • כלי לביצוע עימוד מהיר של רצפי חלבונים תוך שימוש בחיזוי המבנה השניוני. • קיצור זמני הריצה כך שיתאפשר לבצע עימוד של כולם-כנגד-כולם עבור מסדי נתונים של מיליוני רצפים. • שימוש ביוריסטיקה (בדומה ל-BLAST) לצורך הקטנת מרחב החיפוש, על מנת להשיג את קיצור זמן הריצה.

  13. 1 SALSA (Sequence Alignment Leverage by Structure Attributes) חבילת ++C מודולרית קלט* רצף(י) שאילתא מסנן מטריצות החלפה פונקצית הציון HMMERHEAD Heuristic מעבד הקלט DB של רצפים אלגוריתם DP למציאת עימוד אופטימלי מקומי (Smith-Waterman) פלט ציון ועימוד עבור כל רצף בDB- ממשק ל-PSIPRED** מעבד הפלט 1 שם זמני* רצפי הקלט כוללים ניבוי למבנה השניוני** מתוכנן

  14. SALSA (Sequence Alignment Leverage by Structure Attributes) חבילת ++C מודולרית קלט* רצף(י) שאילתא מסנן מטריצות החלפה פונקצית הציון HMMERHEAD Heuristic מעבד הקלט DB של רצפים אלגוריתם DP למציאת עימוד אופטימלי מקומי (Smith-Waterman) פלט ציון ועימוד עבור כל רצף בDB- ממשק ל-PSIPRED** מעבד הפלט

  15. Smith-Waterman Algorithm(optimal local alignment by DP) T.F. Smith & M.S. Waterman, 1981

  16. HMMERHEADPortugaly E., Ninio M. (2007)שימוש ביוריסטיקה לצורך סינון במטרה לבצע את התכנון הדינמי על כמות קטנה של רצפים.(מבוסס על חיפוש Two-Hits) מסנן HMMERHEAD Heuristic

  17. HMMERHEAD Filter 1. מציאת K-יות ברצף המטרה המעומדות בציון גבוה (מעל סף T) עם K-יות ברצף השאילתא.(Hits) Q u e r y S e q u e n c e MALSEGEWQLVLHVWAKVEADVAGHGQDIL T a r g e t S e q u e n c e MVGDWQLVLHVWAKVEADVAKI

  18. HMMERHEAD Filter 2. הארכת כל Hit. השארת Hits שציוו עימודם לאחר הארכה עולה על ערך סף (U). Q u e r y S e q u e n c e MALSEGEWQLVLHVWAKVEADVAGHGQDIL T a r g e t S e q u e n c e MVGDWQLVLHVWAKVEADVAKI

  19. HMMERHEAD Filter 2. הארכת כל Hit. השארת Hits שציוו עימודם לאחר הארכה עולה על ערך סף (U). Q u e r y S e q u e n c e MALSEGEWQLVLHVWAKVEADVAGHGQDIL T a r g e t S e q u e n c e MVGDWQLVLHVWAKVEADVAKI

  20. HMMERHEAD Filter 2. הארכת כל Hit. השארת Hits שציוו עימודם לאחר הארכה עולה על ערך סף (U). Q u e r y S e q u e n c e MALSEGEWQLVLHVWAKVEADVAGHGQDIL T a r g e t S e q u e n c e MVGDWQLVLHVWAKVEADVAKI

  21. HMMERHEAD Filter 3. מציאת Hits קרובים לפי ערכי סף (S,B). Q u e r y S e q u e n c e MALSEGEWQLVLHVWAKVEADVAGHGQDIL <S <S T a r g e t S e q u e n c e MVGDWQLVLHVWAKVEADVAKI <B >2K

  22. HMMERHEAD Filter 4. ביצוע תכנון דינמי מצומצם לחיבור בין זוג Hits5. אם העימוד המצומצם עבר ערך סף r, הרצף עובר הסינון. Q u e r y S e q u e n c e MALSEGEWQLVLHVWAKVEADVAGHGQDIL T a r g e t S e q u e n c e MVGDWQLVLHVWAKVEADVAKI

  23. מציאת ערכי סף אופטימליים • פרמטרים רבים קובעים את תוצאת הסינון של HMMERHEAD: • K – אורך ה-Hit • T – סף לקבלת Hit • U – סף להארכת Hit • B – הפרש אלכסונים בין 2-Hits • S – מרחק ברצף בין 2-Hits • r – סף לעימוד מצומצם בין 2-Hits • ועוד כמה נוספים....

  24. מציאת ערכי סף אופטימליים • כל פרמטר יכול לקבל טווח ערכים רחב. • השפעת כל פרמטר תלויה בכל הפרמטרים האחרים. • לאיתור פרמטרים אופטימליים (סינון רב ככל האפשר, פגיעה מינימלית בביצועים), נדרשה הרצת SALSA על מאות אלפי סטים של פרמטרים. (שימוש נרחב ב-MOSIX). • הפרמטרים נבחרו למתן רגישות מקסימלית עבור רמות סינון שונות.

  25. שיפור זמני הריצה כתוצאה מסינון מקדים

  26. חלוקת זמן העבודה ברמות סינון שונות

  27. איבוד רגישות כתוצאה מסינון מקדים 80% סינון – 99% מהרגישות המקסימלית 90% סינון – 93% מהרגישות 95% סינון – 88% מהרגישות 99% סינון – 79% מהרגישות

  28. האצה נוספת – שימוש בעבודת המסנן לחיסכון בצעדי תכנון דינמי Q u e r y S e q u e n c e T a r g e t S e q u e n c e

  29. האצה נוספת – שימוש בעבודת המסנן לחיסכון בצעדי תכנון דינמי Q u e r y S e q u e n c e T a r g e t S e q u e n c e מדידות ראשונות הראו חיסכון של 60% מזמן הריצה

  30. התוצאות • השגנו קיצור של זמן הריצה תוך הפסד נסבל ברמת הרגישות (עבור FPR נמוך) כתוצאה מהסינון. • קיצור זמן נוסף הושג על ידי שימוש בעבודת המסנן כבסיס לעימוד הסופי.

  31. בדיקת SALSA על רצפים קשים לזיהוי • נבחרו 600 רצפים קצרים (40-140aa) מתוך SwissProt, אשר BLAST מצא עבורם כמות קטנה של רצפים הומולוגיים. • רצפים אלו הוזנו ל-SALSA עם חיזוי מבנה שניוני. • SwissProt (כולל חיזוי מבנה שניוני) שימש כמסד הנתונים לחיפוש. • עבור לפחות 6 רצפים נמצאו הומולוגים שלא נמצאו ע"י BLAST.

  32. דוגמה למציאת הומולוג בעל מרחק רצפי רב qu> Q96EL3|RM53_HUMAN 39S ribosomal protein L53, mitochondrial precursor db> Q06090|RM51_YEAST 60S ribosomal protein L51, mitochondrial precursor DEFAULT - LOCAL: Score = 98 (E-value: 0.18) An optimal alignment:amino-acid alignment statistics:Identities = 14/88 (15%), Positives = 32/88 (36%), Gaps = 2/88 (2%) seq1:6..93seq2:16..101 secondary strucutre alignment statistics: Identities = 83/88 (94%), Positives = 83/88 (94%), Gaps = 2/88 (2%) seq1:6..93 seq2:16..101 Q96EL3 6 HHCCCCCEEEEEEEECCCCCCHHHHHHHHHHCCCHHHHHHCCCEEEEECCCCCCCCCEEE ARLGLRPVKQVRVQFCPFEKNVESTRTFLQTVSSEKVRSTNLNCSVIADVRHDGSEPCVD 65 + P +++ +QFC + + E R FL + +K +R G P + Q06090 16 VGAFVFPCRKITLQFCNWGGSSEGMRKFLTSKRLDKWGQEFPWIQFEV-MRKSGH-PLLR HHCCCCCEEEEEEEECCCCCCHHHHHHHHHHCCCHHHHHHCCCCEEEE-ECCCCC-CEEE 73 Q96EL3 66 EEECCCCEEEEECCCCCHHHHHHHHHHH VLFGDGHRLIMRGAHLTALEMLTAFASH 93 + +G ++ +L + + Q06090 74 AEYTNGREKVICVRNLNIDNVENKLKLL EEEECCCEEEEECCCCCHHHHHHHHHHH 101

  33. דוגמה למציאת הומולוג בעל מרחק רצפי רב חיפוש הרצף ב-BLAST לא מגלה את הקשר בין השניים מכיוון שהדמיון הרצפי הוא כ-15%. HHCCCCCEEEEEEEECCCCCCHHHHHHHHHHCCCHHHHHHCCCEEEEECCCCCCCCCEEE ARLGLRPVKQVRVQFCPFEKNVESTRTFLQTVSSEKVRSTNLNCSVIADVRHDGSEPCVD+ P +++ +QFC + + E R FL + +K +R G P +VGAFVFPCRKITLQFCNWGGSSEGMRKFLTSKRLDKWGQEFPWIQFEV-MRKSGH-PLLRHHCCCCCEEEEEEEECCCCCCHHHHHHHHHHCCCHHHHHHCCCCEEEE-ECCCCC-CEEE EEECCCCEEEEECCCCCHHHHHHHHHHHVLFGDGHRLIMRGAHLTALEMLTAFASH+ +G ++ +L + +AEYTNGREKVICVRNLNIDNVENKLKLLEEEECCCEEEEECCCCCHHHHHHHHHHH Q96EL3 Q06090 Q96EL3 Q06090

  34. דוגמה למציאת הומולוג בעל מרחק רצפי רב שני הרצפים הינם תתי יחידות של הריבוזום המיטוכונדרילי. האחד באדם והשני בשמר. HHCCCCCEEEEEEEECCCCCCHHHHHHHHHHCCCHHHHHHCCCEEEEECCCCCCCCCEEE ARLGLRPVKQVRVQFCPFEKNVESTRTFLQTVSSEKVRSTNLNCSVIADVRHDGSEPCVD+ P +++ +QFC + + E R FL + +K +R G P +VGAFVFPCRKITLQFCNWGGSSEGMRKFLTSKRLDKWGQEFPWIQFEV-MRKSGH-PLLRHHCCCCCEEEEEEEECCCCCCHHHHHHHHHHCCCHHHHHHCCCCEEEE-ECCCCC-CEEE EEECCCCEEEEECCCCCHHHHHHHHHHHVLFGDGHRLIMRGAHLTALEMLTAFASH+ +G ++ +L + +AEYTNGREKVICVRNLNIDNVENKLKLLEEEECCCEEEEECCCCCHHHHHHHHHHH HUMAN YEAST HUMAN YEAST

  35. תכניות להמשך • הכנת הכלי לשימוש ציבורי ברשת, בממשק לקליטת רצף שאילתא ומציאת רצפים קרובים. • הפעלת הכלי על חלבונים לא מאופיינים ועל גנומים חדשים, לצורך מציאת תיוגים חדשים.

  36. תוצאות קודמותLoewenstein Y., Linial M. (2006) SCOP עימוד של כולם-כנגד-כולם תוך שילוב המבנה השניוני, ולאחר מכן הקבצה לפי המרחקים שהתקבלו, הביאו להקבצה דומה לזו של מחלקות SCOP הממוינות ידנית. רצף בלבד לא הספיק למשימה זו. רצף בלבד רצף + מבנה שניוני

  37. תכניות להמשך • הפעלת הכלי על כל הרצפים המוכרים, כולם-כנגד-כולם, וביצוע הקבצה (clustering).

  38. תודות • ליניב לונשטיין (הנחייה) • לאילון פורטוגלי(התאמת HMMERHEAD, וייעוץ ++C) • פרופ' מיכל ליניאל (הנחייה)

More Related