380 likes | 542 Views
Improved Sequence Alignment: Combining Secondary Structure Prediction. מגיש: יוסף פרת מנחים: פרופ' מיכל ליניאל יניב לונשטיין. הבנת החלבון מתוך הרצף. קיים פער גדול בין כמות החלבונים הפתורים (מבנית) לבין כמות הרצפים המוכרים. (כ-40,000 ב- PDB , כ-4 מיליון רצפים ב- UniProt )
E N D
Improved Sequence Alignment:Combining Secondary Structure Prediction מגיש: יוסף פרת מנחים: פרופ' מיכל ליניאליניב לונשטיין
הבנת החלבון מתוך הרצף • קיים פער גדול בין כמות החלבונים הפתורים (מבנית) לבין כמות הרצפים המוכרים.(כ-40,000 ב-PDB, כ-4 מיליון רצפים ב-UniProt) • כאשר ידוע רצף החלבון בלבד, מחפשים רצפים דומים. דמיון רצפי יכול לרמז על דמיון במאפיינים שונים של החלבון. • שיטות מתקדמות (clustering) משתמשות לרוב בדמיון רצפי כמדד למרחק.
שימוש במידע על המבנה • במקרים רבים המבנה המרחבי של החלבון נשמר באבולוציה למרות שרצף חומצות האמינו השתנה.
שימוש במידע על המבנה Leghemoglobin Myoglobin (ראשתן גדול ראש - (Yellow Lupine (תורמוס צהוב - (Sperm Whale
שימוש במידע על המבנה • פחות מ – 10% דמיון רצפי: Myo. 1 MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASE 60 M ++ + + L + + F +E E Leg. 1 MGALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSEVPQNNPE 60 Myo. 61 DLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRH 120 G A ++ + ++ + H +L + Leg. 61 LQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKGVADAHFPVVKEAILKTIK 120 Myo. 121 PGDFGADAQGAMNKALELFRKDIAAKYKELGYQG 154 ++ + + + KE+ Leg. 121 EVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA 154
שימוש במידע על המבנה המרחבי • אם היינו יודעים את המבנה השלישוני סיכויינו לנבא את תפקידו של החלבון היו גבוהים. • הבעיה: • מציאת המבנה השלישוני דורשת משאבים רבים (כולל זמן וכסף), ולא תמיד אפשרית בימינו. • חיזוי המבנה השלישוני מתוך הרצף הינו בעיה קשה.
חיזוי המבנה השניוני • ניבוי המבנה השניוני הינו משימה פשוטה יותר, וכיום קיימות שיטות המנבאות מבנה שניוני באחוזי הצלחה גבוהים יחסית (למשל PSIPRED מגיע קרוב ל-80% דיוק). • מטרתנו: לחפש רצפים הדומים זה לזה גם במבנה השניוני החזוי, ולא רק ברצף חומצות האמינו.
חיזוי המבנה השניוני • מבחינה טכנית, ניתן לתאר כל עמדה ברצף ע"י המבנה השניוני בו היא כלולה. • אנו מסמנים את המבנה בו נכללת עמדה מסוימת באחת משלוש האותיות:E (Beta Sheet), C (Coil)H (Helix), • הרצף כעת מורכב משני סימונים עבור כל עמדה: Amino Acid: DDAEVYKSSGNILIRVAKDELTEEAA Sec. Structure: CCCCEEEEECCEEEEECHHHHHHHCC
חיזוי המבנה השניוני • התחזית של כוללת PSIPRED גם רמת ביטחון הניבוי עבור כל עמדה. ניתן להשתמש הנתון זה בקביעת הציון עבור העימוד (Alignment).
C E H C 2 E -4 2 H -4 -15 4 דוגמא לחישוב פשוט של ציון עבור עמדה S = (-1) = 1.5 x0.5 4 x0.5 + HHHHCCCCEEEEECCCCHHHHHHHHHHCCCCCCCCCCCCCCCEEEECCEEEC FLEANKIGFEEKDIAANEENRKWMRENVPENSRPATGYPLPPQIFNESQYRG L I FE D+ A+ E R+ ++E + +P PQ++ ++ G ILNMLGIPFETLDVLADAEIRQGIKEY--------SNWPTIPQVYVNGEFVG HHHHCCCCEEEEECCCCHHHHHHHHHH--------CCCCCCCEEEECCEEEC
תוצאות קודמותLoewenstein Y., Linial M. (2006) • תוצאות מוקדמות הראו שיפור בדיוק העימוד ובמציאת הומולוגיים כאשר משולב מידע על המבנה השניוני.
המטרה: • כלי לביצוע עימוד מהיר של רצפי חלבונים תוך שימוש בחיזוי המבנה השניוני. • קיצור זמני הריצה כך שיתאפשר לבצע עימוד של כולם-כנגד-כולם עבור מסדי נתונים של מיליוני רצפים. • שימוש ביוריסטיקה (בדומה ל-BLAST) לצורך הקטנת מרחב החיפוש, על מנת להשיג את קיצור זמן הריצה.
1 SALSA (Sequence Alignment Leverage by Structure Attributes) חבילת ++C מודולרית קלט* רצף(י) שאילתא מסנן מטריצות החלפה פונקצית הציון HMMERHEAD Heuristic מעבד הקלט DB של רצפים אלגוריתם DP למציאת עימוד אופטימלי מקומי (Smith-Waterman) פלט ציון ועימוד עבור כל רצף בDB- ממשק ל-PSIPRED** מעבד הפלט 1 שם זמני* רצפי הקלט כוללים ניבוי למבנה השניוני** מתוכנן
SALSA (Sequence Alignment Leverage by Structure Attributes) חבילת ++C מודולרית קלט* רצף(י) שאילתא מסנן מטריצות החלפה פונקצית הציון HMMERHEAD Heuristic מעבד הקלט DB של רצפים אלגוריתם DP למציאת עימוד אופטימלי מקומי (Smith-Waterman) פלט ציון ועימוד עבור כל רצף בDB- ממשק ל-PSIPRED** מעבד הפלט
Smith-Waterman Algorithm(optimal local alignment by DP) T.F. Smith & M.S. Waterman, 1981
HMMERHEADPortugaly E., Ninio M. (2007)שימוש ביוריסטיקה לצורך סינון במטרה לבצע את התכנון הדינמי על כמות קטנה של רצפים.(מבוסס על חיפוש Two-Hits) מסנן HMMERHEAD Heuristic
HMMERHEAD Filter 1. מציאת K-יות ברצף המטרה המעומדות בציון גבוה (מעל סף T) עם K-יות ברצף השאילתא.(Hits) Q u e r y S e q u e n c e MALSEGEWQLVLHVWAKVEADVAGHGQDIL T a r g e t S e q u e n c e MVGDWQLVLHVWAKVEADVAKI
HMMERHEAD Filter 2. הארכת כל Hit. השארת Hits שציוו עימודם לאחר הארכה עולה על ערך סף (U). Q u e r y S e q u e n c e MALSEGEWQLVLHVWAKVEADVAGHGQDIL T a r g e t S e q u e n c e MVGDWQLVLHVWAKVEADVAKI
HMMERHEAD Filter 2. הארכת כל Hit. השארת Hits שציוו עימודם לאחר הארכה עולה על ערך סף (U). Q u e r y S e q u e n c e MALSEGEWQLVLHVWAKVEADVAGHGQDIL T a r g e t S e q u e n c e MVGDWQLVLHVWAKVEADVAKI
HMMERHEAD Filter 2. הארכת כל Hit. השארת Hits שציוו עימודם לאחר הארכה עולה על ערך סף (U). Q u e r y S e q u e n c e MALSEGEWQLVLHVWAKVEADVAGHGQDIL T a r g e t S e q u e n c e MVGDWQLVLHVWAKVEADVAKI
HMMERHEAD Filter 3. מציאת Hits קרובים לפי ערכי סף (S,B). Q u e r y S e q u e n c e MALSEGEWQLVLHVWAKVEADVAGHGQDIL <S <S T a r g e t S e q u e n c e MVGDWQLVLHVWAKVEADVAKI <B >2K
HMMERHEAD Filter 4. ביצוע תכנון דינמי מצומצם לחיבור בין זוג Hits5. אם העימוד המצומצם עבר ערך סף r, הרצף עובר הסינון. Q u e r y S e q u e n c e MALSEGEWQLVLHVWAKVEADVAGHGQDIL T a r g e t S e q u e n c e MVGDWQLVLHVWAKVEADVAKI
מציאת ערכי סף אופטימליים • פרמטרים רבים קובעים את תוצאת הסינון של HMMERHEAD: • K – אורך ה-Hit • T – סף לקבלת Hit • U – סף להארכת Hit • B – הפרש אלכסונים בין 2-Hits • S – מרחק ברצף בין 2-Hits • r – סף לעימוד מצומצם בין 2-Hits • ועוד כמה נוספים....
מציאת ערכי סף אופטימליים • כל פרמטר יכול לקבל טווח ערכים רחב. • השפעת כל פרמטר תלויה בכל הפרמטרים האחרים. • לאיתור פרמטרים אופטימליים (סינון רב ככל האפשר, פגיעה מינימלית בביצועים), נדרשה הרצת SALSA על מאות אלפי סטים של פרמטרים. (שימוש נרחב ב-MOSIX). • הפרמטרים נבחרו למתן רגישות מקסימלית עבור רמות סינון שונות.
איבוד רגישות כתוצאה מסינון מקדים 80% סינון – 99% מהרגישות המקסימלית 90% סינון – 93% מהרגישות 95% סינון – 88% מהרגישות 99% סינון – 79% מהרגישות
האצה נוספת – שימוש בעבודת המסנן לחיסכון בצעדי תכנון דינמי Q u e r y S e q u e n c e T a r g e t S e q u e n c e
האצה נוספת – שימוש בעבודת המסנן לחיסכון בצעדי תכנון דינמי Q u e r y S e q u e n c e T a r g e t S e q u e n c e מדידות ראשונות הראו חיסכון של 60% מזמן הריצה
התוצאות • השגנו קיצור של זמן הריצה תוך הפסד נסבל ברמת הרגישות (עבור FPR נמוך) כתוצאה מהסינון. • קיצור זמן נוסף הושג על ידי שימוש בעבודת המסנן כבסיס לעימוד הסופי.
בדיקת SALSA על רצפים קשים לזיהוי • נבחרו 600 רצפים קצרים (40-140aa) מתוך SwissProt, אשר BLAST מצא עבורם כמות קטנה של רצפים הומולוגיים. • רצפים אלו הוזנו ל-SALSA עם חיזוי מבנה שניוני. • SwissProt (כולל חיזוי מבנה שניוני) שימש כמסד הנתונים לחיפוש. • עבור לפחות 6 רצפים נמצאו הומולוגים שלא נמצאו ע"י BLAST.
דוגמה למציאת הומולוג בעל מרחק רצפי רב qu> Q96EL3|RM53_HUMAN 39S ribosomal protein L53, mitochondrial precursor db> Q06090|RM51_YEAST 60S ribosomal protein L51, mitochondrial precursor DEFAULT - LOCAL: Score = 98 (E-value: 0.18) An optimal alignment:amino-acid alignment statistics:Identities = 14/88 (15%), Positives = 32/88 (36%), Gaps = 2/88 (2%) seq1:6..93seq2:16..101 secondary strucutre alignment statistics: Identities = 83/88 (94%), Positives = 83/88 (94%), Gaps = 2/88 (2%) seq1:6..93 seq2:16..101 Q96EL3 6 HHCCCCCEEEEEEEECCCCCCHHHHHHHHHHCCCHHHHHHCCCEEEEECCCCCCCCCEEE ARLGLRPVKQVRVQFCPFEKNVESTRTFLQTVSSEKVRSTNLNCSVIADVRHDGSEPCVD 65 + P +++ +QFC + + E R FL + +K +R G P + Q06090 16 VGAFVFPCRKITLQFCNWGGSSEGMRKFLTSKRLDKWGQEFPWIQFEV-MRKSGH-PLLR HHCCCCCEEEEEEEECCCCCCHHHHHHHHHHCCCHHHHHHCCCCEEEE-ECCCCC-CEEE 73 Q96EL3 66 EEECCCCEEEEECCCCCHHHHHHHHHHH VLFGDGHRLIMRGAHLTALEMLTAFASH 93 + +G ++ +L + + Q06090 74 AEYTNGREKVICVRNLNIDNVENKLKLL EEEECCCEEEEECCCCCHHHHHHHHHHH 101
דוגמה למציאת הומולוג בעל מרחק רצפי רב חיפוש הרצף ב-BLAST לא מגלה את הקשר בין השניים מכיוון שהדמיון הרצפי הוא כ-15%. HHCCCCCEEEEEEEECCCCCCHHHHHHHHHHCCCHHHHHHCCCEEEEECCCCCCCCCEEE ARLGLRPVKQVRVQFCPFEKNVESTRTFLQTVSSEKVRSTNLNCSVIADVRHDGSEPCVD+ P +++ +QFC + + E R FL + +K +R G P +VGAFVFPCRKITLQFCNWGGSSEGMRKFLTSKRLDKWGQEFPWIQFEV-MRKSGH-PLLRHHCCCCCEEEEEEEECCCCCCHHHHHHHHHHCCCHHHHHHCCCCEEEE-ECCCCC-CEEE EEECCCCEEEEECCCCCHHHHHHHHHHHVLFGDGHRLIMRGAHLTALEMLTAFASH+ +G ++ +L + +AEYTNGREKVICVRNLNIDNVENKLKLLEEEECCCEEEEECCCCCHHHHHHHHHHH Q96EL3 Q06090 Q96EL3 Q06090
דוגמה למציאת הומולוג בעל מרחק רצפי רב שני הרצפים הינם תתי יחידות של הריבוזום המיטוכונדרילי. האחד באדם והשני בשמר. HHCCCCCEEEEEEEECCCCCCHHHHHHHHHHCCCHHHHHHCCCEEEEECCCCCCCCCEEE ARLGLRPVKQVRVQFCPFEKNVESTRTFLQTVSSEKVRSTNLNCSVIADVRHDGSEPCVD+ P +++ +QFC + + E R FL + +K +R G P +VGAFVFPCRKITLQFCNWGGSSEGMRKFLTSKRLDKWGQEFPWIQFEV-MRKSGH-PLLRHHCCCCCEEEEEEEECCCCCCHHHHHHHHHHCCCHHHHHHCCCCEEEE-ECCCCC-CEEE EEECCCCEEEEECCCCCHHHHHHHHHHHVLFGDGHRLIMRGAHLTALEMLTAFASH+ +G ++ +L + +AEYTNGREKVICVRNLNIDNVENKLKLLEEEECCCEEEEECCCCCHHHHHHHHHHH HUMAN YEAST HUMAN YEAST
תכניות להמשך • הכנת הכלי לשימוש ציבורי ברשת, בממשק לקליטת רצף שאילתא ומציאת רצפים קרובים. • הפעלת הכלי על חלבונים לא מאופיינים ועל גנומים חדשים, לצורך מציאת תיוגים חדשים.
תוצאות קודמותLoewenstein Y., Linial M. (2006) SCOP עימוד של כולם-כנגד-כולם תוך שילוב המבנה השניוני, ולאחר מכן הקבצה לפי המרחקים שהתקבלו, הביאו להקבצה דומה לזו של מחלקות SCOP הממוינות ידנית. רצף בלבד לא הספיק למשימה זו. רצף בלבד רצף + מבנה שניוני
תכניות להמשך • הפעלת הכלי על כל הרצפים המוכרים, כולם-כנגד-כולם, וביצוע הקבצה (clustering).
תודות • ליניב לונשטיין (הנחייה) • לאילון פורטוגלי(התאמת HMMERHEAD, וייעוץ ++C) • פרופ' מיכל ליניאל (הנחייה)