1 / 21

עד עכשיו עסקנו במרחק בין שני רצפים וחיפשנו את המרחק המינימלי

עד עכשיו עסקנו במרחק בין שני רצפים וחיפשנו את המרחק המינימלי למעשה מקובל יותר בתוכנות הביו-אינפורמטיות לדבר על דמיון בין רצפים ולחפש את המקסימום . שיטת העבודה של התיכנות הדינמי דומה מאד: אבל יש לשנות את פרטי האתחול ערכי מילוי המטריצה

Download Presentation

עד עכשיו עסקנו במרחק בין שני רצפים וחיפשנו את המרחק המינימלי

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. עד עכשיו עסקנו במרחק בין שני רצפים וחיפשנו את המרחק המינימלי למעשה מקובל יותר בתוכנות הביו-אינפורמטיות לדבר על דמיון בין רצפים ולחפש את המקסימום. שיטת העבודה של התיכנות הדינמי דומה מאד:אבל יש לשנות את פרטי האתחול ערכי מילוי המטריצה לעבוד על מקסימום ולא מינימום

  2. איתחול: שורה ועמודה של אפסים - מילוי: מקסימום על ערכים משלושת התאים הקודמים כאשר W הוא הקנס על הוספה/הורדה: במקרה שלנו 0 ן si,jהוא הניקוד של התאמת האות במקום ה I במחרוזת האחת לאות במקום ה J במחרוזת השניה. במקרה שלנו קנס של 0 אם האותיות שונות ופרס של 1 אם הן זהות.

  3. בכל תא יש לשמור את המצביע(ים)שהביאו לחישוב הערך באותו תא. כך ניתן בסיום החישוב לשחזר אתהמסלול ולבנות את ההתאמה. G A A T T C A G T T A | | | | | | G G A _ T C _ G _ _ A

  4. ניתן לשנות את פונקצית המחיר: W = -2 הוספה/הורדה si,j= +2 כאשר האותיות דומותsi,j= -1כאשר האותיות שונות

  5. הערך המספרי יצא כמובן שונהאבל ההתאמה שנוצרה זהה. כאשר ההתאמה זהה בפונקציותהתאמה שונות, מתחזקת ההנחהשמדובר בהתאמה אמיתית. G A A T T C A G T T A | | | | | | G G A _ T C _ G _ _ A

  6. זמני ריצה וגודל זכרון נדרש צריך למלא מטריצה בגודל n*m ( כאשר n,mאורך הרצפים) נניח שהרצפים באותו אורך ונקבל גודל ריבועי ( של n2) זמן: השוואה של שלושה ערכים לכל תא כלומר 3* n2 שימו לב: אם האורך גדל פי שנים הזמן גדל פי ארבע ! עבור השוואה בודדת אין כאן מגבלה, עבור השוואה של גןמול כל מאגר הנתונים בהחלט יש. שיפורים: זכרון: אין צורך לזכור את כל המטריצה, מספיקות שתי שורות מתחלפות, צריך לדאוג לחישוב מחדש של המצביעים אחורה. זמן: אם מוכנים להסתפק בתשובה מספרית כאשר המחרוזות דומות, ותשובה שלילית כללית כאשר הם אינן, ניתן לחשב רק ערכים ב "צינור " יחסית צר מסביב לאלכסון ולחסוך בזמן.

  7. התאמה לוקלית: מציאת האזור המתאים ביותרבין שני רצפים. שוב אותה פונקצית התאמה W = -2הוספה/הורדה si,j= +2 כאשר האותיות דומותsi,j= -1כאשר האותיות שונות השינויים: בשלב איתחול המטריצה הקנס בשורת ועמודת ה אפס לא מצטבר והערך המוכנס שווה ל 0. בשלב המילוי נדרוש שהציון המצטבר על ההתאמה, בכל שלב, לא ירד מתחת לאפס. אם הציון בתא מסויים יורד מתחת לאפס מאפסים אותו. את השיחזור לאחור מתחילים בתא בעל הערך הגבוה ביותר בכל המטריצה ומשחזרים לאחור עד שמגיעים לתא שערכו 0. את המסלול מציגים כהתאמה לפי החוקים שפרטנו. GAATTCAGTTA | || | GGATCGA

  8. הרחבות למודל הבסיסי ניקוד משתנה בהתאם לסוג ההתאמה קנס משתנה בהתאם לאורך ההוספה / הכנסה affine gap penalty

  9. שיטת הניקוד שהשתמשנו בה עד כה אינה מתחשבת בסוגים השונים של אי-התאמות שיכולים לנבוע מסוגים שונים של מוטציות. ב-DNA למשל נמצא ש-Transitions מתרחשים בתדירות גבוהה בהרבה מ-Transversions. (Transitions- סוג של מוטציות שבהן בסיס מסוג מסויים מוחלף בבסיס אחר מאותו סוגלמשל פורין המוחלף בפורין אחר, או פירימידין בפירימידין אחר. כלומר קיים שימור של המבנה הטבעתי של הבסיס. Transversions - סוג של מוטציות שבהן פורין מוחלף לפירימידין ולהיפך. (פורין: Adenine, Guanine פירימידין Cytosine, Thymine ) בחלבונים, המצב מורכב יותר מאחר ויש תת קבוצות רבות יותר של חומצות אמיניות: ארומטיות, אליפטיות, בעלות מטען חיובי, בעלות מטען שלילי, הידרופוביות, הידרופיליות וכו' והסיכוי והמשמעות של המוטציות שונות יכולה להיות שונה מאד. נחפש ניקוד שישקף את רמת "הדימיון" בין האלמנטים המוחלפים.

  10. מטריצת החלפה (Substitution Matrix) PAM (Percent Accepted Mutation) Dayhoff 1979 נספור את השינויים שחלו בחומצות אמיניות בקבוצה של חלבונים מאד דומים. השתמשו ב 71 קבוצות של חלבונים מאד דומים (>85%) בקבוצה היו 1572 החלפות נניח ששכיחות F במדגם 4%. נניח שמתוך 100 מופעים F נמצא 90 פעם, Y 8 ו H פעמיים. נחשב את הסיכוי היחסי ש F ישתנה ל Y לפי [ Mf-y=100*[Freq of F]*[Freq of the change from F to Y [Freq of any change in F] PAM1 את המטריצה הבסיסית (PAM1 ) נרמלו כך שבממוצע לחומצה אמינית ישסיכוי של 1% להתחלף ו99% להשאר. לאחר מכן ניתן להעלות את המטריצה הבסיסית בחזקה כך שתשקף שינוי לאורך תקופהארוכה יותר. למשל PAM250 . את הצורה הסופית נקבל ע"י הוצאת LOG מכל איבר , כך שנוכל לחבר (ולא להכפיל) אתהניקוד לאורך ההתאמה. 100*[0.04][0.08] = 3.2 [0.1]

  11. PAM 250 כל תא מייצג את הערך שבו ישלהשתמש כאשר בטבלת התיכנותהדינמי רואים את זוג האותיות הנ"ל. PAM250 משקפת דמיון של בערך 20% ויש להשתמש בה כאשר הרצפים שאותם משווים הם כבר די שונים. אם הרצפים יותר דומים אפשר להשתמש PAM120 דמיון של כ 40% PAM80 דמיון של כ 50% PAM60 דמיון של כ 60%

  12. Blosum (BLOcks Substitution) Matrix. Henikof and Henikof 1992 SSRPAGYTYTHDSR CSYPDEDEYTHDSE VSRAAHKLYYHDSF CVRPAKNVYTSDSGHSRPAGSSATHDAV את השוני בודקים רק בתוך בלוקים שמוריםאת רמת הדמיון ניתן לקבוע למשל לבניית Blosum62 משתמשים רק ברצפיםשהדמיון בינהם קטן מ 62%. ההסתברות שזוג האותיות i ו j יופיעו ב אותה עמודה ההסתברות למצוא אות מסוימת הערכים במטריצה BLOSUM62 משקף מרחק דומה ל PAM160

  13. Blosum 62 מטריצותPAM נועדו לגילוי יחסים אבולוציוניים גלובלייםבין חלבונים מטריצות BLOSUM נועדולגילוי אזורים שמורים

  14. נשמש בערכים מתוך הטבלה על מנת לחשב את ערכי ה match וה mismatch כאשרממלאים את טבלת התיכנות הדינמי. למשל (בהנחה שמדובר ב התאמה לוקלית שבה מחפשים מקסימום) אם משווים C ברצף אחד ל C ברצף השני הניקוד הוא 9 אם משווים V ל V הניקוד הוא 4 כאשר נתקלים באותיות שונות: למשל אם משווים A ל S הניקוד הוא 1 (חומצות דומות) אם משווים P ל F הניקוד הוא 4- (חומצות מאד שונות) שימו לב שכאשר עובדים אם מטריצות כאלה אין למעשה הבדל בין הטיפול במקרי matchלעומת mismatch . פשוט לוקחים את הערך המתאים מטבלת ההחלפות.

  15. מחיר משתנה להכנסת רווחים (AFFINE GAP PANALTY) GATCAACTAGGATCAACTAG ||| | | || ||||| || GA-G-A-TAGGA---ACTAG עד כה שתי ההתאמות קיבלו קנס זהה על פתיחת רווחים. ביולוגית לא נכון לעשות כךמאחר שאיבוד חלק מרצף הוא ארוע נדיר אבל כאשר הוא קורה יתכן שתורד יותרמאשר אות אחת. ולכן ההתאמה בצד שמאל סבירה יותר מאשר ההתאמה בצד ימין. כדי שהפונקציה תשקף מציאות ביולוגית זו ניתן לחלק את הקנס הניתן על החסרה לשני חלקים. ניקוד מסויים ניתן על עצם פתיחת הרווח וערך אחר ניתן לכל רווח נוסף. נוכל להגדיר את הקנס באופן הבא: w=p+nk כאשר p הוא הקנס על עצם פתיחת הרווח k הוא הקנס על כל החסרה n הוא מספר הרווחים אם נקבע p=3 ו k=1 נקבל בצד שמאל 3 +3 = 6 ואילו בימין 3+1+3+1+3+1=12

  16. הרחבות למודל הבסיסי ניקוד משתנה בהתאם לסוג ההתאמה קנס משתנה בהתאם לאורך ההוספה / הכנסה affine gap penalty ההרחבות תקפות הן להתאמה גלובלית והן להתאמה לוקלית ניתן באותו זמן ריצה (פחות או יותר) לחשב את ההתאמה גם תחתההרחבות האלו. אבל האלגוריתמים הופכים ליותר מסובכים ולא ניכנס אליהם בקורס זה.

  17. שימוש ב EMBOSS Needle התאמה גלובלית Needleman and Wunsch השוואה בין אינסולין של אדם ושל צפרדע

  18. שימוש ב EMBOSS Water התאמה לוקלית Smith and Waterman השוואה בין אינסולין של אדם וגורם גדילה דמוי אינסולין (אדם)

  19. מונחים: רצפים הומולגיים, פראלוגיים, אורטולוגיים, רצפים דומים. Homologous, Paralogous, orthologous ,similar רצפים הומולוגיים הם רצפים שהתפתחו מרצף אב קדמון משותף. רצפים אורטלוגיים – רצפים ביצורים שונים שהתפתחו מרצף אב משותף, רצפים פרלוגיים – רצפים בתוך אותו גנום שהתפתחו כתוצאה מהעתקתגנים (gene duplication) יש להקפיד על ההבחנה בין רצפים דומים ורצפים הומולוגיים. לשני רצפים יש אב משותף או שאין להם, ולכן הם הומולוגים או שהם אינם הומולוגים, בשום מקרה הם אינם יכולים להיות "הומולוגים ב-70%". לעומת זאת, רצפים יכולים להיות דומים בדרגות דמיון שונות, למשל "דומים ב-70%". בדר"כ ניתן להסיק ששני רצפים הינם הומולוגים אם קיימת דרגת דימיון גבוהה ביניהם.

More Related