1 / 32

Will my mutation be deleterious?

Will my mutation be deleterious?. Classifying point mutations at the protein interface by SVM, Rosetta and Foldx. Elad Mezuman Ora Furman. בתוכנית. רקע: מוטיבציה פונקציות אנרגיה למידה העולם אליו אני נכנס שיטות SVM סריקה לאלאנין הערכת ביצועים ה Dataset שלי תוצאות

winka
Download Presentation

Will my mutation be deleterious?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Will my mutation be deleterious? Classifying point mutations at the protein interface by SVM, Rosetta and Foldx Elad Mezuman Ora Furman

  2. בתוכנית • רקע: • מוטיבציה • פונקציות אנרגיה • למידה • העולם אליו אני נכנס • שיטות • SVM • סריקה לאלאנין • הערכת ביצועים • ה Dataset שלי • תוצאות • ביצועים התחלתיים • ביצועים בעקבות RFE ואופטימיזציה • משקלים • מסקנות • צעדים להמשך

  3. קצת מוטיבציה! • שמענו כבר על החשיבות של האינטראקציות והבנת המבנה של קומפלקסים חלבונים • נרצה כלים לנתח את המבנה, אשר באמצעותם נוכל, למשל, למצוא את החומצות האמינו הקריטיות לקישור מוצלח בין החלבונים • ע"פ מספר מחקרים, רק מספר מצומצם של חומצות האמינו בממשק תורם משמעותית לאנרגיית הקישור החופשית שם

  4. 1bxi: Im9-DNase interaction

  5. פונקצית אנרגיה • האנרגיה החופשית הינה מדד ליציבות החלבונים • קיימים מודלים כמותיים להערכת האנרגיה של קישור בין חלבונים • המודל הפשוט מתאר את אנרגית הקישור של שני חלבונים כצירוף ליניארי של פרמטרים שונים הלקוחים הן מכימיה פיזקלית והן מאנליזות סטטסטיות על חלבונים ידועים: • הפרמטרים כוללים למשל, כוחות משיכה (Eatr) ודחייה (Erep) קשרי מימן (Ehbnd) בין כל האטומים בממשק

  6. שני יהודים שלוש דעות • אלגוריתמים חישוביים שונים, לדוגמא Foldx ו Rosetta, מציעים פונקציות אנרגיה שונות וחיזויים שונים, על אף שהמודל הפיזיקלי דומה (צירוף לינארי של מושגי אנרגיה)

  7. כיצד הותאמו המשקלים בפונקצית האנרגיה? • לבעיות שונות הותאמו משקלים אופטימלים, על סמך נתונים ניסיוניים, למשל בשיטה הבאה: • ב Foldx בחרו לפתור את הבעיה ע"י ריצה על כל הערכים בין 0 ל 2 בקפיצות של 0.2 • ב Optimized Rosetta, בחרו לפתור את הבעיה באמצעות conjugated-gradient-base optimization methods

  8. למידה לצורך הכרעה • אנו מחפשים פונקציה שבהינתן וקטור (= סט של תכונות) המתאר את המוטציה תיתן תשובה: "הרסנית" או "לא הרסנית" • על מנת ליצור את הפונקציה אנו נשתמש בידע מוקדם, ידע נסיוני, האם המוטציה הרסנית או לא

  9. אם יש את התוכנות למה צריך אותי? • עובדה: התוכנות לא מספקות תוצאות מספיק טובות! (Accuracy: Foldx=65%, Rosetta=66%,Optimized Rosetta=71%) • שילוב בין התוכנות והוספת ידע נוסף • בנית פתרון ספציפי לשאלה שלנו • מעבר לבעיית הכרעה מבעיית רגרסיה (הסבר בהמשך) • שימוש בכלים חישוביים מתקדמים

  10. בתוכנית • רקע: • מוטיבציה • פונקציות אנרגיה • למידה • העולם אליו אני נכנס • שיטות • SVM • סריקה לאלאנין • הערכת ביצועים • ה Dataset שלי • תוצאות • ביצועים התחלתיים • ביצועים בעקבות RFE ואופטימיזציה • משקלים • מסקנות • צעדים להמשך

  11. סוג +1 • סוג -1 מישור מפריד • אנו מחפשים מישור מפריד (נשים לב שמישור מפריד הוא סט משקולות) • אבל איזה מישור מפריד נבחר ?

  12. סוג +1 • סוג -1 SVM – Support Vector Machine • נבחר את המישור המפריד הממקסם את השוליים • אינטואיטיבי ומראה הצלחה אמפירית בהרבה תחומים

  13. כיצד נעריך את הביצועים? • נשתמש במדדים הבאים: • דיוק – בכמה דוגמאות דייקנו בהערכה שלנו מתוך כל הדוגמאות: Accuracy = • רגישות – כמה דוגמאות חיוביות תפסנו מתוך כל החיוביות. Sensitivity= • ספציפיות – כמה דוגמאות שליליות תפסנו מתוך כל הדוגמאות Specificity=

  14. כיצד נבחן את תוצאות הלמידה • בעיה: אנו רוצים להשתמש במירב הידע המוקדם שיש לנו אך מצד שני אנו רוצים לבדוק את החיזוי שלנו על דוגמאות שלא למדנו בעזרתן • פתרון אפשרי, Leave-1-Out Cross Validation • נוציא מסט הדוגמאות שלנו דוגמא אחת (במקרה שלנו קומפלקס חלבוני) ונלמד על כל שאר הדוגמאות • נעריך את הביצועים על הדוגמא אותה הוצאנו • נחזור על התהליך עבור כל אחת מהדוגמאות

  15. נקודת הפתיחה • Dataset של מוטציות נקודתיות לאלאנין מ ProTherm: נתונים נסיונים על השינוי באנרגיה החופשית כתוצאה ממוטציה לאלאנין • שינוי של מעל 1 kcal/mol נחשב להרסני • הנתונים כוללים 18 קומפלקסים חלבוניים ובהן כ 220 מוטציות בממשק

  16. Will my mutation be Deleterious?

  17. Alanine Scanning

  18. הכנת הנתונים ל SVM • לכל מוטציה נכין וקטור עם התכונות הידועות לנו עליה: • הערכות מ Foldx • הערכות מ Rosetta • נתוני שמירות, עד כמה הח.א קבורה – כמה שכנים יש לה • ננרמל את הנתונים על בסיס תכונות (features)

  19. בתוכנית • רקע: • מוטיבציה • פונקציות אנרגיה • למידה • העולם אליו אני נכנס • שיטות • SVM • סריקה לאלאנין • הערכת ביצועים • ה Dataset שלי • תוצאות • ביצועים התחלתיים • ביצועים בעקבות RFE ואופטימיזציה • משקלים • מסקנות • צעדים להמשך

  20. Start Point - Accuracy

  21. Start Point - Accuracy

  22. Start Point

  23. SVM Performance

  24. Repeated Feature Elimination

  25. Final Weights (Normalized)

  26. Roc Curve TPR FPR לאיזה תוצאות הגענו? True/False Histogram

  27. מסקנות עד כה • ניתן להגיע לשיפור בחיזוי הרסניות המוטציה • סט הנתונים לא גדול ולכן קשה לעשות הערכת ביצועים טובה • השילוב בין features ממקורות שונים מוכיח את עצמו, לא כולם תורמים לפתרון הבעיה

  28. צעדים להמשך • ולדיציה: • הרחבת מאגר הנתונים • שימוש בשיטות ולידציה נוספות • אנליזת המודל: • ניתוח המשקלים שהתקבלו על מנת להבין את המרכיבים המשפיעים על האינטראקציה • אופטימיזציה נוספת של ה SVM: • בחינת שימוש בשיטות נוספות להורדת המימד

  29. תודות • אורה פורמן • ברק רווה ושאר קבוצתה של אורה • טומי קפלן • לכם על ההקשבה...

  30. לים...

  31. Backup

  32. Van der Waals Energy Term:Foldx vs. Rosetta Foldx Rosetta

More Related