320 likes | 489 Views
Will my mutation be deleterious?. Classifying point mutations at the protein interface by SVM, Rosetta and Foldx. Elad Mezuman Ora Furman. בתוכנית. רקע: מוטיבציה פונקציות אנרגיה למידה העולם אליו אני נכנס שיטות SVM סריקה לאלאנין הערכת ביצועים ה Dataset שלי תוצאות
E N D
Will my mutation be deleterious? Classifying point mutations at the protein interface by SVM, Rosetta and Foldx Elad Mezuman Ora Furman
בתוכנית • רקע: • מוטיבציה • פונקציות אנרגיה • למידה • העולם אליו אני נכנס • שיטות • SVM • סריקה לאלאנין • הערכת ביצועים • ה Dataset שלי • תוצאות • ביצועים התחלתיים • ביצועים בעקבות RFE ואופטימיזציה • משקלים • מסקנות • צעדים להמשך
קצת מוטיבציה! • שמענו כבר על החשיבות של האינטראקציות והבנת המבנה של קומפלקסים חלבונים • נרצה כלים לנתח את המבנה, אשר באמצעותם נוכל, למשל, למצוא את החומצות האמינו הקריטיות לקישור מוצלח בין החלבונים • ע"פ מספר מחקרים, רק מספר מצומצם של חומצות האמינו בממשק תורם משמעותית לאנרגיית הקישור החופשית שם
פונקצית אנרגיה • האנרגיה החופשית הינה מדד ליציבות החלבונים • קיימים מודלים כמותיים להערכת האנרגיה של קישור בין חלבונים • המודל הפשוט מתאר את אנרגית הקישור של שני חלבונים כצירוף ליניארי של פרמטרים שונים הלקוחים הן מכימיה פיזקלית והן מאנליזות סטטסטיות על חלבונים ידועים: • הפרמטרים כוללים למשל, כוחות משיכה (Eatr) ודחייה (Erep) קשרי מימן (Ehbnd) בין כל האטומים בממשק
שני יהודים שלוש דעות • אלגוריתמים חישוביים שונים, לדוגמא Foldx ו Rosetta, מציעים פונקציות אנרגיה שונות וחיזויים שונים, על אף שהמודל הפיזיקלי דומה (צירוף לינארי של מושגי אנרגיה)
כיצד הותאמו המשקלים בפונקצית האנרגיה? • לבעיות שונות הותאמו משקלים אופטימלים, על סמך נתונים ניסיוניים, למשל בשיטה הבאה: • ב Foldx בחרו לפתור את הבעיה ע"י ריצה על כל הערכים בין 0 ל 2 בקפיצות של 0.2 • ב Optimized Rosetta, בחרו לפתור את הבעיה באמצעות conjugated-gradient-base optimization methods
למידה לצורך הכרעה • אנו מחפשים פונקציה שבהינתן וקטור (= סט של תכונות) המתאר את המוטציה תיתן תשובה: "הרסנית" או "לא הרסנית" • על מנת ליצור את הפונקציה אנו נשתמש בידע מוקדם, ידע נסיוני, האם המוטציה הרסנית או לא
אם יש את התוכנות למה צריך אותי? • עובדה: התוכנות לא מספקות תוצאות מספיק טובות! (Accuracy: Foldx=65%, Rosetta=66%,Optimized Rosetta=71%) • שילוב בין התוכנות והוספת ידע נוסף • בנית פתרון ספציפי לשאלה שלנו • מעבר לבעיית הכרעה מבעיית רגרסיה (הסבר בהמשך) • שימוש בכלים חישוביים מתקדמים
בתוכנית • רקע: • מוטיבציה • פונקציות אנרגיה • למידה • העולם אליו אני נכנס • שיטות • SVM • סריקה לאלאנין • הערכת ביצועים • ה Dataset שלי • תוצאות • ביצועים התחלתיים • ביצועים בעקבות RFE ואופטימיזציה • משקלים • מסקנות • צעדים להמשך
סוג +1 • סוג -1 מישור מפריד • אנו מחפשים מישור מפריד (נשים לב שמישור מפריד הוא סט משקולות) • אבל איזה מישור מפריד נבחר ?
סוג +1 • סוג -1 SVM – Support Vector Machine • נבחר את המישור המפריד הממקסם את השוליים • אינטואיטיבי ומראה הצלחה אמפירית בהרבה תחומים
כיצד נעריך את הביצועים? • נשתמש במדדים הבאים: • דיוק – בכמה דוגמאות דייקנו בהערכה שלנו מתוך כל הדוגמאות: Accuracy = • רגישות – כמה דוגמאות חיוביות תפסנו מתוך כל החיוביות. Sensitivity= • ספציפיות – כמה דוגמאות שליליות תפסנו מתוך כל הדוגמאות Specificity=
כיצד נבחן את תוצאות הלמידה • בעיה: אנו רוצים להשתמש במירב הידע המוקדם שיש לנו אך מצד שני אנו רוצים לבדוק את החיזוי שלנו על דוגמאות שלא למדנו בעזרתן • פתרון אפשרי, Leave-1-Out Cross Validation • נוציא מסט הדוגמאות שלנו דוגמא אחת (במקרה שלנו קומפלקס חלבוני) ונלמד על כל שאר הדוגמאות • נעריך את הביצועים על הדוגמא אותה הוצאנו • נחזור על התהליך עבור כל אחת מהדוגמאות
נקודת הפתיחה • Dataset של מוטציות נקודתיות לאלאנין מ ProTherm: נתונים נסיונים על השינוי באנרגיה החופשית כתוצאה ממוטציה לאלאנין • שינוי של מעל 1 kcal/mol נחשב להרסני • הנתונים כוללים 18 קומפלקסים חלבוניים ובהן כ 220 מוטציות בממשק
הכנת הנתונים ל SVM • לכל מוטציה נכין וקטור עם התכונות הידועות לנו עליה: • הערכות מ Foldx • הערכות מ Rosetta • נתוני שמירות, עד כמה הח.א קבורה – כמה שכנים יש לה • ננרמל את הנתונים על בסיס תכונות (features)
בתוכנית • רקע: • מוטיבציה • פונקציות אנרגיה • למידה • העולם אליו אני נכנס • שיטות • SVM • סריקה לאלאנין • הערכת ביצועים • ה Dataset שלי • תוצאות • ביצועים התחלתיים • ביצועים בעקבות RFE ואופטימיזציה • משקלים • מסקנות • צעדים להמשך
Roc Curve TPR FPR לאיזה תוצאות הגענו? True/False Histogram
מסקנות עד כה • ניתן להגיע לשיפור בחיזוי הרסניות המוטציה • סט הנתונים לא גדול ולכן קשה לעשות הערכת ביצועים טובה • השילוב בין features ממקורות שונים מוכיח את עצמו, לא כולם תורמים לפתרון הבעיה
צעדים להמשך • ולדיציה: • הרחבת מאגר הנתונים • שימוש בשיטות ולידציה נוספות • אנליזת המודל: • ניתוח המשקלים שהתקבלו על מנת להבין את המרכיבים המשפיעים על האינטראקציה • אופטימיזציה נוספת של ה SVM: • בחינת שימוש בשיטות נוספות להורדת המימד
תודות • אורה פורמן • ברק רווה ושאר קבוצתה של אורה • טומי קפלן • לכם על ההקשבה...
Van der Waals Energy Term:Foldx vs. Rosetta Foldx Rosetta