220 likes | 388 Views
בנית עצים פילוגנטיים מיון- Taxonomy ( , 18 th century Linnaeus ( ובנית עצים פילוגנטיים Haeckel, 19th century , הם עיסוקים ביולוגיים עתיקי יומין. הנושא קיבל תנופה חדשה כאשר נוצרה היכולת לגשת לרצפים ביולוגיים DNA) ו חלבונים) ולבצע את המיון ובנית העצים לפי הרצפים. בנית עצים פילוגנטיים
E N D
בנית עצים פילוגנטיים מיון-Taxonomy (, 18th century Linnaeus( ובנית עצים פילוגנטיים Haeckel, 19th century,הם עיסוקים ביולוגיים עתיקי יומין. הנושא קיבל תנופה חדשה כאשר נוצרה היכולת לגשת לרצפים ביולוגיים DNA) ו חלבונים) ולבצע את המיון ובנית העצים לפי הרצפים.
בנית עצים פילוגנטיים אינטואיטיבית כאשר נתונים רצפים אפשר לשחזר את ה"היסטוריה" שלהם. STASPL SWAMPL SWASPL CWASPL SWASPV STASPL SWAMPL SWASPV SWASPL CWASPL
בנית עצים פילוגנטיים בדרך כלל יש לנו רק את הרצפים ה"נוכחים" , הרצפים ה"קדומים" לא ידועים נניח שמדובר בתהליך שבו קרו רק פיצולים לשניים, כלומר מדובר בבניית עץבינארי. ATGGA AGGGA CCGTC TCGTC ATGGA AGGGA CCGTC TCGTC 1 1 1 1 ACGGA ACGTC 1 1 ACGTA סך הכל 6 שינויים
בנית העץ הפילוגנטי ה"אמיתי" הגדרה בלתי אפשרית. אפשר לדבר על בנית העץ הפילוגנטי האופטימלי (למעשה "הסביר ביותר") מדובר בבעיה קשה הן מבחינה ההגדרה מהו עץ אופטימלי והן בהנתן הגדרה, איך לחשב את העץ האופטימלי קיימות שלוש שיטות עיקריות (ועשרות תוכניות שממשות אותן) ::::::
בנית העץ הפילוגנטי האופטימלי Distance methods Maximum Parsimony Maximal Likelihood
שיטות מרחקים 10 אנחנו רוצים לבנות עץ שהמרחק לאורך העץ בין העלים המייצגים את הרצפים (כלומר סכום המשקל של הענפים המחברים ביניהם) ישקף את מרחק העריכה בין הרצפים. 10 10 12 9 5 A B 6 4 C D E בדרך כלל בלתי אפשרי לבנות עץ עם מרחקים שישחזר את מרחקי העריכה (כמו למשל עבור הטבלה המוצגת) אבל השאיפה היא לנסות לבנות עץ שיהיה קרובככל האפשר A B C D A -- 8 10 12 B -- 3 2 C -- 4 D --
F G שיטות מרחק :שיטת Fitch-Margoliash בנסיבות מסוימות: כאשר מתקיים שכל ארבעה רצפים a,b,c,d ניתן לסדר כך ש Dab+Dcd ≤ Dac+Dbd = Dad+Dbc 22 +18 < 39 + 41 = 41 + 39 ניתן לבנות באלגוריתם יעיל עץ שסכום אורך הקשתות בין כל שני רצפים יהיה זהה למרחקבינהם
מתחילים מזוג כלשהו מוסיפים צומת נוספת ופותרים מערכת של שלושה נעלמים
נוסיף את D ונחשב שוב את המרחקים יחסית לקו בין B ו C
ננסה להוסיף את E לקו בין A ל B והפעם ניתקל בבעיה פתרון זה מחייב פיצול בנקודה פיצול קיימת, כלומר עץ לא בינארי שאינו חוקי
ולכן ננסה להוסיף את E לקו בין B ל C והפעם אין בבעיה קיבלנו עץ שעומד בכל התנאים
למרבה הצער, תנאי ה אדיטיביות כמעטתמיד איננו מתקיים. בכל אופן שיטות המרחק מנסות לבנות עץ שהמרחקים עליויהיו דומים למרחק זוגות הרצפים
שיטות מרחק : Neighbor-Joining UPGMA: Unweighted Pair Group Method with Arithmetic Mean 6.17 4.25 3.5 יתרונות: פשוט ומהיר חסרונות: לא מדויק, בין השאר מניח קצב שינוי קבוע (Fixed Molecular Clock )
PARSIMONY : "חסכנות" מצא את העץ שמספר השינויים שהוא מייצג ע"מ להסביר את כל הרצפים הוא מינימלי כרגיל מורכב משתי בעיות: בהינתן עץ מצא את "מחירו" כלומר מספר (וסוג) השינויים – קל מצא את העץ עם המחיר המינימלי -- מאד קשה למשל מספר העצים:
על מנת למצוא את העץ "החסכני" ביותר בצע התאמת מרובת רצפים: הנח שהעמדות בלתי תלויות: חפש את העמדות המשמעותיות ((INFORMATIVE למשל: עמדות לא משמעותיות: כל האותיות זהות, כל האותיות שונות, רק אות אחת שונה התחל מעץ ראשוני וחשב את מחירו (סכום מספר השינויים שהעץ משרה בכל עמדה) השתמש באלגוריתם חיפוש יעיל (למשל BRANCH AND BOUND ) על מנת למצוא את העץ החסכני ביותר יתרונות: זמן חישוב סביר חסרונות: מחייב התאמה מרובת רצפים ומתבסס עליה מניח אי-תלות בין עמדות מניח "שעון מולקולרי" קבוע
דוגמא: נבצע התאמה מרובת מחרוזות ונסתכל בעמודות האינפורמטיביות
מספר השינויים הנדרש בכל עץ 4 5 6 ולכן נבחר בעץ A
סבירות מקסימלית Maximal Likelihood שיטה די דומה ל Parsimony אבל בוחרים לא בעץ עם מספר השינויים המינימלי אלא את העץ עם הסבירות המקסימלית. כלומר לא מניחים שמלכתחילה כל העצים אפשריים בהסתברות שווה, אלא מעריכים מהי ההסתברות א-פריורית לכל עץ, ולאור זאת בוחרים את העץ הסביר ביותר. יתרונות: נחשב למדויק ואמין יותר חסרונות: מורכב ויקר לחישוב
חישוב הנראות מבוצע באופן הבא: L = 0.3 x 1x1x1x 0.1x 0.2 x1 = 0.006 א1 L = 0.2 x 0.1 x1x1x1x1x 0.2 = 0.004 א2 …… …… ……. . ונסכם L = 0.006 + 0.004 = 0.01
Traditional Molecular Human Human Chimp Chimp Gorilla Gorilla Orangutan Orangutan Gibbon Gibbon