800 likes | 1.17k Views
סמינר במדעי המחשב מס' 5 סמסטר אביב תשס"ז. צימוד שכנים על ידי מרחקי LCA. Neighbor Joining Algorithms for Inferring Phylogenies via LCA-Distances. I. Gronau and S. Moran , 2007. מציגים : רביב ויניק גילי מיתקי. מבנה ההרצאה. מציג: רביב ויניק. רקע ומושגים
E N D
סמינר במדעי המחשב מס' 5 סמסטר אביב תשס"ז צימוד שכנים על ידי מרחקי LCA Neighbor Joining Algorithms for Inferring Phylogenies via LCA-Distances I. Gronau and S. Moran , 2007 מציגים : רביב ויניק גילי מיתקי
מבנה ההרצאה מציג: רביב ויניק רקע ומושגים מטריצת LCA ומרחקי LCA הצגת האלגוריתם DLCA הכללי דוגמת הרצה והוכחת נכונות האלגוריתם. שעה ראשונה שעה שנייה מציג: גילי מיתקי ניתוח מימוש האלגוריתם אופטימאליות האלגוריתם דיון ומסקנות
רקע שיטות בנייה פילוגנטיות מנסות למצוא את האבולוציה ההיסטורית של קבוצה נתונים של זנים. היסטוריה זו מתוארת ע"י עץ עם קשתות ממושקלות שצמתיו הפנימיים מייצגים אירועי עבר באותו מין (מדובר במינים נכחדים). העלים בו מתאימים לקבוצה של אותו זן. השינוי האבולוציוני בין שני זנים מיוצג ע"י המשקל של הקשת שמחברת ביניהם. הטופולוגיה של העץ יוצרת עץ בינארי.
קשת פנימית צומת פנימית עלה הגדרות תהי S קבוצה של זנים. עץ פילוגנטי מעל הקבוצה S הוא עץ ממושקל ולא מכוון . הקשתות הם בעלי משקולת חיובית. העלים בעץ T הוא האלמנטים של הקבוצה S. קשת היא חיצונית אם היא מסתיימת בעלה, ופנימית אחרת. קשת חיצונית
באופן פורמלי : תהא S קבוצה כלשהי. פונקציה תיקרא מטריקה כאשר היא מקיימת את שלוש התכונות הבאות עבור כל : מטריקה מטריקה היא פונקציה שמתאימה לכל זוג מאברי הקבוצה מספר ממשי, המסמל את המרחק בין שני האיברים.
X Y a b e c d מושגים שנשתמש בהם : אדיטיביות מטריקת מרחקים שמייצגת מרחקים בין צמתים בעץ היא אדיטיבית. Ultrametricity עץ Ultrametricity: כל העלים הם במרחק שווה מהשורש. a = b + c + d + e מטריקה Ultrametricity: מטריקה אדיטיבית שקונסיסטנטית עם עץ Ultrametricity.
מושגים שנשתמש בהם - המשך : Distance matrices Additive matrices Ultrametric matrices קונסיסטנטיות אלגוריתמים לבניית עצים פילוגנטיים שמקבלים כקלט מטריצת מרחקים הם קונסיסטנטיים אם בהינתן מטריצת מרחקים אדיטיבית כלשהי הם מחזירים עץ שזוהי המטריצת מרחקים שמתארת אותו.
אלגוריתמים לבניית עצי אבולוציה אלגוריתמים לבניית עצי אבולוציה המבוססים על מרחק טכניקות פילוגנטיות שמבוססות על מרחק מנסות לבנות את עץ האבולוציה מזוגות של מרחקים בין הזנים השונים . מטריקת מרחקים שמזוהה עםעץ מרחקים היא אדיטיבית. בהרצאה נתמקד בשיטת לבניית עצי אבולוציה שמשתמשים בשיטת צימוד השכנים ומבוססים על מרחקי LCA .
צימוד שכנים - Neighbor joining אחת מטכניקות הבנייה הפופולאריות ביותר היא צימוד שכנים. צימוד שכנים היא טכניקת איחוד צבירים שבה שני שכנים מאוחדים לצביר אחד.הצביר החדש מחליף אותם בקבוצת האלמנטים ותהליך יצירת הצבירים ממשיך באופן רקורסיבית על קבוצת האלמנטים החדשה. קריטריון איחוד השכנים הפשוט ביותר הוא "הזוג הקרוב ביותר" ונעשה בו שימוש באלגוריתמים רבים. למשל : UPGMA,WPGMA.single kinkage algorithm עבור עצים כללים קריטריון זה אינו קונסיסטנטי אך עבור עציםultramatric, הוא כן קונסיסטנטי.
צימוד שכנים–המשך(Neighbor joining) אלגוריתמים של צימוד שכנים פועלים על עצים כללים ובכל זאת מבטיחים בנייה קונסיסטנטית של העץ משתמשים בקריטריון מסובך יותר לצימוד שכנים – דבר המגדיל משמעותית את סיבוכיות הזמן ריצה. אז משחזרים עצים פילוגנטיים עבור עצים שאינם ultramatricים ? נפתור את בעיית בניית העץ הכללי ע"י רדוקציה לבניית עץ שהוא ultramatric ע"י שימוש בטרנספורמציית Farris.
בהינתן מטריצת מרחקים D, זן r וערך כלשהוא ,טרנספורמצית Farris יוצרת מטריצת מרחקים חדשה U שמקיימת : טרנספורמציית Farris טרנספורמצית Farris ממירה כל מטריקה אדיטיבית למטריקה ultramatric ושומרת על הטופולוגיה של העץ. אם D היא אדיטיבית (וקונסיסטנטית עם עץ T) אז U היא קונסיסטנטית עם עץ ultrametric שנשיג אותו ע"י הארכת הקשתות החיצוניות של העץ T: הקוים המקוטעים מייצגים קשתות שהוארכו לאחר שימוש בטרנספורמציה ניתן להשתמש שמתאימה לעצים שהם ultramatric ולקבל עץ שהוא קונסיסטנטי עם המטריקה. יש צורך לשחזר את המשקלים של הקשתות של העץ שאותו אנו משחזרים .
הטכניקה החדשנית שמוצגת לבניית העץ הפילוגנטי במאמר מוצגת טכניקה אלטרנטיבית שבה נשחזר עצים שאינם ultramatric . העץ יבנה באופן ישיר ללא השימוש בטרנספורמציה וללא יצירת עץ ביניים שהוא ultramatric. הטכניקה תשתמש במרחקים לאבות הקדמונים המשותפים לזוגות צמתים שרחוקים ביותר מהשורש.. מרחקים אלו יקראו מרחקי LCA = Least Common Ancestors. גישה זו מאפשרת הוכחה של תכונות חוזק מסוימות שחזקים יותר מתכונת הקונסיסטנטיות.
הטכניקה החדשנית שמוצגת לבניית העץ הפילוגנטי - המשך קונסיסטנטיות מבטיחה בנייה נכונה כאשר המרחקים הנתונים מדויקים. אך בפועל המרחקים שנקבל אינם מדויקים ומטריקת המרחקים שעל פיה יבנה העץ היא אדיטיבית בחלק קטן של המיקרים. מטריצת הקלט שאינה מדויקת היא גרסה רעשנית של מטריצה אדיטיבית. שיטות בנייה מבוססי מרחקים צריכים להיות חזקים בפני רעש. חוזק של אלגוריתמים לרעש נמדד ע"י כמות הרעש שתחתיו מובטחת עדיין בנייה של העץ בטופולוגיה נכונה.
החוזק של האלגוריתם מתבטא ביכולת לבנות את הטופולוגיה הנכונה ע"י קלט שהוא כמעט אדיטיבי. המטריצה D היא כמעט אדיבית ביחס לקשתות ממושקלות של עץ T (שמשרה מטריצה אדיטיבית שנסמן אותה ) אם מתקיים : רעש ו"מטריקה כמעט אדיטיביות" (Atteson,1999) הטופולוגיה של העץT נקבעת ע"יהמטריצה D שהיא כמעט אדיטיבית. T היא גם Quartet consistency.
תהי D מטריצת מרחקים אזי : D היא קונסיסטנטית עם רביעייה (ij : kl) אם: הגדרה 1.1– רביעייה קונסיסטנטית(Quartet consistency). D היא רביעייה קונסיסטנטית עם עץ T כלשהו אם היא קונסיסטנטית עם כל הגדרות הרביעייה המושרות ע"י T. כאשר הקלט אינו קונסיסטנטי עם עץ כלשהוא , הוא עדיין יכול להיות קונסיסטנטי עם קשתות מסוימות של העץ . בהקשר זה, קשת מוגדרת עם הפיצול שהוא משרה מעל קבוצת זנים ופיצול מרומז ע"י המטריצה D. אם D קונסיסטנטי עם כל ההגדרות.
Atteson הציג (1999) את המושגים : קשתות , המושגים מקנים לנו הערכה מספרית לרעש של מטריצת הקלט. ה של אלגוריתם שיחזור A הוא הערך כך שלכל מטריצת המרחקים D ועץ T מתקיים שאם אז מובטח שכאשר האלגוריתם A יקבל את מטריצת המרחקים D הוא יחזיר עץ עם אותה טופולוגיה כמו העץ T. לאלגוריתם A יש קשתות בגודל אם לכל מטריצת מרחקים D ועץ T,A משחזר את כל הקשתות ב T שהם בעלי משקל גדול יותר מאשר . ה קשתות של אלגוריתם חסום מלמעלה ע"י ה והוכח ששניהם אינם גדולים מ 0.5. ולכן אלגוריתם שמבטיח בנייה קונסיסטנטית ממטריצה מרחקים שהיא כמעט אדיטיבית הוא בעל אופטימלי של 0.5. רעש
סקירת המחקר בתחום בנייה קונסיסטנטית של עצים פילוגנטיים הוא נושא שנחקר החל מראשית שנות ה 70. Buneman 1971 Sattath and Tversky 1977 Water,am 1977 באופן כללי זוהי משומה שדורשת סיבוכיות זמן של וסיבוכיות של עבור מקרה מיוחד של עצים בעלי טופולוגיה של fully resolved. כזכור n מייצג את מספר הזנים. אלגוריתמים בסיבוכיות זמן ריצה של ו עבור המקרה המיוחד הוצגו בסוף שנות ה 70. האלגוריתמים עבור המקרה המיוחד הוצגו שני עשורים מאוחר יותר.
סכמת צימוד השכנים הוצגה לראשונה ב 1977 ע"י בהקשר של בניות שמבוססות על מרחק עקבי. באלגוריתם ADDTREE שסיבוכיותו . (Sattath , Tversky) בשנות ה 80 הוצג אלגוריתם צימוד השכנים הקרוי NJ שסיבוכיותו . (Saitou, Nei, Studier, Kepller). סקירת המחקר בתחום - המשך מאז מספר רב של אלגוריתמים פותחו במטרה לשפר את הביצועים של אלגוריתם NJ על קלט של מטריצת שמכילה רעש. דוגמאות לאלגוריתמים כאלה : BIONJ, Gascuel 1997 NJML, Ota and Li 2000 Weighbor, Bruno, 2000
מרחק זה נמדד ע"י שימוש בערך הנורמה של המטריצה.לצערנו, בעיית מציאת העץ שקרוב ביותר למטריצת הקלט הוא בעיה NP קשה עבור נורמות מסוימות. הדרך היחידה לשערך הוא האלגוריתם 3-approximation עבור הנורמה . אלגוריתם זה משתמש בטרנספורמצית Farris ואלגוריתם למציאת המטריצה ה ultrametric הקרובה ביותר למטריצה נתונה. סקירת המחקר בתחום - המשך השיפור באלגוריתמים לא הוכח באופן אנליטי אלא הודגם באמצעות סמולצית ריצה על תהליך אבוליציוני. אחת הדרכים שבה ניתן באופן אנליטי לנתח את הביצועים של אלגוריתם בנייה מבוסס על מרחק על קלט שאינו אדיטיבי הוא ע"י התבוננות במרחק בין מטריצת הקלט ומטריצת שמושרת ע"י עץ הפלט.
סקירת המחקר בתחום - המשך אינדיקציה נוספת לעמידות לרעש היא ה - radius . עמידות לרעש מתבטאת ביכולת לבנות טופולוגיה נכונה של עץ פילוגנטי בהינתן מטריצה שהיא רעשנית והדבר אפשרי עבור מטריצה שהיא שכמעט אדיטיבית. הממצאים שמהם מורכבת מטריצת המרחקים אינם מדויקים לחלוטין, והמטריצות הם לרוב לא אדיטיביות, אך הן כמעט אדיטיביות בהסתברות גבוהה. Atteson הראה שאלגוריתמים לשחזור עצים המבוססים על מרחקים Radius של 0.5, כלומר הם מחזירים את הטופולוגיה הנכונה בהינתן קלט שהוא כמעט אדיטיבי.
DCLA = Deepest Least Common Ancestor במאמר מוצג אפיון של מטריקות עץ ע"י מרחקי LCA. אלו הם מרחקים משורש שמייצג זן לאב הקדמון המשותף הרחוק ביותר מהשורש , עבור כל זוגות הזנים. השימוש במרחקי LCA מאפשר לשחזר עצים כללים ולא רק עצים שהם ULTRAMETRIC. נציג קריטריון צימוד שכנים פשוט שיוצר למעשה משפחה של אלגוריתמים יעילים שנקראת DCLA. Deepest Least Common Ancestor משפחה זו של אלגוריתמים היא למעשה מימוש ישיר של טרנספורמציית Farris. משתמשים במרחקי LCA שאותם מחשבים מהמטריקה המקורית במקום ביצוע טרנספורמציה למטריקת ULTRAMETRIC ובניית העץ ממנה.
DCLA = Deepest Least Common Ancestor משפחה זו של אלגוריתמים מאפשרת מגוון רחב של אלגוריתמים לבנייה קונסיסטנטית. ההבדל בין כל אחד מהאלגוריתמים במשפחה זו הוא בצורה שבה הוא מצמצם את מטריצת הפלט בכל צעד. לאלגוריתמים אלו יש סיבוכיות זמן ריצה אופטימלית של כאשר אנו משתמשים בטכניקה חדשנית . טכניקה זו מאפשרת סיבוכיות זו גם לאלגוריתמי UPGMA,WPGMA ואלגוריתמי צביר אחרים. במהלך ההרצאה נתמקד בתת משפחה גדולה של משפחת ה DLCA שקרויה : Conservative algorithms. בכל האלגוריתמים בתת משפחה זו יתכנו שינויים משמעותיים בביצועי הריצה על אף שלכולם מובטחת אחידות בבנייה עצמה.
הגדרות המרחק בעץ בין צומת i לצומת j המרחק בעץ בין צומת r לצומת הקרובה ביותר אליו שנמצאת במסלול בין i ל j – זהו למעשה מרחק LCA הצומת המרכזית היא האב הקדמון הרחוק של הצמתים i ו j ביותר מהשורש. באיור המוצג זוהי הצומת v .
בהינתן עץ T עם קשתות ממושקלים מעל קבוצת זמנים S ובהינתן זן , היא מטריצה מעל שיש בה את כל מרחקי ה LCA בעץ T מהשורש r ומתקיים: . דרכים לשערך מרחקי LCA : א. לחשב אותם ממטריצת מרחקים D ע"י טרנספורמציה . טרנספורמציה זו היא קונסטינטנטית כך שאם D היא מטריקה אדיטיבית קונסיסטנטית עם עץ T אז מתקיים: . הגדרה 2.1 בהינתן מטריצת מרחקים D מעל קבוצת זנים S וזן ,אזי : היא המטריצה מעל שמוגדרת באופן הבא: DCLA = Deepest Least Common Ancestor
DCLA = Deepest Least Common Ancestor דרכים לשערך מרחקי LCA – המשך ב. הדרך השנייה שבה ניתן לשערך מרחקי LCA הנא באופן ישיר מרצפי הזנים ע"י יישום של טכניקות מקסימום מעל שלשות של רצפים. מחקרים שנעשו הראו שמרחקים ששוערכו באופן ישיר מרצפים של שלשות נוטים להיות יותר מדויקים מאשר אלו ששוערכו ע"י רצפים של זוגות. שיערוך מרחקים מדויק יותר מוביל לבניית עץ באופן מדויק יותר.
עבור כל הזנים (לכל ) מתקיים כי : . 2. עבור כל שלשה של זנים (i,j,k) מתוך הקבוצה S מתקיים כי: נקרא לתכונה זו תנאי שלושת הנקודות. ניתן לנסח את התנאי השני באופן הבא: כל שלושה איברים במטריצה L מהצורה: מקיימים כי הערך המינימאלי מופיעה לכל הפחות פעמיים. הגדרה 2.2 מטריצת - LCAמסומנת מטריצה סימטרית ואי שלילית L מעל קבוצה S היא מטריצת LCA אם היא מספקת את הדרישות הבאות : L:
היא הצומת המרכזית.V ומתקיים בה כי : אחרת, i נימצא בזוג עם r כפי שניתן לראות ומתקיים : מטריצת LCA - המשך תנאי שלושת הנקודות עבור מרחקי LCA
תנאי סיום: אם החזר עץ שמכיל קשת אחת במשקל W שמחברת את השורש r לזן יחיד ב S . 2. בחירת שכנים: בחר זוג של זנים i,j כך שמתקיים כי היא הכניסה המקסימאלית שאינה אלכסונית בשורות i,j במטריצה L. 3. צמצום הקבוצה: הסר את הזנים i,j מ S והוסף איבר חדש שיקרא v ל S במקומם. קבע כי : עבור כל , קבע: הפעל את האלגוריתם באופן רקורסיבי על המטריצה המצומצמת L. 4. צימוד שכנים: בעץ שמוחזר, הוסף את i,j בתור בנים של v עם המשקלים הבאים: אלגוריתם – DLCA מימוש גנרי Deepest LCA Joinng קלט: מטריצה סימטרית אי שלילית L מעל קבוצה של זנים S.
E 1 דוגמא ניקח עץ בעל קשתות ממושקלים. העלים מדמים עבורנו את קבוצת הזנים S שכוללת 5 זנים: S = {A,B,C,D,E} הקשתות הממושקלות את המרחק האבולוציוני בין הזנים. נבחר את E להיות השורש של העץ. זוהי מטריצת המרחקים שמתאימה לעץ. כל איבר במטריצה מייצג את המרחק בין שני זנים.
E 1 A D 3 K1 K2 8 5 1 3 C B דוגמא - המשך E 1 אלגוריתמים אחרים אותם ראינו בסמינר, למשל ה NJ, משחזרים את העץ הפילוגנטי ממטריצת המרחקים . אנו ראשית נבנה מטריצת LCA וממנה נשחזר את העץ.
L(A,A) = ( D(r,A) + D(r,A) – D(A,A )) = (7+7-0) = 7 דוגמא - המשך נחשב את מטריצת מרחקי ה LCA ממטריצת המרחקים D. באותו אופן נחשב גם את שאר אברי האלכסון במטריצה. D: L:
דוגמא – המשך (חישובים) חישוב מטריצת מרחקי ה LCA - המשך. L(A,B) = (7+9-8) = 4 ( D(E,A) + D(E,B) – D(A,B )) = L(A,C) = ( D(E,A) + D(E,C) – D(A,C )) = (7+6-7) = 3 L(A,D) = ( D(E,A) + D(E,D) – D(A,D )) = (7+7-12) = 1 L(B,C) = ( D(E,B) + D(E,C) – D(B,C )) = (9+6-9) = 3 L(B,D) = (9+7-14) = 1 ( D(E,B) + D(E,D) – D(B,D )) = (6+7-11) = 1 L(C,D) = ( D(E,C) + D(E,D) – D(C,D )) =
דוגמא - המשך חישוב מטריצת מרחקי ה LCA - המשך. לאחר סיום החישובים נקבל את מטריצת ה LCA הבאה : D: L:
E 1 דוגמא - המשך נסביר כיצד מתאימה מטריצת ה LCA לעץ המקורי L: L(A,A) = 7 ואכן המרחק בין השורש לאב הקדמון המשותף של העלים A ו A הקרוב ביותר אליהם הוא למעשה המרחק בין השורש לעלה A שהוא אכן 7 . L(A,B) = 4 ואכן המרחק בין השורש לאב הקדמון המשותף של העלים A ו B הקרוב ביותר אליהם הוא 4.
2. בחירת שכנים: בחר זוג של זנים i,j כך שמתקיים כי היא הכניסה הלא אלכסונית המקסימאלית בשורות i,j במטריצה L. S: {A, B, C, D } אלגוריתם – DLCA דוגמת הרצה L: נתחיל בהרצת האלגוריתם כאשר מטריצת הקלט L היא מטריצת ה LCA שיצרנו במהלך החישובים. נבחר את הזוג: B,A 3. צמצום הקבוצה: הסר את הזנים i,j מ S והוסף את v ל S. S: { C, D } נגדיר איבר חדש שנוסיף לקבוצה S שיקרא AB S: { AB,C, D } לשם קיצור נקרא לאיבר החדש שהוספנו V
אלגוריתם – DLCA דוגמת הרצה - המשך המשך: L: L1: קבע כי : L(AB,AB) = 4 עבור כל קבע:
הערה: ההבדלים בין הגרסאות השונות של אלגוריתם DLCA הוא באופן שבו מחושב בצעד מס' 3 באלגוריתם. אופן החישוב יכול להיות תלוי במטריצה L, באיברים I,j,kאו בכל מידע אחר שנשמר ע"י האלג'. 3. הפחתת הקבוצה: הסר את הזנים i,j מ S והוסף את v ל S. קבע כי : עבור כל , קבע: אלגוריתם – DLCA מימוש גנרי - הערה Deepest LCA Joinng
נבחר את ערכו של להיות חצי – ונקבל : L(AB,C) = ( D(A,C) + D(B,C)) = (3+3) = 3 אלגוריתם – DLCA דוגמת הרצה - המשך המשך: לצורך הרצת הדוגמא נבחר באחת שבהם נעשה שימוש. Mid point L: L1: L:
אלגוריתם – DLCA דוגמת הרצה - המשך המשך: באותו אופן נחשב את יתר ערכי המטריצה המצומצמת שיש לחשבם. L(AB,D) = ( D(A,D) + D(B,D)) = (1+1) = 1 L: L1:
תנאי סיום: אם החזר עץ שמכיל קשת אחת במשקל W שמחברת את השורש r לזן יחיד ב S . 2. בחירת שכנים: בחר זוג של זנים i,j כך שמתקיים כי היא הכניסה הלא אלכסונית המקסימאלית בשורות i,j במטריצה L. אלגוריתם – DLCA דוגמת הרצה - המשך המשך: הפעל את האלגוריתם באופן רקורסיבי על המטריצה המצומצמת L. נבחר את הזוג: C,AB S: {AB, C, D } 3. צמצום הקבוצה: הסר את הזנים i,j מ S והוסף את v ל S. S: {ABC, D } L1: L2:
L(V,D) = ( D(AB,D) + D(C,D)) = (1+1) = 1 אלגוריתם – DLCA דוגמת הרצה - המשך המשך: קבע כי : L(ABC,ABC) = 3 עבור כל קבע: L1: L2:
תנאי סיום: אם החזר עץ שמכיל קשת אחת במשקל W שמחברת את השורש r לזן יחיד ב S . 2. בחירת שכנים: בחר זוג של זנים i,j כך שמתקיים כי היא הכניסה הלא אלכסונית המקסימאלית בשורות i,j במטריצה L. המשך: הפעל את האלגוריתם באופן רקורסיבי על המטריצה המצומצמת L. L2: L3: נבחר את הזוג: D,ABC S: {ABC, D } 3. צמצום הקבוצה: הסר את הזנים i,j מ S והוסף את v ל S. S: {ABCD } לשם קיצור נקרא לאיבר החדש שהוספנו V קבע כי : L(ABCD,ABCD) = 1 הפעל את האלגוריתם באופן רקורסיבי על המטריצה המצומצמת L.
E • תנאי סיום: אם החזר עץ שמכיל קשת אחת במשקל W שמחברת את השורש r לזן יחיד ב S . 1 ABCD 2 6 4. צימוד שכנים: בעץ שמוחזר, הוסף את i,j בתור בנים של v עם המשקלים הבאים: ABC D המשך: L3: שורש 1 ABCD L2: W(ABCD,ABC) = max{0, L(ABC,ABC)-L(ABC,D) } = 2 W(ABCD,D) = max{0, L(D,D)-L(ABC,D) } = 6
AB C A B המשך: E 1 L1: ABCD 2 6 ABC W(ABC,AB) = max{0, L(AB,AB)-L(AB,C) } = 1 D 1 3 W(ABC,C) = max{0, L(C,C)-L(ABC,C) } = 3 5 3 W(AB,A) = max{0, L(A,A)-L(A,B) } = 3 W(AB,B) = max{0, L(B,B)-L(A,B) } = 5
3 1 5 3 AB A B C המשך:האם קיבלנו את אותו עץ שניסינו לשחזר ? E 1 ABCD 2 6 E ABC ? 1 D
המשך:האם קיבלנו את אותו עץ שניסינו לשחזר ? A 3 AB 1 ABC 5 2 E 1 3 B 1 E ABCD כן !! 6 C D
עבור כל הזנים (לכל ) מתקיים כי : . 2. כל שלושה איברים במטריצה L מהצורה: מקיימים כי הערך המינימאלי מופיעה לכל הפחות פעמיים. משפט 2.3 : מטריצה אי שלילית L מעל קבוצת זנים S היא מטריצת LCA אמ"מ קיים עץ T עם קשתות ממושקלות מעל הקבוצה כך שמתקיים כי: הוכחה : בהינתן עץ פילוגנטי T עם קשתות ממושקלות מעל הקבוצה כך שמתקיים : אז L היא מטריצת LCA. כלומר, עלינו להראות כי L מקיימת את התנאים הבאים :
אזי ברור על פי הגדרה שמתקיים: . • עבור כל הזנים (לכל ) מתקיים כי : . נתבונן בתת העץ הנפרש ע"י r,i,j,k. אם הטופולוגיה שלו היא : אז מתקיים: 2. כל שלושה איברים במטריצה L מהצורה: מקיימים כי הערך המינימאלי מופיעה לכל הפחות פעמיים. הוכחת משפט 2.3 נניח ש T הוא עץ ממושקל מעל קבוצת זנים ומתקיים: . נראה כי מתקיימות 2 התכונות של מטריצת LCA: והמינימום מופיע ב שלושה פעמים.
אם i נמצא יחד עם r ברבעיה אז מתקיים כי: וערך המינימום מופיעה פעמיים ב . הוכחת משפט 2.3 – המשך ניתן לומר זאת גם לגביי שתי האפשרויות הטופולוגיות האחרות של תת עץ זה ובכך לספק את תכונה מס' 2 .
כל שלושה איברים במטריצה L מהצורה: מקיימים כי הערך המינימאלי מופיעה לכל הפחות פעמיים. הוכחת משפט 2.3 - המשך בהינתן מטריצה L שידוע שהיא מטריצת LCA נראה שכל וריאנט של האלגוריתם ה DLCA הגנרישתואר, יוצא עץ שמקיים . האלגוריתם מחזיר עץ ששורשו r והעלים שלו הם האיברים בקבוצה S. נוכיח באינדוקציה על מס' האיברים בקבוצה S שהעץ שהוחזר קונסיסטנטי עם מטריצת ה LCA. בסיס : , ועל פי תנאי העצירה נקבל . את צעד האינדוקציה נראה באמצעות למה 2.4 , שנובעת למעשה ישירות מתנאי 3 הנקודות: