420 likes | 605 Views
Sequence comparison. Uri heinemann. הקדמה:. למה צריך השוואות רצף? מצאנו חלבון או רצף כלשהו שאנחנו לא מכירים. נרצה לדעת האם דומה לחלבון או רצף מוכר. לתכונות אלו יש מושג ביולוגי - הומולוגים - .h omologous. Homologous :. Homologous : רצפים דומים בעלי מקור משותף.
E N D
Sequence comparison Uri heinemann
הקדמה: למה צריך השוואות רצף? • מצאנו חלבון או רצף כלשהו שאנחנו לא מכירים. • נרצה לדעת האם דומה לחלבון או רצף מוכר. • לתכונות אלו יש מושג ביולוגי - הומולוגים - .homologous
Homologous: Homologous: רצפים דומים בעלי מקור משותף. חילקו את הגנים ההומולגים לשני סוגים: orthologous, paralogous. orthologous –גנים באורגניזמים שונים, בעלי מקור משותף. ( לדוג': alpha hemoglobin in man and mouse) paralogous – גנים שונים באותו אורגניזם בעלי גן קדמון משותף ( לדוג': alpha and beta hemoglobin (.
למה זה מעניין אותנו? • גנים הומולוגים חולקים תכונות כמו מבנה ,תפקיד, אזורים פעילים זהים. • לכן, לפני התחלה של מחקר מולקולרי, נוכל לדעת מה אנחנו מחפשים. • אם הגנים מספיק דומים נוכל להניח שהגנים בעלי תפקיד זהה.
יש עוד סיבות: • מאגרי הנתונים של הרצפים השונים: DNA, mRNA,חלבונים, גדלים בצורה מהירה. • באמצעות כלים חישוביים, ניתן למצוא תופעות שלא ניתן היה למצוא בדרכים אחרות. • שימור גבוה (מעבר למצופה) של קטעים מסוימים, יכול להצביע על חשיבות ביולוגית רבה.
(M+N) N אם כך אך משווים שני רצפים? • אולי נעשה זאת פשוט ידנית? • רוצים לאפשר רווחים ברצפים ? • קיבלנו אפשרויות. • יש אלגוריתם דינאמי לפתירת הבעיה.
F (I, J) = max F(I-1 , J-1) + S(Xi , Yj) F(I-1 , J) – D F(I , J-1) – D Smith-Waterman • האלגוריתם הבסיסי הוא אלגוריתם חמדני עם נוסחת הרקורסיה: כאשרF(i,j) - המקום בטבלה; S(i,j) - פונקצית הניקוד; D - הניקוד עבור רווח. ניתן דוגמה קצרה של ריצת האלגוריתם, כדי להראות את פעולתו.
A T C 1 2 3 0 0 קיבלנו רצף התאמה מקסימאלית של: 1 A 2 T A T - C 3 G A T G C 4 C Smith-Waterman נשווה שני רצפים קצרים עם פונקצית הניקוד: -1 עבור אי התאמה, 1 - עבור התאמה ו - D = -2 עבור רווח. 0 -2 -4 -6 -3 -1 1 -2 -2 -1 2 1 -2 -3 0 1 -2 -3 -2 1
אבל מה הקשר לרצפים ביולוגים: כדי לתת משמעות ביולוגית לאלגוריתם, נותנים לו פונקציות ניקוד שונות. נסו לבנות פונקציות ניקוד כך ששני רצפים הומולוגים יקבלו ניקוד גבוה וכאלה שלא הומולוגים - ניקוד נמוך.
שיטת הניקוד: • אנו משווים שני רצפים, איך נשווה אותם? האם כשזהים ניתן ניקוד חיובי ואחרת שלילי? ומה אם רווחים? • יש שתי גישות לניקוד רווחים - עונש קבוע על כל רווח או תשלום קבוע על פתיחת רווח ולאחר מכן - תשלום (נמוך יותר) על כל תו חסר. • לגבי DNA משתמשים בד"כ במטריצת הזהות. • ישנם שתי שיטות מקובלות לניקוד של ח.אמינו: PAM,BLOSUM.
PAM Dayhoff,Schwartz& Orcutt(1978): • בנו עץ התפלגות אבולוציוני מקבוצות חלבונים קרובות. מהעץ הסיקו מה הסיכוי שח.אמינו ספציפית תחליף ח.אמנית אחרי זמן T. • הם יצרו מטריצה לזמן T=1 וכדי להגיע לזמנים אחרים s(t)=s(1)t ולכן PAM10 זה 10 יח' זמן של מרחק אבלוציוני. • שיטת ניקוד המקובלת היא PAM250
BLOSUM Henikoff & Henikoff: • חילקו רצפים לקבוצות לפי אחוז דמיון L (דומה לחלוקה לעץ לפי רמה מסוימת). הסיקו מזה מהו הסיכוי שח.אמינו תחליף את השנייה בין הקבוצות השונות. • לכן Blusom15 - חלוקה לקבוצות לפי מקדם של 15%. • ככל שהמקדם יותר נמוך בקבוצה רצפים יותר רחוקים מבחינה אבולוציונית ולכן קריטריון לרצפים יותר רחוקים. • טבלאות בשימוש נפוץ Blusom60, Blusom50.
שוב בעיה: • מצאנו אלגוריתם שמוצא - האם שני רצפים נתונים הם הומולוגים או לא. • כמה זמן ייקח ללוגריתם למצוא את הרצף ההומולוגי? • יעילות האלגוריתם היא - O(m*n) של זמן ריצה וזיכרון(m,n אורכי הרצפים). • היום מאגרי הנתונים הם באורכים של מיליוני בסיסים ( יש כ 10,000,000 בסיסי DNA כיום במאגרי מידע).
מה עושים? • אם מניחים מס' הנחות לגבי המצבים בהם נקבל דמיון, נוכל לקבל אלגוריתם הרבה יותר יעיל. • אחת מההנחות המוקבלות היא שכל שני רצפים הומולוגים מכילים רצפים קטנים של דמיון מוחלט. • כמובן, כל אלגוריתם שנבנה בהסתמך על הנחה כלשהי, לא תמיד מחזיר את התוצאה המיטבית – Heuristic algorithm. • שני האלגוריתם המקובלים FATSA, BLAST.
BLAST[Altschul et al 1990] • בונה טבלה של הרצפים האפשריים בתוך רצף באורך מסוים (ברירת מחדל 3 ח.אמינו 11 ח.גרעין), ובודק אם ישנה התאמה לרצף במאגר מידע - מעל ערך סף . • עובר על מאגר המידע וכשמוצא התאמה לאחד הרצפים בטבלה, מתחיל הרחבה של הרצף לשני הכיוונים, ללא רווחים. • מחזיר את הרצפים בעלי הניקוד הגבוה ביותר.
BLAST[Altschul et al 1990] פונקצית הניקוד BLUSOM 62 סף מנמלי 15. מאגר מידע: רצף להתאמה: רצפים אפשריים
FASTA [pearson &Lipman 1988] FASTAעובדת בארבעה שלבים: • מציאת רצפים בגודל ktap - זהים בשני הרצפים, ומיקומם בטבלה (ברירת המחדל של ktap היא 2 ח.אמינו ו 6 ח.גרעין). בחירת 10האלכסונים הארוכים ביותר (אלכסון – רצפים לא חופפים). • הארכה של הרצפים ע"י חיבור מס' רצפים ( גם מתחת לktap) וניקודם, לכל הרצפים יוצרים אלכסון ראשוני.
FASTA [pearson &Lipman 1988] • ניסיון חיבר של מס' אלכסונים ראשונים (רק כאלה שעברו סף מסוים נבחנים) ובחירת האלכסון המקסימאלי. • מציאת הרצף המכסימלי עם רווחים, ע"י האלגוריתם המקורי- שמצומצם רק לאפשרות האלכסון.
ניתוח סטטיסטי: • כשהתקבלה תוצאה של רצף מקסימאלי - האם הניקוד המתקבל משמעותי מבחינה סטטיסטית או לא. • אינטואיציה אפשרית לחישוב הסטטיסטי היא - ניקוד של רצף ראנדומאלי בתנאים דומים וחשוב הסטייה הנדרשת כדי להגיע לתוצאה שהתקבלה. • שני האלגוריתמים(BLAST, FASTA) מחזירים גם ערך היתכנות.
ניתוח סטטיסטי: • E-value – מס' הרצפים שימצאו רנדומאלית, עם ניקוד שווה או גבוה, באורך זהה של רצף. • FASTA: • Z-scores – מציין את הניקוד לכל התאמה -יחסית לאורך. ומביא גרף של התוצאות האקראיות. • BLAST: • P-value – הסיכוי שלשני רצפים ראנדומאלים יהיה ניקוד גבוהה או שווה לניקוד שהתקבל.
מה ראינו עד עכשיו? • מצאנו אלגוריתם דינאמי שיוכל למצוא גנים הומולוגים. • אלגוריתם זה לא היה מספיק יעיל ולכן יש שני אלגוריתמי קירוב FASTA ו BLAST. • אם אחרי הניתוח הסטטיסטי יש משמעות לדמיון בין הרצפים, נוכל להסיק: • כנראה שהרצפים קרובים אבולוציונית ברמה מסוימת, או בעלי קירבה פונקציונלית. • אם ישנה חריגה מעל הרמה האבולוציונית הצפויה, נוכל להסיק שאתרים אלה חשובים מבחינת האורגניזם כמו אתרים פעילים, אתרי בקרה וכד'.
דוגמאות למחקרים: • נראה דוגמאות משני מחקרים שהשתמשו בהשוואת רצפים : • הראשון עוסק בהשוואת רצפי mRNA בין גנים דומים.- shabalina SA et al.(2004)Comparative analysis of orthologous eukaryotic mRNAs: potential hidden functional signals.Nuclic Acids Res. 32(5):1774-1782. • השני עוסק ברצפים שמורים במיוחד בגנום האנושי. Bejerano G et al.(2004) Ultraconserved elements in the Human Genome. Science.304(5675):1321-1325.
Stop codon AUG 5’ UTR CDS 3’ UTR +5 - +35 3’ UTR 0 0 Potential hidden functional signals • המחקר נעשה במעבדתו של David J. Lipman ב National Center for Biotechnology InformationBethesda ,USA • החוקרים לקחו קטעיmRNAאורתולוגים בין אדם לעכבר, עכבר לחולדה, ארבע משפחות יונקים, ארבעה סוגי שמרים. • השוו את הרצפים בין הקטעים בסביבת start codon וstop codons וליד ה polyadenylation signal (היתרון שקיבלו מס' נקודות יחוס). -30 5’ UTR
Potential hidden functional signals סביבת ה Start codon: • יש שימור מוגבר של 30 הבסיסים לפני ה start codon (יחסית לשימור הצפוי) (בעיקר ביונקים). • יש שימור מוגבר של הבסיס השלישי בחלק המקודד-יחסית לשאר החלק המקודד (רק אלה בעלי מס' אופציות לחלבון נמדדו) (בעיקר בשמרים). • כנראה שיש משמעות פונקציונאלית לרצפים אלה -שמשלימים אחד את השני (שימור חזק ואז חלש ביונקים הפוך בשמרים).
Profiles of sequence conservation around the start codons in orthologous eukaryotic mRNAs. (A) Human–mouse. (B) Rat–mouse. (C) Multiple alignments of orthologous mRNAs from four orders of mammals. (D) Multiple alignments of orthologous mRNAs from four species of yeasts. Positions from –100 to –1 correspond to 5′-UTRs and positions from 1 to 100 correspond to CDSs. Blues, first codon positions; green, second codon positions; orange, 4-fold degenerate third codon positions.
במורד הרצף: Potential hidden functional signals • נמצא שבין +5 - +35 יש ירידה של השימור יחסית לרצף בכיוון 3' (מובחן יותר ביונקים מאשר בשמרים).
Figure 4. Profiles of sequence conservation around the stop codons in orthologous eukaryotic mRNAs. (A) Human–mouse. (B) Rat–mouse. ( C) Multiple alignments of orthologous mRNAs from four orders of mammals.(D) Multiple alignments of orthologous mRNAs from four species of yeasts. Positions from –100 to –1 correspond to 5'-UTRs and positions from 1 to 100 correspond to CDSs. Empty diamonds denote the 4-fold degenerate third codon positions in CDSs.
Potential hidden functional signals • אע"פ כן נמצא ריבוי של GC אצל יונקים באזור זה, שמקביל לעליה בהימצאות GC בבסיס הצף - באזור המקביל לפני ה 3' (במיוחד בC). • ידוע שעליה באחוז ה GC גורמת לעליה ברמת התרגום • יכול להיות שיש השפעה גם של האזור הלא מתורגם.
Potential hidden functional signals סיכום: • קיימת עליה בשימור ב 30- UTR 5' וירידה בשימור ב 5+ - 35+ ב 3’ UTR. • ביונקים יש ריבוי של GC. ידוע על מקרים בהם ריבוי של GC מזרז הינתקות של הריבוזום. • ולכן יכול להיות שתופעות אילו נובעות מפעילות הריבוזום – קישור ב30 בסיסים לפני ה start codon ועידוד שחרור ב30 בסיסים לאחר ה stop codon. • מפני ריבוי נקודות יחוס – ריבוי אורגניזם ונקודות יחוס ברורות ניתן למצוא מוטבים חלשים.
Ultraconserved elements in the Human Genome. • המחקר נעשה במעבדתו של David Haussler ב Howard Hughes Medical Institute, University of California Santa Cruz USA • נמצאו 481 אזורים שמורים ב 100% באורך מעל 200 בסיסים בין האדם לעכבר וחולדה (מכרסמים). • 97% מאזורים אילו הראו שימור של 95.7% עם תרנגולת. • שימור של יותר מ 400 מליון שנה.
Ultraconserved elements in the Human Genome. • חילקו את האזורים השמורים לשתי מחלקות – מתורגמים ולא מתורגמים . • מצאו שהחלקים המבוטאים קשורים לגנים שמשתתפים בקישור RNA , ו splicing .(הגנים של אתרים אילו (Type 1 Genes • החלקים הלא מבוטאים קשורים לגנים שמשתתפים בבקרהותירגום של DNA ו DNA binding motifs ובמיוחד Homeobox (גנים שלוקחים חלק בהתפתחות הראשונה של האורגניזם) (הגנים של אתרים אילו (Type 2 Genes.
Ultraconserved elements in the Human Genome. צבר מיוחד: • הרצפים הארוכים ביותר נמצאים ב 3 intron בקצה ה 3' של POLA – תת יחידה אלפא של DNA פולימראז. • קיים גם רצף ארוך (ע"י הוספת בסיס אחד) בין ה POLA ל ARX homeobox gene. Each partly exonic element is represented by a thin blue tick mark extending above the chromosome, each non-exonic element by a green tick mark extending below the chromosome, and each possibly exonic element by a black tick mark centered on the chromosome.
Ultraconserved elements in the Human Genome. צבר מיוחד: • polA – החלבון שמבצע את פעולת הערכה ב DNApolymerases 1. • ARX - חלבון שמבוטה בזמן ההתפתחות של רשת הניורונים המרכזית.(פגם גנטי בו גורם להרבה מחלות כמו אוטסים וכד'). • מפני שרוב האזורים השמורים נמצאים יותר קרוב ל ARX יכול להיות שבכלל אזורי בקרה של גן זה. • המיוחד באזורים אילו ריבוי רצפים שמורים מאד ארוכים יחסית לשאר הגנום.
Ultraconserved elements in the Human Genome. תכונת תהליך השימור: • חיפשו רצפים שמורים שנמצאו ב introns בבעלי חיים יותר רחוקים מבחינה אבולוציונית. • גילו בכמה דוגמאות שרצפים אלה וה introns שנמצאים בהם- כמעט ולא קיימים, החל מהדגים ומטה.
Ultraconserved elements in the Human Genome. תכונת תהליך השימור: • לקחו 12 קבוצות של paralogous שכל אחד מכיל 2-3 רצפים שמורים. • נמצא שוני ניכר בין ה paralogous, אך כמעט ללא שינוי בין אותם פרטים בין עופות לאדם. • משתי עובדות אלו ניתן להסיק שיש שלב של שינוי מואץ ואז הקפאה של התהליך.
Ultraconserved elements in the Human Genome. סיכום: • ניתן להסביר את תופעת השימור המוחלט באזורים אלה בשתי סיבות עיקריות: • אזורים אילו שימושיים מאד ולכן יש השרדות נמוכה לאורגניזם עם מוטציות באזורים אלו. • באזורים אלו אין כמעט החלפת בסיסים עקב מערכת תיקון מוגברת. • לא משנה איזו מבין שתי האפשרויות נכונה, ברור שרצפים אלה יהיו מאד מעניינים למחקר מולקולרי.
מה ראינו: • ראינו את האלגוריתם החמדני למציאת דמיון בין רצפים והדרך לשימוש בו ברצפים ביולוגים. • ראינו שעקב גודלם הרב של מאגרי המידע משתמשים באלגוריתמים יוריסטים כמו FASTA ו BLAST. • ראינו שני מחקרים שהשתמשו בהשוואת רצפים .
סיכום מחקר הנעשה בשיטות חישוביות יכול לגלות תופעות שלא ניתן היה לגלות בשיטות אחרות • מחקר כזה בד"כ מגיע לסבירות גבוהה של התופעה, אך נדרש מחקר ביולוגי משלים כדי לאמת תופעות אלה.
מקורות: • R.Durbin, S.Eddy, A.krogh, G.Mitchison Biological sequence analysis probablistic models of proteins and nucleic acids. Chapter 2 12-45. • shabalina SA et al.(2004)Comparative analysis of orthologous eukaryotic mRNAs: potential hidden functional signals.Nuclic Acids Res. 32(5):1774-1782. • Bejerano G et al.(2004) Ultraconserved elements in the Human Genome. Science.304(5675):1321-1325. • Pearson W .R. and Lipman D.J.(1988)Improved tools for biological sequencecomparison.Proceedings of the National Academy of Sciences of the USA 4:244-2448
אתרים: • http://www.icp.ucl.ac.be/~opperd/private/orthol.html • http://helix.biology.mcmaster.ca/721/distance/node9.html • http://nostoc.stanford.edu/Docs/MBCSmatch.html • http://www.ncbi.nlm.nih.gov/BLAST/blast_help.shtml • http://folk.uio.no/einarro/Presentations/blast_statistics.html • http://www.med.nyu.edu/rcr/rcr/course/sim-fasta.html • http://www.ncbi.nlm.nih.gov/BLAST/blast_help.shtml
ה stop codon וסביבתו. Potential hidden functional signals • נמצא ביונקים העדפה לstop codon - UGA . • ממצאים אילו אומתו בעזרת השוואה לרצפים דומים ב introns ונמצא שהשינוי ל UGA הוא לא מקרי (לא נגרם עקב מוטציה שגורמת לשינוי זה).