180 likes | 304 Views
Gena- og gagnas öfn (GEG1103). Fyrirlestrar 21 & 22 BLAST, Margföld pörun. Leit í gagnabönkum. Pörum röð ( query sequence ) gegn öllum röðum ( einni af annarri ) í gagnasafni Marktækar niðurstöður sýna skyldleika kennigreining ( identification ) gefa upplýsingar um byggingu og virkni.
E N D
Gena- og gagnasöfn (GEG1103) Fyrirlestrar 21 & 22 BLAST, Margföld pörun
Leit í gagnabönkum • Pörum röð (query sequence) gegn öllum röðum (einni af annarri) í gagnasafni • Marktækar niðurstöður • sýna skyldleika • kennigreining (identification) • gefa upplýsingar um byggingu og virkni
DNA vs. Prótín • Auðveldara að ákvarða skyldleika prótínraða • 4 basar í DNA vs. 20 AS fleiri möguleikar á tilviljanakenndri pörun í DNA • Dæmi: röð uppá 4 einingar: • DNA: 44 = 256 möguleikar • AS: 204 = 160.000 möguleikar • Ofgnótt tákna: • Margir táknar fyrir sömu AS • A.S. raðir geta verið eins þó samsvarandi DNA raðir séu mismunandi
Dæmi: Samröðum AUGGAATTAGTTATTAGTGCTTTAATTGTTGAATAA við AUGGAGCTGGTGATCTCAGCGCTGATCGTCGAGTGA AUGGAATTAGTTATTAGTGCTTTAATTGTTGAATAA ||||| | || || || | || || || | | AUGGAGCTGGTGATCTCAGCGCTGATCGTCGAGTGA 21 basi (af 36) parast rétt 58% einsleitni (identity) Þýðum í AS raðir: ELVISISALIVE ELVISISALIVE 100% einsleitni DNA vs. Prótín
DNA vs. Prótín • Ef óþekkt DNA inniheldur gen er oft gagnlegt að þýða fyrst • Getum þýtt í öllum 6 lesrömmum • 3 áfram, 3 afturábak
BLAST • Basic Local Alignment Search Tool • BLASTP: Prótín leitarröð (query sequence) gegn prótín gagnabanka, göt leyfð • BLASTN: DNA leitarröð gegn DNA gagnabanka, göt leyfð • BLASTX: DNA leitarröð, þýdd í alla sex ramma, gegn prótín gagnabanka, göt leyfð • TBLASTN: Prótín leitarröð gegn DNA gagnabanka, þýddum í öllum sex römmum, göt leyfð • TBLASTX: DNA leitarröð, þýdd í alla sex ramma, gegn DNA gagnabanka, þýddum í öllum sex römmum,göt EKKI leyfð
BLAST • GenBank er of stór til að fýsilegt sé að framkvæma fulla samröðun á leitarröð gegn öllum GenBank röðum • Heuristic leit (þreifun): styttum okkur leið að því að finna hvar við byrjum samröðunina í hverri röð fyrir sig • 1. Query-röð brotin niður í „orð“ • AILVPTVIGCT • 2. Leitað í gagnabankanum að röðum þar sem orðið parast • LKCRAILVGTVIAML.... • AILV • 3. Þegar fundin er pörun er samraðað útfrá því þar til pörunarskorið verður óásættanlega lágt • LKCRAILVGTVIAML.... • AILVPTVI
PSI-BLAST • position specific iterated BLAST • Framkvæmd leit eins og í venjulegu BLAST • Framkvæmd margföld pörun og ný skorunarmatrixa reiknuð út • Leit endurtekin með nýrri matrixu
Margföld pörun • Samtímis pörun margra raða gefur: • yfirlit yfir skyldleika lífvera/raða • hneppi (regions) sem stökkbreytast • geymin (conserved) hneppi
Margföld pörun • Markmiðið: Tökum 3 eða fleiri raðir og samröðum þannig að sem flestir stafir verði í hverjum dálki í línuröðuninni • Vandamálið: því fleiri raðir, þess fleiri möguleikar á ´pörun´, ´mispörun’, ´gat´
Dynamic Programming • Einföld pörun með DP • Tiltölulega einfalt • Gefur alltaf bestu mögulega pörun • Á þetta líka við þegar raðirnar eru fleiri?
Dynamic Programming • Skoðum 3 AS raðir: VSNS, SNA, AS • Ein röð á ás (x, y, z) • Pörun í þremur víddum
Dynamic Programming Möguleikar: • Allar 3 AS parast; • A & B parast, gat í C • A & C parast, gat í B • B & C parast, gat í A • A, gat í bæði B & C • B, gat í bæði A & C • C, gat í bæði A & B
Dynamic Programming • Figure source:http://www.techfak.uni-bielefeld.de/bcd/Curric/MulAli/node2.html#SECTION00020000000000000000
Dynamic Programming • Ef hver röð hefur lengd n • 2 raðir: O(n2) • 3 raðir: O(n3) • 4 raðir: O(n4) • N raðir: O(nN) • Verður fljótt ófýsilegt
Margföld pörun • Í raun er framkvæmd „heuristic“ samröðun (þreifun) þar sem: • 1. röðum eru einfalt samraðað og skor reiknuð út • 2. bráðabirgða-tré búið til • 3. samröðun endurtekin í þeirri röð (order) sem tréð gefur til kynna Ekki er tryggt að samröðunin sé sú besta
CLUSTAL • Forrit fyrir margfalda samröðun • CLUSTAL W á Vefnum • CLUSTAL X (CULSTAL W fyrir PC): http://bips.u-strasbg.fr/fr/Documentation/ClustalX/ • Sækið skrána clustalx1.83.zip • Gefur „alignment file“ sem nota má til að gera „pileup“ mynd í Boxshade eða tré í TreeView
http://www.ncbi.nlm.nih.gov/ Gefur aðgang að GenBank, Entrez, OMIM, PubMed, o.fl. http://www.ensembl.org/ Gögn og upplýsingar um genamengi dýra http://www.tigr.org/tdb/mdb/mdbcomplete.html Genamengi baktería http://www.genomesonline.org/ Yfirlit og linkar í mörg genamengjasöfn http://www.brenda.uni-koeln.de/index.php4 Gagnabanki um ensím og lífefnafræði http://www.genome.jp/kegg/ Kyoto Encyclopedia of Genes and Genomes http://www.ebi.uniprot.org Vefgátt fyrir ýmislegt tengt prótínum http://staden.sourceforge.net/ Staden Package http://www.mbio.ncsu.edu/BioEdit/bioedit.html BioEdit forritið til vinnslu raða http://www.expasy.org/ Forrit og gagnabankar fyrir prótínmengjagreiningu http://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html Dotlet sjónrænt pörunarforrit http://www.ebi.ac.uk/clustalw/ ClustalW pörunarforritið http://bioweb.pasteur.fr/seqanal/interfaces/boxshade.html Boxshade - býr til myndræna uppsetningu á pöruðum röðum Nokkrar gagnlegar vefsíður Gagnasöfn Nokkur forrit