120 likes | 264 Views
Aplikace metrických i ndexovacích metod na data získaná hmotnostní spektrometrií. Ji ří Novák novakj4 @fel.cvut.cz. Úvod. p rotein y line ární sekvence aminokyselin DNA ( 20 r ůzných aminokyselin) peptidy h motnostn í spektrometrie (mass spectrometry, MS)
E N D
Aplikace metrických indexovacích metodna data získanáhmotnostní spektrometrií Jiří Novák novakj4@fel.cvut.cz
Úvod • proteiny • lineární sekvence aminokyselin • DNA (20 různých aminokyselin) • peptidy • hmotnostní spektrometrie (mass spectrometry, MS) • metoda pro identifikaci neznámých proteinových sekvencí • určuje hmotnosti molekul a molekulových fragmentů po jejich převedení na ionty – hmotnostní spektrum • jednoduchá MS x tandemová MS/MS • základ interpretace spekter • různé aminokyseliny ~ různé hmotnosti
Hmotnostní spektra - příklad MGLSDGEWQLVLNVWGK|VEADIPGHGQEVLIR|LFK|GHPETLEK|FDK|FK|HLK|SEDEMK|ASEDLK|... • jednoduchá MS • rozdělení neznámého proteinuna peptidy • specificita dělenísekvence • tandemová MS/MS • modernější, rozšíření jednoduché MS • spektrum ~ peptid; sada spekter ~ protein • fragmenty: y, b-ionty
Cíl práce • hmotnostní spektrometrie – proteinové sekvence – vlastnosti proteinů • Cíl: provést analýzu stávajících metod interpretace hmotnostních spekter a prozkoumat možnosti využití metrických indexovacích metod. • Proč metrické přístupové metody: • interpretace – DB • metrika – podobnost spekter • index – log. složitost
Současné metody interpretace • PMF (Peptide Mass Fingerprinting) • jednoduchá MS; DB známých proteinových sekvencí • generování teoretických hmotností peptidů; porovnánís experimentálním spektrem (match např. >= 5 peaků) • velikost DB roste – náhodné hity • PFF (Peptide Fragment Fingerprinting) • analogie pro MS/MS; přesnější • párujeme fragmetová spektra s peptidy • skórování: SPC (Shared Peak Count), spektrální alignment (zarovnávání spekter – dyn. prog.), … • identifikace nových sekvencí – 6 rámcový překlad DNA
Současné metody interpretace • De Novo Sequencing • pro MS/MS spektra; přímá interpretace pouze pomocí grafu • vzdálenost peaků ~ hmotnost aminokyseliny • mnoho cest grafu~ mnoho řešení, úspěšnost cca 30% • výhodou DB přístupu – redukce počtu řešení • Sequence Tag • kombinace; určíme tag (De Novo či ručně), pak hledáme v DB • Problémy interpretace • nerozlišitelnost aminokyselin (či dvojic) s podobnou hmotností • bodové mutace aminokyselin, posttranslační modifikace • chybějící peaky y,b-iontů • šum (až 80%)
Metrické přístupové metody • M-tree • dynamický, vyvážený strom • pro index. objektů využívá vlastnostimetrických prostorů • vnitřní uzly (směrovací záznamy) rout(Oi) = [Oi, r(Oi), ptr(T(Oi)), d(Oi,par(Oi))] • listové uzly (odkazy na index. data)grnd(Oi) = [Oi, oid(Oi), d(Oi,par(Oi))] • PM-tree • zmenšení metrických regionů, globální množina pivotů • rout(Oi) navíc pole HR (prstence) • grnd(Oi) navíc pole PD (vzdál. Oi od pivotů) • |HR| = 0, |PD| = 0 ~ M-tree
Požadavky na řešení problému • metrika – reflex., pozit., sym., trojúhelníková nerovnost (INEQ) • algoritmy pro vyhodnocování podobnosti spekter – časová náročnost (dyn. prog.) a nesplňují INEQ • výpočet vzdál. se použ. často – jednoduchost, rychlost • jednoduchá metrika – množina kandidátů; aplikujeme skórovací systém nebo složitější alg.
Navržená metoda • PFF; klíčová je identifikace peptidu z MS/MS spektra • konstrukce DB • teoretické m/z pro y-ionty (a b-ionty) • heuristiky • např. výběr posledních k peaků, hledání párových y a b-iontům(bi) + m(yk-i) = mp + 2, apod. • vyhledávání • rozsahový nebo k-NN dotaz • modif. peptidy – intervalové dotazy a max. nebo Hauss. Metrika
Experimenty a zhodnocení výsledků MASCOT – 68%, zaruč. 62%ProteinProspector – 72%
Závěr • DB reálné velikosti („všech“ proteinů člověka; 50 tis. proteinů ~ 2.5 mil. peptidů) – dosahuje zrychlení vyhled. cca 1000x oproti sekv. průchodu • úspěšnost srovnatelná se současnými vyhledávači (MASCOT, ProteinProspector) • sofistikovanější heuristiky, hledání vhodnějších metrik –zvýšení kvality identifikace
Děkuji za pozornost Jiří Novák novakj4@fel.cvut.cz