1 / 12

Aplikace metrických i ndexovacích metod na data získaná hmotnostní spektrometrií

Aplikace metrických i ndexovacích metod na data získaná hmotnostní spektrometrií. Ji ří Novák novakj4 @fel.cvut.cz. Úvod. p rotein y line ární sekvence aminokyselin DNA ( 20 r ůzných aminokyselin) peptidy h motnostn í spektrometrie (mass spectrometry, MS)

nami
Download Presentation

Aplikace metrických i ndexovacích metod na data získaná hmotnostní spektrometrií

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Aplikace metrických indexovacích metodna data získanáhmotnostní spektrometrií Jiří Novák novakj4@fel.cvut.cz

  2. Úvod • proteiny • lineární sekvence aminokyselin • DNA (20 různých aminokyselin) • peptidy • hmotnostní spektrometrie (mass spectrometry, MS) • metoda pro identifikaci neznámých proteinových sekvencí • určuje hmotnosti molekul a molekulových fragmentů po jejich převedení na ionty – hmotnostní spektrum • jednoduchá MS x tandemová MS/MS • základ interpretace spekter • různé aminokyseliny ~ různé hmotnosti

  3. Hmotnostní spektra - příklad MGLSDGEWQLVLNVWGK|VEADIPGHGQEVLIR|LFK|GHPETLEK|FDK|FK|HLK|SEDEMK|ASEDLK|... • jednoduchá MS • rozdělení neznámého proteinuna peptidy • specificita dělenísekvence • tandemová MS/MS • modernější, rozšíření jednoduché MS • spektrum ~ peptid; sada spekter ~ protein • fragmenty: y, b-ionty

  4. Cíl práce • hmotnostní spektrometrie – proteinové sekvence – vlastnosti proteinů • Cíl: provést analýzu stávajících metod interpretace hmotnostních spekter a prozkoumat možnosti využití metrických indexovacích metod. • Proč metrické přístupové metody: • interpretace – DB • metrika – podobnost spekter • index – log. složitost

  5. Současné metody interpretace • PMF (Peptide Mass Fingerprinting) • jednoduchá MS; DB známých proteinových sekvencí • generování teoretických hmotností peptidů; porovnánís experimentálním spektrem (match např. >= 5 peaků) • velikost DB roste – náhodné hity • PFF (Peptide Fragment Fingerprinting) • analogie pro MS/MS; přesnější • párujeme fragmetová spektra s peptidy • skórování: SPC (Shared Peak Count), spektrální alignment (zarovnávání spekter – dyn. prog.), … • identifikace nových sekvencí – 6 rámcový překlad DNA

  6. Současné metody interpretace • De Novo Sequencing • pro MS/MS spektra; přímá interpretace pouze pomocí grafu • vzdálenost peaků ~ hmotnost aminokyseliny • mnoho cest grafu~ mnoho řešení, úspěšnost cca 30% • výhodou DB přístupu – redukce počtu řešení • Sequence Tag • kombinace; určíme tag (De Novo či ručně), pak hledáme v DB • Problémy interpretace • nerozlišitelnost aminokyselin (či dvojic) s podobnou hmotností • bodové mutace aminokyselin, posttranslační modifikace • chybějící peaky y,b-iontů • šum (až 80%)

  7. Metrické přístupové metody • M-tree • dynamický, vyvážený strom • pro index. objektů využívá vlastnostimetrických prostorů • vnitřní uzly (směrovací záznamy) rout(Oi) = [Oi, r(Oi), ptr(T(Oi)), d(Oi,par(Oi))] • listové uzly (odkazy na index. data)grnd(Oi) = [Oi, oid(Oi), d(Oi,par(Oi))] • PM-tree • zmenšení metrických regionů, globální množina pivotů • rout(Oi) navíc pole HR (prstence) • grnd(Oi) navíc pole PD (vzdál. Oi od pivotů) • |HR| = 0, |PD| = 0 ~ M-tree

  8. Požadavky na řešení problému • metrika – reflex., pozit., sym., trojúhelníková nerovnost (INEQ) • algoritmy pro vyhodnocování podobnosti spekter – časová náročnost (dyn. prog.) a nesplňují INEQ • výpočet vzdál. se použ. často – jednoduchost, rychlost • jednoduchá metrika – množina kandidátů; aplikujeme skórovací systém nebo složitější alg.

  9. Navržená metoda • PFF; klíčová je identifikace peptidu z MS/MS spektra • konstrukce DB • teoretické m/z pro y-ionty (a b-ionty) • heuristiky • např. výběr posledních k peaků, hledání párových y a b-iontům(bi) + m(yk-i) = mp + 2, apod. • vyhledávání • rozsahový nebo k-NN dotaz • modif. peptidy – intervalové dotazy a max. nebo Hauss. Metrika

  10. Experimenty a zhodnocení výsledků MASCOT – 68%, zaruč. 62%ProteinProspector – 72%

  11. Závěr • DB reálné velikosti („všech“ proteinů člověka; 50 tis. proteinů ~ 2.5 mil. peptidů) – dosahuje zrychlení vyhled. cca 1000x oproti sekv. průchodu • úspěšnost srovnatelná se současnými vyhledávači (MASCOT, ProteinProspector) • sofistikovanější heuristiky, hledání vhodnějších metrik –zvýšení kvality identifikace

  12. Děkuji za pozornost Jiří Novák novakj4@fel.cvut.cz

More Related