110 likes | 215 Views
Hled ání začátků exonů v DNA. Klára Pešková, Michal Bída. Úvod. DNA a geny Exony Introny Problém hledání exonů v genech. Related Works. Různé přístupy Statistické metody Dynamické programování Neuronové sítě Kombinace přístupů. Náš přístup. Neuronová síť Backpropagation
E N D
Hledání začátků exonů v DNA Klára Pešková, Michal Bída
Úvod • DNA a geny • Exony • Introny • Problém hledání exonů v genech
Related Works • Různé přístupy • Statistické metody • Dynamické programování • Neuronové sítě • Kombinace přístupů
Náš přístup • Neuronová síť • Backpropagation • 60 vstupních neuronů, skrytá vrstva (15 neuronů), 1 výstupní • Algoritmus procházení vstupních dat, výstupní vektor • Více sítí • Kódování vstupů GCCATT A T ...... G ATTTGC
Vstupy • Získání a úprava vstupních dat(databáze Biomart www.biomart.org, Python) • Použitá data - lidská DNA • učící data a testovací data - Chromozom 1 • „ostrá“ data - Chromozom 2 (geny ENSG00000135924, ENSG00000119777, ENSG00000151353) • Kódování bází: • A (adenin):1 0 0 0 • C (cytozin):0 1 0 0 • G (guanin):0 0 1 0 • T (tymin):0 0 0 1 CCGGAGCCGGCAGCTCCACTGGAGAGCAGTGCAGGCAGAGTGGAGCCTCCTGCTCTCCTGGACCAGCTGCAGACCCCCAACCCTGGTTTCTGTGCCATGTTGCGCTCTGACCGTCTCTGTTGCTTCTCTTCTGGTGTTGCTTCTCCTCCCTCCCATTCTCTCTGCAACTCCCTGCGGGCCGCATCGCTTGCTTTCACTGCCGTCTGGCTAGGACTCCCTTCTTCCTTCCTTCCCCGAGAAGGCCTCAATGTGGCGAGGAAGATGCTGGGGCCGGTAGGGCTGTGAGATCTTCTGGGGAGGCTAGCCGGGTGGGGCGGGAGCCTCTCAGCTGTCCAGATTCAGAACTGGAGCCCACTCCTCCTCCCTCTCGTTGCCTCAGCCTGCCCT
Učení • MatLab • Výběr algoritmu učení a přenosové funkce • logsig, traincgb (Conjugate gradient backpropagation with Powell-Beale restarts) • Výběr trénovacích vzorů (celkem 4000 vzorů) • Pozitivní (začátky exonů - 2000) • Negativní (polovina z exonů, polovina z intronů) • Vliv skryté vrstvy
Zhodnocení • Úspěšnost • jen na souboru s začátky exonů • jen na souboru s nezačátky exonů • Na ostrých datech – nízký počet exonů • Použití více sítí • Výsledná data
Výsledky – testovací data • špatně rozpoznané vzory: • začátky exonů FN: 361/2000 (18 %) • nezačátky FP: 153/2000 (7,7 %) • radnom FP: 34/2000 (1,7 %)
Závěr • Minimalizovat počet falešných poplachů • Stejným způsobem by se daly hledat konce exonů • Použít kombinace přístupů a neuronovou síť jako součást