1.05k likes | 1.46k Views
III Alineamiento de Secuencias. Andrés Moreira Departamento de Informática UTFSM.
E N D
IIIAlineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM
TAAACCCTGGCATGCATGTTCAAGCTTTCCAGTCTTGTCAAAATGAATTGTTCTTGTATCATCTAGAAATTTAGTTAGAGATCAATTTGCCTTTTTTACAAACAAGCATTTTTAGTTAGTAAGGTTCTGGCCTAATTTGGTATTCTGGATTTCTTATTTATCTTAATATTAAAAATAAAGGAGGAAAACTAAATTCACATTAAAAATGACTAAATTTTGAAAATTTTTTTCAACAGGTTATATCAATCAGTGAAAATTCTATATTCCTTTGGCATTTTTGTGACATATTCAATTCAGTTCTATGTTCCAGCAGAGATCATTATCCCTGGGATCACATCCAAATTTCATACTAAATGGAAGCAAATCTGTGAATTTGGGATAAGATCCTTCTTGGTTAGTATTACTTGTAAGTATCATTATATATTTATATCATAATAATTTTTTATTGTTCAATTTCAGTTTTATCCCAACTGGACACACCTAATTTACATTCTTACAGACAAGAATTGTTTGCACTGCTGTCAGTGTGCTGCAATTTAACTTCTGTCTCTACAGAATTGTAAAAGAGCCTAGTCAAAGTCACCCCTAGATGGAATTAAATAATTCCTGGGGCCTTCAGCCTTTCATTGAAAGGATATCCAATAATCTCTTTTCCTCATTTTAAAGTCTTATATTTTTCTTTGCAGTGATAAAAGTGATAATTCTGCCTTAGCTCAGTTATGGAAGGCAGAATAAGGAAGATACTTATTAACACCACACAGAAAGAAATCACATATCTTTTACGACTTATGCTTAGTTTTTTTTTAAATACATTGACAGAATAATGAAAACATAACTATTAATAATCATGAGGAGTCTGTAGATATTACCTCACTGTCATTATCTAAGATAACAAATGGAAATGTAACAACTATTAACTAAAGTCAAAATGGACACTCATAGTAAATATGTCTTTTGTTTATGCACAAAGAGTATACACTCTGTCAAATCAAAATAGATTTTTTTAAAGATGTGAAATTAATCCAATCAGTTCTTTCCTCCTTTAACAACAACAAAAATACACTGCCAGGTTAGTGAGTCAAACAAGAGAAGTCTAGGAAGATGAATGGGGAAGAGAGGCTGTTCTGGTTTAATGTAAACAGCTTAAATATGATATTCAAAGGAGTCTGAGAAGCAATTTCCTTAGACTGTTAACTTATTTGCTTTAGGATTAATTTATTCTTTTTTATTCAATGCAAGTCCAATGCATTTTAATTTTCAAACAGTAGTATGTCCAGCAGCATTTATTATATGTTCTTGCTATATGCCCAGAACCATGCTAATATTATCGTCTATCATTCAATACTGTAAAAACAATGCTATTATTACAAATCTAATTGCAGTCAGGTATTCCCTAGGCTTCAACCATGAGTGGAGGGGTGGCAGGAGCTAAGATCAAGGCACAGCTTTTGATCTCAGCTGGCAAGAAAGGAAAGTGGGTAGGGCAGGGCTGGTGATTGCTTACTTCTTGGACTCAGGGTTTCACAGAGCATCAAGATCTAATAAGCTATGCTTCTTCTGTTACCACTCCTCTATCTCTGCCTCTCTCTGCTTCTAGCACCATCTTTTCCTTCCTGTCCAAGCTCAGCAATGACATCTCCATCCTTCCCTGAGCTCTTTATCAAAATTTCCAGTGCCCTTTTGATTGCACCAGGTATTAGAAAGGAATCCTTTGGCATTAGTCCAATTGATGATCTTCTGATCCTTTCTGAGAGGTTTGAATTTTTATAAAAGATATTTGATAACAAATCTCAAATTGTTCATTTTTTTAAACTTGTTATTTCTTCTTCCTTTTAACCATTTAGTCAACAAACATTTTGAGTACCTACTACTTGCTAGGTGTTCTAGGTGCTAGGGACAATCTTCTTCCTTCATAGGTCTGCTGCTTACCTACTTGCTAGGGAACTGATGGGGAGCCATTTCTCCTTTGGGAAACCTGGGTCTAGCACTGATGAAAGAAAGTTTCATGGTTGCTTGTCAACCCCATCCTCCAACCTGGGAGTGCCACAGAGGCCAGTGCAGAAACCAGGGTTCTCAGGGTTTGTGTGAGGGACCGAGTCTCTGGAACCTGGATTGGGGGAAGGCCATTTACTTTGAAGAGCAGGGGTTGGACCTGCTGGGAAAGGGGCCCCTTTTTCTATGAGCAGAACTGAACTGGATTTTTCATTTGCATTTCATGGGCAGCCTTGCCTTCAATGTCACTGATGAGGGAAACACCACATGGGATTTCTCAGGCCTCCTCCCCCTCCTTCTCAATGTCCCTCAAGGCAGCACCCACTCCCATTTGTTTCTCTCTTGGGTGGGAAGGTACATGACATGAAAAATGCTGAATCTCACATCAAGATGTCTTTCAAAAGATGAATGGGCAGATTCTTAGTATCATCTCAAAGCAGGCAAGGCAAAGGCAGGATATTTATGAGGTTTTGGAGTGTAGTTTGAGTCAGGCCTTTTGTTTCAGGGGACTTGATTAGAATCGGGTAATCTTGTGACATATTAGGGTTAGTGGACAGAATGAGGCAAGGGTTTTGAAGACAGTCTTGGACTGTAAACCATTGTTTGAGACTATATTGTAGTAGACATGGACTATGAATAGTCTAATGTTTATTTAAATAAATTTTCAGGATATTCTTGAAATGGATAATAAAGTTATTTGCAACTTTATCTTCCATGGCAAGAGTGTCCTGGAATAATAAATAATATTGATGAAGACAATGGATAATAAAGTCATGTTAATGTAGACAGTAAGCCCTGTGGGTATAGATAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATGGAAAACAAACTTTCAGGACCCTCTATATGGAAAAGGGCATAGGTGAAGCCTCCAAACCCTGGCCTCCATCCCTGGTCTGGGGATGAAGAAAAACCCTAAAAAAATCTCTCACTCTCCCATCTATTATGGTTGCTTCTAGCACTATTTGCCTTTATCACTACCTATAGGATCAACCTTGATATGCTCAAACTCCAGAAAACTCTACACTTGAAAGTCATGTGGATGGTAGAATACAATAAAAGCACTACTAACCTTTCAAACACTGTGTTGATGCTGGTTTCCTAGGCAGGAGGTGAGAAAAGAAGACTCCAAGGGAATGATCTTTTTTATTAATCTTTCAACTTACTGTAAAAATATAAATGATCACTGTTTTTCAAGCACTTAGCATCTAGAATGGGATCTTTATTTTTTGCTTTCTGAAAGACAAAACAGAACCAACAAAGTGGTCTAGGAAAAAAATCCTTGCACCCAGAAATCCAGAGAAAATGACGTATTCTCATTGGAGTACAGGTGAAAGAGGACTTCTGAGAGGGCCAGGCAAGGTGGCTCATGCCTGTAATTCCAATGCTGTGGGAGGCCGAGACTGGAGAATTGCTTGAGGCAGGAGTTTGAGATTAGCTAGGAAAACATAGTGAGACCCTGTCTCTACAAGAAATTATAAAATTAGCCAGGTGTAGTGGTACAGCTGCAATCCTAGTGCCTGAGGCAGGAGGATCGCTTGAGCCCACGGGTTTGAGTGTTATGGTGAGCTATAATCACACCACTGCACTCCAGCCTGGGTGATAGAGTAAGATCCTGTCTCAAAAAAACAAAAACAAAAACAAACTTCAAAGAAAATCCAAGTGTAACTGCTTGAATGTGTCCTCTCCCAAATTCAGGTGTTGCCAATGTGACACTATCAAGAGGTGGGGCTTTAAGAGGTGATTAGGCTATGAAGACTCCTCCCTCATGAATAGGATTCAGTTCCCATATAAAGGGCCTTGAGAGAGGGAGCTCCTCCCTTTTATCCTTCTGCCTTTTGCCATGTGAGGACACAACACTCCTCCCCTCTGGAGAATCCAACATTAAGGTGCCATCTTGCAAGTAGGATGCATCCTTCACTAGAGAAGCTGAACCTGCTGGTCTCTTGATCTTGGATTTCACAGCCTCCAGAATTATAAGAAAGTAAATTTCTCTTCTATAAAATACCCAGTCCCAGAAATTCTGTTATACCAGCACAAACAGACTAAAACAGCTTTCAAGTGTGATTAGAGTCAACAACCCTGACTAGGGTCAGTAATTGGGATGCTCTGTTATCTCTATTGCAAAGTTACTGCGTAACTCCAGGTGCACCACATTTTAGCATATTCCCACTTTGGCAACGTGGTGGTGGTGGTGGTGAAGGTGTCCAGACAGAGGGGGCAGTAAGAGGAAAAAGCCCTAAAATGGCTGGTATGTTTAACATAGGTTTCTTTAACTCCCCACAACCTGTAACTGGTACAAATAGGTTCACATTAGCATTAATTCCCTCATTTCAATGGCTCATCTTAGTTCTCTGCCTATGCTTTTCACTTATTTTCAGATGTCTCTAGAGATGTCTTACACGCACGCAATAATGGTCTTCTGTTCCTCTGCTCCACCTTCCTAGTTGGTGTCTATCACCCACAAGCCACTTAAGGAAAATGCTTTTCCTCTGCTGTGACTGCTGTTGTCCTTCATGAAATAAATACTGCCCAGCCCAGGAAGCAAGCTTCAGACACTCCGAAAGTCACAACACCCTTGAGATGCCAAATGACAATGTGTTCTGTAAATCAAACGACGTGACGGAGGTAAGTCTCAATCATTTTACAGGTTTATTTTGCCAAAATTGAGCATGTGCCTGGCAAAAAGGAACACAAAATCACAGGAACATCTGTGATCTGTGCTTTTTCCAAACAGGGTTTGAGAACTTTTGTATTTAAAGGGGAAAGAGCAGGCAGTAAGGGAAAGTGGAAAGAAAAGGGGGTAGGGTAAATAAAAGAGAAAAGCAATTGCATTCTTTTGAAGCTTTGATCAGCAGTCACTGAATCCATATTTTACATGTGAAAGAAGCGGGTAGAGGAAGAGTCAATTATGCATTCATCTGGTGTGTGGTTAATCTACATTTTTACGTAAAATAAACAGTAGATAACGCAGTCAAACATGCATTTGTCTTAAGTGAGGGAAGGATGACTCCTAATCCTGTCTTTGTCCCATACCTGTGAAGATAATCTGTTAATTTACATTGTTTGGGTGAAATTCAACAGAATTGTTTTAGGGTAAAGATCTTGGGGCCCACAAGGAATTTCCTTGTAAGCAAATTGTGAGGCAGGACCCTTGGGGAGGTCAGTAACCTTCTTTCTATCAATCTATTTAGGAACAAAATGGAAGGCAGTTTTGCATAACTCAGTTTTCAAGCTTGACTTTTCCCTGTGGCATAATGAGTTTGGGGTCCCAGATTTTTAGTTTCCTTTCACAGTGTTGTGGGACTTTTCCTTAGTTCAGCTAAAGGTGAGGTCCTTGTCACACGGCCACAAAATTTAGGGTCGCAATTTGAAGGGTGAGCAGGGCAGGGTTTATTGGGTGAAAAGGAAAAAAGGGAAACAGGGACCCTCTGCAAAGCCAGAGTCCCTGCTAGTGCGCTTCCAGCCTCTCAGTTCCCAGGTTCCACAAAGGAAGAGGAGGGGCCAGTCTCCTCCCCACTACAAACAGCACAAACTTCTGTGGCTCCACCCAGGTGTGCACTCCTCCCAGTGCATAGGCTGGTTGGAGTTTTGCCAGGGAGCCCTTCCCACCTAGCAGTTTCAACAGTTTTCTCCAGAACTTGTTAGACTGCTAAGCCACACCATATTATGTGCAGAAATGGGAATAACATCCCTTTCCCCCAATTTGAGTGGTAGGCTGTATTGCATAGTGCTTAAGAGCATGGGTTTGGAGGACAGAGATAGATTTTATTTATCTGACTCTAAAATATGAATTAAAAAAATCTATTTCACAAGGTTGTTATGTGGATTAAATTAGTGGCACAGAAAGCTGAAGATAGTGCAGCTCACTCTTCTGGACTTCATTAAAGTTCACTTTCAAATGTTTGTCTTTAACACTATCTCAGAGGCCTGTAGAAAAATGCCAAAAGGAAATGAAAACTTATATCCACACAAATATAGATAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATCTAAAATATGAATTAAAAAAATCTATTTCACAAGGTTGTTATGTGGATTAAATTAGTGGCACAGAAAGCTGAAGATAGTGCAGCTCACTCTTCTGGACTTCATTAAAGTTCACTTTCAAATGTTTGTCTTTAACACTATCTCAGAGGCCTGTAGAAAAATGCCAAAAGGAAATGAAAACTTATATCCACACAAATATAGATAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATCTAAAATATGAATTAAAAAAATCTATTTCACAAGGTTGTTATGTGGATTAAATTAGTGGCACAGAAAGCTGAAGATAGTGCAGCTCACTCTTCTGGACTTCATTAAAGTTCACTTTCAAATGTTTGTCTTTAACACTATCTCAGAGGCCTGTAGAAAAATGCCAAAAGGAAATGAAAACTTATATCCACACAAATATAGATAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATCTAAAATATGAATTAAAAAAATCTATTTCACAAGGTTGTTATGTGGATTAAATTAGTGGCACAGAAAGCTGAAGATAGTGCAGCTCACTCTTCTGGACTTCATTAAAGTTCACTTTCAAATGTTTGTCTTTAACACTATCTCAGAGGCCTGTAGAAAAATGCCAAAAGGAAATGAAAACTTATATCCACACAAATATAGATAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATGGAAAACAAACTTTCAGGACCCTCTATATGGAAAAGGGCATAGGTGAAGCCTCCAAACCCTGGCCTCCATCCCTGGTCTGGGGATGAAGAAAAACCCTAAAAAAATCTCTCACTCTCCCATCTATTATGGTTGCTTCTAGCACTATTTGCCTTTATCACTACCTATAGGATCAACCTTGATATGCTCAAACTCCAGAAAACTCTACACTTGAAAGTCATGTGGATGGTAGAATACAATAAAAGCACTACTAACCTTTCAAACACTGTGTTGATGCTGGTTTCCTAGGCAGGAGGTGAGAAAAGAAGACTCCAAGGGAATGATCTTTTTTATTAATCTTTCAACTTACTGTAAAAATATAAATGATCACTGTTTTTCAAGCACTTAGCATCTAGAATGGGATCTTTATTTTTTGCTTTCTGAAAGACAAAACAGAACCAACAAAGTGGTCTAGGAAAAAAATCCTTGCACCCAGAAATCCAGAGAAAATGACGTATTCTCATTGGAGTACAGGTGAAAGAGGACTTCTGAGAGGGCCAGGCAAGGTGGCTCATGCCTGTAATTCCAATGCTGTGGGAGGCCGAGACTGGAGAATTGCTTGAGGCAGGAGTTTGAGATTAGCTAGGAAAACATAGTGAGACCCTGTCTCTACAAGAAATTATAAAATTAGCCAGGTGTAGTGGTACAGCTGCAATCCTAGTGCCTGAGGCAGGAGGATCGCTTGAGCCCACGGGTTTGAGTGTTATGGTGAGCTATAATCACACCACTGCACTCCAGCCTGGGTGATAGAGTAAGATCCTGTCTCAAAAAAACAAAAACAAAAACAAACTTCAAAGAAAATCCAAGTGTAACTGCTTGAATGTGTCCTCTCCCAAATTCAGGTGTTGCCAATGTGACACTATCAAGAGGTGGGGCTTTAAGAGGTGATTAGGCTATGAAGACTCCTCCCTCATGAATAGGATTCAGTTCCCATATAAAGGGCCTTGAGAGAGGGAGCTCCTCCCTTTTATCCTTCTGCCTTTTGCCATGTGAGGACACAACACTCCTCCCCTCTGGAGAATCCAACATTAAGGTGCCATCTTGCAAGTAGGATGCATCCTTCACTAGAGAAGCTGAACCTGCTGGTCTCTTGATCTTGGATTTCACAGCCTCCAGAATTATAAGAAAGTAAATTTCTCTTCTATAAAATACCCAGTCCCAGAAATTCTGTTATACCAGCACAAACAGACTAAAACAGCTTTCAAGTGTGATTAGAGTCAACAACCCTGACTAGGGTCAGTAATTGGGATGCTCTGTTATCTCTATTGCAAAGTTACTGCGTAACTCCAGGTGCACCACATTTTAGCATATTCCCACTTTGGCAACGTGGTGGTGGTGGTGGTGAAGGTGTCCAGACAGAGGGGGCAGTAAGAGGAAAAAGCCCTAAAATGGCTGGTATGTTTAACATAGGTTTCTTTAACTCCCCACAACCTGTAACTGGTACAAATAGGTTCACATTAGCATTAATTCCCTCATTTCAATGGCTCATCTTAGTTCTCTGCCTATGCTTTTCACTTATTTTCAGATGTCTCTAGAGATGTCTTACACGCACGCAATAATGGTCTTCTGTTCCTCTGCTCCACCTTCCTAGTTGGTGTCTATCACCCACAAGCCACTTAAGGAAAATGCTTTTCCTCTGCTGTGACTGCTGTTGTCCTTCATGAAATAAATACTGCCCAGCCCAGGAAGCAAGCTTCAGACACTCCGAAAGTCACAACACCCTTGAGATGCCAAATGACAATGTGTTCTGTAAATCAAACGACGTGACGGAGGTAAGTCTCAATCATTTTACAGGTTTATTTTGCCAAAATTGAGCATGTGCCTGGCAAAAAGGAACACAAAATCACAGGAACATCTGTGATCTGTGCTTTTTCCAAACAGGGTTTGAGAACTTTTGTATTTAAAGGGGAAAGAGCAGGCAGTAAGGGAAAGTGGAAAGAAAAGGGGGTAGGGTAAATAAAAGAGAAAAGCAATTGCATTCTTTTGAAGCTTTGATCAGCAGTCACTGAATCCATATTTTACATGTGAAAGAAGCGGGTAGAGGAAGAGTCAATTATGCATTCATCTGGTGTGTGGTTAATCTACATTTTTACGTAAAATAAACAGTAGATAACGCAGTCAAACATGCATTTGTCTTAAGTGAGGGAAGGATGACTCCTAATCCTGTCTTTGTCCCATACCTGTGAAGATAATCTGTTAATTTACATTGTTTGGGTGAAATTCAACAGAATTGTTTTAGGGTAAAGATCTTGGGGCCCACAAGGAATTTCCTTGTAAGCAAATTGTGAGGCAGGACCCTTGGGGAGGTCAGTAACCTTCTTTCTATCAATCTATTTAGGAACAAAATGGAAGGCAGTTTTGCATAACTCAGTTTTCAAGCTTGACTTTTCCCTGTGGCATAATGAGTTTGGGGTCCCAGATTTTTAGTTTCCTTTCACAGTGTTGTGGGACTTTTCCTTAGTTCAGCTAAAGGTGAGGTCCTTGTCACACGGCCACAAAATTTAGGGTCGCAATTTGAAGGGTGAGCAGGGCAGGGTTTATTGGGTGAAAAGGAAAAAAGGGAAACAGGGACCCTCTGCAAAGCCAGAGTCCCTGCTAGTGCGCTTCCAGCCTCTCAGTTCCCAGGTTCCACAAAGGAAGAGGAGGGGCCAGTCTCCTCCCCACTACAAACAGCACAAACTTCTGTGGCTCCACCCAGGTGTGCACTCCTCCCAGTGCATAGGCTGGTTGGAGTTTTGCCAGGGAGCCCTTCCCACCTAGCAGTTTCAACAGTTTTCTCCAGAACTTGTTAGACTGCTAAGCCACACCATATTATGTGCAGAAATGGGAATAACATCCCTTTCCCCCAATTTGAGTGGTAGGCTGTATTGCATAGTGCTTAAGAGCATGGGTTTGGAGGACAGAGATAGATTTTATTTATCTGACAACTTTTACTTGAGTGTTGATAGTGGCATTATTCATAATGTCTCCAAAGTGGAAACCACCCATATGTCTACCAACAGACGAATGGATAAAGTATGATATAGCGCTGCAATGGAATATTATTTGGCAATAAAAAGAAATGAAGTACTAAAGCATGATATATACAAAGATGAACCTTGAAAACATCATGTTAAGTAAAAGAAGACAGTCATAAAAGTCATGTATTGCATGATTCTATTTATATGAAATGTCCAGAATAGGCAAATTCACTGAAAAAGGAAGTAGATTAGCGGTTGCCTAGAGCTGTGAGAATGGAGAGTTGGGGATGATAACTAAGGTATGAGAGATTTCTTTTTGAGGTGATTCAAATGTTCTAACTTGTGGTGATAGTTGCACAAGTCTGAATATATTAAAACCATTTAATCATATACTTTAAATGTGTGAATTAGATGATTTGTGAAGTAATGTTACCGTAGGTAGCTAGTCAAACATGAGCAGGGCAGGAGAGAGCTTCCCCCAACCCCCACCAGGAATGTCAGGCGACCGTCAGGTGATGGTCAGGCAGTTGTTAAGCTATCTCTCTAAAATAATAATTGGTTGCAGCCGGTGCCAGGGAACGGCAGCCTCCCAACAGATAGAAACATCTAAAACTGATGATCAGCAGCTTCCCAATAAGCTCTCAGGAGTTGGGCAAGTGGGCTCAAGCATGCGCACTAAGAGGGAAAGTGGCAGATGACCTTTGTTTAGGAACACTGGATTGGTAAGGGGAAAATGCCTCAAGTGAGCATGCACACTGTGCATGCGGCCCCTCCCAAGTGCTAGCAGGCCACTGTACATGTGGACAGCCCGCCCCAAGGGAAGAATCAGGGGAGAAGTAGTGCAAGACCCCGGAAGAATGCCAACATATAAAACCCCAAGTCGAAAGGTTAAACCGTACGCTTGATCTCTCAAGTTGCCCGCTTGGCCCTCTTCCGAGTGTACTTTACTTCCCTTCATTCCTGCTCTAAAGCTTTTTAACAAACTTTCACTCCTGCTCTAAAACTTGCCTTGGTCTCTCACTCTGCCTTATACCCCCTCAGTCTTCTGAGGAGGCAAGAATTCAGGTTGATGTAGACCCATATGGATTTGCCAGTGGTAACAATAAGAAATATACAGTCATCCTTCAATATCTGTGGGGGATTGGTTCTGGAATCCCCCCTCAGAAATTAAATCTATGATGCTCAAGTACCTTATATAACATGGTGTGGTATTTGCATATAACCTATACACTGCCTCCCATGTACTTTAAATCATCTCTAGATTCTTATTACAATGTAATGCTATGTAAATTGTTGTTACACTATATTTTTAAAATTTGTGTTATTTTAAATTGTTGTATTATTTTTTATTTATGTTTGTTATGTTTATGTTACGTATTATGTTTTCCAAATATTTTCATTGAATTTGCATTGAATTTACAGATGTAGAGGGCAGAGGGCTCATGGTGCATTTGGTCTTTGTCTTAGGTTTCTGGAGGATTCTGGCACACAGTTCCTAAATCCCTTAAAATCTCTAGAGGCATAAGGGTACTGTTTGTATGCTAATGAGATGATGGGTGGCTGGTGGGTGGGGGGCGGCTAGGGGGGACGGTCCCTAGACAGCTTCAGGTGGGGGCTGTTCACCAGAAAAACCTACAAGTGATTAGAGATTTGGAACTATCAGCTCCACTCACAGACCTCCAGGCAGAGAGAGAAGCTGAAGATGAGTTAACCACCTGTGGCCAATGATGTAATCAGTCATGCCTGTGAATGGAGCCTCCATTAAAACCTCCTAAATGAAGTAGTTCAGAGAGCTCCCGGGTTGGTGAACACATCAGGGATGCTGGAAGGGTGATGTGGCCCTGCTCCCATACCTTGCCCCCTGCATCTCTTCCATTTGGCTGTTCCTGAGTTGTGTCCTGTACAATAAACTGGTAACGGTAAAGTTCTTTCTCAGTTCTGTGAGCCATTCAAGCAAATTATAAAACTCAAGGAGGGGGGTCCTGGGAACCCCTAGTTTATAGCTGGTCCATCTGGAAGGCTCAGACTTGCAATTAGCATCTGCAGTGAAGGGAGTCTTGTAGCACTGAGCCCTTAACCTGTGAGGCCTGCGCTAACTATGGGTAGCTATTGTCAGAACTGAATTGAATTGCAGAACACCCACTTGGTGTCTGGAGAGCTGGAGAGTTGGCTGGCAGGTGGAAAACCCCCTGCATTTGGTGCCAGCGGTGTTGTGAGCAAAGAGAACACAGATATCTCAGTAAAGCTGTTACTGAGAGTGCCTATAGGGGGCTTCCTTAGTAGCTTGAATTGGCCTACAATGATGGCTGGGCCTTCCCAGGCTATGATCCCTTCTGAGGAAATCTTGCCCGGACATCTCAGGCCTGCTCCTGACAGGGTGTAAAACCTTGAGCAAGTTACCTTGCTTCTCTGAGTGAATTTCCTCCTCTGTGATATGGGGATGAGAGTAGTACCTTCCGTATAATGACACAACACCAATTCTTTGCACAGTGTCTGGCAGATGGAATGATTTGGATAAATGTGAGCTAACATTATCAGGTGTGAAGTGCAGATAATAATATCTATCTCACAAGGTGTAAACCCTGGCATGCATGTTCAAGCTTTCCAGTCTTGTCAAAATGAATTGTTCTTGTATCATCTAGAAATTTAGTTAGAGATCAATTTGCCTTTTTTACAAACAAGCATTTTTAGTTAGTAAGGTTCTGGCCTAATTTGGTATTCTGGATTTCTTATTTATCTTAATATTAAAAATAAAGGAGGAAAACTAAATTCACATTAAAAATGACTAAATTTTGAAAATTTTTTTCAACAGGTTATATCAATCAGTGAAAATTCTATATTCCTTTGGCATTTTTGTGACATATTCAATTCAGTTCTATGTTCCAGCAGAGATCATTATCCCTGGGATCACATCCAAATTTCATACTAAATGGAAGCAAATCTGTGAATTTGGGATAAGATCCTTCTTGGTTAGTATTACTTGTAAGTATCATTATATATTTATATCATAATAATTTTTTATTGTTCAATTTCAGTTTTATCCCAACTGGACACACCTAATTTACATTCTTACAGACAAGAATTGTTTGCACTGCTGTCAGTGTGCTGCAATTTAACTTCTGTCTCTACAGAATTGTAAAAGAGCCTAGTCAAAGTCACCCCTAGATGGAATTAAATAATTCCTGGGGCCTTCAGCCTTTCATTGAAAGGATATCCAATAATCTCTTTTCCTCATTTTAAAGTCTTATATTTTTCTTTGCAGTGATAAAAGTGATAATTCTGCCTTAGCTCAGTTATGGAAGGCAGAATAAGGAAGATACTTATTAACACCACACAGAAAGAAATCACATATCTTTTACGACTTATGCTTAGTTTTTTTTTAAATACATTGACAGAATAATGAAAACATAACTATTAATAATCATGAGGAGTCTGTAGATATTACCTCACTGTCATTATCTAAGATAACAAATGGAAATGTAACAACTATTAACTAAAGTCAAAATGGACACTCATAGTAAATATGTCTTTTGTTTATGCACAAAGAGTATACACTCTGTCAAATCAAAATAGATTTTTTTAAAGATGTGAAATTAATCCAATCAGTTCTTTCCTCCTTTAACAACAACAAAAATACACTGCCAGGTTAGTGAGTCAAACAAGAGAAGTCTAGGAAGATGAATGGGGAAGAGAGGCTGTTCTGGTTTAATGTAAACAGCTTAAATATGATATTCAAAGGAGTCTGAGAAGCAATTTCCTTAGACTGTTAACTTATTTGCTTTAGGATTAATTTATTCTTTTTTATTCAATGCAAGTCCAATGCATTTTAATTTTCAAACAGTAGTATGTCCAGCAGCATTTATTATATGTTCTTGCTATATGCCCAGAACCATGCTAATATTATCGTCTATCATTCAATACTGTAAAAACAATGCTATTATTACAAATCTAATTGCAGTCAGGTATTCCCTAGGCTTCAACCATGAGTGGAGGGGTGGCAGGAGCTAAGATCAAGGCACAGCTTTTGATCTCAGCTGGCAAGAAAGGAAAGTGGGTAGGGCAGGGCTGGTGATTGCTTACTTCTTGGACTCAGGGTTTCACAGAGCATCAAGATCTAATAAGCTATGCTTCTTCTGTTACCACTCCTCTATCTCTGCCTCTCTCTGCTTCTAGCACCATCTTTTCCTTCCTGTCCAAGCTCAGCAATGACATCTCCATCCTTCCCTGAGCTCTTTATCAAAATTTCCAGTGCCCTTTTGATTGCACCAGGTATTAGAAAGGAATCCTTTGGCATTAGTCCAATTGATGATCTTCTGATCCTTTCTGAGAGGTTTGAATTTTTATAAAAGATATTTGATAACAAATCTCAAATTGTTCATTTTTTTAAACTTGTTATTTCTTCTTCCTTTTAACCATTTAGTCAACAAACATTTTGAGTACCTACTACTTGCTAGGTGTTCTAGGTGCTAGGGACAATCTTCTTCCTTCATAGGTCTGCTGCTTACCTACTTGCTAGGGAACTGATGGGGAGCCATTTCTCCTTTGGGAAACCTGGGTCTAGCACTGATGAAAGAAAGTTTCATGGTTGCTTGTCAACCCCATCCTCCAACCTGGGAGTGCCACAGAGGCCAGTGCAGAAACCAGGGTTCTCAGGGTTTGTGTGAGGGACCGAGTCTCTGGAACCTGGATTGGGGGAAGGCCATTTACTTTGAAGAGCAGGGGTTGGACCTGCTGGGAAAGGGGCCCCTTTTTCTATGAGCAGAACTGAACTGGATTTTTCATTTGCATTTCATGGGCAGCCTTGCCTTCAATGTCACTGATGAGGGAAACACCACATGGGATTTCTCAGGCCTCCTCCCCCTCCTTCTCAATGTCCCTCAAGGCAGCACCCACTCCCATTTGTTTCTCTCTTGGGTGGGAAGGTACATGACATGAAAAATGCTGAATCTCACATCAAGATGTCTTTCAAAAGATGAATGGGCAGATTCTTAGTATCATCTCAAAGCAGGCAAGGCAAAGGCAGGATATTTATGAGGTTTTGGAGTGTAGTTTGAGTCAGGCCTTTTGTTTCAGGGGACTTGATTAGAATCGGGTAATCTTGTGACATATTAGGGTTAGTGGACAGAATGAGGCAAGGGTTTTGAAGACAGTCTTGGACTGTAAACCATTGTTTGAGACTATATTGTAGTAGACATGGACTATGAATAGTCTAATGTTTATTTAAATAAATTTTCAGGATATTCTTGAAATGGATAATAAAGTTATTTGCAACTTTATCTTCCATGGCAAGAGTGTCCTGGAATAATAAATAATATTGATGAAGACAATGGATAATAAAGTCATGTTAATGTAGACAGTAAGCCCTGTGGGTATAGATAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATGGAAAACAAACTTTCAGGACCCTCTATATGGAAAAGGGCATAGGTGAAGCCTCCAAACCCTGGCCTCCATCCCTGGTCTGGGGATGAAGAAAAACCCTAAAAAAATCTCTCACTCTCCCATCTATTATGGTTGCTTCTAGCACTATTTGCCTTTATCACTACCTATAGGATCAACCTTGATATGCTCAAACTCCAGAAAACTCTACACTTGAAAGTCATGTGGATGGTAGAATACAATAAAAGCACTACTAACCTTTCAAACACTGTGTTGATGCTGGTTTCCTAGGCAGGAGGTGAGAAAAGAAGACTCCAAGGGAATGATCTTTTTTATTAATCTTTCAACTTACTGTAAAAATATAAATGATCACTGTTTTTCAAGCACTTAGCATCTAGAATGGGATCTTTATTTTTTGCTTTCTGAAAGACAAAACAGAACCAACAAAGTGGTCTAGGAAAAAAATCCTTGCACCCAGAAATCCAGAGAAAATGACGTATTCTCATTGGAGTACAGGTGAAAGAGGACTTCTGAGAGGGCCAGGCAAGGTGGCTCATGCCTGTAATTCCAATGCTGTGGGAGGCCGAGACTGGAGAATTGCTTGAGGCAGGAGTTTGAGATTAGCTAGGAAAACATAGTGAGACCCTGTCTCTACAAGAAATTATAAAATTAGCCAGGTGTAGTGGTACAGCTGCAATCCTAGTGCCTGAGGCAGGAGGATCGCTTGAGCCCACGGGTTTGAGTGTTATGGTGAGCTATAATCACACCACTGCACTCCAGCCTGGGTGATAGAGTAAGATCCTGTCTCAAAAAAACAAAAACAAAAACAAACTTCAAAGAAAATCCAAGTGTAACTGCTTGAATGTGTCCTCTCCCAAATTCAGGTGTTGCCAATGTGACACTATCAAGAGGTGGGGCTTTAAGAGGTGATTAGGCTATGAAGACTCCTCCCTCATGAATAGGATTCAGTTCCCATATAAAGGGCCTTGAGAGAGGGAGCTCCTCCCTTTTATCCTTCTGCCTTTTGCCATGTGAGGACACAACACTCCTCCCCTCTGGAGAATCCAACATTAAGGTGCCATCTTGCAAGTAGGATGCATCCTTCACTAGAGAAGCTGAACCTGCTGGTCTCTTGATCTTGGATTTCACAGCCTCCAGAATTATAAGAAAGTAAATTTCTCTTCTATAAAATACCCAGTCCCAGAAATTCTGTTATACCAGCACAAACAGACTAAAACAGCTTTCAAGTGTGATTAGAGTCAACAACCCTGACTAGGGTCAGTAATTGGGATGCTCTGTTATCTCTATTGCAAAGTTACTGCGTAACTCCAGGTGCACCACATTTTAGCATATTCCCACTTTGGCAACGTGGTGGTGGTGGTGGTGAAGGTGTCCAGACAGAGGGGGCAGTAAGAGGAAAAAGCCCTAAAATGGCTGGTATGTTTAACATAGGTTTCTTTAACTCCCCACAACCTGTAACTGGTACAAATAGGTTCACATTAGCATTAATTCCCTCATTTCAATGGCTCATCTTAGTTCTCTGCCTATGCTTTTCACTTATTTTCAGATGTCTCTAGAGATGTCTTACACGCACGCAATAATGGTCTTCTGTTCCTCTGCTCCACCTTCCTAGTTGGTGTCTATCACCCACAAGCCACTTAAGGAAAATGCTTTTCCTCTGCTGTGACTGCTGTTGTCCTTCATGAAATAAATACTGCCCAGCCCAGGAAGCAAGCTTCAGACACTCCGAAAGTCACAACACCCTTGAGATGCCAAATGACAATGTGTTCTGTAAATCAAACGACGTGACGGAGGTAAGTCTCAATCATTTTACAGGTTTATTTTGCCAAAATTGAGCATGTGCCTGGCAAAAAGGAACACAAAATCACAGGAACATCTGTGATCTGTGCTTTTTCCAAACAGGGTTTGAGAACTTTTGTATTTAAAGGGGAAAGAGCAGGCAGTAAGGGAAAGTGGAAAGAAAAGGGGGTAGGGTAAATAAAAGAGAAAAGCAATTGCATTCTTTTGAAGCTTTGATCAGCAGTCACTGAATCCATATTTTACATGTGAAAGAAGCGGGTAGAGGAAGAGTCAATTATGCATTCATCTGGTGTGTGGTTAATCTACATTTTTACGTAAAATAAACAGTAGATAACGCAGTCAAACATGCATTTGTCTTAAGTGAGGGAAGGATGACTCCTAATCCTGTCTTTGTCCCATACCTGTGAAGATAATCTGTTAATTTACATTGTTTGGGTGAAATTCAACAGAATTGTTTTAGGGTAAAGATCTTGGGGCCCACAAGGAATTTCCTTGTAAGCAAATTGTGAGGCAGGACCCTTGGGGAGGTCAGTAACCTTCTTTCTATCAATCTATTTAGGAACAAAATGGAAGGCAGTTTTGCATAACTCAGTTTTCAAGCTTGACTTTTCCCTGTGGCATAATGAGTTTGGGGTCCCAGATTTTTAGTTTCCTTTCACAGTGTTGTGGGACTTTTCCTTAGTTCAGCTAAAGGTGAGGTCCTTGTCACACGGCCACAAAATTTAGGGTCGCAATTTGAAGGGTGAGCAGGGCAGGGTTTATTGGGTGAAAAGGAAAAAAGGGAAACAGGGACCCTCTGCAAAGCCAGAGTCCCTGCTAGTGCGCTTCCAGCCTCTCAGTTCCCAGGTTCCACAAAGGAAGAGGAGGGGCCAGTCTCCTCCCCACTACAAACAGCACAAACTTCTGTGGCTCCACCCAGGTGTGCACTCCTCCCAGTGCATAGGCTGGTTGGAGTTTTGCCAGGGAGCCCTTCCCACCTAGCAGTTTCAACAGTTTTCTCCAGAACTTGTTAGACTGCTAAGCCACACCATATTATGTGCAGAAATGGGAATAACATCCCTTTCCCCCAATTTGAGTGGTAGGCTGTATTGCATAGTGCTTAAGAGCATGGGTTTGGAGGACAGAGATAGATTTTATTTATCTGACTCTAAAATATGAATTAAAAAAATCTATTTCACAAGGTTGTTATGTGGATTAAATTAGTGGCACAGAAAGCTGAAGATAGTGCAGCTCACTCTTCTGGACTTCATTAAAGTTCACTTTCAAATGTTTGTCTTTAACACTATCTCAGAGGCCTGTAGAAAAATGCCAAAAGGAAATGAAAACTTATATCCACACAAATATAGATAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATCTAAAATATGAATTAAAAAAATCTATTTCACAAGGTTGTTATGTGGATTAAATTAGTGGCACAGAAAGCTGAAGATAGTGCAGCTCACTCTTCTGGACTTCATTAAAGTTCACTTTCAAATGTTTGTCTTTAACACTATCTCAGAGGCCTGTAGAAAAATGCCAAAAGGAAATGAAAACTTATATCCACACAAATATAGATAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATCTAAAATATGAATTAAAAAAATCTATTTCACAAGGTTGTTATGTGGATTAAATTAGTGGCACAGAAAGCTGAAGATAGTGCAGCTCACTCTTCTGGACTTCATTAAAGTTCACTTTCAAATGTTTGTCTTTAACACTATCTCAGAGGCCTGTAGAAAAATGCCAAAAGGAAATGAAAACTTATATCCACACAAATATAGATAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATCTAAAATATGAATTAAAAAAATCTATTTCACAAGGTTGTTATGTGGATTAAATTAGTGGCACAGAAAGCTGAAGATAGTGCAGCTCACTCTTCTGGACTTCATTAAAGTTCACTTTCAAATGTTTGTCTTTAACACTATCTCAGAGGCCTGTAGAAAAATGCCAAAAGGAAATGAAAACTTATATCCACACAAATATAGATAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATGGAAAACAAACTTTCAGGACCCTCTATATGGAAAAGGGCATAGGTGAAGCCTCCAAACCCTGGCCTCCATCCCTGGTCTGGGGATGAAGAAAAACCCTAAAAAAATCTCTCACTCTCCCATCTATTATGGTTGCTTCTAGCACTATTTGCCTTTATCACTACCTATAGGATCAACCTTGATATGCTCAAACTCCAGAAAACTCTACACTTGAAAGTCATGTGGATGGTAGAATACAATAAAAGCACTACTAACCTTTCAAACACTGTGTTGATGCTGGTTTCCTAGGCAGGAGGTGAGAAAAGAAGACTCCAAGGGAATGATCTTTTTTATTAATCTTTCAACTTACTGTAAAAATATAAATGATCACTGTTTTTCAAGCACTTAGCATCTAGAATGGGATCTTTATTTTTTGCTTTCTGAAAGACAAAACAGAACCAACAAAGTGGTCTAGGAAAAAAATCCTTGCACCCAGAAATCCAGAGAAAATGACGTATTCTCATTGGAGTACAGGTGAAAGAGGACTTCTGAGAGGGCCAGGCAAGGTGGCTCATGCCTGTAATTCCAATGCTGTGGGAGGCCGAGACTGGAGAATTGCTTGAGGCAGGAGTTTGAGATTAGCTAGGAAAACATAGTGAGACCCTGTCTCTACAAGAAATTATAAAATTAGCCAGGTGTAGTGGTACAGCTGCAATCCTAGTGCCTGAGGCAGGAGGATCGCTTGAGCCCACGGGTTTGAGTGTTATGGTGAGCTATAATCACACCACTGCACTCCAGCCTGGGTGATAGAGTAAGATCCTGTCTCAAAAAAACAAAAACAAAAACAAACTTCAAAGAAAATCCAAGTGTAACTGCTTGAATGTGTCCTCTCCCAAATTCAGGTGTTGCCAATGTGACACTATCAAGAGGTGGGGCTTTAAGAGGTGATTAGGCTATGAAGACTCCTCCCTCATGAATAGGATTCAGTTCCCATATAAAGGGCCTTGAGAGAGGGAGCTCCTCCCTTTTATCCTTCTGCCTTTTGCCATGTGAGGACACAACACTCCTCCCCTCTGGAGAATCCAACATTAAGGTGCCATCTTGCAAGTAGGATGCATCCTTCACTAGAGAAGCTGAACCTGCTGGTCTCTTGATCTTGGATTTCACAGCCTCCAGAATTATAAGAAAGTAAATTTCTCTTCTATAAAATACCCAGTCCCAGAAATTCTGTTATACCAGCACAAACAGACTAAAACAGCTTTCAAGTGTGATTAGAGTCAACAACCCTGACTAGGGTCAGTAATTGGGATGCTCTGTTATCTCTATTGCAAAGTTACTGCGTAACTCCAGGTGCACCACATTTTAGCATATTCCCACTTTGGCAACGTGGTGGTGGTGGTGGTGAAGGTGTCCAGACAGAGGGGGCAGTAAGAGGAAAAAGCCCTAAAATGGCTGGTATGTTTAACATAGGTTTCTTTAACTCCCCACAACCTGTAACTGGTACAAATAGGTTCACATTAGCATTAATTCCCTCATTTCAATGGCTCATCTTAGTTCTCTGCCTATGCTTTTCACTTATTTTCAGATGTCTCTAGAGATGTCTTACACGCACGCAATAATGGTCTTCTGTTCCTCTGCTCCACCTTCCTAGTTGGTGTCTATCACCCACAAGCCACTTAAGGAAAATGCTTTTCCTCTGCTGTGACTGCTGTTGTCCTTCATGAAATAAATACTGCCCAGCCCAGGAAGCAAGCTTCAGACACTCCGAAAGTCACAACACCCTTGAGATGCCAAATGACAATGTGTTCTGTAAATCAAACGACGTGACGGAGGTAAGTCTCAATCATTTTACAGGTTTATTTTGCCAAAATTGAGCATGTGCCTGGCAAAAAGGAACACAAAATCACAGGAACATCTGTGATCTGTGCTTTTTCCAAACAGGGTTTGAGAACTTTTGTATTTAAAGGGGAAAGAGCAGGCAGTAAGGGAAAGTGGAAAGAAAAGGGGGTAGGGTAAATAAAAGAGAAAAGCAATTGCATTCTTTTGAAGCTTTGATCAGCAGTCACTGAATCCATATTTTACATGTGAAAGAAGCGGGTAGAGGAAGAGTCAATTATGCATTCATCTGGTGTGTGGTTAATCTACATTTTTACGTAAAATAAACAGTAGATAACGCAGTCAAACATGCATTTGTCTTAAGTGAGGGAAGGATGACTCCTAATCCTGTCTTTGTCCCATACCTGTGAAGATAATCTGTTAATTTACATTGTTTGGGTGAAATTCAACAGAATTGTTTTAGGGTAAAGATCTTGGGGCCCACAAGGAATTTCCTTGTAAGCAAATTGTGAGGCAGGACCCTTGGGGAGGTCAGTAACCTTCTTTCTATCAATCTATTTAGGAACAAAATGGAAGGCAGTTTTGCATAACTCAGTTTTCAAGCTTGACTTTTCCCTGTGGCATAATGAGTTTGGGGTCCCAGATTTTTAGTTTCCTTTCACAGTGTTGTGGGACTTTTCCTTAGTTCAGCTAAAGGTGAGGTCCTTGTCACACGGCCACAAAATTTAGGGTCGCAATTTGAAGGGTGAGCAGGGCAGGGTTTATTGGGTGAAAAGGAAAAAAGGGAAACAGGGACCCTCTGCAAAGCCAGAGTCCCTGCTAGTGCGCTTCCAGCCTCTCAGTTCCCAGGTTCCACAAAGGAAGAGGAGGGGCCAGTCTCCTCCCCACTACAAACAGCACAAACTTCTGTGGCTCCACCCAGGTGTGCACTCCTCCCAGTGCATAGGCTGGTTGGAGTTTTGCCAGGGAGCCCTTCCCACCTAGCAGTTTCAACAGTTTTCTCCAGAACTTGTTAGACTGCTAAGCCACACCATATTATGTGCAGAAATGGGAATAACATCCCTTTCCCCCAATTTGAGTGGTAGGCTGTATTGCATAGTGCTTAAGAGCATGGGTTTGGAGGACAGAGATAGATTTTATTTATCTGACAACTTTTACTTGAGTGTTGATAGTGGCATTATTCATAATGTCTCCAAAGTGGAAACCACCCATATGTCTACCAACAGACGAATGGATAAAGTATGATATAGCGCTGCAATGGAATATTATTTGGCAATAAAAAGAAATGAAGTACTAAAGCATGATATATACAAAGATGAACCTTGAAAACATCATGTTAAGTAAAAGAAGACAGTCATAAAAGTCATGTATTGCATGATTCTATTTATATGAAATGTCCAGAATAGGCAAATTCACTGAAAAAGGAAGTAGATTAGCGGTTGCCTAGAGCTGTGAGAATGGAGAGTTGGGGATGATAACTAAGGTATGAGAGATTTCTTTTTGAGGTGATTCAAATGTTCTAACTTGTGGTGATAGTTGCACAAGTCTGAATATATTAAAACCATTTAATCATATACTTTAAATGTGTGAATTAGATGATTTGTGAAGTAATGTTACCGTAGGTAGCTAGTCAAACATGAGCAGGGCAGGAGAGAGCTTCCCCCAACCCCCACCAGGAATGTCAGGCGACCGTCAGGTGATGGTCAGGCAGTTGTTAAGCTATCTCTCTAAAATAATAATTGGTTGCAGCCGGTGCCAGGGAACGGCAGCCTCCCAACAGATAGAAACATCTAAAACTGATGATCAGCAGCTTCCCAATAAGCTCTCAGGAGTTGGGCAAGTGGGCTCAAGCATGCGCACTAAGAGGGAAAGTGGCAGATGACCTTTGTTTAGGAACACTGGATTGGTAAGGGGAAAATGCCTCAAGTGAGCATGCACACTGTGCATGCGGCCCCTCCCAAGTGCTAGCAGGCCACTGTACATGTGGACAGCCCGCCCCAAGGGAAGAATCAGGGGAGAAGTAGTGCAAGACCCCGGAAGAATGCCAACATATAAAACCCCAAGTCGAAAGGTTAAACCGTACGCTTGATCTCTCAAGTTGCCCGCTTGGCCCTCTTCCGAGTGTACTTTACTTCCCTTCATTCCTGCTCTAAAGCTTTTTAACAAACTTTCACTCCTGCTCTAAAACTTGCCTTGGTCTCTCACTCTGCCTTATACCCCCTCAGTCTTCTGAGGAGGCAAGAATTCAGGTTGATGTAGACCCATATGGATTTGCCAGTGGTAACAATAAGAAATATACAGTCATCCTTCAATATCTGTGGGGGATTGGTTCTGGAATCCCCCCTCAGAAATTAAATCTATGATGCTCAAGTACCTTATATAACATGGTGTGGTATTTGCATATAACCTATACACTGCCTCCCATGTACTTTAAATCATCTCTAGATTCTTATTACAATGTAATGCTATGTAAATTGTTGTTACACTATATTTTTAAAATTTGTGTTATTTTAAATTGTTGTATTATTTTTTATTTATGTTTGTTATGTTTATGTTACGTATTATGTTTTCCAAATATTTTCATTGAATTTGCATTGAATTTACAGATGTAGAGGGCAGAGGGCTCATGGTGCATTTGGTCTTTGTCTTAGGTTTCTGGAGGATTCTGGCACACAGTTCCTAAATCCCTTAAAATCTCTAGAGGCATAAGGGTACTGTTTGTATGCTAATGAGATGATGGGTGGCTGGTGGGTGGGGGGCGGCTAGGGGGGACGGTCCCTAGACAGCTTCAGGTGGGGGCTGTTCACCAGAAAAACCTACAAGTGATTAGAGATTTGGAACTATCAGCTCCACTCACAGACCTCCAGGCAGAGAGAGAAGCTGAAGATGAGTTAACCACCTGTGGCCAATGATGTAATCAGTCATGCCTGTGAATGGAGCCTCCATTAAAACCTCCTAAATGAAGTAGTTCAGAGAGCTCCCGGGTTGGTGAACACATCAGGGATGCTGGAAGGGTGATGTGGCCCTGCTCCCATACCTTGCCCCCTGCATCTCTTCCATTTGGCTGTTCCTGAGTTGTGTCCTGTACAATAAACTGGTAACGGTAAAGTTCTTTCTCAGTTCTGTGAGCCATTCAAGCAAATTATAAAACTCAAGGAGGGGGGTCCTGGGAACCCCTAGTTTATAGCTGGTCCATCTGGAAGGCTCAGACTTGCAATTAGCATCTGCAGTGAAGGGAGTCTTGTAGCACTGAGCCCTTAACCTGTGAGGCCTGCGCTAACTATGGGTAGCTATTGTCAGAACTGAATTGAATTGCAGAACACCCACTTGGTGTCTGGAGAGCTGGAGAGTTGGCTGGCAGGTGGAAAACCCCCTGCATTTGGTGCCAGCGGTGTTGTGAGCAAAGAGAACACAGATATCTCAGTAAAGCTGTTACTGAGAGTGCCTATAGGGGGCTTCCTTAGTAGCTTGAATTGGCCTACAATGATGGCTGGGCCTTCCCAGGCTATGATCCCTTCTGAGGAAATCTTGCCCGGACATCTCAGGCCTGCTCCTGACAGGGTGTAAAACCTTGAGCAAGTTACCTTGCTTCTCTGAGTGAATTTCCTCCTCTGTGATATGGGGATGAGAGTAGTACCTTCCGTATAATGACACAACACCAATTCTTTGCACAGTGTCTGGCAGATGGAATGATTTGGATAAATGTGAGCTAACATTATCAGGTGTGAAGTGCAGATAATAATATCTATCTCACAAGGTG
Comparación de secuencias La comparación de secuencias está en el corazón de la bioinformática. Los usos son variados; innumerables problemas se reducen en algún momento a comparar dos secuencias, o un grupo de secuencias. Y eso tiene que ver con que... Nothing in biology makes sense except in the light of evolution!!
Comparación de secuencias • Darwin: • Ancestro común • Descendencia con modificación • Por lo tanto, las secuencias: • tienen ancestros comunes • sufren modificaciones • secuencias similares tienen funciones similares
Árbol filogenético de las “globinas” humanas Comparación de secuencias Pero el parentezco entre secuencias no sólo corresponde a parentezco entre especies: también hay familias de secuencias.
Comparación de secuencias • ¿Para qué sirve comparar secuencias? • Para determinar relaciones evolutivas entre especies. • Para determinar relaciones evolutivas entre genes. • La secuencia que acabo de obtener en el laboratorio, ¿está en la base de datos? ¿O alguna parecida? • ¿O incluye trozos parecidos a algo conocido?
Comparación de secuencias ¿Para qué sirve comparar secuencias? • Para predecir función: si mi proteína NN se parece mucho a una, digamos, polimerasa... ¿será también polimerasa? • Para predecir estructura: si conozco la estructura 3d de una secuencia parecida... • Para predecir regulación: ¿a qué otras secuencias de control se parece la de este gen? • Etc, etc, etc...
Comparación de secuencias: homología • Homología: similaridad entre secuencias atribuída a que descienden de un ancestro común. • Hay dos tipos de homología. Las secuencias pueden ser: • Ortólogas: secuencias homólogas en especies distintas, que divergieron por la divergencia de las especies. • Parálogas: secuencias homólogas en una misma especie, que divergieron tras la duplicación de un gen.
common carp zebrafish rainbow trout teleost African clawed frog chicken human mouse rat horse pig cow rabbit 10 cambios Comparación de secuencias: homología Ortólogos: proteína RBP en varias especies de vertebrados Tienden a tener la misma función.
apolipoprotein D retinol-binding protein 4 Complement component 8 Alpha-1 Microglobulin /bikunin prostaglandin D2 synthase progestagen- associated endometrial protein neutrophil gelatinase- associated lipocalin Odorant-binding protein 2A 10 cambios Lipocalin 1 Comparación de secuencias: homología Parálogos Alguna divergencia ocurre en la función.
Comparación de secuencias: homología Homólogos de los dos tipos:
Comparación de secuencias: homología Xenólogos: resultado de transferencias horizontales de genes (esos genes saltarines...) E. coli
Comparación de secuencias: similaridad • Similaridad: la medida en la cual dos secuencias (de nucleótidos o aminoácidos) están relacionadas. • Importan la identidad y la conservación de las “letras”. • Identidad: no hubo cambio. • Conservación: hubo cambio pero se mantuvieron propiedades físicas/químicas/funcionales relevantes (eso es más frecuente en aminoácidos).
Comparación de secuencias: similaridad Alinemiento entre RBP4 y beta-lactoglobulina: 1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | . |. . . | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC 136 RBP || ||. | :.|||| | . .| 94 IPAVFKIDALNENKVL........VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin 137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || . | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin | identidad . algo de conservación : alta conservación ..... gaps (“indels”, inserción o eliminación)
Comparación de secuencias: similaridad • Similaridad versus homología: • Similaridad es entre secuencias; es cuantificable. • Homología requiere ancestro común; no es cuantificable. • Homología por lo general implica similaridad. • Similaridad no implica homología, • ...aunque alta similaridad entre secuencias largas por lo general sí se considera evidencia de homología. • (La convergencia es rara; sólo se ve en secuencias cortas).
Comparación de secuencias: similaridad • La similaridad es variable, según qué cosa comparemos, y cómo comparemos. • ¿Cómo evaluar similaridad? • ¿Cómo encontrar los alineamientos? • ¿Cómo saber si son significativos? • En proteínas un 25% de identidad probablemente indica homología • En DNA, es lo que se esperaría al azar!
Comparación de secuencias: similaridad RBP4 vs beta-lactoglobulina 1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | . |. . . | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC 136 RBP || ||. | :.|||| | . .| 94 IPAVFKIDALNENKVL........VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin 137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || . | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin
Comparación de secuencias: similaridad RBP humana vs RBP en trucha arcoiris 1 .MKWVWALLLLA.AWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDP 48 :: || || || .||.||. .| :|||:.|:.| |||.||||| 1 MLRICVALCALATCWA...QDCQVSNIQVMQNFDRSRYTGRWYAVAKKDP 47 . . . . . 49 EGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTED 98 |||| ||:||:|||||.|.|.||| ||| :||||:.||.| ||| || | 48 VGLFLLDNVVAQFSVDESGKMTATAHGRVIILNNWEMCANMFGTFEDTPD 97 . . . . . 99 PAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAVQYSCRLLNLDGTCADS 148 ||||||:||| ||:|| ||||||::||||| ||: |||| ..||||| | 98 PAKFKMRYWGAASYLQTGNDDHWVIDTDYDNYAIHYSCREVDLDGTCLDG 147 . . . . . 149 YSFVFSRDPNGLPPEAQKIVRQRQEELCLARQYRLIVHNGYCDGRSERNLL 199 |||:||| | || || |||| :..|:| .|| : | |:|: 148 YSFIFSRHPTGLRPEDQKIVTDKKKEICFLGKYRRVGHTGFCESS...... 192
Alineamiento de secuencias • Tipos de alineamiento: • De a pares: se alinean dos secuencias de la mejor manera posible para maximizar identidad y conservación; se busca evaluar similaridad, y posible homología. • Múltiple: se alinea un grupo de secuencias ( no es lo mismoque alinearlas a todas de a pares!).
detectar letras “importantes” ~~~~~EIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTM LSFTLEEEDITGTWYAMVVDKDFPEDRRRKVSPVKVTALGGGNLEATFTF TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR VQENFDVNKYLGRWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV VKENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTF LQQNFQDNQFQGKWYVVGLAGNAI.LREDKDPQKMYATIDKSYNVTSVLF VQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFL VQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEGEAEISMTSTRW PKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD... • determinar patrones o secuencias de consenso Alineamiento de secuencias • El alineamiento múltiple (no lo veremos aún) ayuda a: • hacer árboles filogenéticos mosca GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA humano GAKRVIISAP SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA planta GAKKVIISAP SAD.APM..F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA bacteria GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA levadura GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA archaea GADKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA
A G C A C A C - A A G - C A C A C A A - C A C A C T A A C A C A C T - A La distancia de edición entre AGCACACA y ACACACTA es 2 Alineamiento de secuencias La métrica que se usa es la distancia de Levenshtein o distancia de edición : es la longitud del proceso más corto para convertir una secuencia en otra, a través de pasos de inserción, borrado, o reemplazo (cada vez, de a una letra).
K L A A S V I L S D A L K L A A - - - - S D A L -10 + 3 x (-1)=-13 Alineamiento de secuencias • Problemas: • Una única mutación que inserta o borra suele afectar a más de una posición; por lo tanto, un “hoyo” de largo k no debiera costar igual que k hoyos de largo 1. • Solución usual: • puntaje afín para los hoyos, del tipo a+bk.
Alineamiento de secuencias • Problemas: • Sólo se reconocen identidades; reemplazos conservativos requieren algún “puntaje” intermedio. • Se usan matrices de sustitución, que asocian un número a cada posible reemplazo de una letra por otra. • Hay que distinguir entre proteínas y ácidos nucléicos.
Alineamiento: matrices de sustitución • Ácidos nucléicos: • El alfabeto ACGT se puede proyectar a un alfabeto binario de tres maneras distintas; cada una tiene cierto significado bioquímico: • R={A,G}, Y={C,T} : purinas y pirimidinas, resp. • S={G,C}, W={A,T} : enlace fuerte o débil, resp. • K={T,G}, M={A,C}: expone grupo keto o amino, resp. • Si un reemplazo no cambia la distinción R/Y, se suele considerar conservativo; se llaman transiciones, y los otros reemplazos son transversiones.
Alineamiento: matrices de sustitución Proteínas: • Serina (S) y treonina (T) tienen propiedades parecidas; el ácido aspártico (D) y el ácido glutámico (E) también. • El reemplazo S/T o E/D es frecuente durante la evolución. El “costo” no debería ser muy inferior al de la identidad.
Alineamiento: matrices de sustitución • Fuentes posibles para crear las matrices: • Propiedades fisico/químicas de los aminoácidos. • Frecuencia empírica de reemplazos observados en proteínas claramente homólogas. • En la práctica resultan ser criterios parecidos. • Se usa lo segundo.
Alineamiento: matrices de sustitución • Son dos los grupos de matrices más usados: • PAM (Dayhoff, 1978) • BLOSUM (Henikoff & Henikoff, 1992) • casi han reemplazado a las PAM • En la matriz se pone el odds ratio: • el logaritmo de la probabilidad de la sustitución, dividida por la probabilidad de que las letras alineadas estén allí al azar (qi y qj son las frecuencias absolutas). ¿Por qué logaritmo? Para poder trabajar con números de magnitudes similares, y para poder sumar en vez de multiplicar.
Alineamiento: matrices de sustitución • PAM: • PAM1 se construye con la prob. de reemplazo para un nivel de divergencia de 1% (1 aminoácido de cada 100), que sería aproximadamente un millón de años. • PAMn, para divergencias mayores, se construye calculando potencia n-ésima de PAM1. • BLOSUM: • Para BLOSUMn, se usan alineamientos locales de un mismo largo (sin gaps) de proteínas con al menos n% de identidad. No se extrapola nada.
Alineamiento: matrices de sustitución 100 BLOSUM62 Usa estas 62 30
Alineamiento: matrices de sustitución La matriz que corresponda usar depende de qué tan lejanas son las secuencias que se están comparando. • Polimerasa de ratón vs polimerasa de bacteria • Globinas humanas distantes RBP de ratón vs RBP de rata
Alineamiento • Resumiendo, el puntaje de un alineamiento dependerá (aditivamente) de: • La matriz de sustitución, que le pone puntaje al reemplazo de una letra por otra • La penalización de gaps • Con eso se están haciendo varias simplificaciones: • Que haya independencia entre posiciones. • Que no haya zonas más mutables. • Que todas las secuencias cambian al mismo ritmo...
human (NP_005203) versus mouse (NP_031812) kappa casein human (NP_005203) versus mouse (NP_031812) ubiquitin Alineamiento ¿Que todas las secuencias cambian al mismo ritmo? 33 PAM para kappa-caseína, 0 PAM para ubiquitina! Pero ok, se hace la simplificación.
G H G F E D C A A C D E F G H G Alineamiento: dot plots Una herramienta simple pero útil: dot plots. Ponemos una secuencia en una fila, la otra en una columna, y un punto por cada coincidencia. Se suelen unir con líneas los puntos contiguos de una diagonal. En uso desde los 70s.
Alineamiento: dot plots Mioglobina vs beta-globina (humanas) Refinamiento más reciente: Sólo poner el punto si en una ventana de tamaño w, hay s coincidencias (se elimina “ruido” poco significativo).
0 200 400 600 800 800 600 400 200 0 COMPARE Window: 40 Stringency: 20.0 Points: 2,295 ldlrecep.pep ck: 3,641, 1 to 860 ldlrecep.pep ck: 3,641, 1 to 860 Alineamiento: dot plots Receptor LDL humano vs sí mismo w=30, s=9 w=40, s=20
Alineamiento: dot plots • Conviene hacerlos antes de aplicar algoritmos; puede haber algo evidente que salte a la vista. • ¿Qué se puede ver? • Similaridad entre dos secuencias • Secuencias repetitivas • Palíndromes (que existen!) • Segmentos compartidos, aunque esté cambiado el orden, o haya bloques insertados.
Alineamiento: local y global • Se pueden buscar alineamientos locales o globales : • Global: se alinea una secuencia completa contra otra secuencia completa. Suele ser útil para secuencias similares, y/o de tamaños parecidos. • Local: se alinea un tramo de una secuencia con un tramo de la otra, de la mejor manera posible.
Alineamiento global • Podemos ver un alineamiento como un camino en una matriz similar al dotplot: • Avanzamos hacia la derecha y hacia abajo. • Vamos de la esquina en que comienzan las secuencias, hasta la esquina en que terminan. • Horizontal o vertical gap • Diagonal identidad o reemplazo
AGTGCCCTGGAACCCTGACGGTGGGTCACAAAACTTCTGGA AGTGACCTGGGAAGACCCTGACCCTGGGTCACAAAACTC Alineamiento global Para dos proteínas de 100 aá, los posibles alineamientos son 1060. En general, la cantidad de alineamientos es O(2n+m). Por suerte, existe un algoritmo de programación dinámica: Needleman & Wunsch, 1970.
Alineamiento global T C G C A T C C A A cada punto podemos llegar por sólo tres caminos. x
Alineamiento global T C G C A T C C A A cada punto podemos llegar por sólo tres caminos. x score(x,y-1) - gap-penalty score(x,y) = max
Alineamiento global T C G C A T C C A A cada punto podemos llegar por sólo tres caminos. x score(x,y-1) - gap-penalty score(x-1,y-1) + substitution-score(x,y) score(x,y) = max
Alineamiento global T C G C A T C C A A cada punto podemos llegar por sólo tres caminos. x Una vez que llegamos al final, desandamos lo andado para determinar la ruta óptima. score(x,y-1) - gap-penalty score(x-1,y-1) + substitution-score(x,y) score(x-1,y) - gap-penalty score(x,y) = max
Alineamiento global Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 M 1 A 2 T 3 H 4 S 5
Alineamiento global Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 M 1 A 2 T 3 H 4 S 5
Alineamiento global Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 M 1 A 2 T 3 H 4 S 5
Alineamiento global Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2 M 1 A 2 T 3 H 4 S 5
Alineamiento global Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2 3 4 M 1 1 A 2 2 T 3 3 H 4 4 S 5 5
Alineamiento global Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2 3 4 M 1 1 1 A 2 2 T 3 3 H 4 4 S 5 5