Genetic Analysis Workshop Overview

Genetic Analysis Workshop Overview Department of Psychology University of Wisconsin June 2011

Overview • Instructors: • Matt McGue • Mike Miller • Objective: Introduction to the rationale and methodologies currently used in genetic association analysis • Background: • Basic (e.g., High School) Genetics • Intermediate-level statistics (e.g., regression) • Computing skills beyond menu-driven analysis

Evolution of Genetic Association Studies Limited # of Protein Markers (e.g., ABO) 1940s – 1980s Single Marker/ Single Candidate Gene (e.g., COMT Val/Met) 1990 – 2005 Multiple Markers/Multiple Candidate Genes (e.g., Dopamine System) Genome Wide Association Study (GWAS) 2000 – present 2007 – present Genome (Re-)Sequencing Soon

Overview: Topics Designing a Genetic Analysis Study 1. Human Genome 2. Basic Bioinformatics 3. SNP tagging and LD 4. Determining statistical power Preparing Genetic Data for Analysis 5. Introduction to plink 6. Cleaning genetic data Association Analysis 7. Simple association 8. Multiple association 9. Ethnic confounding Advanced Topics 10. GWAS 11. GxE Interaction • Assumed Background: • Basic (e.g., High School) Genetics • Intermediate-level statistics (e.g., regression) • Computing skills beyond menu-driven analysis

Overview: Structure • Organization of each day • 9:00 AM to 4:30 PM • Assignments given prior to lunch (12-1:30) and at end of day • Workshop website: http://genetsim.org/workshop/ • Other websites: • Software downloads • Bioinformatic websites

Topic #1Human Genomic Structure, Function & Variation: An Overview Department of Psychology University of Wisconsin June 2011

Outline • Human Genetic Structure and Function • Nature of Human Genetic Variation • Approaches to Identifying Genetic Variants Associated with Phenotype

Human Genome Project • <1980 – Human genetics was limited primarily to twin and family studies and rare linkage analysis • 1990- international collaboration conceived as a 15 year effort • 1994- genetic (linkage) map published (marker density of less than 1/Mb) (1 year early) • 2001 – publication of draft sequence published in Science (Celera) and Nature (HGP) • 2003 – HGP sequencing declared complete on 14 April – 50 year anniversary of Watson & Crick (2 years early) • 2006 – Last human chromosome (#1) sequenced – 224 MB, 3141 genes, 991 pseudogenes

Little, P.F.R. (2005). Structure and function of the human genome. Genome Research, 15: 1759-1766.

Human Genome: Quick Facts • Sequence of the ~ 3.2 billion (giga) bases of DNA for a composite (haploid) individual • Note: Kb = 1000 bases, Mb = 1,000,000 bases • Approximately 20,000 to 25,000 genes • Note: 22,500/3.2 giga bases ~ 7 genes/Mb • Know function of roughly half of these genes • Encyclopedia of DNA elements (ENCODE)

Most DNA is Non-Coding

Gene Structure 5’ 3’

Regulation of Gene Expression • Can be conceptualized as a form of GxE Gene expression = f(Cell environment, DNA sequence) • A major mechanism involves regulating access to gene’s transcription machinery • Can be either short-term (e.g., enhancing or silencing transcription) or long-term (e.g., ‘turning off’) • Can involve either cis or trans regulation

Cis/Trans Distinction

Cis Sources of Functional Variation • cis – (“on the same side as”): Regulatory elements that in the region of the gene and have an allele-specific effect • variation that regulates transcription initiation (e.g., promoters) • Variation that affects mRNA splicing, stability • Can extend far outside the primary gene region; e.g., regulatory element in LCT gene is ~ 14kb upstream (Ennatah et al. 2002)

Trans Sources of Functional Variation • trans (across from): not in the gene region and affect regulation of both alleles • ncRNAs • transcription factors • Micro RNA (miRNA – repress translation) • Small interfering RNA (siRNA) • Significant association signals (Hindorff et al., 2009) • 43% are intergenic • Some in ‘gene deserts’

Sequencing the Genome Chromosome 2 CTAAATTTTGCTCTGGGACAAATTCCAAAAAAAATTAGCTTTAATCAAATTTACTTTTACTTTATCTTTCTGAACCTTCAAGGTCCAAAAGCATTGGTTAATAATTCTGCTTCTAAACTTAACATTGCAGCACAGGGCATGTTCTGCCCCCAAGGCAAAGACCATAAGCTACTGTTGTCTGGAAAACATACAAATAGATATCTCAGCAAAAGCTACTCATATATTCTTGTTCTTTTGGGTAAATCATTGTCAGTGACTGATTTTTTTTTTATGAAAGGATAAAAACACGCCCTCTATTGGGGTCAGGTTTTGTGCTGGTATTTCTCCCACCTACTGTATCATAGGAGCTTAGATTCCCAGCTGCTTGCTCTCAGCTGCAGTTCTCTGATGGCTTGCACAGGGTGGACCAGCCCCCTTCCTCTATGTGTGTGTCTGCTGCTGACCTGTGGCTTTGCCGAGGCAGGGAAGCTACTGGTAGTGCCCATGGATGGGAGCCACTGGTTCACCATGAGGTCGGTGGTGGAGAAACTCATTCTCAGGGGGCATGAGGTGGTTGTAGTCATGCCAGAGGTGAGTTGGCAACTGGGAAGATCACTGAATTGCACAGTGAAGACTTATTCAACTTCATATACCCTGGAGGATCTGGACCGGGAGTTCAAGGCTTTTGCCCATGCTCAATGGAAAGCACAAGTACGAAGTATATATTCTCTATTAATGGGTTCATACAATGACATTTTTGACTTATTTTTTTCAAATTGCAGGAGTTTGTTTAAAGACAAAAAATTAGTAGAATACTTAAAGGAGAGTTCTTTTGATGCAGTGTTTCTCGATCCTTTTGATAACTGTGGCTTAATTGTTGCCAAATATTTCTCCCTCCCCTCCGTGGTCTTCGCCAGGGGAATACTTTGCCACTATCTTGAAGAAGGTGCACAGTGCCCTGCTCCTCTTTCCTATGTCCCCAGAATTCTCTTAGGGTTCTCAGATGCCATGACTTTCAAGGAGAGAGTACGGAACCACATCATGCACTTGGAGGAACATTTATTATGCCACCGTTTTTTCAAAAATGCCCTAGAAATAGCCTCTGAAATTCTCCAAACACCTGTTACGGAGTATGATCTCTACAGCCACACATCAATTTGGTTGTTGCGAACGGACTTTGTTTTGGACTATCCCAAACCCGTGATGCCCAACATGATCTTCATTGGTGGTATCAACTGCCATCAGGGAAAGCCGTTGCCTATGGTAAGTTATCTCTCCTTTAGCACCTTAAGAATACTTCACCTTTGGAAATTAAAAAAGGATTCTTTACTGAACTGTGATTTGACATTTTCATTTGTTTCATTTCAAATTTCTTTCCAGTTTAACAAATTATTTTGTGCCAATGCGTGTACTCGTCAGTAGCAAATTTTATAAAACTGCCCTTCTTGAAGATATGTATTTATAACTTATAAAATTGTGGAACATATTCAGCCTACATTTTTAAGTACCATG

Enumerate 234,244,933ctaaattttg ctctgggaca aattccaaaa aaaattagct ttaatcaaat 234,244,983ttacttttac tttatctttc tgaaccttca aggtccaaaa gcattggtta 234,245,033ataattctgc ttctaaactt aacattgcag cacagggcat gttctgcccc 234,245,083caaggcaaag accataagct actgttgtct ggaaaacata caaatagata 234,245,133tctcagcaaa agctactcat atattcttgt tcttttgggt aaatcattgt 234,245,183cagtgactga tttttttttt atgaaaggat aaaaacacgc cctctattgg 234,245,233ggtcaggttt tgtgctggta tttctcccac ctactgtatc ataggagctt 234,245,283 agattcccag ctgcttgctc tcagctgcag ttctctgATG GCTTGCACAG 234,245,333 GGTGGACCAG CCCCCTTCCT CTATGTGTGT GTCTGCTGCT GACCTGTGGC 234,245,383 TTTGCCGAGG CAGGGAAGCT ACTGGTAGTG CCCATGGATG GGAGCCACTG 234,245,433 GTTCACCATG AGGTCGGTGG TGGAGAAACT CATTCTCAGG GGGCATGAGG 234,245,483 TGGTTGTAGT CATGCCAGAG GTGAGTTGGC AACTGGGAAG ATCACTGAAT 234,245,533 TGCACAGTGA AGACTTATTC AACTTCATAT ACCCTGGAGG ATCTGGACCG 234,245,583 GGAGTTCAAG GCTTTTGCCC ATGCTCAATG GAAAGCACAA GTACGAAGTA 234,245,633 TATATTCTCT ATTAATGGGT TCATACAATG ACATTTTTGA CTTATTTTTT 234,245,683 TCAAATTGCA GGAGTTTGTT TAAAGACAAA AAATTAGTAG AATACTTAAA 234,245,733 GGAGAGTTCT TTTGATGCAG TGTTTCTCGA TCCTTTTGAT AACTGTGGCT 234,245,783 TAATTGTTGC CAAATATTTC TCCCTCCCCT CCGTGGTCTT CGCCAGGGGA 234,245,833 ATACTTTGCC ACTATCTTGA AGAAGGTGCA CAGTGCCCTG CTCCTCTTTC 234,245,883 CTATGTCCCC AGAATTCTCT TAGGGTTCTC AGATGCCATG ACTTTCAAGG 234,245,933 AGAGAGTACG GAACCACATC ATGCACTTGG AGGAACATTT ATTATGCCAC 234,245,983 CGTTTTTTCA AAAATGCCCT AGAAATAGCC TCTGAAATTC TCCAAACACC 234,246,033 TGTTACGGAG TATGATCTCT ACAGCCACAC ATCAATTTGG TTGTTGCGAA 234,246,083 CGGACTTTGT TTTGGACTAT CCCAAACCCG TGATGCCCAA CATGATCTTC 234,246,133 ATTGGTGGTA TCAACTGCCA TCAGGGAAAG CCGTTGCCTA TGGTAAGTTA 234,246,183TCTCTCCTTT AGCACCTTAA GAATACTTCA CCTTTGGAAA TTAAAAAAGG 234,246,233ATTCTTTACT GAACTGTGAT TTGACATTTT CATTTGTTTC ATTTCAAATT 234,246,283TCTTTCCAGT TTAACAAATT ATTTTGTGCC AATGCGTGTA CTCGTCAGTA 234,246,333GCAAATTTTA TAAAACTGCC CTTCTTGAAG ATATGTATTT ATAACTTATA 234,246,383AAATTGTGGA ACATATTCAG CCTACATTTT TAAGTACCAT GTTTAGAAAA

Identify Gene Boundaries 234,244,933ctaaattttg ctctgggaca aattccaaaa aaaattagct ttaatcaaat 234,244,983 ttacttttac tttatctttc tgaaccttca aggtccaaaa gcattggtta 234,245,033 ataattctgc ttctaaactt aacattgcag cacagggcat gttctgcccc 234,245,083 caaggcaaag accataagct actgttgtct ggaaaacata caaatagata 234,245,133 tctcagcaaa agctactcat atattcttgt tcttttgggt aaatcattgt 234,245,183 cagtgactga tttttttttt atgaaaggat aaaaacacgc cctctattgg 234,245,233 ggtcaggttt tgtgctggta tttctcccac ctactgtatc ataggagctt 234,245,283 agattcccag ctgcttgctc tcagctgcag ttctctgATG GCTTGCACAG Exon 1 234,245,333 GGTGGACCAG CCCCCTTCCT CTATGTGTGT GTCTGCTGCT GACCTGTGGC 234,245,383 TTTGCCGAGG CAGGGAAGCT ACTGGTAGTG CCCATGGATG GGAGCCACTG 234,245,433 GTTCACCATG AGGTCGGTGG TGGAGAAACT CATTCTCAGG GGGCATGAGG 234,245,483 TGGTTGTAGT CATGCCAGAG GTGAGTTGGC AACTGGGAAG ATCACTGAAT 234,245,533 TGCACAGTGA AGACTTATTC AACTTCATAT ACCCTGGAGG ATCTGGACCG 234,245,583 GGAGTTCAAG GCTTTTGCCC ATGCTCAATG GAAAGCACAA GTACGAAGTA 234,245,633 TATATTCTCT ATTAATGGGT TCATACAATG ACATTTTTGA CTTATTTTTT 234,245,683 TCAAATTGCA GGAGTTTGTT TAAAGACAAA AAATTAGTAG AATACTTAAA 234,245,733 GGAGAGTTCT TTTGATGCAG TGTTTCTCGA TCCTTTTGAT AACTGTGGCT 234,245,783 TAATTGTTGC CAAATATTTC TCCCTCCCCT CCGTGGTCTT CGCCAGGGGA 234,245,833 ATACTTTGCC ACTATCTTGA AGAAGGTGCA CAGTGCCCTG CTCCTCTTTC 234,245,883 CTATGTCCCC AGAATTCTCT TAGGGTTCTC AGATGCCATG ACTTTCAAGG 234,245,933 AGAGAGTACG GAACCACATC ATGCACTTGG AGGAACATTT ATTATGCCAC 234,245,983 CGTTTTTTCA AAAATGCCCT AGAAATAGCC TCTGAAATTC TCCAAACACC 234,246,033 TGTTACGGAG TATGATCTCT ACAGCCACAC ATCAATTTGG TTTTTGCGAA 234,246,083 CGGACTTTGT TTTGGACTAT CCCAAACCCG TGATGCCCAA CATGATCTTC 234,246,133 ATTGGTGGTA TCAACTGCCA TCAGGGAAAG CCGTTGCCTA TGGTAAGTTA Intron 1 234,246,183 TCTCTCCTTT AGCACCTTAA GAATACTTCA CCTTTGGAAA TTAAAAAAGG 234,246,233 ATTCTTTACT GAACTGTGAT TTGACATTTT CATTTGTTTC ATTTCAAATT 234,246,283 TCTTTCCAGT TTAACAAATT ATTTTGTGCC AATGCGTGTA CTCGTCAGTA 234,246,333 GCAAATTTTA TAAAACTGCC CTTCTTGAAG ATATGTATTT ATAACTTATA 234,246,383 AAATTGTGGA ACATATTCAG CCTACATTTT TAAGTACCAT GTTTAGAAAA

Identify Genetic Variants 234,244,933 ctaaattttg ctctgggaca aattccaaaa aaaattagct ttaatcaaat 234,244,983 ttacttttac tttatctttc tgaaccttca aggtccaaaa gcattggtta rs2741046 234,245,033 ataattctgc ttctaaactt aacattgcag cacagggcat gttctgcccc rs6714486 234,245,083 caaggcaaag accataagct actgttgtct ggaaaacata caaatagata 234,245,133 tctcagcaaa agctactcat atattcttgt tcttttgggt aaatcattgt 234,245,183 cagtgactga tttttttttt atgaaaggat aaaaacacgc cctctattgg 234,245,233ggtcaggttt tgtgctggta tttctcccac ctactgtatc ataggagctt 234,245,283 agattcccag ctgcttgctc tcagctgcag ttctctgATG GCTTGCACAG Exon 1 234,245,333 GGTGGACCAG CCCCCTTCCT CTATGTGTGT GTCTGCTGCT GACCTGTGGC 234,245,383 TTTGCCGAGG CAGGGAAGCT ACTGGTAGTG CCCATGGATG GGAGCCACTG 234,245,433 GTTCACCATG AGGTCGGTGG TGGAGAAACT CATTCTCAGG GGGCATGAGG 234,245,483 TGGTTGTAGT CATGCCAGAG GTGAGTTGGC AACTGGGAAG ATCACTGAAT 234,245,533 TGCACAGTGA AGACTTATTC AACTTCATAT ACCCTGGAGG ATCTGGACCG 234,245,583 GGAGTTCAAG GCTTTTGCCC ATGCTCAATG GAAAGCACAA GTACGAAGTA 234,245,633 TATATTCTCT ATTAATGGGT TCATACAATG ACATTTTTGA CTTATTTTTT 234,245,683 TCAAATTGCA GGAGTTTGTT TAAAGACAAA AAATTAGTAG AATACTTAAA rs28946876 234,245,733 GGAGAGTTCT TTTGATGCAG TGTTTCTCGA TCCTTTTGAT AACTGTGGCT 234,245,783 TAATTGTTGC CAAATATTTC TCCCTCCCCT CCGTGGTCTT CGCCAGGGGA 234,245,833 ATACTTTGCC ACTATCTTGA AGAAGGTGCA CAGTGCCCTG CTCCTCTTTC 234,245,883 CTATGTCCCC AGAATTCTCT TAGGGTTCTC AGATGCCATG ACTTTCAAGG 234,245,933 AGAGAGTACG GAACCACATC ATGCACTTGG AGGAACATTT ATTATGCCAC 234,245,983 CGTTTTTTCA AAAATGCCCT AGAAATAGCC TCTGAAATTC TCCAAACACC 234,246,033 TGTTACGGAG TATGATCTCT ACAGCCACAC ATCAATTTGG TTGTTGCGAA rs17863776 234,246,083 CGGACTTTGT TTTGGACTAT CCCAAACCCG TGATGCCCAA CATGATCTTC rs4663870rs1042607 234,246,133 ATTGGTGGTA TCAACTGCCA TCAGGGAAAG CCGTTGCCTA TGGTAAGTTA Intron 1 234,246,183 TCTCTCCTTT AGCACCTTAA GAATACTTCA CCTTTGGAAA TTAAAAAAGG 234,246,233 ATTCTTTACT GAACTGTGAT TTGACATTTT CATTTGTTTC ATTTCAAATT 234,246,283 TCTTTCCAGT TTAACAAATT ATTTTGTGCC AATGCGTGTA CTCGTCAGTA rs4663871 234,246,333 GCAAATTTTA TAAAACTGCC CTTCTTGAAG ATATGTATTT ATAACTTATA 234,246,383 AAATTGTGGA ACATATTCAG CCTACATTTT TAAGTACCAT GTTTAGAAAA rs2741047

Annotate 234,244,933 ctaaattttg ctctgggaca aattccaaaa aaaattagct ttaatcaaat 234,244,983 ttacttttac tttatctttc tgaaccttca aggtccaaaa gcattggtta rs2741046 234,245,033 ataattctgc ttctaaactt aacattgcag cacagggcat gttctgcccc rs6714486 234,245,083 caaggcaaag accataagct actgttgtct ggaaaacata caaatagata 234,245,133 tctcagcaaa agctactcat atattcttgt tcttttgggt aaatcattgt 234,245,183 cagtgactga tttttttttt atgaaaggat aaaaacacgc cctctattgg 234,245,233ggtcaggttt tgtgctggta tttctcccac ctactgtatc ataggagctt 234,245,283 agattcccag ctgcttgctc tcagctgcag ttctctgATG GCTTGCACAG Exon 1 234,245,333 GGTGGACCAG CCCCCTTCCT CTATGTGTGT GTCTGCTGCT GACCTGTGGC 234,245,383 TTTGCCGAGG CAGGGAAGCT ACTGGTAGTG CCCATGGATG GGAGCCACTG 234,245,433 GTTCACCATG AGGTCGGTGG TGGAGAAACT CATTCTCAGG GGGCATGAGG 234,245,483 TGGTTGTAGT CATGCCAGAG GTGAGTTGGC AACTGGGAAG ATCACTGAAT 234,245,533 TGCACAGTGA AGACTTATTC AACTTCATAT ACCCTGGAGG ATCTGGACCG 234,245,583 GGAGTTCAAG GCTTTTGCCC ATGCTCAATG GAAAGCACAA GTACGAAGTA 234,245,633 TATATTCTCT ATTAATGGGT TCATACAATG ACATTTTTGA CTTATTTTTT 234,245,683 TCAAATTGCA GGAGTTTGTT TAAAGACAAA AAATTAGTAG AATACTTAAA rs28946876 234,245,733 GGAGAGTTCT TTTGATGCAG TGTTTCTCGA TCCTTTTGAT AACTGTGGCT 234,245,783 TAATTGTTGC CAAATATTTC TCCCTCCCCT CCGTGGTCTT CGCCAGGGGA 234,245,833 ATACTTTGCC ACTATCTTGA AGAAGGTGCA CAGTGCCCTG CTCCTCTTTC 234,245,883 CTATGTCCCC AGAATTCTCT TAGGGTTCTC AGATGCCATG ACTTTCAAGG 234,245,933 AGAGAGTACG GAACCACATC ATGCACTTGG AGGAACATTT ATTATGCCAC 234,245,983 CGTTTTTTCA AAAATGCCCT AGAAATAGCC TCTGAAATTC TCCAAACACC 234,246,033 TGTTACGGAG TATGATCTCT ACAGCCACAC ATCAATTTGG TTGTTGCGAA rs17863776 234,246,083 CGGACTTTGT TTTGGACTAT CCCAAACCCG TGATGCCCAA CATGATCTTC rs4663870rs1042607 234,246,133 ATTGGTGGTA TCAACTGCCA TCAGGGAAAG CCGTTGCCTA TGGTAAGTTA Intron 1 234,246,183 TCTCTCCTTT AGCACCTTAA GAATACTTCA CCTTTGGAAA TTAAAAAAGG 234,246,233 ATTCTTTACT GAACTGTGAT TTGACATTTT CATTTGTTTC ATTTCAAATT 234,246,283 TCTTTCCAGT TTAACAAATT ATTTTGTGCC AATGCGTGTA CTCGTCAGTA rs4663871 234,246,333 GCAAATTTTA TAAAACTGCC CTTCTTGAAG ATATGTATTT ATAACTTATA 234,246,383 AAATTGTGGA ACATATTCAG CCTACATTTT TAAGTACCAT GTTTAGAAAA rs2741047

Genetic Variation: Aren’t we all the same anyway? • Any two humans will share ~ 99.9% of their DNA sequence • But then .1% of 3,200,000,000 = 3.2 million x 2 = 6.4 million differences!

Categories of Genetic Variation • Frequency: • Polymorphism(Common) • At least two alleles with frequency > 1% • Mutation (Rare & Low Frequency) • Allele with frequency of < 1% • Type of Genetic Variation • Sequence (i.e., differences in base sequence) • Structure (i.e., differences in the amount of DNA) • Organization (i.e., differences in DNA packaging)

Sequence Variation Single Nucleotide Polymorphism (SNP) ATTGGCCTTAACCCCCGATTATCAGGAT ATTGGCCTTAACCTCCGATTATCAGGAT ATTGGCCTTAACCCCCGATTATCAGGAT ATTGGCCTTAACATCCGATTATCAGGAT ATTGGCCTTAACCCCCGATTATCAGGAT ATTGGCCTTAACATGCGATTATCAGGAT Dinucleotide Nucleotide Polymorphism (DNP) Triucleotide Polymorphism (TNP) . . . Multinucleotide Polymorphism (MNP)

Single Nucleotide Polymorphisms (SNPs) • Numerically most numerous: • > 10,000,000 identified • dbSNP (http://www.ncbi.nlm.nih.gov/projects/SNP/) • Overwhelmingly bi-allelic: • Transitions more common than Transversions • purine  purine, AG • pyrimidinepyrimidine, CT • purinepyrimidine or pyrimidinepurine • G and C more often major alleles and A and T more often minor alleles

Genome-Wide Association Studies:Illumina 1M DNA Analysis BeadChip

SNP MAF in Gene Regions Guthery, S. L., et al. (2007). The structure of common genetic variation in United States populations. American Journal of Human Genetics, 81(6), 1221-1231.

SNP Functional Classes • Exon • Coding, Non-synonymous • Coding, Synonymous • Intron • Splice site • Non-splice site • UTR • 5’ • 3’ • Gene Region • Promoter

Vascular Cell Adhesion Molecule 1 (VCAM1) • Located at 1p32-p31, approximately 22.8 kb in size • Resequencing N=47 individuals • 113 SNPs (~ 1 every 200-300 bases) • 102 in African Americans & 39 in European Americans • 43 (36%) have MAF > 5% Crawford, D.C. et al. (2005). The patterns of natural variation in human genes. Annual Review of Genomics and Human Genetics, 6: 287-312.

VCAM1: Identifying Functional Variants • 6 cSNPs (typically ~ 4% of SNPs in transcript) • 2 synonymous (yellow, MAF > 5%) (typically about 50% of cSNPs) • 4 non-synonymous (red, MAF < 5%)(one predicted to be potentially damaging ) • 10 SNPS w/i 2kb of transcription start: • 4 are in predicted transcription binding sites Crawford, D.C. et al. (2005). The patterns of natural variation in human genes. Annual Review of Genomics and Human Genetics, 6: 287-312.

Mills, I. et al. (2010). Principles for the post-GWAS functional characterisation of risk loci. WikiGenes (http://www.wikigenes.org/e/pub/e/84.html?wpc=6)

Major Classes of Structural Variation • Insertion-Deletions (indels or dips, 1 to ~1k) ATTGGCCTTAACCCCCGATTATCAGGAT ATTGGCCTTAACC - - CGATTATCAGGAT • Variable Number of Tandem Repeats (VNTRs, STRs) • Microsatellite (1- 9 bases) vsminisatellite (> 10 bases) ATTGGCCTTAACCCAGCAGCAGCGATTATCAGGAT ATTGGCCTTAACCCAGCAGCGATTATCAGGAT • Copy Number Variants (CNVs, CNPs, > 1k) ATTGGCCTTAACCCCCGATTATCAGGAT ATT---------------------------------------------

Major Classes of Genetic Variants Frazer, K. A., Murray, S. S., Schork, N. J., & Topol, E. J. (2009). Human genetic variation and its contribution to complex traits. Nature Reviews Genetics, 10(4), 241-251.

VCFS (22q11.2DS) Shprintzen, R.J. (2008).Developmental Disability Review, 14:3-10

Outline • Human Genetic Structure and Function • Nature of Human Genetic Variation • Approaches to Identifying Genetic Variants Associated with Phenotype • Evolutionary Perspective • Characteristics of variants known to have phenotypic effects

Number of New SNPs Each Generation Kruglyak, L., & Nickerson, D. A. (2001). Variation is the spice of life. Nature Genetics, 27(3), 234-236.

Allelic Spectrum of Common Disease (or Phenotypes) Possibly Common Variants • Neutral Mutations (e.g., late-onset): • Demographics (migration, bottlenecks) • Drift • Advantageous/Disadvantageous Mutations: • Mutation-Selection Balance • BRCA1, BRCA2 • Stabilizing Selection • Sickle Cell & Malaria • CF & Typhoid • Directional Selection: • APOE4? Rare Variants Possibly Common Variants

Out of Africa • Greater genetic variation in Africa • Migration • Drift in small populations • Selection can lead to population differences • LCT

Allelic Spectrum of Common Disease (or Phenotypes) Possibly Common Variants • Neutral Mutations (e.g., late-onset): • Demographics (migration, bottlenecks) • Drift • Advantageous/Disadvantageous Mutations: • Mutation-Selection Balance • BRCA1, BRCA2 • Stabilizing Selection • Sickle Cell & Malaria • CF & Typhoid • Directional Selection: • APOE4? Rare Variants Possibly Common Variants

Rare Variants in Breast Cancer McClellan, J., & King, M. C. (2010). Genetic Heterogeneity in Human Disease. Cell, 141(2), 210-217.

Models of Common Inherited Disease Common Disease-Common Variant (CDCV) Common Disease- Rare Variant (CDRV) • Risk alleles are common > 5% • Selection is weak, drift • Risk mutations are old • Aggregate effect of limited # • Weak to moderate effects • Shared across populations • Risk alleles are rare < 1% • Selection is strong, mutation-selection balance • Risk mutations are recent • Independent effect of large # • Range of effects • Population specific

Odds Ratio and Variant Frequency Botstein, D., & Risch, N. (2003). Discovering genotypes underlying human phenotypes: past successes for mendelian disease, future approaches for complex disease. Nature Genetics, 33, 228-237.

MAF & OR of GWAS Associations Median = 1.33 Hindorff, L. A. et al. (2009). Potential etiologic and functional implications of genome-wide association loci for human diseases and traits. Proceedings of the National Academy of Sciences of the United States of America, 106(23), 9362-9367.

Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., et al. (2009). Finding the missing heritability of complex diseases. Nature, 461(7265), 747-753.

Conclusions • Human Genome: • < 2% of is coding • Other functional elements may affect gene expression • Genetic Variants: • In sequence, structure and organization • Most are rare (esp coding) yet there are still millions that are common • SNPs are numerically most common and can be efficiently genotyped • Models of inherited common disease: • CDCV – aggregate effect of multiple common alleles that are universal and each has a modest phenotypic effect • CDRV – heterogeneous effect of many rare alleles that are population specific, some of which may have large phenotypic effect • Genetic Variants Associated with Common, Complex Phenotypes: • More likely in non-coding than coding region • Likely to have modest effect (i.e., ORs < 1.3, r2< .3%)

Genetic Analysis Workshop Overview

Genetic Analysis Workshop Overview

Presentation Transcript

Workshop Overview

RMI Workshop - Genetic Algorithms

Genetic Analysis Center

WORKSHOP OVERVIEW

Mendelian Genetic Analysis

Workshop overview

Workshop Overview

Genetic analysis

Workshop Overview

WORKSHOP OVERVIEW

Workshop Overview

Genetic Linkage Analysis

WORKSHOP OVERVIEW

Workshop Overview

Workshop Overview

Genetic Theory - Overview

Genetic linkage analysis

Workshop overview

Multivariate Genetic Analysis

Genetic Testing Market Overview