160 likes | 316 Views
How to solve biological problems with math 2012 . 23 Mars 2012. Phenotypic variation:. What is association?. SNPs. trait variant. chromosome. Genetic variation yields phenotypic variation. Population with ‘ ’ allele. Population with ‘ ’ allele. Distributions of “trait”.
E N D
How to solvebiologicalproblemswith math 2012 23 Mars 2012
What is association? SNPs trait variant chromosome Genetic variation yields phenotypic variation Population with ‘ ’ allele Population with ‘ ’ allele Distributions of “trait”
T-test t-value (significance) can be translated into p-value (probability)
Association using regression phenotype genotype Coded genotype
Regression analysis “residuals” “intercept” “coefficients” Y “response” X “feature(s)”
effect size (regression coefficient) (monotonic) transformation error (residual) p(β=0) phenotype (response variable) of individual i coded genotype(feature) of individual i Regression formalism Goal: Find effect size that explains best all (potentially transformed) phenotypesas a linear function of the genotypes and estimate the probability (p-value) for the data being consistent with the null hypothesis (i.e. no effect)
Matlabfunction for Linearregression • [x p tmp se] = regress_p(pheno,[ones(length(pheno),1) COV1 COV2 Genotype ]
Régression logistique • Très utilisée en épidémiologie • Variable à expliquer: dichotomique • La maladie est caractérisée par un risque • Exprimer sous forme de risque ( ou de probabilité) la relation entre une variable Y dichotomique et plusieurs variables X (facteurs de risque) (qualitatives ou quantitatives)
Régression logistique • Méthode d’estimation de l’association entre les facteurs de risque et la maladie (les bétas): méthode du maximum de vraisemblance, • Odds ratio (rapport des cotes): force de l’association entre 1 facteur et la maladie (risque relatif)
Le modèle logistique measure of the total contribution of all the independent variables used in the model and is known as the logit Probability of the outcome
The application of a logisticregressionmaybeillustratedusing a fictitiousexample of deathfromheartdisease. This simplified model uses onlythreeriskfactors (age, sex, and bloodcholesterollevel) to predict the 10-year risk of deathfromheartdisease. These are the parametersthat the data fit: The model canhencebeexpressed as In this model, increasingageisassociatedwith an increasingrisk of deathfromheartdisease (z goes up by 2.0 for everyyear over the age of 50), femalesexisassociatedwith a decreasedrisk of deathfromheartdisease (zgoes down by 1.0 if the patient isfemale), and increasingcholesterolisassociatedwith an increasingrisk of death (z goes up by 1.2 for each 1 mmol/L increase in cholesterolabove 5 mmol/L). Wewish to use this model to predict a particularsubject'srisk of deathfromheartdisease: heis 50 yearsold and hischolesterollevelis 7.0 mmol/L. The subject'srisk of deathistherefore This meansthat by this model, the subject'srisk of dyingfromheartdisease in the next 10 yearsis 0.07 (or 7%).
Odds ratio • Rapport des chances, rapport des cotes ou risque relatif rapproché est une • Mesure statistique, permettant de mesurer le degré de dépendance entre des variables aléatoires qualitatives. • Mesure l'effet d'un facteur. • Le rapport des chances qu'un événement arrivant, par exemple une maladie, à un groupe de personnes A arrive également à un autre groupe B. • Si la probabilité qu'un évènement arrive dans le groupe A est p et q dans le groupe B, le rapport des chances est : Odds ratio (OR) =
Matlabfunction for logisticregression • [p0 x0 se0] = log_reg(Pheno,[COV1 COV2 ],Geno)