350 likes | 467 Views
Proportions mendéliennes. Lignée pure A : AA x AA. Gènes autosomiques Génotypes. 100% AA. Lignée pure B : BB x BB. Gènes autosomiques Génotypes. 100% BB. Croisement parental : AA x BB. Gènes autosomiques Génotypes. 100% AB. Rétrocroisement de la F1 à A : AA x AB.
E N D
Lignée pure A : AA x AA Gènes autosomiques Génotypes 100% AA
Lignée pure B : BB x BB Gènes autosomiques Génotypes 100% BB
Croisement parental : AA x BB Gènes autosomiques Génotypes 100% AB
Rétrocroisement de la F1 à A : AA x AB Gènes autosomiques Génotypes 50% AA 50% AB
Rétrocroisement de la F1 à B : BB x AB Gènes autosomiques Génotypes 50% AB 50% BB
Croisement des F1 : AB x AB Gènes autosomiques Génotypes 25% AA 50% AB 25% BB
100% AB 50% AB 50% BB 25% AA 50% AB 25% BB 50% AA 50% AB 100% AA 100% BB 100% A 100% B 50% A 50% B 100% A 100% A 75% A 25% B 50% A 50% B 100% A 100% B 100% B 100% B 25% A 75% B PHENOTYPE A dominant PHENOTYPE B dominant
100% AB 50% AB 50% BB 25% AA 50% AB 25% BB 50% AA 50% AB 100% AA 100% BB 100% A 100% A 100% A 100% B 50% A 50% B 100% A 100% A 100% A 75% A 25% B 50% A 50% I 100% A 100% B 50% I50% B 100% I 25% A 50% I 25% B 50% A 50% B 33% A 66% B PHENOTYPE A dominant PHENOTYPE en dominance intermédiaire PHENOTYPE létal récessif Impossibleun sexe létal Impossibleun sexe létal Impossibleles deux sexes létaux 100% A PHENOTYPE létal dominant Impossibleun sexe létal Impossibleun sexe létal Impossibleles deux sexes létaux
Génotypes gènes liés à l ’X 50% AB 50% BB 50% A 50% B 100% AB 100% B 100% BB 100% B 100% AB 100% A 50% AA 50% AB 50% A 50% B 100% AA 100% A PHENOTYPE A dominant 100% A 100% A 100% A 100% B 100% A 100% A 100% B 50% A 50% B 100% B 100% A 50% A 50% B PHENOTYPE B dominant 100% B 100% B 100% B 100% B 100% A 100% A 100% B 50% A 50% B 100% B 100% A 50% A 50% B Gènes cytoplasmiques Gènes liés à l ’Y 100% A 100% B 100% A 100% A 100% B 100% B
Analyse de la transmission familiale d ’un caractère monogénique (maladie)
Relation entre le Génotype et le Phénotype Fréquence de ségrégation • Phénotype (Y) : M(alade), N(ormal) • 1 gène / 2allèles : A (morbide), B (normal) Maladie récessive :1 enfant malade et en général 2 parents sains : intercross (ABxAB) Maladie dominante : 1 enfant malade et en général 1 des parents malade : backcross (ABxBB) Le modèle de transmission ne dépend que du seul paramètre « p » fréquence de ségrégation p = P(Ye = M / Yp, Ym)
Dans les couples dont on connaît la probabilité mendélienne p d ’observer un enfant malade, quelle est la probabilité d ’observer r enfants atteints dans une fratrie desenfants ?: Loi Binomiale de paramètres p et s s = 3, Pr : probabilité d ’avoir 0, 1, 2, 3 enfants atteints, maladie récessive donc p= 0,25 P(r/s) =(sr)pr(1-p)s-r
La fréquence de ségrégation n ’est pas connue. Elle peut être estimée à partir de la proportion observée du nombre des enfants atteints dans les fratries de s enfants : • Soit un échantillon de 100 familles de 3 enfants • Le nombre total d ’enfants S est de 300 • Le nombre observé des enfants malades est de : • R (0 x 42) + (1 x 42) + (2 x 14) + (3 x 2) = 76 • la valeur de p dans cet échantillon est R/S = 76/300 0,25 On montre dans ce cas que R/S est bien l ’estimateur du maximum de vraisemblance du paramètre p
Vraisemblance et information • Le modèle ne dépend que du paramètre p • La vraisemblance d ’une hypothèse H sur la valeur de p (p=b) est la probabilité des observations de n familles de s enfants sous cette hypothèse H. • La vraisemblance L de H pour une famille Fiest donnée par la vraisemblance de b connaissant Fi : • L(/Fi) = P(Fi/) = (si) i(1- )s-i • Pour un échantillon de plusieurs familles, la vraisemblance est le produit des vraisemblances de chaque famille soit pour n familles de s enfants : • L(/Fn) = Pi L ( / Fi) i = 1,…,n • Le logarithme de la vraisemblance ln L est • ln L(/Fn)= Si i lnb + Si (s-i) ln(1-b) + K = K + R lnb + Oln(1-b) • ou K = Si ln(si), R= Sii, O=Si(s-i) • R et O sont le nombre d ’enfants malades et non malades, le nombre total d ’enfants étant S = R+O La vraisemblance résume l ’information que contient l ’échantillon par rapport au modèle
Vraisemblance et information • L ’estimation bde p est obtenue par la méthode du maximum de vraisemblance • soit bmax la valeur de bpour laquelle la vraisemblance est maximale (bmax = b) • la dérivée de la vraisemblance par rapport àb est nulle • dlnL(b/Fn) = [R/b] - [O/1-b] • dlnL(b/Fn) = 0 quand R- b (R + O) = 0 • soit bmax = R/(R + O)= R/S R/S est l ’estimateur de vraisemblance de p. L ’inférence statistique consiste dons à estimer b dans un échantillon defamilles et à tester si son estimation s ’écarte ou non des proportions mendéliennes attendues, sous l ’hypothèse d ’une transmission mendéliennede la maladie
Sélection des familles • Sélection « représentative » • Sélection non aléatoire à partir d ’un individu malade : 57,81 % des familles de 3 enfants
Dans un échantillon de n = 100 familles (S = 300) on trouve 73 familles F1, 24 familles F2 et, 3 familles F3 • Le nombre des enfants atteints R (1 x 73) + (2 x 24) + (3 x 3) = 130 • R/S (estimateur de p) : b = 130/300 0,43 L ’identification de ce biais de recrutement permet l ’introductiond ’une correction de recensement adaptée au critèred ’échantillonage. La vraisemblance génétique dépendant alorsde la méthode d ’échantillonage, l ’inférence statistique n ’est valideque si les hypothèses en du modèle d ’analyse sont vérifiées et en particulier celle du modèle d ’échantillonage
Correction du recensement des familles nucléaires • Différentes méthodes (méthode de Morton, programme POINTER (Lalouel & yee 1981) • Les proposants sont des parents • La probabilité corrigée pour la sélection, est laprobabilité des enfants conditionnelle au phénotype des parents • ce mode de sélection est appelé sélection complète • Exemple : • Maladie supposée dominante d ’après la répartition familliale • dans les familles, un des deux conjoints est malade et on examine TOUS les enfants
L ’hypothèse de la trasmission dominante (H0: p=0,50) est testée : • 2(1ddl) = (60-56)2/56 + (52-56)2/56 = 0,57 • niveau de signification = 0,45 • Dans l ’échantillon, l ’estimation de la fréquence de ségrégation R/S= 52/112 = 0,46 qui n ’est pas significativement différente de 0,50. • Ensélection complète, R/S est l ’estimateur sans biais du maximum de vraisemblance du paramètre p
Correction du recensement des familles nucléaires • Les proposants sont des enfants • la sélection des familles se fait sans tenir compte du phénotype des parents, • la famille analysée est constituée du proposant, de ses germains et de ses parents. • La correction de la vraisemblance pour la sélection doit faire intervenir la probabilité de recenser un individu malade (la sélection est incomplète). • La famille a d’autant plus de chances d ’être recrutée que le nombre des enfants atteints est élevé et, le biais est de surestimer dans les fratries la proportion des enfants atteints • La correction est basée sur la connaissance de la probabilité de recruter un enfant malade dans la population étudiée
Estimation de • A = nb de proposants dans l ’échantillon • N = taille de la population • I = prévalence de la maladie dans la population • = A / I N • Si I n ’est pas connu il faut inférer de l ’échantillon en se basant sur la structure des familles recrutées
(ra)a (1 - )r-a P(a/r) = ——————— [1 - (1- )r] • Sélection incomplète et probabilité de recensement • recensement d ’individus malades • probabilité de recensement identique pour tous les malades • les recensements de plusieurs individus atteints de la même fratrie sont considérés comme indépendants et possédant la même probabilité • la probabilité de détecter une fratrie est la même pour toutes les familles de même structure • L ’ensemble des observations pour chaque famille nucléaire est basé sur les constatations suivantes : • s nombre d ’enfants de la fratrie • r nombre d ’enfants atteints parmi les s de la fratrie • a le nombre des proposants recrutés indépendamment les uns des autres • P(a/r) = (ra)a (1 - )r-a • a 1 • la classe a = 0 de probabilité (1-)r n ’existe pas donc
P(r/s, a1) = P(r/s) P(a1/ r) / P (a 1/s, p, ) = (sr)pr(1-p)s-r[1 - (1 - )r] [1 - (1 - p)s] • Sélection incomplète et probabilité d ’échantillonner une famille nucléaire • recensement si a 1 parmi r atteints de la fratrie • P(a 1 /r) = 1 - (1 - )r • La probabilité pour une famille de taille s d ’appartenir à l ’échantillon est • P (a1/s,p,) = r P(r/s) P(a1/r) pour r = 0 à s • P (a1/s,p,) = 1 - (1 - p)s • La probabilité des phénotypes des enfants conditionnellement au recensement est • la distribution des r enfants atteints parmi les s de la fratrie pondérée par la probabilité qu ’au moins un d ’entre eux soit un proposant divisée par la probabilité qu ’une famille de taille s fasse partie de l ’échantillon • p est la probabilité qu ’un enfant soit atteint et recensé • (1 - p )s est la probabilité qu ’aucun enfant de la famille ne soit atteint ni recensé • 1 - (1 - p )s est la probabilité pour qu ’au moins un enfant de la famille soit atteint et recensé
Cas particuliers de sélection incomplète • 0 < <1 : sélection incomplète multiple (cas général) • 0 : sélection unique • un proposant par famille détectée • la probabilité que la famille appartienne à l ’échantillon est directement proportionnelle au nombre des germains malades • = 1 : sélection tronquée • tous les enfants malades sont proposants et seules les familles sans enfants atteints n ’appartiennent pas à l ’échantillon • la probabilité de détection des familles est indépendante du nombre des enfants atteints • En sélection incomplète R/S n ’est pas l ’estimateur du maximum de vraisemblance du paramètre p . La vraisemblance lnL(/Fn) n ’est pas maximale et l ’estimateur non biaisé est max • en sélection unique p = (R-n)/(S-n) • en sélection tronquée p = R[1 - (1- max)S]/S
Exemple d ’une maladie récessive (p = 0,25) et familles de 3 enfants sélectionnée par l’intermédiaire d ’un enfant maladeP(a1/s, p, ) = 1 - (1-p)3 PSr = probabilité de recenser une famille Fr PCr = probabilité d ’une famille Fr dans l ’échantillon
Soit un échantillon de n = 100 familles et R le nombre total observé des enfants malades : = R/S est un estimateur biaisé qui surestime la fréquence de ségrégation. L ’estimateur du maximum de vraisemblance de p qui prend en compte le recrutement max est l ’estimateur correct. • Si = 1, max = [R/300]P(a1/s, p, ) • Si = 0, max = (R-100)/200
= 1, on cherche à tester si les fratries recensées démontrent un transmission compatible avec le modèle mendélien AR (p = 0,25 = hypothèse nulle H0) • On recueille 44 familles selon la distribution suivante par taille de fratrie s et par nombre d ’enfants malades (Ns = nb de famille de s enfants, Rs nb total d ’enfants malades parmi s, Ms = nb d ’enfants non malades parmi s, S = nb total d ’enfants, Rs + Ms = 172.
La distribution attendue sous H0 est en l ’absence de correction de recensement : • RS= s • 2= (43-63)2/43 + (129-109)2/129 = 12,40 [a = 0,0004] • On rejette l ’hypothèse de la transmission autosomique récessive, s est estimé à 63/172 = 0,366 ce qui est significativement >à 0,25.
La distribution attendue sous H0 est en appliquant la correction de recensement d ’une sélection tronquée : • RS= s/ 1 - (1 - )S • 2= (64,1-63)2/64,1 + (107,9-109)2/107,9 = 0,0101 [a = 0,92] • On ne rejette l ’hypothèse de la transmission autosomique récessive
Modèle monogénique général • La distribution du nombre des atteints dans les familles est spécifié par les paramètres précédents • Le modèle est précisé par • la fréquence q de l ’allèle délétère A dans la population • et par f, le vecteur des pénétrances • Distribution des génotypes dans la population • mode de croisement des individus • taux de mutation • valeur sélective de certains génotypes • Sous l ’hypothèse de panmixie les fréquences génotypiques P(Gi) diffèrent peu de la distribution donnée par la loi de Hardy-Weinberg pour un locus biallélique : • P(Gi) = [q + (1-q)]2
Distribution du phénotype conditionnellement au génotype, pénétrances • Le phénotype Y est le caractère effectivement exprimé par l ’individu • on associe à chaque génotype une probabilité d ’exprimer un certain phénotype • dans le cas du trait malade/non-malade on parle de pénétrance f • la probabilité pour qu ’un individu de génotype Gi soit malade est : • fi = P(Y = malade/Gi) • la prévalence I d ’une maladie dans la population est reliée à la fréquence q et aux pénétrances par la relation : • I = iP(Y=malade/Gi)P(Gi)
Distribution des génotypes des enfants conditionnellement aux génotypes parentaux • pour un locus diallélique le taux de transmission est de : • A,AA= 1 ; A,AB= 0,5 ; A,BB= 0 • à k allèles les paramètres sont • k-1 fréquence allèliques • k(k+1)/2 pénétrances • Vraisemblance du modèle pour une famille nucléaire • L ’individu est un parent : • la probabilité de son phénotype est celle d ’un individu de la population à laquelle appartient cet individu, elle dépend de la probabilité de son génotype (PGi)et de la probabilité que ce génotype réalise le phénotype (P(Yi/Gi) • L ’individu est un enfant : • la probabilité de son phénotype dépend du génotype de ses parents donc des taux de transmission • si les génotypes parentaux sont connus la probabilité du phénotype de l ’enfant est simple à décrire • si les génotypes sont inconnus, la vraisemblance du modèle monogénique pour une famille nucléaire s ’écrit en fonction des paramètres : q ; fi avec pour un modèle biallèlique3 possibilité de génotype pour un des parents auquel sont associée les trois possibilités de génotype de l ’autre
Modèle monogénique général P(Yp, Ym, Ye) = q2(1-fAA){q2(1- fAA) fAA(1- fAA)+2q(1-q)(1- fAB)(fAA/2+ fAB/2 [(1- fAA)/2+(1- fAB)/2)]+(1-q2)