Chiara Scapoli Dipartimento di Biologia Università di Ferrara

Analisi genetica di patologie complesse attraverso studi di associazione: Sclerosi Multipla e Parodontite Aggressiva Chiara Scapoli Dipartimento di Biologia Università di Ferrara

Con il termine di patologie complesse multifattoriali vengono indicate una serie di malattie comuni causate da interazioni multiple di diversi geni che interagendo tra loro e con fattori ambientali di rischio creano un gradiente di suscettibilità genetica alla patologia

Associazione allelica o Linkage disequilibrium (LD) Con il termine di LD si intende l’associazione statistica non casuale tra alleli a due diversi loci SELEZIONE NATURALE TEMPO (n° generazioni) DERIVA GENETICA STORIA della popolazione MUTAZIONI RICOMBINAZIONE

effetti della ricombinazione sui cromosomi all’interno di una famiglia • il nipote eredita regioni cromosomiche appartenenti a tutti i 4 cromosomi dei nonni • i figli ereditano differenti regioni cromosomiche dai loro genitori

Fondatore a b c d e f g h Discendenteattuale a b c d f g h a b c d f g h a b c d f g h a b c d f g h a b c d f g h E E E E E

A A a a B b B b A A a a A a B B b b B b Misura dell’associazione allelica • Siano pAB, pAb, paB, pab le frequenze dei quattro possibili aplotipi(=combinazioni di alleli) • La misura di associazione allelica tra i due loci nello stesso gamete è: D = pAB* pab - pAb* paB La condizione di equilibrio è caratterizzata da D=0 (gli alleli A e B sono egualmente distribuiti negli aplotipi in accordo con le loro frequenze alleliche); D=1 indica “disequilibrio completo”

Misure di associazione allelica • Coefficiente D (Lewontin & Kojima, 1960) D=PAB - PAPB = PAB Pab - PAbPaB • Coefficiente D’ (Lewontin, 1964) D’ = D/DMAX DMAX min{ PAPb, PaPB } per D>0 DMAX min{ PaPb, PAPB } per D<0 • Coefficiente r² (Hill & Robertson, 1968) r²=D/(PA*Pa*PB*Pb) • Coefficiente  (Malécot, 1943, 1966) =D/(PA*PB) • Coefficiente d (Nei & Li, 1980) d = D/(PB*Pb) • Coefficiente Q (Yule, 1960) Q=D/(PAB*Pab + PAPb*PaPB)

Matrice del parametro di associazione r²

Caratteristiche del Linkage disequilibrium Difficoltà negli studi di Linkage disequilibrium • Diverso pattern di LD tra popolazioni • Diverso pattern di LD tra regioni cromosomiche • Segmenti cromosomici conservati (blocchi) separati da punti caldi di ricombinazione • Estensione variabile del blocco conservato • Il pattern di associazione tra SNPs e patologia solitamente si rileva molto complesso; • Le fluttuazioni della forza di associazione riflettono le diverse “età” degli SNPs e di conseguenza anche il “rumore” introdotto sia dai processi stocastici (mutazioni, drift… ) che direzionali (selezione…)

PotereStatistico degli studi di LD Una delle maggiori difficoltà con i test di associazione che coinvolgono un numero molto elevato di SNPs è imputabile all’esecuzione di numerosi test multipli. • Una notevole riduzione del potere statistico degli studi di associazione indiretti è dovuto alla riduzione del p-value dopo l’aggiustamento diBonferroni (Ohashi et al., 2001). • Livelli di significatività estremamente bassi sono stati proposti anche per controllare il numero degli errori di I° tipo (Risch and Merikangas, 1996). Tali livelli di significatività sono raramente raggiungibili con dimensioni campionarie realistiche.

(1)Dep. of Biology and (3)Research Center for the Study of Periodontal Diseases, University of Ferrara, Italy (2)Human Genetics Research Division, University of Southampton, United Kingdom

La frequenza dell’allele malattia (Q) non è nota; • Gli aplotipi non sono facilmente ricostruibili • I test statistici classici usati per la stima del LD non sono applicabili

Distribuzioni Genotipiche e alleliche per uno SNP in uno studio caso-controllo Il calcolo del di regressione tra stato di affezione e genotipo al marcatore è basato sull’utilizzo delle seguenti tabelle:

Ricostruzione di un campione casuale di alleli Collins e Morton (1998) hanno definito un fattore diarricchimen-to  per correggere l’eccesso di casi presenti nel disegno di studio Data la frequenza di affezione, Z, nella popolazione generale si definisce:  = [(n11+n12+n13)/(n01+n02+n03)] *[(1-Z)/Z)] Il parametro di regressione , può essere ottenuto per aggiustamento del numero dei controlli come: = | a(d)-b(c)| / (a+c)(b+d) e K=2/2 • Incorporando le informazioni derivanti dai marcatorimultipli in una likelihood composita, l’analisi è più potente rispetto a quando ogni SNP è considerato separatamente, inoltre l’associazione può essere stimata anche senza la ricostruzione degli aplotipi.

Mappe di Linkage Disequilibrium Che cosa si intende per mappa di LD? E’ una mappa espressa in unità di LD (LDU) che discrimina tra blocchi conservati di LD con distanze additive e localizzazione colineare con le mappe fisiche (Kb) b = (1-L)Me- d+L d => stimato per ogni singolo intervallo tra marcatori si è rivelato un’unità di misura per il LD

Mappe di LD: il modello di Malécot Collins & Morton, PNAS, 1998 b = (1-L)Me- d+L

Hot spot di ricombinazione(Jeffreys et al. 2001)

Mappa in LDU della regione cromosomica 5q31

TIC IL-1B IL-1RN IL-1F5 IL-1A Mappa in LD Units (Elahi et al.)93 SNPs che coprono una regione di 490.25 Kb(1 SNP ogni 5.3 Kb) tipizzati in 250 trios

Evidenze di Associazione sotto il modello di Malécot Le evidenze di un’associazione si ricavano dall’adattamento ai dati di quattro modelli (A-D). Modello A ‘ipotesi nulla’, H0: M=0 e L=Lp. Qualsiasi associazione è attribuita al ‘background’. Modello Bmodello ‘piatto’, H1:M=0 e L= . Uno scostamento significativo di L sopra Lp implica un’associazione positiva nella regione, senza poterla attribuire ad una posizione o sub-regione specifica. Modello C H2: assume L=Lp ma stima M e la posizione S. Il parametro  è assunto pari a 1 per le mappein LDU o è stimato dell’eq. di Malécot per le mappe in Kb. Modello D H3: L’ipotesi alternativa più complessa, stima L, M ed S.

Modelli di Associazione

Mappe basate sulla Metrica di LD • Recemente sono state sviluppate mappe basate sulla “Metrica di LD” (Maniatis et al, 2002, Zhang et al, 2002). Tali mappe assegnano una posizione ai marcatori sulla base di unità dilinkage disequilbrium (LDUs). • La mappa in LDU viene costruita assumendo LDU =idi, dove (i) è la stima iterativa del parametro dell’equazione di Malécot e (di) è l’i-esima distanza in kb tra coppie adiacenti di k SNPs (i= 1, . . . , k-1). • Dopo la convergenza, la mappa in LDU è ri-tarata in modo tale che 1 LDU corrisponda al "swept radius" 1/, definito come l’estensione del LD “utile” (Morton et al, 2001). Le stime di M e L non sono influenzate dall’assunzione di questa nuova scala, ciò assicura che il valore atteso di () rimane conforme a (1-L)Me-D+L, dove D è la distanza in LDU

La regione del cluster dell’IL-1 (2q14)

La regione del cluster dell’IL-1 :Verifica delle ipotesi

Chiara Scapoli Dipartimento di Biologia Università di Ferrara