490 likes | 579 Views
Corso di Sistemi di Telecomunicazione 1 A.A 2009/2010. TEORIA DELLA DECISIONE. Ref. ‘Detection, Estimation and Modulation Theory, Part I’, H.L.Van Trees, ed. John Wiley&Sons, Inc. 1968. Prof. Carlo S. Regazzoni. CONTENUTI. Introduzione Test di ipotesi binaria
E N D
Corso di Sistemi di Telecomunicazione 1 A.A 2009/2010 TEORIA DELLA DECISIONE Ref. ‘Detection, Estimation and Modulation Theory, Part I’, H.L.Van Trees, ed. John Wiley&Sons, Inc. 1968 Prof. Carlo S. Regazzoni
CONTENUTI • Introduzione • Test di ipotesi binaria • Criteri di decisione • Misure di prestazione: curve ROC • M-ipotesi
INTRODUZIONE: Il problema della decisione • Componenti del problema della decisione: 1. Sorgente 2. Meccanismo probabilistico di rumore 3. Spazio dell’osservazione 4. Regola di decisione H0 Spazio della Meccanismo probabilistico di rumore Sorgente osservazione H1 Regola di decisione DECISIONE
INTRODUZIONE: Il problema della decisione • Sorgente La sorgenete genera un’uscita che, nel caso più semplice è una tra due possibili scelte e ESEMPIO Un sistema di comunicazione digitale trasmette informazioni mandando ‘0’ e ‘1’: = è stato trasmesso ‘1’ = è stato trasmesso ‘0’ • Meccanismo probabilistico di rumore • Può essere visto come un dispositivo che sa • quale ipotesi è vera. Sulla base di questa • conoscenza, genera un punto nello spazio delle • osservazioni, in accordo con date leggi • probabilistiche. • Spazio delle osservazioni: ESEMPIO • Quando H1 è vera, la sorgente genera +1. • Quando H0 è vera, la sorgente genera -1.
INTRODUZIONE: Il problema della decisione Un problema di decisione: Fig. a: Modello Fig. b: Densità di probabilità • Una variabile casuale discreta indipendente n la cui • densità di probabilità è mostrata nella figura (b) è • aggiunta all’uscita della sorgente. • L’osservazione r è data dalla somma dell’uscita della • sorgente con n. • Sotto le due ipotesi abbiamo due possibili osservazioni • r le cui densità di probabilità sono mostrate in figura • (b). • Regola di decisione • La regola di decisione assegna ogni punto dello spazio • dell’osservazione ad una delle ipotesi
IPOTESI BINARIA • Ognuna delle due uscite della sorgente corrisponde • ad una ipotesi • Ogni ipotesi viene mappata in un punto dello spazio • delle osservazioni • Assumiamo che lo spazio delle osservazioni • corrisponde a un insieme di N osservazioni: Ogni insieme può essere pensato come un punto in uno spazio N-dimensionale e può essere denotato da un vettore r: • Il meccanismo probabilistico di rumore genera punti in • accordo con due densità di probabilità condizionali • note e • OBIETTIVO: usare questa informazione per sviluppare • una buona regola di decisione • vediamo diversi criteri di decisione
CRITERI DI DECISIONE • Nell’ipotesi binaria sappiamo che una delle ipotesi H1 • o H0 è vera. • Confiniamo la discussione sulle regole di decisione • che sono richieste per prendere una decisione. • Ogni volta che l’esperimento viene condotto, può • verificarsi una delle seguenti 4 situazioni: • 1. H0 è vera - scelgo H0; • 2. H0 è vera - scelgo H1; • 3. H1 è vera - scelgo H1; • 4. H1 è vera - scelgo H0; • La prima e la terza alternativa corrispondono a scelte • corrette. • La seconda e la quarta alternativa corrispondono a • scelte sbagliate. • Lo scopo di un criterio di decisione è quello di dare una • importanza relativa ai possibili quattro eventi.
CRITERIO DI BAYES • Il test di Bayes è basato si due assunzioni: • 1. Prima assunzione • Le uscite sono governate da assegnazioni • probabilistiche, che sono denotate da P1 e P0 e sono • chiamate probabilità a priori. • Queste probabilità rappresentano l’informazione che • ha l’osservatore sulla sorgente, prima che • l’esperimento sia condotto. • 2. Seconda assunzione • Ad ogni possibile azione viene associato un costo • C00, C10, C11, C01, dove il primo pedice indica l’ipotesi • scelta e il secondo l’ipotesi vera. • Ogni volta che l’esperimento viene eseguito, si paga • un certo costo. • Vogliamo progettare la nostra regola di decisione in • modo tale che il costo medio sia minimizzato.
CRITERIO DI BAYES • Per minimizzare il costo medio, scriviamo un’espressione • per il costo aspettato (rischio): • Siccome abbiamo assunto che la regola di decisione • possa decidere per H0 o per H1, questa può essere vista • come una regola che divide lo spazio di osservazione Z • in due parti, Z0 e Z1: Decido per Z0 R Z0 Sorgente Z1 R Z0 dove: Decido per Z1
CRITERIO DI BAYES • Possiamo scrivere l’espressione per il rischio in • termini di probabilità di transizione e di regioni di • decisione: (1) • Assumiamo che il costo relativo ad una decisione • sbagliata sia più alto del costo relativo ad una • decisione corretta(data la stessa Hi vera): (2) • Per trovare il test di Bayes dobbiamo scegliere • le regioni di decisione in modo tale che il rischio • sia minimizzato • Siccome vogliamo che una decisione venga comunque • presa, occorre che lo spazio di osservazione Z sia • tale che:
CRITERIO DI BAYES • La (1) può essere riscritta nel seguente modo: • Osserviamo che: (3) • I primi due termini rappresentano il costo fissato se • decido H1 sempree l’ integrale rappresenta il costo • controllato da quei punti R che assegniamo a Zo. • L’assunzione (2) implica che i due termini dentro le • parentesi tonde siano positivi. • tutti i valori di R per cui il secondo termine è più • grande del primo dovrebbero essere inclusi in Zo • perché danno contributo negativo all’integranda; • tutti i valori di R per cui il primo termine è più • grande del secondo dovrebbero essere esclusi da Zo • (assegnati a Z1).
CRITERIO DI BAYES • Le regioni di decisione sono definite dalla seguente • relazione: SE (4) ASSEGNIAMO R A Z1, QUINDI SCELGO L’IPOTESI H1 E’ VERA. • La (4) può essere riscritta nel seguente modo: (5) • (R) è chiamato rapporto di verosimiglianza ed è una • variabile aleatoria. • La quantità a destra della (5) è la soglia del test:
CRITERIO DI BAYES • OSSERVAZIONI • Il criterio di Bayes può essere riscritto come segue: (6) • Tutta l’elaborazione è contenuta nel calcolo del • rapporto di verosimiglianza e non dipende dalle • probabilità a priori o dall’assegnazione dei costi. • Siccome il logaritmo naturale è una funzione • monotona ed entrambi i termini della (6) sono positivi, • un test equivalente è il seguente: (7)
CRITERIO DI BAYES Esempio 1 • Ipotesi H1uscita della sorgente = tensione m • Ipotesi H0uscita della sorgente = tensione 0 • Prima dell’osservazione la tensione è corrotta da un • rumore additivo. • Campioniamo la forma d’onda in uscita ogni secondo • e otteniamo N campioni. • Ogni campione di rumore è una variabile aleatoria • Gaussiana a media nulla e varianza • I campioni di rumore sono indipendenti tra di loro e • sono indipendenti dall’uscita della sorgente.
CRITERIO DI BAYES Esempio 1 • Le osservazioni sotto le due ipotesi sono: e • La densità di probabilità dell’osservazione sotto le • due ipotesi risulta essere: e
CRITERIO DI BAYES Esempio 1 • Siccome i campioni di rumore sono statisticamente • indipendenti, è possibile scrivere: e • Il rapporto di verosimiglianza risulta essere:
CRITERIO DI BAYES Esempio 1 • Il test di verosimiglianza è: o, equivalentemente: • Il processore semplicemente somma i campioni • osservati e confronta la somma con una soglia. • L’operazione: è chiamata statistica sufficiente.
CRITERIO DI BAYES Esempio 2 • L’osservazione consiste di un insieme di N valori: che sono indipendenti, identicamente distribuiti, con distribuzione Gaussiana a media nulla. • Sotto l’ipotesi H1, i campioni osservati hanno varianza • e sotto l’ipotesi Ho • Siccome le variabili sono indipendenti: • Il test di verosimiglianza diventa:
CRITERIO DI BAYES Esempio 2 • In questo caso la statistica sufficiente è data da: • Un test equivalente per è: • Per si ha invece:
CRITERIO DI BAYES Caso particolare: ricevitore a minima probabilità di errore • Supponiamo che: • La funzione di rischio (1) diventa: (8) • L’espressione (8) rappresenta la probabilità totale • di fare un errore, che viene perciò minimizzata. • Il test di verosimiglianza è: • Quando le due ipotesi sono equiprobabili, la soglia • è nulla. Questa ipotesi è generalmente vera • nei sistemi di comunicazione digitale. Questo tipo di • criterio viene normalmente chiamato ricevitore a • minima probabilità di errore.
CRITERIO MINIMAX • Il criterio minimax è un caso particolare del test di • Bayes in cui le probabilità a priori non sono note. • Introduciamo le seguenti quantità, con analogia al • problema del radar, in cui l’ipotesi H1 corrisponde • alla presenza di un target, e l’ipotesi Ho corrisponde • alla sua assenza: (9) (10) (11) • PF è la probabilità di falso allarme (il target è • rilevato quando in realtà non c’è); • PM è la probabilità di mancato allarme (il target non è • rilevato quando in realtà c’è); • PD è la probabilità di detection (il target è rilevato • correttamente).
CRITERIO MINIMAX • La funzione di rischio (3) può essere riscritta nel • seguente modo: (12) • Poiché , è possibile scrivere: (13) • In figura è riportata la funzione di rischio Bayesiana • in funzione di P1; si può osservare come P1 cambia le • regioni di decisione e quindi le probabilità PF e PM.
CRITERIO MINIMAX • Fissiamo P1=P1* e costruiamo il corrispondente test di • Bayes; • Fissiamo la soglia e ora assumiamo che P1 possa • cambiare; • Denotiamo il rischio per questa soglia fissata come: • Siccome la soglia è fissata, allora PF e PM sono fissate • e la (13) rappresenta una retta; • Se vediamo come è definita la soglia , osserviamo che • questa cambia continuamente al variare di P1 • ogni volta che , la soglia nel test di Bayes • sarà differente. • Siccome il test di Bayes minimizza il rischio, allora: • Se è una variabile aleatoria continua con funzione • di distribuzione probabilistica strettamente monotona, • allora cambiando viene cambiato il rischio; • RB ha concavità verso il basso; • RF è tangente a RB nel punto . • Queste curve dimostrano l’effetto della conoscenza • errata delle probabilità a priori.
CRITERIO MINIMAX • Il criterio minimax minimizza il massimo rischio • P1 è scelto in modo da massimizzare il rischio RF. • ESEMPIO 1 Il massimo di Rb si ha in P1=0 per minimizzare il massimo rischio usiamo il test di Bayes con P1=0. ESEMPIO 2 Il massimo di Rb si ha in P1=1 per minimizzare il massimo rischio usiamo il test di Bayes con P1=1.
CRITERIO MINIMAX ESEMPIO 3 • Il massimo di RB cade nell’intervallo (0,1), quindi • scegliamo RF orizzontale. Questop implica che il • coefficiente di P1 nella (13) deve essere nullo • (equazione del minimax) • Nel caso particolare in cui , indicando: l’equazione del minimax è:
CRITERIO DI NEYMAN-PEARSON • In molti casi reali è difficile assegnare costi • realistici o probabilità a priori; • Una procedura semplice per evitare questo problema • è lavorare con le probabilità condizionali PF e PD; • In generale, vogliamo minimizzare PF e massimizzare • PD; • In molti casi pratici questi due obiettivi sono in • conflitto • un criterio ovvio consiste nel limitare una delle • probabilità e massimizzare o minimizzare l’altra. • Il criterio di Neyman-Pearson la probabilità di falso • allarme: e progetta un test per massimizzare la probabilità di detection (o minimizzare la probabilità di mancato allarme), con questo vincolo.
CRITERIO DI NEYMAN-PEARSON • La soluzione è facilmente ottenuta usando i • moltiplicatori di Lagrange.; costruiamo la funzione F: o • Se , minimizzare F equivale a minimizzare PM. • Per ogni valore positivo di , un rapporto di • verosimiglianza minimizzerà F, infatti per • minimizzare F noi assegniamo un punto R a Zo solo • quando il termine tra parentesi è negativo; questo • equivale al test: assegno il punto a Zo F è minimizzata dal test di verosimiglianza:
CRITERIO DI NEYMAN-PEARSON • Per soddisfare il vincolo scegliamo in modo tale che: • Se indichiamo la densità di probabilità di quando • Ho è vera come: allora deve essere: (14) • Risolvendo la (14), si ottiene la soglia • Osserviamo che diminuire è equivalente ad • aumentare Z1, la regione in cui decidiamo per H1; • PD aumenta al diminuire di • diminuiamo finché non otteniamo il valore più • alto possibile
PERFORMANCES: Receiver Operating Characteristic • Per il test di Neyman-Pearson i valori di PF e PD • specifica completamente le prestazioni del test; • Osservando l’equazione (12), vediamo che il rischio di • Bayes RB è dato, se sono note le probabilità PF e PD • ci concentriamo sul calcolo di PF e PD • Riprendiamo l’esempio 1, in cui il test di • verosimiglianza è rappresentato da: • Equivalentemente, il test di verosimiglianza può • essere espresso dalla seguente espressione: • Sotto l’ipotesi Ho, l è ottenuto aggiungendo N • variabili indipendenti con varianza e quindi • dividendo per • l ha distribuzione Gaussiana normalizzata N(0,1)
PERFORMANCES: Receiver Operating Characteristic • Sotto l’ipotesi H1, l ha distribuzione Gaussiana • con media e varianza 1. • Le densità di probabilità di l sono mostrate nella • seguente figura, in cui è riportata anche la soglia • del test di verosimiglianza:
PERFORMANCES: Receiver Operating Characteristic • La probabilità di falso allarme PF è l’integrale di a destra della soglia, cioè: dove: • d rappresenta la distanza tra i valori medi delle due • densità di probabilità. • Introduciamo la seguente notazione: (15)
PERFORMANCES: Receiver Operating Characteristic • Analogamente, la probabilità di detection PD è • l’integrale di: a destra della soglia; dopo qualche calcolo elementare si può ottenere che:
PERFORMANCES: Receiver Operating Characteristic • Nella seguente figura abbiamo tracciato PF per diversi • valori di d al variare di . • Quando = 0, ln -, quindi il ricevitore decide • sempre per H1, quindi PF = 1 e PD = 1; • quando -, il decisore sceglie sempre H0, per • cui PF = 0 e PD = 0.
PERFORMANCES: Receiver Operating Characteristic • Come ci si aspetta dalle figure delle densità di • probabilità, le prestazioni crescono monotonicamente • con d. • Le curve tracciate nel lucido precedente vengono • chiamate curve ROC (Receiver Operating • Characteristic); • le curve ROC descrivono completamente le prestazioni • del test in funzione dei parametri di interesse. • CASO PARTICOLARE: volgiamo minimizzare la • probabilità di errore totale: • Quando P1 = Po la probabilità di errore totale è:
PERFORMANCES: Receiver Operating Characteristic • LIMITI DI ERFC* • Il calcolo dei limiti della funzione erfc* ci permettono • di discutere analiticamente il suo comportamento • approssimato. • Per X > 0, risolvendo l’integrale (15) per parti, si trova • che: • Un altro limite è, sempre per X > 0:
PERFORMANCES: Receiver Operating Characteristic • La seguente figura mostra le 4 curve di interesse: • Notiamo che erfc* decresce esponenzialmente.
PERFORMANCES: Receiver Operating Characteristic Esempio Riprendiamo l’esempio 2 del test di Bayes in cui avevamo ricavato che: • Il calcolo delle prestazioni per N arbitrario è molto • difficile. Consideriamo per semplicità il caso di N=2. • Sotto l’ipotesi Ho, i valori ri sono variabili indipendenti • Gaussiane a media nulla e con varianza uguale a : • Per valutare l’espressione sopra, consideriamo le • coordinate polari:
PERFORMANCES: Receiver Operating Characteristic Esempio • Integrando rispetto a otteniamo: • Osserviamo che la statistica sufficiente l è uguale • a z2. Facendo un cambiamento di variabili, otteniamo: (16) • Analogamente si trova che: (17)
PERFORMANCES: Receiver Operating Characteristic Esempio • Per costruire le curve ROC, combiniamo le equazioni • (16) e (17) per eliminare la soglia : • Applicando il il logaritmo naturale si ha:: • Come ci si poteva aspettare, le prestazioni aumentano • in modo monotono con il rapporto:
PERFORMANCES: Receiver Operating Characteristic Proprietà • Riprendiamo l’espressione (14) della probabilità di • falso allarme e denotiamo la soglia con ; abbiamo che: • Se PF() è una funzione continua di , è possibile • raggiungere un valore desiderato compreso tra 0 e 1 • per la probabilità di falso allarme, scegliendo • opportunamente ; • Supponendo vera l’ipotesi precedente (test di • verosimiglianza continuo), è possibile ricavare • alcune propietà generali delle curve ROC. • PROPRIETA’ 1 • Tutti i test di verosimiglianza continui hanno curve • ROC con concavità verso il basso. • Se così non fosse, allora sarebbe meglio usare un test • discreto, e questo è in contraddizione con l’ottimalità • del test di verosimiglianza.
PERFORMANCES: Receiver Operating Characteristic Proprietà PROPRIETA’ 2 Tutti i test di verosimiglianza continui hanno curve ROC che stanno sopra la retta PF = PD. Questo è un caso particolare della proprietà 1, perché tutte le curve ROC contengono i punti (PF = 0, PD = 0) e (PF = 1, PD = 1). PROPRIETA’ 3 La pendenza in ogni punto delle curve ROC è uguale al valore della soglia richiesta per raggiungere le probabilità PF e PDin quel punto. Dim.
PERFORMANCES: Receiver Operating Characteristic Proprietà Differenziando rispetto a e facendo il rapporto tra le due equazioni si ottiene: (18) Dobbiamo dimostrare che: Poniamo: Quindi: L’ultima uguaglianza segue dalla definizione del rapporto di verosimiglianza.
PERFORMANCES: Receiver Operating Characteristic Proprietà Usando la definizione di (), l’ultimo integrale può essere riscritto nel seguente modo: Differenziando rispetto a otteniamo: Tenendo conto dell’equazione (18) possiamo ottenere il risultato desiderato. PROPRIETA’ 4 Ogni volta che il massimo valore del rischio di Bayes è interno all’intervallo (0,1) sull’asse P1, il punto del minimax è dato dall’intersezione tra la curva ROC appropriata e la retta
PERFORMANCES: Receiver Operating Characteristic Proprietà Nella figura seguente, osserviamo il caso speciale del minimax definito dalla seguente espressione: Osserviamo che la retta del minimax parte dal punto (PF = 0, PD = 1) e interseca la linea PF = 1 nel punto:
M-IPOTESI • Generalizziamo i concetti della teoria della decisione • al caso in cui noi dobbiamo scegliere una tra M ipotesi • possibili. • Abbiamo una sorgente che genera M uscite; • assumiamo di dovere fare comunque una scelta, quindi • ci sono M2 possibili alternative che possono • verificarsi ogni volta che l’esperimento viene eseguito; • il criterio di Bayes assegna un costo ad ognuna di • queste alternative, assume un insieme di probabilità a • priori, P0, P1, … PM e minimizza il rischio; • la generalizzazione di Neyman-Pearson è possibile, • ma in pratica viene poco usata, quindi vediamo solo • il caso del test di Bayes.
M-IPOTESI • Indichiamo i costi con la notazione Cij, analogamente • al caso binario; • Il modello è mostrato nella seguente figura: Ho Zo Zo Sorgente Zo Z1 HM-1 ZM-1 • L’espressione per il rischio è: • Il minimo rischio viene determinato facendo variare • Zi (equivalent a def. La regola di decisione).
M-IPOTESI • ESEMPIO: =3 • Si ha che: • Z0=Z – Z1 - Z2 • perché le regioni sono disgiunte e coprono tutto Z • Facendo qualche calcolo si ottiene: (19)
M-IPOTESI • Indicando le funzioni integrande con I0(R), I1(R) e • I2(R), abbiamo la seguente regola di decisione : • Questi termini possono essere scritti in termini di • rapporti di verosimiglianza definendo: (20) (In generale M-1 rapporti di verosimiglianza)
M-IPOTESI • Usando le espressioni (19) e (20), si ottiene: • Le regole di decisione corrispondono a tre linee nel • piano 1, 2(in generale,