1 / 49

Corso di Sistemi di Telecomunicazione 1 A.A 2009/2010

Corso di Sistemi di Telecomunicazione 1 A.A 2009/2010. TEORIA DELLA DECISIONE. Ref. ‘Detection, Estimation and Modulation Theory, Part I’, H.L.Van Trees, ed. John Wiley&Sons, Inc. 1968. Prof. Carlo S. Regazzoni. CONTENUTI. Introduzione Test di ipotesi binaria

thane-sykes
Download Presentation

Corso di Sistemi di Telecomunicazione 1 A.A 2009/2010

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Corso di Sistemi di Telecomunicazione 1 A.A 2009/2010 TEORIA DELLA DECISIONE Ref. ‘Detection, Estimation and Modulation Theory, Part I’, H.L.Van Trees, ed. John Wiley&Sons, Inc. 1968 Prof. Carlo S. Regazzoni

  2. CONTENUTI • Introduzione • Test di ipotesi binaria • Criteri di decisione • Misure di prestazione: curve ROC • M-ipotesi

  3. INTRODUZIONE: Il problema della decisione • Componenti del problema della decisione: 1. Sorgente 2. Meccanismo probabilistico di rumore 3. Spazio dell’osservazione 4. Regola di decisione H0 Spazio della Meccanismo probabilistico di rumore Sorgente osservazione H1 Regola di decisione DECISIONE

  4. INTRODUZIONE: Il problema della decisione • Sorgente La sorgenete genera un’uscita che, nel caso più semplice è una tra due possibili scelte e ESEMPIO Un sistema di comunicazione digitale trasmette informazioni mandando ‘0’ e ‘1’: = è stato trasmesso ‘1’ = è stato trasmesso ‘0’ • Meccanismo probabilistico di rumore • Può essere visto come un dispositivo che sa • quale ipotesi è vera. Sulla base di questa • conoscenza, genera un punto nello spazio delle • osservazioni, in accordo con date leggi • probabilistiche. • Spazio delle osservazioni: ESEMPIO • Quando H1 è vera, la sorgente genera +1. • Quando H0 è vera, la sorgente genera -1.

  5. INTRODUZIONE: Il problema della decisione Un problema di decisione: Fig. a: Modello Fig. b: Densità di probabilità • Una variabile casuale discreta indipendente n la cui • densità di probabilità è mostrata nella figura (b) è • aggiunta all’uscita della sorgente. • L’osservazione r è data dalla somma dell’uscita della • sorgente con n. • Sotto le due ipotesi abbiamo due possibili osservazioni • r le cui densità di probabilità sono mostrate in figura • (b). • Regola di decisione • La regola di decisione assegna ogni punto dello spazio • dell’osservazione ad una delle ipotesi

  6. IPOTESI BINARIA • Ognuna delle due uscite della sorgente corrisponde • ad una ipotesi • Ogni ipotesi viene mappata in un punto dello spazio • delle osservazioni • Assumiamo che lo spazio delle osservazioni • corrisponde a un insieme di N osservazioni:  Ogni insieme può essere pensato come un punto in uno spazio N-dimensionale e può essere denotato da un vettore r: • Il meccanismo probabilistico di rumore genera punti in • accordo con due densità di probabilità condizionali • note e • OBIETTIVO: usare questa informazione per sviluppare • una buona regola di decisione •  vediamo diversi criteri di decisione

  7. CRITERI DI DECISIONE • Nell’ipotesi binaria sappiamo che una delle ipotesi H1 • o H0 è vera. • Confiniamo la discussione sulle regole di decisione • che sono richieste per prendere una decisione. • Ogni volta che l’esperimento viene condotto, può • verificarsi una delle seguenti 4 situazioni: • 1. H0 è vera - scelgo H0; • 2. H0 è vera - scelgo H1; • 3. H1 è vera - scelgo H1; • 4. H1 è vera - scelgo H0; • La prima e la terza alternativa corrispondono a scelte • corrette. • La seconda e la quarta alternativa corrispondono a • scelte sbagliate. • Lo scopo di un criterio di decisione è quello di dare una • importanza relativa ai possibili quattro eventi.

  8. CRITERIO DI BAYES • Il test di Bayes è basato si due assunzioni: • 1. Prima assunzione • Le uscite sono governate da assegnazioni • probabilistiche, che sono denotate da P1 e P0 e sono • chiamate probabilità a priori. • Queste probabilità rappresentano l’informazione che • ha l’osservatore sulla sorgente, prima che • l’esperimento sia condotto. • 2. Seconda assunzione • Ad ogni possibile azione viene associato un costo • C00, C10, C11, C01, dove il primo pedice indica l’ipotesi • scelta e il secondo l’ipotesi vera. • Ogni volta che l’esperimento viene eseguito, si paga • un certo costo. • Vogliamo progettare la nostra regola di decisione in • modo tale che il costo medio sia minimizzato.

  9. CRITERIO DI BAYES • Per minimizzare il costo medio, scriviamo un’espressione • per il costo aspettato (rischio): • Siccome abbiamo assunto che la regola di decisione • possa decidere per H0 o per H1, questa può essere vista • come una regola che divide lo spazio di osservazione Z • in due parti, Z0 e Z1: Decido per Z0 R Z0 Sorgente Z1 R Z0 dove: Decido per Z1

  10. CRITERIO DI BAYES • Possiamo scrivere l’espressione per il rischio in • termini di probabilità di transizione e di regioni di • decisione: (1) • Assumiamo che il costo relativo ad una decisione • sbagliata sia più alto del costo relativo ad una • decisione corretta(data la stessa Hi vera): (2) • Per trovare il test di Bayes dobbiamo scegliere • le regioni di decisione in modo tale che il rischio • sia minimizzato • Siccome vogliamo che una decisione venga comunque • presa, occorre che lo spazio di osservazione Z sia • tale che:

  11. CRITERIO DI BAYES • La (1) può essere riscritta nel seguente modo: • Osserviamo che: (3) • I primi due termini rappresentano il costo fissato se • decido H1 sempree l’ integrale rappresenta il costo • controllato da quei punti R che assegniamo a Zo. • L’assunzione (2) implica che i due termini dentro le • parentesi tonde siano positivi. •  tutti i valori di R per cui il secondo termine è più • grande del primo dovrebbero essere inclusi in Zo • perché danno contributo negativo all’integranda; •  tutti i valori di R per cui il primo termine è più • grande del secondo dovrebbero essere esclusi da Zo • (assegnati a Z1).

  12. CRITERIO DI BAYES • Le regioni di decisione sono definite dalla seguente • relazione: SE (4)  ASSEGNIAMO R A Z1, QUINDI SCELGO L’IPOTESI H1 E’ VERA. • La (4) può essere riscritta nel seguente modo: (5) • (R) è chiamato rapporto di verosimiglianza ed è una • variabile aleatoria. • La quantità a destra della (5) è la soglia del test:

  13. CRITERIO DI BAYES • OSSERVAZIONI • Il criterio di Bayes può essere riscritto come segue: (6) • Tutta l’elaborazione è contenuta nel calcolo del • rapporto di verosimiglianza e non dipende dalle • probabilità a priori o dall’assegnazione dei costi. • Siccome il logaritmo naturale è una funzione • monotona ed entrambi i termini della (6) sono positivi, • un test equivalente è il seguente: (7)

  14. CRITERIO DI BAYES Esempio 1 • Ipotesi H1uscita della sorgente = tensione m • Ipotesi H0uscita della sorgente = tensione 0 • Prima dell’osservazione la tensione è corrotta da un • rumore additivo. • Campioniamo la forma d’onda in uscita ogni secondo • e otteniamo N campioni. • Ogni campione di rumore è una variabile aleatoria • Gaussiana a media nulla e varianza • I campioni di rumore sono indipendenti tra di loro e • sono indipendenti dall’uscita della sorgente.

  15. CRITERIO DI BAYES Esempio 1 • Le osservazioni sotto le due ipotesi sono: e • La densità di probabilità dell’osservazione sotto le • due ipotesi risulta essere: e

  16. CRITERIO DI BAYES Esempio 1 • Siccome i campioni di rumore sono statisticamente • indipendenti, è possibile scrivere: e • Il rapporto di verosimiglianza risulta essere:

  17. CRITERIO DI BAYES Esempio 1 • Il test di verosimiglianza è: o, equivalentemente: • Il processore semplicemente somma i campioni • osservati e confronta la somma con una soglia. • L’operazione: è chiamata statistica sufficiente.

  18. CRITERIO DI BAYES Esempio 2 • L’osservazione consiste di un insieme di N valori: che sono indipendenti, identicamente distribuiti, con distribuzione Gaussiana a media nulla. • Sotto l’ipotesi H1, i campioni osservati hanno varianza • e sotto l’ipotesi Ho • Siccome le variabili sono indipendenti: • Il test di verosimiglianza diventa:

  19. CRITERIO DI BAYES Esempio 2 • In questo caso la statistica sufficiente è data da: • Un test equivalente per è: • Per si ha invece:

  20. CRITERIO DI BAYES Caso particolare: ricevitore a minima probabilità di errore • Supponiamo che: • La funzione di rischio (1) diventa: (8) • L’espressione (8) rappresenta la probabilità totale • di fare un errore, che viene perciò minimizzata. • Il test di verosimiglianza è: • Quando le due ipotesi sono equiprobabili, la soglia • è nulla. Questa ipotesi è generalmente vera • nei sistemi di comunicazione digitale. Questo tipo di • criterio viene normalmente chiamato ricevitore a • minima probabilità di errore.

  21. CRITERIO MINIMAX • Il criterio minimax è un caso particolare del test di • Bayes in cui le probabilità a priori non sono note. • Introduciamo le seguenti quantità, con analogia al • problema del radar, in cui l’ipotesi H1 corrisponde • alla presenza di un target, e l’ipotesi Ho corrisponde • alla sua assenza: (9) (10) (11) • PF è la probabilità di falso allarme (il target è • rilevato quando in realtà non c’è); • PM è la probabilità di mancato allarme (il target non è • rilevato quando in realtà c’è); • PD è la probabilità di detection (il target è rilevato • correttamente).

  22. CRITERIO MINIMAX • La funzione di rischio (3) può essere riscritta nel • seguente modo: (12) • Poiché , è possibile scrivere: (13) • In figura è riportata la funzione di rischio Bayesiana • in funzione di P1; si può osservare come P1 cambia le • regioni di decisione e quindi le probabilità PF e PM.

  23. CRITERIO MINIMAX • Fissiamo P1=P1* e costruiamo il corrispondente test di • Bayes; • Fissiamo la soglia e ora assumiamo che P1 possa • cambiare; • Denotiamo il rischio per questa soglia fissata come: • Siccome la soglia è fissata, allora PF e PM sono fissate • e la (13) rappresenta una retta; • Se vediamo come è definita la soglia , osserviamo che • questa cambia continuamente al variare di P1 •  ogni volta che , la soglia nel test di Bayes • sarà differente. • Siccome il test di Bayes minimizza il rischio, allora: • Se  è una variabile aleatoria continua con funzione • di distribuzione probabilistica strettamente monotona, • allora cambiando  viene cambiato il rischio; • RB ha concavità verso il basso; • RF è tangente a RB nel punto . • Queste curve dimostrano l’effetto della conoscenza • errata delle probabilità a priori.

  24. CRITERIO MINIMAX • Il criterio minimax minimizza il massimo rischio •  P1 è scelto in modo da massimizzare il rischio RF. • ESEMPIO 1 Il massimo di Rb si ha in P1=0  per minimizzare il massimo rischio usiamo il test di Bayes con P1=0. ESEMPIO 2 Il massimo di Rb si ha in P1=1  per minimizzare il massimo rischio usiamo il test di Bayes con P1=1.

  25. CRITERIO MINIMAX ESEMPIO 3 • Il massimo di RB cade nell’intervallo (0,1), quindi • scegliamo RF orizzontale. Questop implica che il • coefficiente di P1 nella (13) deve essere nullo • (equazione del minimax) • Nel caso particolare in cui , indicando: l’equazione del minimax è:

  26. CRITERIO DI NEYMAN-PEARSON • In molti casi reali è difficile assegnare costi • realistici o probabilità a priori; • Una procedura semplice per evitare questo problema • è lavorare con le probabilità condizionali PF e PD; • In generale, vogliamo minimizzare PF e massimizzare • PD; • In molti casi pratici questi due obiettivi sono in • conflitto •  un criterio ovvio consiste nel limitare una delle • probabilità e massimizzare o minimizzare l’altra. • Il criterio di Neyman-Pearson la probabilità di falso • allarme: e progetta un test per massimizzare la probabilità di detection (o minimizzare la probabilità di mancato allarme), con questo vincolo.

  27. CRITERIO DI NEYMAN-PEARSON • La soluzione è facilmente ottenuta usando i • moltiplicatori di Lagrange.; costruiamo la funzione F: o • Se , minimizzare F equivale a minimizzare PM. • Per ogni valore positivo di , un rapporto di • verosimiglianza minimizzerà F, infatti per • minimizzare F noi assegniamo un punto R a Zo solo • quando il termine tra parentesi è negativo; questo • equivale al test:  assegno il punto a Zo  F è minimizzata dal test di verosimiglianza:

  28. CRITERIO DI NEYMAN-PEARSON • Per soddisfare il vincolo scegliamo  in modo tale che: • Se indichiamo la densità di probabilità di  quando • Ho è vera come: allora deve essere: (14) • Risolvendo la (14), si ottiene la soglia  • Osserviamo che diminuire  è equivalente ad • aumentare Z1, la regione in cui decidiamo per H1; •  PD aumenta al diminuire di  •  diminuiamo  finché non otteniamo il valore più • alto possibile

  29. PERFORMANCES: Receiver Operating Characteristic • Per il test di Neyman-Pearson i valori di PF e PD • specifica completamente le prestazioni del test; • Osservando l’equazione (12), vediamo che il rischio di • Bayes RB è dato, se sono note le probabilità PF e PD •  ci concentriamo sul calcolo di PF e PD • Riprendiamo l’esempio 1, in cui il test di • verosimiglianza è rappresentato da: • Equivalentemente, il test di verosimiglianza può • essere espresso dalla seguente espressione: • Sotto l’ipotesi Ho, l è ottenuto aggiungendo N • variabili indipendenti con varianza e quindi • dividendo per •  l ha distribuzione Gaussiana normalizzata N(0,1)

  30. PERFORMANCES: Receiver Operating Characteristic • Sotto l’ipotesi H1, l ha distribuzione Gaussiana • con media e varianza 1. • Le densità di probabilità di l sono mostrate nella • seguente figura, in cui è riportata anche la soglia • del test di verosimiglianza:

  31. PERFORMANCES: Receiver Operating Characteristic • La probabilità di falso allarme PF è l’integrale di a destra della soglia, cioè: dove: • d rappresenta la distanza tra i valori medi delle due • densità di probabilità. • Introduciamo la seguente notazione: (15)

  32. PERFORMANCES: Receiver Operating Characteristic • Analogamente, la probabilità di detection PD è • l’integrale di: a destra della soglia; dopo qualche calcolo elementare si può ottenere che:

  33. PERFORMANCES: Receiver Operating Characteristic • Nella seguente figura abbiamo tracciato PF per diversi • valori di d al variare di . • Quando  = 0, ln  -, quindi il ricevitore decide • sempre per H1, quindi PF = 1 e PD = 1; • quando  -, il decisore sceglie sempre H0, per • cui PF = 0 e PD = 0.

  34. PERFORMANCES: Receiver Operating Characteristic • Come ci si aspetta dalle figure delle densità di • probabilità, le prestazioni crescono monotonicamente • con d. • Le curve tracciate nel lucido precedente vengono • chiamate curve ROC (Receiver Operating • Characteristic); • le curve ROC descrivono completamente le prestazioni • del test in funzione dei parametri di interesse. • CASO PARTICOLARE: volgiamo minimizzare la • probabilità di errore totale: • Quando P1 = Po la probabilità di errore totale è:

  35. PERFORMANCES: Receiver Operating Characteristic • LIMITI DI ERFC* • Il calcolo dei limiti della funzione erfc* ci permettono • di discutere analiticamente il suo comportamento • approssimato. • Per X > 0, risolvendo l’integrale (15) per parti, si trova • che: • Un altro limite è, sempre per X > 0:

  36. PERFORMANCES: Receiver Operating Characteristic • La seguente figura mostra le 4 curve di interesse: • Notiamo che erfc* decresce esponenzialmente.

  37. PERFORMANCES: Receiver Operating Characteristic Esempio Riprendiamo l’esempio 2 del test di Bayes in cui avevamo ricavato che: • Il calcolo delle prestazioni per N arbitrario è molto • difficile. Consideriamo per semplicità il caso di N=2. • Sotto l’ipotesi Ho, i valori ri sono variabili indipendenti • Gaussiane a media nulla e con varianza uguale a : • Per valutare l’espressione sopra, consideriamo le • coordinate polari:

  38. PERFORMANCES: Receiver Operating Characteristic Esempio • Integrando rispetto a  otteniamo: • Osserviamo che la statistica sufficiente l è uguale • a z2. Facendo un cambiamento di variabili, otteniamo: (16) • Analogamente si trova che: (17)

  39. PERFORMANCES: Receiver Operating Characteristic Esempio • Per costruire le curve ROC, combiniamo le equazioni • (16) e (17) per eliminare la soglia : • Applicando il il logaritmo naturale si ha:: • Come ci si poteva aspettare, le prestazioni aumentano • in modo monotono con il rapporto:

  40. PERFORMANCES: Receiver Operating Characteristic Proprietà • Riprendiamo l’espressione (14) della probabilità di • falso allarme e denotiamo la soglia con ; abbiamo che: • Se PF() è una funzione continua di , è possibile • raggiungere un valore desiderato compreso tra 0 e 1 • per la probabilità di falso allarme, scegliendo • opportunamente ; • Supponendo vera l’ipotesi precedente (test di • verosimiglianza continuo), è possibile ricavare • alcune propietà generali delle curve ROC. • PROPRIETA’ 1 • Tutti i test di verosimiglianza continui hanno curve • ROC con concavità verso il basso. • Se così non fosse, allora sarebbe meglio usare un test • discreto, e questo è in contraddizione con l’ottimalità • del test di verosimiglianza.

  41. PERFORMANCES: Receiver Operating Characteristic Proprietà PROPRIETA’ 2 Tutti i test di verosimiglianza continui hanno curve ROC che stanno sopra la retta PF = PD. Questo è un caso particolare della proprietà 1, perché tutte le curve ROC contengono i punti (PF = 0, PD = 0) e (PF = 1, PD = 1). PROPRIETA’ 3 La pendenza in ogni punto delle curve ROC è uguale al valore della soglia  richiesta per raggiungere le probabilità PF e PDin quel punto. Dim.

  42. PERFORMANCES: Receiver Operating Characteristic Proprietà Differenziando rispetto a  e facendo il rapporto tra le due equazioni si ottiene: (18) Dobbiamo dimostrare che: Poniamo: Quindi: L’ultima uguaglianza segue dalla definizione del rapporto di verosimiglianza.

  43. PERFORMANCES: Receiver Operating Characteristic Proprietà Usando la definizione di (), l’ultimo integrale può essere riscritto nel seguente modo: Differenziando rispetto a  otteniamo: Tenendo conto dell’equazione (18) possiamo ottenere il risultato desiderato. PROPRIETA’ 4 Ogni volta che il massimo valore del rischio di Bayes è interno all’intervallo (0,1) sull’asse P1, il punto del minimax è dato dall’intersezione tra la curva ROC appropriata e la retta

  44. PERFORMANCES: Receiver Operating Characteristic Proprietà Nella figura seguente, osserviamo il caso speciale del minimax definito dalla seguente espressione: Osserviamo che la retta del minimax parte dal punto (PF = 0, PD = 1) e interseca la linea PF = 1 nel punto:

  45. M-IPOTESI • Generalizziamo i concetti della teoria della decisione • al caso in cui noi dobbiamo scegliere una tra M ipotesi • possibili. • Abbiamo una sorgente che genera M uscite; • assumiamo di dovere fare comunque una scelta, quindi • ci sono M2 possibili alternative che possono • verificarsi ogni volta che l’esperimento viene eseguito; • il criterio di Bayes assegna un costo ad ognuna di • queste alternative, assume un insieme di probabilità a • priori, P0, P1, … PM e minimizza il rischio; • la generalizzazione di Neyman-Pearson è possibile, • ma in pratica viene poco usata, quindi vediamo solo • il caso del test di Bayes.

  46. M-IPOTESI • Indichiamo i costi con la notazione Cij, analogamente • al caso binario; • Il modello è mostrato nella seguente figura: Ho Zo Zo Sorgente Zo Z1 HM-1 ZM-1 • L’espressione per il rischio è: • Il minimo rischio viene determinato facendo variare • Zi (equivalent a def. La regola di decisione).

  47. M-IPOTESI • ESEMPIO: =3 • Si ha che: • Z0=Z – Z1 - Z2 • perché le regioni sono disgiunte e coprono tutto Z • Facendo qualche calcolo si ottiene: (19)

  48. M-IPOTESI • Indicando le funzioni integrande con I0(R), I1(R) e • I2(R), abbiamo la seguente regola di decisione : • Questi termini possono essere scritti in termini di • rapporti di verosimiglianza definendo: (20) (In generale M-1 rapporti di verosimiglianza)

  49. M-IPOTESI • Usando le espressioni (19) e (20), si ottiene: • Le regole di decisione corrispondono a tre linee nel • piano 1, 2(in generale,

More Related