940 likes | 1.06k Views
Corso di Sistemi di telecomunicazione A.A. 2009/2010. TEORIA DELLA STIMA. Ref. ‘Detection, Estimation and Modulation Theory, Part I’, H.L.Van Trees, ed. John Wiley&Sons, Inc. 1968. Prof. C. Regazzoni. CONTENUTI. Introduzione Parametri casuali: stima Bayesiana
E N D
Corso di Sistemi di telecomunicazione A.A. 2009/2010 TEORIA DELLA STIMA Ref. ‘Detection, Estimation and Modulation Theory, Part I’, H.L.Van Trees, ed. John Wiley&Sons, Inc. 1968 Prof. C. Regazzoni
CONTENUTI • Introduzione • Parametri casuali: stima Bayesiana • Stima di parametri non casuali • Stima di parametri multipli • Ipotesi composta • Stima a massima verosimiglianza • Disuguaglianza di Cramer-Rao • Limite inferiore del minimo MSE
INTRODUZIONE • Nella teoria della decisione viene considerato un • problema in cui si presenta una tra diverse ipotesi; • Come risultato di una particolare ipotesi, veniva • osservato una variabile casuale vettoriale r. • Basandoci sulla nostra osservazione, occorreva • cercare di scegliere l’ipotesi vera. • Adesso consideriamo il problema della stima di • parametri
INTRODUZIONE Il problema della stima: esempio • Vogliamo misurare una tensione a ad un certo istante • di tempo; • da considerazioni fisiche sappiamo che la tensione è • tra -V e +V volt; • La misurazione della tensione è corrotta da rumore • che può essere modellato come variabile casuale n • indipendente con distribuzione Gaussiana a media • nulla; • La variabile osservata è: • La densità di probabilità che governa il processo • dell’osservazione è, in questo caso: Il problema della teoria della stima consiste nell’osservare r e stimare a
INTRODUZIONE Il problema della stima • L’esempio precedente mostra le caratteristiche • principali del problema della stima; • Un modello per il problema generico della stima è • mostrato nella seguente figura:
INTRODUZIONE Il problema della stima • Il modello ha 4 componenti: • 1. Spazio dei parametri • L’uscita della sorgente è un parametro (o variabile). • Noi vediamo questa uscita come un punto nello • spazio dei parametri. Nel caso di un singolo • parametro, questo corrisponde ad un segmento nella • retta: 2. Mappaggio probabilistico dallo spazio dei parametri allo spazio delle osservazioni Questa componente è la legge probabilistica che governa l’effetto di a sull’osservazione.(es rumore) 3. Spazio delle osservazioni L’osservazione è un punto denotato dal vettore R. 4. Regola di stima Dopo avere osservato R, vogliamo stimare il valore del parametro a. Denotiamo la stima con: Studieremo diverse regole di stima e la loro implementazione
PARAMETRI CASUALI: STIMA DI BAYES • Nel problema del decisore di Bayes alle quantità che • dobbiamo specificare sono assegnati dei costi Cij e • delle probabilità a priori Pi; • La matrice dei costi assegna un costo ad ogni possibile • azione da intraprendere, data ogni possibile ipotesi vera • Nel problema della stima a e sono variabili • continue; • occorre assegnare un costo a tutte le possibili coppie • [a, ] nell’intervallo di interesse. • Il costo è una funzione a due variabili C(a, â); • In molti casi di interesse è realistico assumere che il • costo dipenda solo dall’errore di stima, che è: • La funzione di costo C(a) è funzione di un’unica • variabile.
PARAMETRI CASUALI: STIMA DI BAYES • Nella seguente figura sono mostrati alcuni esempi di • funzioni di costo: Un costo elevato è assegnato se l’errore è elevato.
PARAMETRI CASUALI: STIMA DI BAYES • La funzione di costo viene scelta tenendo conto di due • fattori: • 1. Vorremmo che la funzione di costo sia coerente • con la natura del problema (richieste dell’utente); • 2. Vorremmo che la funzione di costo sia tale per cui il • problema della stima risulti analiticamente • trattabile (lo scopo è trovare una stima che • minimizzi il valore aspettato del costo). • In pratica, le funzioni di costo rappresentano un • compromesso tra i due obiettivi sopra citati. • Analogamente alle probabilità a priori del problema • della decisione, nel problema della stima abbiamo una • densità di probabilità a priori pa(A). • Assumeremo che pa(A) sia nota; nel caso che non fosse • nota, può essere adottata una procedura analoga al • test minimax.
PARAMETRI CASUALI: STIMA DI BAYES • Una volta specificate la funzione di costo e la • probabilità a priori, possima screivere un’espressione • per la funzione di rischio: • La media è eseguita sulla variabile a e sulle variabili • osservate r. • La stima di Bayes è la stima che minimizza il rischio. • Consideriamo il caso in cui la funzione di costo è • rappresentato dall’ errore quadratico. Il rischio • in questo caso è: • La densità congiunta può essere riscritta come segue:
PARAMETRI CASUALI: STIMA DI BAYES • L’integrale più interno della funzione di rischio a minimo • MSE e Pr(R) sono non negativi • possiamo minimizzare la funzione di rischio • minimizzando l’integrale più interno. • Denotiamo la stima a minimo MSE con • Per trovare la stima differenziamo l’integrale interno • rispetto ad e poniamo il risultato uguale a 0: • Ponendo il risultato uguale a zero ed osservando che il • secondo integrale è uguale a 1, abbiamo: • Questo minimo è unico, poiché la derivata seconda • della funzione da minimizzare è uguale a due; • La stima è uguale alla media della densità a posteriori.
PARAMETRI CASUALI: STIMA DI BAYES • Ricaviamo ora la stima di Bayes per il criterio del • valore assoluto dell’errore: • Per minimizzare l’integrale più interno scriviamo: • Differenziando rispetto a â(R) e ponendo il risultato • uguale a zero, abbiamo: • Questa è la definizione del mediano della densità a • posteriori.
PARAMETRI CASUALI: STIMA DI BAYES • Ricaviamo ora la stima di Bayes nel caso di costo • uniforme: • Per minimizzare questa equazione, massimizziamo • l’integrale più interno. • Di particolare interesse è il caso in cui è • arbitrariamente piccolo, ma non zero. • Un andamento tipico di densità di probabilità a • posteriori è mostrato nella seguente figura:
PARAMETRI CASUALI: STIMA DI BAYES • Si vede che per piccolo, la migliore stima è il valore • di A per cui la densità di probabilità a posteriori ha il • suo massimo; • Denotiamo la stima per questo caso particolare con • âmap(R), la stima massima a posteriori. • Per trovare la stima massima a posteriori, dobbiamo • conoscere dove si trova il massimo della probabilità • condizionale. Poiché il logaritmo è una funzione • monotona, possiamo cercare il massimo di ln[pa|r(A|R)] • Se il massimo cade nell’intervallo di valori di A • permesso e ln[pa|r(A|R)] ha una derivata prima continua, • allora una condizione necessaria, ma non sufficiente, per • un massimo può essere ottenuta differenziando • ln[pa|r(A|R)] rispetto ad A e ponendo il risultato uguale • a zero: (1)
PARAMETRI CASUALI: STIMA DI BAYES • L’equazione (1) è l’equazione MAP; • Dobbiamo cercare di verificare che la soluzione • ottenuta sia effettivamente il massimo assoluto. • Possiamo riscrivere l’espressione di pa|r(A|R) per • cercare di separare la variabile osservata R dalla • conoscenza a priori: • Facendo il logaritmo: • Per la stima MAP siamo interessati solo nel trovare il • valore di A in cui il termine a sinistra è massimo; • Siccome l’ultimo termine a destra non è funzione di A, • possiamo considerare solo la funzione: (2)
PARAMETRI CASUALI: STIMA DI BAYES • Il primo termine dell’equazione (2) descrive la • dipendenza di R da A e il secondo termine descrive • la conoscenza a priori. • L’equazione MAP può essere riscritta come:
PARAMETRI CASUALI: STIMA DI BAYES Esempio 1 • Consideriamo: • Assumiamo che la variabile a sia Gaussiana, N(0,a), e • che i campioni ni siano variabili Gaussiane indipendenti • N(0,n). Quindi: • Per trovare âms(R) abbiamo bisogno di conoscere • pa|r(A|R). • Una possibilità consiste nel trovare pr(R) e sostituirla • nella regola di Bayes sulla probabilità condizionale per • ricavare pr|a(R|A), ma questa procedura è piuttosto • noiosa.
PARAMETRI CASUALI: STIMA DI BAYES Esempio 1 • E’ più facile osservare che pa|r(A|R) è la densità di • probabilità di a per ogni R dato, quindi: • Pr(R) è solo una costante di normalizzazione. • Completando il quadrato all’esponente e considerando • come una costante i termini dipendenti solo da Ri2 • si ottiene: dove: è la varianza a posteriori.
PARAMETRI CASUALI: STIMA DI BAYES Esempio 1 • Osserviamo che pa|r(A|R) è una densità Gaussiana. • La stima âms(R) è la seguente media condizionale: • Siccome la varianza a posteriori non è funzione di R, • il rischio quadratico medio è uguale alla varianza a • posteriori (v. espressione del rischio). • OSSERVAZIONI: • 1. I valori Ri entrano nella densità a posteriori solo • attraverso la loro somma, cioè: è la statistica sufficiente. Il concetto di statistica sufficiente è lo stesso introdotto nella teoria della decisione.
PARAMETRI CASUALI: STIMA DI BAYES Esempio 1 • 2. La regola di stima usa l’informazione disponibile in • maniera logica ed intuitiva: • - Se a2 << n2/N , la conoscenza a priori è migliore dei • dati osservati è la stima è molto vicina alla media a • priori (in questo caso la media a priori è zero). • - Se a2 >> n2/N , la conoscenza a priori è di poca utilità • e la stima usa principalmente i dati ricevuti. Nel caso • limite âms è la media aritmetica degli Ri:
PARAMETRI CASUALI: STIMA DI BAYES Esempio 1 La stima MAP per questo caso si ricava facilmente: - Osservando l’espressione della pa|r(A|R), vediamo che siccome la densità è Gaussiana, il massimo valore di pa|r(A|R) si ha in corrispondenza della media condizionale, cioè: - Siccome il valore mediano condizionale di una densità Gaussiana corrisponde alla media condizionale, abbiamo anche che:
PARAMETRI CASUALI: STIMA DI BAYES • Nell’esempio precedente si può quindi osservare che • tutte e tre le funzioni di costo considerate in • precedenza portano alla stessa stima. • Questa invarianza rispetto alla scelta della funzione • di costo è una caratteristica importante perché • spesso, nella scelta della funzione di costo C(a), sono • considerati giudizi soggettivi. • Alcune condizioni per cui vale questa proprietà di • invarianza sono contenute nelle due proprietà • seguenti:
PARAMETRI CASUALI: STIMA DI BAYES • PROPRIETA’ 1 • Assumiamo che la funzione di costo C(a) sia una • funzione simmetrica con convessità verso l’alto e che • la densità di probabilità a posteriori pa|r(A|R) sia • simmetrica rispetto alla sua media condizionale: simmetria convessità per ogni b nell’intervallo (0,1) e per ogni x1 e x2. Funzione simmetrica convessa Funzione simmetrica strettamente convessa
PARAMETRI CASUALI: STIMA DI BAYES • Definendo: la simmetria della densità a posteriori implica che: • La stima â che minimizza qualsiasi funzione di questa • classe è identica a âms (che è la media condizionale). • DIM: • Possiamo minimizzare il rischio condizionale. • Usando la definizione di z e la proprietà di simmetria • definiamo:
PARAMETRI CASUALI: STIMA DI BAYES • Usando la condizione di convessità e considerando • il secondo integrale dell’espressione precedente, • possiamo scrivere: • Nell’espressione, l’uguaglianza può essere raggiunta • se âms = â. Questo completa la dimostrazione. • Se la funzione di costo è strettamente convessa, • allora la stima â è unica ed uguale a âms. • La funzione di costo uniforme non è convessa, quindi • si introduce la seconda proprietà.
PARAMETRI CASUALI: STIMA DI BAYES PROPRIETA’ 2 • Assumiamo che la funzione di costo sia simmetrica, • non decrescente e che la densità a posteriori • pa|r(A|R) sia simmetrica (rispetto alla media • condizionale), unimodale e soddisfi la seguente • condizione: • La stima â che minimizza ogni funzione di costo • in questa classe è identica a âms. • La dimostrazione di questa proprietà è simile alla • precedente.
PARAMETRI CASUALI: STIMA DI BAYES • D’ora in poi prenderemo in considerazione solo • le stime a minimo valore quadratico medio e a • massima probabilità a posteriori. • Le proprietà 1 e 2 assicurano che ogni volta che le • densità a posteriori soddisfano le assunzioni date • precedentemente, le stime che otteniamo saranno • ottime per una larga classe di funzioni di costo.
PARAMETRI CASUALI: STIMA DI BAYES Esempio 2 • Il parametro a appare nel segnale in modo non • lineare. Denotiamo questa dipendenza con s(A). • Ogni osservazione ri consiste di s(A) più una • variabile aleatoria ni Gaussiana N(0, n). • Le variabili ni sono statisticamente indipendenti tra • loro e rispetto al parametro a: • Quindi:
PARAMETRI CASUALI: STIMA DI BAYES Esempio 2 • L’espressione precedente non può essere semplificata • ulteriormente senza specificare esplicitamente s(A). • L’equazione MAP risulta essere: • Per risolvere l’equazione in maniera esplicita, occorre • specificare s(A). • Quando s(A) è una funzione non lineare di A, non è • possibile trovare una soluzione analitica.
PARAMETRI CASUALI: STIMA DI BAYES Esempio 3 • Un altro tipo di problema che frequentemente si • presenta è la stima di un parametro in una densità • di probabilità. • Il numero di eventi in un esperimento obbedisce ad • una legge di Poisson con valore medio a: • Vogliamo osservare il numero di eventi e stimare il • parametro a della legge di Poisson. • Assumiamo che a sia una variabile casuale con una • densità esponenziale: • La probabilità a posteriori di a è:
PARAMETRI CASUALI: STIMA DI BAYES Esempio 3 • Quindi la densità a posteriori risulta essere: dove ha lo scopo di normalizzare la densità in modo che il suo integrale sia unitario. • La stima a minimo valore quadratico medio (MS) • è la media condizionale:
PARAMETRI CASUALI: STIMA DI BAYES Esempio 3 • Per trovare âmap facciamo il logaritmo della densità • a posteriori: • Differenziando rispetto ad A, ponendo la derivata • uguale a zero e risolvendo, otteniamo: • Osserviamo che âmap è diverso da âms(la pa|n(A|N) • non è simmetrica rispetto alla media).
PARAMETRI CASUALI: STIMA DI BAYES SINTESI • La stima a minimo errore quadratico medio è sempre • la media della densità a posteriori (media • condizionale); • La stima massima a posteriori (MAP) è il valore di A • in corrispondenza del quale la densità a posteriori • ha il suo massimo; • Per una vasta classe di funzioni di costo la stima • ottima è la media condizionale ogni volta che la • densità a posteriori è una funzione unimodale • simmetrica rispetto alla media condizionale.
STIMA DI PARAMETRI NON ALEATORI • In molti casi non è realistico trattare i parametri • sconosciuti come variabili aleatorie; • Vogliamo trovare criteri di stima adatti per la stima • di parametri non aleatori; • cerchiamo di adattare la procedura di Bayes a • questo caso, cercando di eliminare la media su • pa(A). • Come esempio consideriamo la stima MMSE: dove l’operazione di media è solo su R, poiché è l’unica variabile aleatoria nel modello. • Minimizzando la funzione di rischio, si ottiene: • Il risultato ottenuto è corretto, ma di nessun valore, • poiché A è la quantità sconosciuta che stiamo • cercando di stimare • questo approccio non è di alcun aiuto.
STIMA DI PARAMETRI NON ALEATORI • Un metodo più utile per la stima di parametri non • aleatori consiste nell’esaminare altre possibili misure • di qualità delle procedure di stima e quindi vedere se • possiamo trovare stime che siano buone in termini di • queste misure. • La prima misura di qualità da considerare è il valore • medio della stima: • I possibili valori della media possono essere • raggruppati in tre classi: • 1. Se E[â(R)] =A per tutti i valori di A, diciamo che la • stima è non polarizzata. Questo significa che il valore • medio della stima è uguale alla quantità che vogliamo • stimare. • 2.Se E[â(R)] =A+B, dove B non è funzione di A, diciamo • che la stima ha polarizzazione nota. Possiamo ottenere • una stima non polarizzata sottraendo B da â(R). • 3.Se E[â(R)] =A+B(A), diciamo che la stima ha una • polarizzazione non nota.
STIMA DI PARAMETRI NON ALEATORI • Chiaramente anche una stima non polarizzata potrebbe • dare un cattivo risultato su una particolare • realizzazione. • Un semplice esempio è dato dalla seguente figura: • La densità di probabilità della stima è centrata in A, • ma la varianza di questa densità è così larga che è • molto probabile commettere errori grandi. • Una seconda misura di qualità è la varianza dell’errore • di stima: • Questa fornisce una misura di quanto si può espandere • l’errore. • In generale noi cercheremo di trovare stime non • polarizzate con piccola varianza.
STIMA A MASSIMA VEROSIMIGLIANZA • Consideriamo il semplice problema riportato • nell’esempio 1: • Scegliamo come stima il valore di A che più • verosimilmente genera il valore ricevuto R. • Nel semplice caso additivo vediamo che questo • equivale a scegliere il valore più probabile del rumore • (N=0) e sottraendola da R. • Denotiamo il valore ottenuto usando questa procedura • come stima a massima verosimiglianza: • Nel caso generale denotiamo la funzione pr|a(R|A), vista • come funzione di A, come funzione di verosimiglianza • (likelihood). • Frequentemente noi lavoriamo con il logaritmo, • ln[pa|r(A|R)], e denotiamo questa funzione come • loglikelihood.
STIMA A MASSIMA VEROSIMIGLIANZA • La stima a massima verosimiglianza (ML) âml(R) è • quel valore di A per cui la funzione di verosimiglianza • è massima. • Se il massimo è interno al rango di A e la ln[pr|a(R|A)], • ha una derivata prima continua, allora una condizione • necessaria su âml(R) è ottenuta differenziando • ln[pr|a(R|A)] rispetto ad A e ponendo il risultato uguale • a zero: • Questa è chiamata equazione di verosimiglianza. • Se confrontiamo l’equazione MAP con l’equazione di • verosimiglianza vediamo che la stima ML corrisponde • matematicamente al caso limite di una stima MAP in • cui la conoscenza a priori tende a zero.
STIMA A MASSIMA VEROSIMIGLIANZA • Per vedere se la stima ML è una buona stima, • dovremmo calcolarne la polarizzazione e la varianza. • Spesso questi calcoli sono difficili da svolgere • anziché affrontare il problema direttamente, • procederemo nel seguente modo: • 1. ricaveremo, per prima cosa, un limite inferiore • sulla varianza di ogni stima non polarizzata; • 2.in secondo luogo, confronteremo la varianza di • âml(R) con questo limite inferiore
DISUGUAGLIANZA DI CRAMER-RAO Parametri non aleatori • Consideriamo la varianza di ogni stima â(R) di una • variabile A. Può essere dimostrato il seguente: • TEOREMA: • (a) Se â(R) è una qualunque stima non polarizzata di A, • allora: o equivalentemente: (b) dove si assume che siano soddisfatte le seguenti condizioni: (c) esistono e sono integrabili in senso assoluto. • Quando la stima è tale per cui vale l’uguaglianza, • allora viene chiamata stima efficiente.
DISUGUAGLIANZA DI CRAMER-RAO Parametri non aleatori • DIM: • La dimostrazione è una semplice applicazione della • disuguaglianza di Schwartz. • Siccome â(R) è una stima non polarizzata, allora: • Differenziando rispetto ad A: dove la condizione (c) ci permette di portare la differenziazione dentro l’integrale.
DISUGUAGLIANZA DI CRAMER-RAO Parametri non aleatori • Il primo integrale è uguale a 1. Osserviamo che: • Sostituendo questa espressione nella precedente • abbiamo: • Usando la disuguaglianza di Schwartz:
DISUGUAGLIANZA DI CRAMER-RAO Parametri non aleatori • Nella disuguaglianza precedente, l’uguaglianza si • ottiene se: (3) per tutti i valori di R e A. • I due termini a sinistra nella disuguaglianza • precedente sono le medie dell’espressione (a): (4) • Per dimostrare la (b) osserviamo che: • Differenziando rispetto ad A, abbiamo:
DISUGUAGLIANZA DI CRAMER-RAO Parametri non aleatori • Differenziando di nuovo rispetto ad A, abbiamo: • che insieme alla equazione (4) dà la condizione (b).
DISUGUAGLIANZA DI CRAMER-RAO Parametri non aleatori OSSERVAZIONI 1. Il risultato ottenuto mostra che ogni stima non polarizzata deve avere una varianza più grande di un certo valore; 2.Se l’uguaglianza (3) è soddisfatta, la stima âml(R) sarà proprio uguale al limite; questo può essere dimostrato combinando l’equazione (4) con l’equazione di verosimiglianza: • Il termine a destra è uguale a zero se: oppure • Siccome ci interessa una soluzione che dipende dai • dati, allora consideriamo la prima delle due condizioni • se una stima efficiente esiste, allora è âml(R) e può • essere ottenuta come unica soluzione alla equazione • di verosimiglianza.
DISUGUAGLIANZA DI CRAMER-RAO Parametri non aleatori 3.Se una stima efficiente non esiste, non sappiamo quanto buona sia âml(R); inoltre non sappiamo quanto la varianza si avvicini al limite inferiore. 4.Allo scopo di utilizzare il limite, dobbiamo verificare che la stima che stiamo considerando sia non polarizzata. Vediamo ora alcuni esempi dell’applicazione della disuguaglianza di Cramer-Rao, considerando la stima di parametri non aleatori.
DISUGUAGLIANZA DI CRAMER-RAO Esempio 2 • Riprendiamo l’esempio 1: • Abbiamo che: (5) ponendo la derivata uguale a zero, otteniamo: • Per ricavare la polarizzazione, eseguiamo l’operazione • di media: la stima âml(R) è non polarizzata.
DISUGUAGLIANZA DI CRAMER-RAO Esempio 2 • Siccome l’espressione (5) ha la forma richiesta dalla • (3), possiamo affermare che âml(R) è una stima • efficiente. • Per valutare la varianza differenziamo l’equazione (5): • Usando la condizione (b) della disuguaglianza di • Cramer-Rao e il risultato di efficienza appena • ottenuto, abbiamo:
DISUGUAGLIANZA DI CRAMER-RAO Esempio 3 • Riprendiamo l’esempio 3. In questo caso abbiamo che: (6) • La stima ML è: • La stima è chiaramente non polarizzata ed efficiente.
DISUGUAGLIANZA DI CRAMER-RAO Esempio 4 • Per valutare la varianza, differenziamo l’equazione (6): • Quindi: • In entrambi gli esempi 1 e 3, osserviamo che la stima • potrebbe essere ricavata con la stima MAP (ponendo • a nell’equazione MAP, ricordando che âms= âmap e • ponendo 0 nel risultato ottenuto precedentemente • nell’esempio 4.