740 likes | 1.03k Views
Il Dilemma del Prigioniero e la teoria del Punctuated Equilibrium. Fabio Ruini ( 22112@unimo.it ) Università degli Studi di Modena e Reggio Emilia Facoltà di Scienze della Comunicazione e dell’Economia Corso di Laurea Specialistica in Economia e Gestione delle Reti e dell’Innovazione.
E N D
Il Dilemma del Prigioniero e la teoria del Punctuated Equilibrium Fabio Ruini (22112@unimo.it) Università degli Studi di Modena e Reggio Emilia Facoltà di Scienze della Comunicazione e dell’Economia Corso di Laurea Specialistica in Economia e Gestione delle Reti e dell’Innovazione Anno Accademico 2004/05Corso di Teoria della Complessità e dell’InformazioneProf. David Avra Lane
Il Dilemma del Prigioniero(Von Neumann e Morgenstern, 1944) • 2 persone, sospettate di aver commesso un grave crimine insieme, vengono arrestate • la polizia non ha sufficienti prove per dimostrare la loro colpevolezza • e quindi può solo incriminarli per reati minori … a meno che uno dei due confessi!
Una proposta Chiusi in celle separate a ciascuno dei due prigionieri viene fatta una proposta: “se confessi il crimine ed accetti di testimoniare contro il tuo compagno, ti libereremo!”
Prospettiva interessante, ma… • se entrambi accettano la proposta, si discrediteranno a vicenda agli occhi del giudice, ed incapperanno in una dura condanna; • se nessuno dei due accetta, la pena sarà molto lieve per entrambi.
Quale scelta prendere? Se i due prigionieri potessero interagire e scegliere una strategia comune, con ogni probabilità opterebbero per non parlare.
Ma la scelta è individuale… Dovendo scegliere senza conoscere l’intenzione del compagno, la strategia che minimizza il rischio risulta essere quella di tradire.
Dimostrazione Scegliendo di tradire, infatti: • si viene scarcerati, nel caso in cui il compagno non confessi a sua volta; • si evita la pena massima, nel caso in cui il compagno tradisca.
Il dilemma Siccome il singolo individuo è portato a tradire, la situazione raggiunta è per forza di cose una soluzione sub-ottimale del problema!
Iterazione Il dilemma si manifesta in misura ancora maggiore se prendiamo in considerazione una versione iterata del gioco.
Gli studi di Axelrod (1984) Axelrod, alla ricerca di una strategia ottimale per giocare la versione iterata del Dilemma del Prigioniero, lanciò due “tornei” aperti all’intera comunità scientifica. I partecipanti potevano sottoporre ad Axelrod la propria strategia, che al massimo poteva essere di “memoria 6”
I due tornei I tornei, di tipo round-robin, vennero giocati al computer. • 1° torneo: 14 programmi; • 2° torneo: 63 programmi + 1 (che si comportava in maniera totalmente casuale)
Matrice dei payoff Per stabilire quali fossero le strategie migliori, Axelrod assegnò dei valori numerici alle varie situazioni che potevano verificarsi nel gioco: (fonte: Mitchell, 1999)
And the winner is… La strategia che risultò vincente in entrambi i tornei, fu la più semplice tra tutte quelle ricevute: la “Tit-for-Tat”
Strategia Tit-for-Tat (TFT) La strategia TFT ha un comportamento estremamente semplice: • come prima mossa, sceglie la cooperazione; • successivamente, ripropone l’ultima mossa giocata dell’avversario.
Domanda Un algoritmo genetico (GA) potrebbe sviluppare strategie in grado di giocare con successo il Dilemma del Prigioniero nella sua versione iterata? Per rispondere alla questione, Axelrod sviluppò due diversi algoritmi.
Primo GA: ambiente stabile Axelrod analizzò le strategie utilizzate nei tornei precedenti e ne estrapolò le 8 maggiormente rappresentative. Queste strategie costituivano l’ambiente contro cui si scontravano le strategie elaborate dal GA per ottenere un valore di fitness.
Primo GA: risultati Il GA venne eseguito con una popolazione iniziale di 20 elementi e fermato dopo sole 50 generazioni (1000 individui generati, su uno spazio possibile di 270); Questo fu tuttavia sufficiente per far evolvere strategie con performance decisamente superiori a quella ottenuta dalla TFT!
Secondo GA: ambiente in evoluzione In alternativa ad un ambiente stabile, nel suo secondo GA, Axelrod eliminò le 8 strategie “umane”. Tutti i membri della popolazione, in ciascuna generazione, giocavano contro tutti gli altri.
Secondo GA: risultati Inizialmente, il GA faceva evolvere strategie non-cooperative. Dopo 10/20 generazioni, però, l’algoritmo inizia a scoprire strategie che ricambiano la cooperazione e puniscono il tradimento.
Implicazioni degli studi di Axelrod Gli studi di Axelrod portarono a due risultati decisamente rilevanti: • un GA poteva far evolvere soluzioni ad un problema interessante; • un GA poteva servire per creare modelli di evoluzione e di co-evoluzione. La strada era così aperta a nuovi utilizzi degli algoritmi genetici.
Dilemma del Prigioniero con rumore (Lindgren, 1991) Lindgren realizzò un nuovo GA dedicato al Dilemma del Prigioniero iterato. Gli elementi di novità introdotti erano due: • l’introduzione del rumore; • la possibilità che le strategie modifichino la propria memoria nel corso dell’evoluzione.
Codifica binaria delle storie Lindgren adottò una codifica binaria per le mosse compiute dai giocatori (0: tradimento, 1: cooperazione). E’ così possibile identificare con un numero binario la storia (di lunghezza m) di due giocatori: (dove a0 è l’ultima azione dell’avversario, a1 la propria ultima azione, a2 la penultima azione dell’avversario, ecc…). Ad esempio: h2 = (10)
L’ordinamento delle storie A seconda della lunghezza m delle storie considerate, è possibile ordinarle con un numero sequenziale. Ad esempio, per m=2, abbiamo: • la storia (00) -> corrispondente a 1; • la storia (01) -> corrispondente a 2; • la storia (10) -> corrispondente a 3; • la storia (11) -> corrispondente a 4.
Codifica genetica delle strategie Analogamente alle storie, anche le strategie dei singoli individui (che costituiscono il loro genoma) sono rappresentabili mediante un numero binario: (dove A0 è l’azione intrapresa al verificarsi della storia 0, A1 è l’azione intrapresa al verificarsi della storia 1, ecc…).
esempio: strategie di memoria 1 Le strategie di memoria 1, prendono in considerazione l’ultima mossa giocata dall’avversario e possono così riferirsi a 2 storie diverse: • (0), ossia la storia 1; • (1), ossia la storia 2. Esistono dunque 4 strategie a memoria 1: • S1 = [00] = tradisce in qualunque caso (ALL-D); • S2 = [01] = coopera quando l’avversario coopera (TFT); • S3 = [10] = coopera quando l’avversario tradisce (A-TFT); • S4 = [11] = coopera in qualunque caso (ALL-C).
Dinamiche della popolazione La popolazione di partenza è composta da N individui. In ciascuna generazione, ciascun individuo gioca contro tutti gli altri, ottenendo un certo punteggio (la matrice dei payoff è la stessa utilizzata da Axelrod).
esempio di gioco: ALL-C contro ALL-D Ad esempio, nel momento in cui si incontrano due individui, il cui genoma codifica rispettivamente le strategie ALL-C ed ALL-D, il punteggio che essi totalizzano è:
Calcolo del punteggio Il punteggio siconseguito da un individuo con genotipo i risulta essere: Più in generale, il punteggio medio totalizzato dall’intero sistema è dato dalla formula:
Fitness La fitness widi un individuo viene calcolata come la differenza tra il suo punteggio individuale ed il punteggio medio del sistema:
Crescita della popolazione Da una generazione t ad una generazione t+1, assumiamo che, per via delle interazioni, la frazione xi della popolazione per il genotipo i cambi secondo la formula: (dove d è una costante di crescita che attenua l’effetto moltiplicativo della fitness wi).
Gli operatori genetici Ma gli operatori genetici possono influire su questo processo riproduttivo. Lindgren utilizza infatti tre tipi di operatori, oltre alla selezione (proporzionale alla fitness): • mutazione puntuale; • duplicazione genica; • split mutation.
La crescita per effetto delle mutazioni La numerosità di una popolazione può dunque variare anche per effetto delle mutazioni che hanno luogo durante le dinamiche evolutive. Se i tassi di mutazione sono sufficientemente bassi(pp + pd + ps << 1/N), allora tale effetto può essere ben approssimato dalla formula: (dove Qij è una variabile che assume il valore 1 se l’individuo j muta in i).
Equazione di crescita (completa) L’equazione di crescita della popolazione, comprensiva del termine aggiuntivo che tiene in considerazione le possibili mutazioni da una specie differente, risulta dunque essere:
Parametri utilizzati nel modello • N = 1000; • p = 0.01; • pp = 2 * 10-5; • pd = ps = 10-5; • d = 0.1; • max lunghezza genoma = 32; • x00 = x01 = x10 = x11 = 1/4.
Studio delle dinamiche evolutive (fonte: Lindgren, 1991)
Comportamento iniziale del sistema Inizialmente, con tutte e 4 le strategie presenti, quella che fa registrare il comportamento migliore è ALL-D, che si impone su ALL-C ed A-TFT, fino a portarle all’estinzione. Una volta estinte ALL-C ed A-TFT, le condizioni diventano favorevoli per TFT (non più exploitata dalle due specie in questione), che si impone su ALL-D.
Prime estinzioni e dominazioni In figura è possibile osservare l’estinzione delle strategie [11], [10] e [00]. (fonte: rielaborazione da Lindgren, 1991 )
Gli effetti del rumore TFT sembrerebbe in grado di mantenere a lungo il proprio dominio sulla popolazione, ma i risultati che consegue sono penalizzati dalle interferenze dovute al rumore: Rumore
Il ritorno in gioco di ALL-C… Così, attraverso una mutazione puntuale[01] [11], la strategia ALL-C rientra in gioco, trovando terreno fertile per riprodursi. A farne le spese è ovviamente TFT, in quanto unica popolazione presente al momento, che decresce rapidamente.
… e quello di A-TFT ed ALL-D Le dinamiche, fortemente oscillatorie, portano alla ricomparsa di A-TFT e ALL-D, che si impongono, in due momenti temporali seguenti, sulla popolazione (fonte: rielaborazione da Lindgren, 1991 )
Dinamiche di più lungo periodo Dopo alcune migliaia di generazioni, il sistema si stabilizza con un mix di TFT ed A-TFT. (fonte: rielaborazione da Lindgren, 1991 )
Stasi evolutiva Sia TFT che ATFT ottengono ottimi punteggi contro le mutanti ALL-D ed ALL-C, impedendo loro di proliferare. Quella che si verifica è dunque una situazione di stasi evolutiva: nessuna strategia a memoria 1 è ora in grado di imporsi nella popolazione.
Uno spiraglio L’unica strategia che potrebbe imporsi su una popolazione di TFT ed A-TFT è la strategia a memoria 2 [1100]. Ma è una strategia molto difficile da ottenere: a partire da TFT sono infatti necessarie una duplicazione genica e due mutazioni puntuali.
La strategia [1100] Tale strategia alterna tra cooperazione e tradimento indipendentemente dall’azione dell’avversario: (00) o (01) 1 (10) o (11) -> 0 In questo modo, la strategia è in grado di exploitare, a turno, sia TFT che A-TFT.
L’interruzione della stasi La difficoltà nell’ottenere la nascita della strategia [1100] fa sì che la stasi del sistema si protragga per diverso tempo (ca. 3/4000 generazioni). In seguito, anche la popolazione composta da strategie a memoria 2 incapperà in una stasi evolutiva, risolta soltanto dalla nascita di strategie a memoria 3. Le quali, a loro volta, cederanno il passo a quelle a strategia 4.
Dinamica complessiva del sistema (fonte: Lindgren, 1991)
L’evoluzione del punteggio medio e della dimensionalità del sistema (fonte: Lindgren, 1991)
Osservazioni • Non vi è una tendenza generale del sistema verso configurazioni a punteggio più alto. • La dimensionalità del sistema varia nel corso dell’evoluzione.
Strategie evolutivamente stabili Una strategia si definisce “evolutivamente stabile”, quando tutta la popolazione è composta da individui il cui genoma rappresenta tale strategia e non vi sono mutanti in grado di sopravvivere.