140 likes | 222 Views
Présentation de la différence entre apprentissage individuel et collectif (Nick Vriend). (publié au JEDC, 2000). Problématique. Démonstration de la différence entre un apprentissage individuel et collectif pour des agents
E N D
Présentation de la différence entre apprentissage individuel et collectif (Nick Vriend) (publié au JEDC, 2000)
Problématique • Démonstration de la différence entre un apprentissage individuel et collectif pour des agents • Ici prend l’exemple d’un algorithme génétique pour des agents en situation de marché • Comparaison des comportements aux données théoriques
Apprentissage • Les deux perceptions • Individuelle : ses propres perceptions seulement • Sociale : savoir collectif • Les données pertinentes • Individuelles : ses actions passées et les gains correspondants • Collectives : les actions de tous et les gains correspondants • Note : La différence peut être en rapport avec la notion d’externalité, ou influence réciproque
Exemple choisi • N firmes produisent le même bien vendu sur un marché unique. • La firme i produit qi. Le total de production est Q. • Le prix de marché dépend de Q : P (Q) = a + b.Qc • (courbe du papier) • Il y a des frais fixes K et un coût marginal k, d’où le coût total TC (q) = K + k.q prix quantité
Analyse des choix optimaux Profit : Π(q)=[a+bQ c ]q-[K+kq] • Cas où la firme n’influence pas le marché : d Π(q)/dq=[a+bQ c ]-K= 0 (optimal) QW=((k-a) / b)1/c et qW = QW/n Équilibre walrasien • Cas où la firme influence le marché : d Π(q)/dq=P + dP/dq –k = [a+bQ c ]+d[a+bQ c ]/dq-k= 0 QW=((k-a) / b.((c/n)+1))1/c et qW = QW/n Avec a < 0 b>0 c <0 et c-1 >-2n Équilibre de Cournot-Nash
Implémentation en modèle • 40 firmes sont implémentées, apprenant selon le modèle de l’algorithme génétique • Les règles ne sont pas des si… alors mais un bit string qui donne la production : 11 bits, définissant de 1 à 2048 la production. • A chaque pas de temps, usage d’une règle, gagne un gain. • Apprentissage social : n’utilise qu’une règle sur 100 pas de temps, connaît toutes les associations [règle > gain] de tout les agents. Révise tous les 100 pas de temps par imitation et recombinaison des règles qui gagnent le plus. • Apprentissage individuel : l’agent a 40 règles et les utilisent toutes en fonction des gains associés, construites aléatoirement, et il ne connaît que celle-là. Révise tous les 100 pas de temps par recombinaisondes règles qui gagnent le plus.
Pseudo-code start main loop for each period do begin for each firm do Classifier Systems’s actions begin activerule : "CHOOSE - ACTION; output level : "action of active } rule; end; determine market price; for each firm do Classifier Systems’s outcomes begin profit : "(market price) ) (output level)}costs; utility : "monotonic transformation of profit; with active } rule do fitness : "utility; end; if period is multiple of 100 then application Genetic Algorithm begin if individual learning GA then for each firm do GENERATE } NEW } RULES else if social learning GA then begin create set of 40 rules taking the 1 rule from each firm; GENERATE } NEW } RULES; re-assign 1 rule to each of the 40 firms end; end
Pseudo-code INITIALIZATION for each firm do for each rule do (1 ou 40) begin make random bit string of length 11 with standard binary encoding; fitness : "1.00; end; function CHOOSE - ACTION; begin for each rule do begin linearly rescale the firm’s actual fitnesses to [0,1]; bid : "rescaled } fitness#e; Mwith e+N(0, 0.075)N with probability : "0.025 the bid is ignored; end; determine highest } bid; end; choose } action : "highest } bid;
Pseudo-code procedure GENERATE } NEW } RULES; linearly rescale the actual fitnesses to [0,1]; repeat; choose two mating parent rules from 30 fittest rules by roulette wheelselection; (each rule with probability : "rescaled - fitness/sum (rescaled- fitnesses) with probability : "0.95 do begin place the two binary strings side by side and choose random crossing point; swap bits before crossing point; choose one of the two offspring at random as new } rule; end; with new } rule do begin fitness : "average fitnesses of the two mating parent strings; for each bit do with prob. : "0.001 do mutate bit from 1 to 0 or other way round; end; if new } rule is not duplicate of existing rule T hen replace one of weakest 10 existing rule with new } rule else throwaway; until 10 new rules created;
Paramètres Minimum individual output level 1 Maximum individual output level 2048 Encoding of bit string Standard binary Length of bit string 11 Number rules individual GA 40 Number rules social GA 40 X 1 GA-rate 100 Number new rules 10 Selection tournament Prob. selection Fitness/Σfitnesses Crossover Point Prob. crossover 0.95 Prob. mutation 0.001
Analyse • On voit le lien entre • apprentissage individuel et convergence vers Cournot-Nash • Apprentissage social et convergence vers walrasien • Explication par le modèle en duopoly • En terme d’utilité, le modèle d’apprentissage individuel est plus efficace. • Il est aussi plus instable car il existe des équilibres multiples à adaptation permanente en fonction des actions des autres.
Discussion • Si n tend vers infini, les deux équilibres correspondent • On pourrait penser à des intermédiaires d’apprentissage « type learning », ici type est sigleton. • Spite effect influence l’évolution mais il existe aussi dans les one shot game, n’a pas besoin de l’évolution • Ceci n’est pas l’usage le plus typique des algorithmes génétiques. • Pourrait d’ailleurs être un autre type d’apprentissage o l’un est individuel et l’autre social – l’intérêt ici est l’identité des deux.
Conclusion • On a bien une différence intrinsèque entre les deux formes d’apprentissage • C’est important de bien réfléchir pour chaque application informatique • Souvent c’est l’apprentissage social qui est choisi pour des raisons de parcimonie, on peut dire que l’argument est mauvais • Lien à des études empiriques ??