240 likes | 384 Views
Meger ősítéses tanulás 6. el őadás. Szita István, Lőrincz András. Ism étlés: TD becslés. s t -ben strat égia szerint lépek ! a t , r t , s t + 1 TD becsl és: m ásképpen: mikor tart ez V -hez?. ism étlés: DP – másképpen. V Bellman-egyenlete: Iterat ív kiszámolás:
E N D
Megerősítéses tanulás 6. előadás Szita István, Lőrincz András
Ismétlés: TD becslés • st-ben stratégia szerint lépek • !at,rt,st+1 • TD becslés: • másképpen: • mikor tart ez V -hez?
ismétlés: DP – másképpen • V Bellman-egyenlete: • Iteratív kiszámolás: • TD-szerű kiszámolás: • t=1-re ugyanaz mint fent • általános t-re is működik, csak t = 1 kell.
Összehasonlítás • Monte Carlo: • konvergens, mert független véletlenszámokat átlagolunk (nagy számok törvénye) • dinamikus programozás • konvergens, mert determinisztikus, és kontrakció (DP konvergenciatétel) • TD • olyan, mint a MC, de nincs függetlenség • olyan, mint a DP, de nincs várhatóérték de mintavételezzük!
Iterált átlagolás • xk véletlen változó, átlaga X • mikor lesz zk!X? • szükséges feltételek: • k! 0 • k = 1 • másképpen: • wk “zaj”,
TD becslés átalakítása • ezekkel a jelölésekkel: • nem jó: X helyett Xk van! • de azért majdnem jó: Xk!X • sőt, • Tkontrakció • X a fixpont
Sztochasztikus becslés-tétel • zkN-dimenziós vektor • pl. zk= Vk, N=|S| • pl. zk= Qk , N=|S|¢|A| • H kontraktív operátor, faktorral, ami zk-kon hat • pl. T, T, megfelelő változataik Q-ra • fixpontja z* • wk zaj • várható értéke 0, ha ismert a múlt. E(wk|Fk) = 0 • Fk: az összes eddigi mintavétel eredménye, pl: (s0, a0, s1, a1, …) • korlátos: |wk|·W 1 valószínűséggel • tanulási ráták: minden s állapotra (s2 [1…N]) külön • k(s) ! 0 • kk(s) = 1 • kk2(s) < 1
Sztochasztikus becslés-tétel • ekkor zk!z* • milyen értelemben? • E(zk) !z* • erősebb értelemben is: 1 valószínűséggel
Sztochasztikus becslés-tétel – bizonyítás • feltehetjük, hogy z* = 0: • csak a legegyszerűbb esetet bizonyítjuk:
Sztochasztikus becslés-tétel – bizonyítás • H kontrakció: • z* = 0: • wk korlátos, minden más is, ezért 9D0, hogy • >0 tetszőlegesen pici, de • indukció i-re: létezik ki, hogy minden k>ki-re • legyen k>ki. ekkor
Sztochasztikus becslés-tétel – bizonyítás • tagonként becsüljük
Sztochasztikus becslés-tétel – bizonyítás • mert • ha k elég nagy, mert • wk korlátos, 0 várható értékű, ezért • ha k elég nagy, mert
Sztochasztikus becslés-tétel – bizonyítás • befejezzük az indukciót • elég nagy k-ra • legyen ki+1 egy ilyen elég nagy k • ha i !1,
Vissza a TD becsléshez • sztochasztikus becslés-tétel szereposztása: • H := T, azaz • miért 0?hogy kijöjjön a fenti képlet • kell: kk(s) = 1mindens-re! Azaz minden s-et végtelen sokszor kell látogatni!
0 0 10 0 0 5 4 3 END 2 1 TD becslés: példa • fix stratégia kiértékelése • = 0.9, = 0.5
TD becslés javítása: „felelősségnyomok” • ha • st, st-1, st-2-ben jártunk, • a t. TD hiba dt, • a t-1., t-2., stb értékét is módosítsuk • faktorral lecsengetve
TD felelősségnyomokkal • inicializálás: • V(s) = 0 minden s-re • e(s) = 0 minden s-re • t. időpont: • at a stratégia szerint • st+1megfigyelése • TD hiba: • e(s) = e(s) minden s-re • e(st) = 1 • minden s-re • t := t+1
TD Felelősségnyomokkal • neve: TD() • konvergens • sztochasztikus becslés-tétellel kijön, csak szőrözni kell • könnyen megmutatható, hogy • =0-ra sima TD • =1-re Monte Carlo! • köztes ? valami átmeneti… • legjobb teljesítmény: köztes -kra