Meger ősítéses tanulás 6. el őadás

Megerősítéses tanulás 6. előadás Szita István, Lőrincz András

Ismétlés: TD becslés • st-ben  stratégia szerint lépek • !at,rt,st+1 • TD becslés: • másképpen: • mikor tart ez V -hez?

ismétlés: DP – másképpen • V Bellman-egyenlete: • Iteratív kiszámolás: • TD-szerű kiszámolás: • t=1-re ugyanaz mint fent • általános t-re is működik, csak t = 1 kell.

Összehasonlítás • Monte Carlo: • konvergens, mert független véletlenszámokat átlagolunk (nagy számok törvénye) • dinamikus programozás • konvergens, mert determinisztikus, és kontrakció (DP konvergenciatétel) • TD • olyan, mint a MC, de nincs függetlenség • olyan, mint a DP, de nincs várhatóérték de mintavételezzük!

Iterált átlagolás • xk véletlen változó, átlaga X • mikor lesz zk!X? • szükséges feltételek: • k! 0 • k = 1 • másképpen: • wk “zaj”,

TD becslés átalakítása • ezekkel a jelölésekkel: • nem jó: X helyett Xk van! • de azért majdnem jó: Xk!X • sőt, • Tkontrakció • X a fixpont

Sztochasztikus becslés-tétel • zkN-dimenziós vektor • pl. zk= Vk, N=|S| • pl. zk= Qk , N=|S|¢|A| • H kontraktív operátor,  faktorral, ami zk-kon hat • pl. T, T, megfelelő változataik Q-ra • fixpontja z* • wk zaj • várható értéke 0, ha ismert a múlt. E(wk|Fk) = 0 • Fk: az összes eddigi mintavétel eredménye, pl: (s0, a0, s1, a1, …) • korlátos: |wk|·W 1 valószínűséggel • tanulási ráták: minden s állapotra (s2 [1…N]) külön • k(s) ! 0 • kk(s) = 1 • kk2(s) < 1

Sztochasztikus becslés-tétel • ekkor zk!z* • milyen értelemben? • E(zk) !z* • erősebb értelemben is: 1 valószínűséggel

Sztochasztikus becslés-tétel – bizonyítás • feltehetjük, hogy z* = 0: • csak a legegyszerűbb esetet bizonyítjuk:

Sztochasztikus becslés-tétel – bizonyítás • H kontrakció: • z* = 0: • wk korlátos, minden más is, ezért 9D0, hogy • >0 tetszőlegesen pici, de • indukció i-re: létezik ki, hogy minden k>ki-re • legyen k>ki. ekkor

Sztochasztikus becslés-tétel – bizonyítás • tagonként becsüljük

Sztochasztikus becslés-tétel – bizonyítás • mert • ha k elég nagy, mert • wk korlátos, 0 várható értékű, ezért • ha k elég nagy, mert

Sztochasztikus becslés-tétel – bizonyítás • befejezzük az indukciót • elég nagy k-ra • legyen ki+1 egy ilyen elég nagy k • ha i !1,

Vissza a TD becsléshez • sztochasztikus becslés-tétel szereposztása: • H := T, azaz • miért 0?hogy kijöjjön a fenti képlet • kell: kk(s) = 1mindens-re! Azaz minden s-et végtelen sokszor kell látogatni!

0 0 10 0 0 5 4 3 END 2 1 TD becslés: példa • fix stratégia kiértékelése •  = 0.9,  = 0.5

TD becslés javítása: „felelősségnyomok” • ha • st, st-1, st-2-ben jártunk, • a t. TD hiba dt, • a t-1., t-2., stb értékét is módosítsuk •  faktorral lecsengetve

TD felelősségnyomokkal • inicializálás: • V(s) = 0 minden s-re • e(s) = 0 minden s-re • t. időpont: • at a  stratégia szerint • st+1megfigyelése • TD hiba: • e(s) = e(s) minden s-re • e(st) = 1 • minden s-re • t := t+1

TD Felelősségnyomokkal • neve: TD() • konvergens • sztochasztikus becslés-tétellel kijön, csak szőrözni kell • könnyen megmutatható, hogy • =0-ra sima TD • =1-re Monte Carlo! • köztes ? valami átmeneti… • legjobb teljesítmény: köztes -kra

TD(): teljesítmények összehasonlítása

Meger ősítéses tanulás 6. el őadás

Meger ősítéses tanulás 6. el őadás

Presentation Transcript

Mem riatechnik k s tanul si m dszerek alkalmaz s nak lehetos gei az ltal nos iskol ban

Olvas s s r s K czi n R ka ssze ll t sa Oroszl ny P ter Tanul sm dszertan k nyve s a tan rai anyagok alapj n

Tanul selm letek

hunde

Mikes Kelemen

Benedek Elek

Herbart pedagógiája

MACAM-MACAM ALAT UKUR UNTUK KEPERLUAN PEMELIHARAAN

DECEMBER

Fejlődéslélektan

Prófécia-iskola 2005

Diagnostics and Experiments on LAPPS * D. Leonhardt, D. P. Murphy, S. G. Walton, R. A. Meger,

A felvilágosodás nevelésügye Európában

Meger ősítéses tanulás 2. el őadás

Mitől „kompetenciás” egy tanóra? Tervezés Szövegfeldolgozás feladattípusai

COMP 417 – Jan 12 th , 2006