260 likes | 452 Views
Qualitative Induction for Behavioral Cloning. Dorian Šuc and Ivan Bratko AI Lab Faculty of Computer and Information Sc. University of Ljubljana, Slovenia. Kvalitativno u cenje v vedenjskem kloniranju. Dorian Suc in Ivan Bratko. Vedenjsko kloniranje. Dinamicni sistem:
E N D
Qualitative Induction for Behavioral Cloning Dorian Šuc and Ivan Bratko AI Lab Faculty of Computer and Information Sc. University of Ljubljana, Slovenia
Kvalitativno ucenje v vedenjskem kloniranju Dorian Suc in Ivan Bratko
Vedenjsko kloniranje Dinamicni sistem: zerjav, letalo, akrobot... Operater Sled vodenja Strojno ucenje Operatorjev dvojnik (”klon”)
Pristopi k kloniranju Sled je zaporedje: (State1,Action1), (State2, Action2), ... “Direktni kontroler”: induciraj preslikavo States Actions, Action = f(State) • “Indirektni kontroler”: Dva problema ucenja • ucenje operaterjeve trajektorije • ucenje dinamike sistema
Uporaba indirektnih kontrolerjev Indirektni kontroler = “posplosena trajektorija” + dinamika sistema 1. Izracunaj Error = diff(CurrentState,GeneralTrajectory) 2. Z uporabo dinamike doloci naslednjo akcijo Action, tako da Action zmanjsa Error
Primerjava direktnih in indirektnih kontrolerjev Eksperimentalne ugotovitve: Indirektni kontrolerji: - so bolj robustni - omogocajo razlago vescine z operaterjevimi podcilji - dajo boljsi vpogled v podzavestno vescino operaterja
Ta clanek • Induciranje indirektnih kontrolerjev • Kvalitativno ucenje trajektorij • QUIN: program za induciranje kvalitativnih dreves iz numericnih podatkov • Uporaba v vodenju zerjava
Primer kvalitativne relacije Vedenje plina Kvantitativni zakon: Pressure * Volume / Temperature = const. Kvalitativni zakon: Pressure = M+,-(Temperature, Volume)
Program QUIN QUalitative INduction Numericni primeri QUIN Kvalitativno drevo Kvalitativno drevo: podobno odlocitvenemu drevesu, vendar kvalitativne omejitve v listih
Primer problema za QUIN Sumni primeri: z = x2 - y2 + noise(st.dev. 50)
Kvalitativni vzorci v podatkih x > 0 & y > 0 => z = M+,-(x,y)
Inducirano kvalitativnodrevo zaz=x2-y2 x > 0 £ 0 y y > 0 > 0 £ £ 0 0 -,+ -,- +,+ +,- z= ( x,y) z= ( x,y) z= ( x y) z= ( x,y) M M M , M Z monotonically increasing with X and monotonically decreasing with Y
Qualitatively Constrained Functions, QCF Ms1, ..., sm: R m --> R, si= + or - Signs si indicate directions of change: If si = + then: function monotonically increases in i-th attribute Function “positively related” to i-th attr. si = -: function “negatively related” to i-th att.
QCF consistency with examples • Each pair of examples (e,f) defines a qualitative change vector q with respect to no-change threshold • A QCF is consistent with (e,f) if QCF permits q
QCF ambiguity • A QCF may be consistent with qualitative change vector q and ambiguous w.r.t. q • QCF is ambiguous w.r.t. q if QCF also permits other qualitative changes in class then those in q
Error-cost of QCF Weighted by proximity of concerned examples • Error-cost of a QCF w.r.t. an example set defined as weighted encoding length • Error-cost of a QCF considers: encoding of QCF + encoding of inconsistent predictions by QCF + encoding of ambiguous predictions by QCF
Algoritem QUIN • Top-down pozresni algoritem, ki inducira kvalitativna drevesa • Za vsako mozno delitev (vozlisce), poisci ”najbolj konsistentno” QCF (min. cena) za vsako podmnozico primerov • Poisci najboljsi atribut (najboljso delitev) glede na MDL
Eksperimentalna evaluacija • Na mnozici umetnih domen • QUIN deluje dobro na sumnih podatkih • QUIN najde kvalitativne relacije, ki ustrezajo intuiciji • QUIN v vedenjskem kloniranju: • QUIN uporabljen za ucenje operaterjeve strategije vodenja • Poskusi v domeni zerjava
Uporaba v vedenjskem kloniranju • Domena: vodenje zerjava • Cilj kloniranja: uspesni in razumljivi kloni
Kontejnerski zerjav Control forces: Fx, FLState: X, dX, , d, L, dL Temelji na prejsnjem delu T. Urbancic(94) Naloga vodenja: prenesi tovor iz zacetnega do ciljnega polozaja
QUIN v modeliranju vescine, domena zerjava • Kvalitativna drevesa inducirana za vodenje vozicka in vodenje vrvi • Sledi dveh operaterjev z zelo razlicnim stilom vodenja
Vodenje vozicka, operater S desired_velocity = f(X, ,d) First the trolley velocity is increasing X < 20.7 yes no From about middle distance from the goal the trolley velocity is decreasing M+(X) X < 60.1 yes no At the goal reduce the swing of the rope (by acceleration of the trolley when the rope angle increases) M-(X) M+()
Vodenje zerjava: primerjva operaterjev Primerjava razlik v stilu vodenja Operater S Operater L X < 20.7 X < 29.3 yes yes no no M+(X) M+,+,-(X, , d) X < 60.1 d < -0.02 yes yes no no M-(X) M+() M-(X) M-,+(X,)
Transformacija kvalitativne v kvantitativno strategijo • S konkretizacijo QCF v realne funkcije Nakljucno generirana funkcija, ki ustreza QCF M+(X) f+(X) • Lahko uporabimo znanje domene: • maksimalne in minimalne vrednosti spremenljivk stanja • vozicek se na zacetku mora zaceti premikati • vozicek se mora ustaviti na cilju
QUIN v modeliranju vescine • Inducirane strategije vodenja: • Razumljive in zelo uspesne • Omogocajo vpogled v razlike med individualnimi stili vodenja • QUIN zmozen detektirati zelo skrite vidike clovekove podzavestne vescine (vidiki, ki pred to aplikacijo programa QUIN niso bili znani)
Related work in qualitative reasoning • In qualitative reasoning: Our QFC’s inspired by qualitative proportionalities (Q+) in QPT (Forbus) and monotonicity relations (M+) in QSIM (Kuipers) • In learning qualitative models of dynamic systems: Mozetic; Coiera; Bratko et al.; Varsek; Richards et al.; Dzeroski, Todorovski; • Distinguishing features of QUIN: models of static systems, qualitative trees, takes numerical examples directly