280 likes | 412 Views
Estimation of Distribution Algorithms Část II. Petr Pošík Prezentace pro předmět Kognitivní procesy 6. dubna 2006. V minulém díle jste viděli. Z minula >. Co už známe…. Black-box optimalizace GA vs. EDA GA používají přístup select – crossover – mutate
E N D
Estimation of Distribution AlgorithmsČást II Petr Pošík Prezentace pro předmětKognitivní procesy 6. dubna 2006
Z minula> Co už známe… • Black-box optimalizace • GA vs. EDA • GA používají přístup select – crossover – mutate • EDA používají přístup select – model – sample • EDA s binární reprezentací • Nejpřesnější model: úplná sdružená pst • pst výskytu každé možné kombinace bitů • 2D-1 parametrů, exponenciální složitost • Použití méně přesných, ale jednodušších pravděpodobnostních modelů
Z minula> Typy EDA s binární reprezentací • Bez interakcí • 1-rozměrné marginální psti P(X=x) • PBIL, UMDA • Párové interakce • podmíněné psti P(X=x|Y=y) • řetězce (MIMIC), stromy (COMIT), lesy (BMDA) • Vícenásobné interakce • podmíněné psti P(X=x|Y=y, Z=z, ...) • bayesovské sítě (BOA, EBNA, LFDA)
Úvod> Obsah přednášek • EDAs pro vektory diskrétních hodnot (např. binární) • Motivační příklad • Bez interakcí • Párové interakce • Vyšší interakce • EDAs pro vektory reálných čísel • Histogramy • Gaussovo rozdělení • Evoluční strategie • CMA-ES
Reálná reprezentace> Fundamentální odlišnosti RD od {0,1}D • Binární prostor • Každé kandidátské řešení se nachází v některém rohu hyperkrychle • Žádné mezilehlé hodnoty • Konečný počet prvků • Reálný prostor • Interval v jednotlivých dimenzích nemusí být stanoven • I když stanoven je, existuje nekonečně mnoho mezilehlých hodnot (teoreticky, prakticky jsme omezeni numerickou přesností daného stroje) • Nekonečný počet prvků
Reálná reprezentace> Fundamentální odlišnosti RD od {0,1}D Jak definovat lokální okolí? Kletba rozměrnosti! • Jako množinu bodů, jejichž vzdálenost nepřesáhne jistou hranici? • Objem lokálního okolí vůči objemu st. prostoru exponenciálně klesá • Se vzrůstající dimenzí se okolí stává čím dál tím víc lokálním • Jako množinu bodů, které jsou aktuálnímu bodu nejblíž a jejichž sjednocení zabírá jistou část objemu st. prostoru? • Rozměry lokálního okolí rostou s rostoucí dimenzí prostoru • Se vzrůstající dimenzí lokální okolí přestává být lokálním
Reálná reprezentace> Přímé analogie s diskrétními EDA • Bez interakcí • UMDA – stejný princip, mění se jen typ hustoty pravděpodobnosti • Jednorozměrné histogramy? • Jednorozměrné gaussovské rozdělení? • Jednorozměrná směs gaussovských rozdělení? • Párové interakce, interakce vyšších řádů • Mnoho různých typů interakcí! • Model, který by uměl efektivně zachytit všechny typy interakcí, je těžké nalézt!
Reálná reprezentace> UMDA • Sdružená hustota pravděpodobnosti je faktorizována jako:kde pd(xd) je jednorozměrná hustota pravděpodobnosti ve formě histogramu, gaussiánu, směsi gaussiánů, ... • Jednotlivé souřadnice nových vektorů se generují nezávisle na sobě
Reálná reprezentace>UMDA Histogram se stejnou šířkou binů • Nejpřímější analogie s diskrétními histogramy • Nevýhoda: pokud nepadne do binu ani jeden vektor, není možné v tomto binu už žádný jiný vektor vygenerovat!
Reálná reprezentace>UMDA Histogram se stejnou výškou binů • Místo fixní šířky binu se zafixuje četnost bodů, které do binů padnou! • Neexistují prázdné biny, vždy je možné vygenerovat vektor kdekoliv v hyperkrychli pokryté histogramem.
Reálná reprezentace>UMDA Histogram s hranicemi v největších mezerách • Najdou se největší mezery mezi vektory a do nich se umístí hranice binů • Neexistují prázdné biny, vždy je možné vygenerovat vektor kdekoliv v hyperkrychli pokryté histogramem.
Reálná reprezentace>UMDA Směs gaussiánů • Hledá se pomocí EM algoritmu (pstní obdoba k-means shlukování) • Vhodnější pro stavové prostory neomezené hyperkrychlí
Reálná reprezentace>UMDA Testovací funkce: 2D Two Peaks • Optimum v [1,1,...,1] • 2D lokálních optim • Evoluce hranic binů (center složek pro MOG):
Reálná reprezentace>UMDA Histogramové UMDA: shrnutí • Vhodné, když: • je stavový prostor omezen hyperkrychlí • mezi jednotlivými dimenzemi nejsou velké závislosti • Je možné předzpracovat populaci pomocí rotace souřadného systému UMDA pak umí pracovat s lineárními interakcemi
Reálná reprezentace> Optimalizace pomocí Gaussova rozdělení Případová studie: • Optimalizace kvadratické funkce • Truncation sel., z t nejlepších je tvořen model • Model: Gaussovo rozdělení • Parametry odhadované metodou max. věrohodnosti • Dvě situace: • Úvodní populace v okolí optima • Úvodní populace vzdálena od optima
Reálná reprezentace>Gaussovo rozdělení ...pro monotónní fitness funkci • Změna populačních statistik během 1 generace:
Reálná reprezentace>Gaussovo rozdělení ...pro monotónní fitness funkci • Populační statistiky v generaci t pro monotónní funkci: • Konvergence populačních statistik: • Vzdálenost, kam může „docestovat“ populace u tohoto algoritmu, je omezená. Předčasná konvergence!
Reálná reprezentace>Gaussovo rozdělení Řešení • Nastavit hranici, pod kterou rozptyl nemůže klesnout • K adaptaci rozptylu (mutačního kroku) použít jiné schéma než metodu max. věrohodnosti Závěry: • Max. věrohodné odhady jsou vhodné v situaci, kdy model dobře odpovídá fitness funkci (alespoň v oblasti, kde se nachází populace) • Gauss je vhodný v okolí optima • Gauss je mnohem méně vhodný na „svahu“
Reálná reprezentace> Evoluční strategie • Klasické metody využívající Gaussovo rozdělení • (m,l)-ES nebo (m+l)-ES • m rodičů, l potomků • (m,l) ... potomci kompletně nahrazují rodiče • (m+l) ... potomci jsou spojeni s rodiči • Potomci vytvářeni pomocí mutace jako , kde x je rodič a x’ je potomekN(0,s2) je izotropní normální rozdělení se směrodatnou odchylkou s
Reálná reprezentace>Evoluční strategie Zvýšení flexibility: adaptace s s už není konstantní po celou dobu běhu ES • Deterministické snižování s • Zpětnovazební regulace s (pravidlo 1/5) • Použít autoadaptaci s: • s se stává součástí chromozomu • chromozom obsahuje instrukce pro svou vlastní změnu
Reálná reprezentace>Evoluční strategie Zvýšení flexibility: složitost modelu s není stejné ve všech dimenzích • Použít diagonální kovarianční matici: • Použít plnou kovarianční matici • Ke změnám sd příp. S se obvykle používá autoadaptace • Změny v kovarianční struktuře jsou stále velice náhodné!
Reálná reprezentace>Evoluční strategie CMA-ES • Derandomizovaná evoluční strategie • (1,l)-ES s adaptací kovarianční matice: • Vygeneruj l potomků: • Na základě potomků aktualizuj parametry modelu:
Reálná reprezentace>Evoluční strategie CMA-ES: Adaptace parametrů • adaptace metodou max. věrohodnosti: • adaptace metodou max. věrohodnosti: • adaptace takovým způsobem, aby bylo dosaženo konjugovanosti dvou po sobě jdoucích kroků, tj. konceptuálně
Reálná reprezentace>Evoluční strategie CMA-ES: průběh optimalizace
Reálná reprezentace>Evoluční strategie CMA-ES: shrnutí • CMA-ES má kořeny v ES, ale vykazuje rysy typické pro EDA (adaptace a učení pstního modelu) • Vykazuje vlastnosti lokálního optimalizátoru • Přesto je považována za špičkovou metodu reálné black-box optimalizace, její výhody se projevují už při počtu 5-10 optimalizovaných proměnných • Byla použita pro řešení mnoha optimalizačních úloh z reálného světa (ladění parametrů elektronických filtrů, prokládání nelineárních funkcí, ...)
Reálná reprezentace>Evoluční strategie EDA pro reálnou reprezentaci: shrnutí • Mnohem méně rozvinuté než pro diskrétní řetězce • Za obtížnost může hlavně: • kletba rozměrnosti • množství různých typů závislostí, které mohou mezi proměnnými existovat • Přesto EDA (a obecně EA) pro reálnou reprezentaci dosahují lepších výsledků než konvenční optimalizační techniky (line search, Nelder-Mead simplex search, ...)