240 likes | 363 Views
MI 2003/11 - 1. Mi lenne a b legjobb választása? Statisztikai eljárásoknál az un. Fisher féle lineáris diszkriminancia függvény adja a legjobb szétválasztási lehetőséget - ha b -t jól választjuk, ezt itt is megkaphatjuk. A levezetése elég hosszadalmas, nem adjuk meg.
E N D
MI 2003/11 - 1 • Mi lenne a b legjobb választása? Statisztikai eljárásoknál az un. Fisher féle lineáris diszkriminancia függvény adja a legjobb szétválasztási lehetőséget - ha b-t jól választjuk, ezt itt is megkaphatjuk. A levezetése elég hosszadalmas, nem adjuk meg. • A Bayes döntéshez tart növekvő mintánál!
MI 2003/11 - 2 • A perceptron modell igazából csak az szétválasztható esetre működik jól, a legkisebb négyzetes pedig a nem szétválaszthatóra. • Ha a b-t is változónak tekintjük, eljutunk a Ho-Kashyap eljáráshoz, amelyik mindkét esetre alkalmazható.
MI 2003/11 - 3 • A kritérium-függvényünk: Js(a,b) = Ya - b2 Az a szerinti gradienst már kiszámoltuk: aJs= 2Yt(Ya-b) a b szerinti pedig: bJs= -2(Ya-b)
MI 2003/11 - 4 • Elindulhatunk az a szerinti gradiensekből (a=Y†b) és a b > 0 feltételt megőrző megoldáshoz juthatunk. Ehhez a bJspozitív kompenenseit nullának vesszük, és ezzel a b(k+1) = b(k) - (k)[bJs - | bJs |]/2 összefüggéshez jutunk, ahonnan a gradienseket felhasználva kapjuk:
MI 2003/11 - 5 b(1) > 0, b(k+1) = a(k) + 2(k)e+(k), ahol e(k) = Ya (k) - b (k) a hibafüggvény, e+(k) = (e(k) + |e(k)| )/2 pedig ennek pozitív része, továbbá a(k)=Y†b (k). • Ez a Ho-Kashyap eljárás
MI 2003/11 - 6 • Több osztály esete: itt is lineáris diszkriminancia függvényeket keresünk, és csak a szeparálható esettel foglalkozunk. Homogén koordinátákkal ez gi(x) = aity, i = 1, 2, …, c alakú függvényeket jelent, és azt az i osztályt választjuk, amelyre gi(x) > gj(x), minden j i -re.
MI 2003/11 - 7 • Kessler módszere: kétosztályos esetre vezet vissza mindent (ezzel a dimenziókat c-szeresre növeli, de már ismert módszert fog tovább használni). Pontosabban: először az első osztályhoz tartozó pontokat választjuk el a többiektől a a1tyk - ajtyk > 0, j = 2, 3, …, c segítségével.
MI 2003/11 - 8 • Ez tulajdonképpen c-1 egyenlőtlenséget jelent, amelyeket a korábbi eljárásokkal oldhatunk meg. • Vissza: agy működése (neuronhálók) • Példák logikai függvényekre • Többszintű hálók
MI 2003/11 - 9 • Szintaktikus módszerek Nem-numerikus adatok: például gyümölcsök osztályozásánál színek, méret, … . Attributumok listája. Mit és hogyan lehet tanulni? • Döntési fa: minden csúcsban két- vagy többértékű döntés. Levelek: osztályok. Példa.
MI 2003/11 - 10 • Hogyan építsünk fel egy döntési fát? Itt is adott egy minta (osztályzott példák halmaza). Ezt szeretnénk kérdésekkel felosztani. Ideális (tiszta) eset: egy kialakult részhalmazban minden elemnek azonos a címkéje. Addig: döntés, leálljunk-e (kevert osztály), vagy további kérdést fogalmazzunk meg (növeljük a fát).
MI 2003/11 - 11 • Faépítés általános kérdései - elágazási szám: bináris vagy többértékű? - melyik csúcsnál milyen tulajdonság ellenőrzése? - mi legyen levél? - ha túl nagy a fa, hogyan csökkenthetjük? - ha egy levélnél több címke, melyiket válasszuk? - mi legyen hiányzó adatoknál?
MI 2003/11 - 12 • Bináris eset. • Mikor melyik kérdés? Tisztaságra törekvés. Mérték? Tisztátlanság (i: impurity). • Entrópia az N csúcsnál: i(N) = - jP(j)log2P(j), ez akkor nulla, ha minden elem egy osztályba tartozik. • Másik (két osztályra): i(N) = P(1) P(2).
MI 2003/11 - 13 • Gini tisztátlanság (több osztályra): i(N) = ijP(i)P(j) = 1 - jP2(j), • Hibás osztályozás tisztátlanság: i(N) = 1 - maxjP(j) • Alapkérdés: egy adott csúcspontban melyik tulajdonság szerint döntsünk?
MI 2003/11 - 14 • Válasz: amelyik a tisztátlanságot a legjobban csökkenti: i(N) = i(N) - PLi(NL) - (1 - PL)i(NR), valamelyik tisztátlanság-definícióval (vagy annak monoton függvényével). • Elég sok számolással járhat.
MI 2003/11 - 15 • Többlépcsős eljárás - mohó módszer. Szükség esetén szuper-osztályok létrehozása. • Nagyobb elágazási faktor: a cél itt i(N) = i(N) - Bk=1Pki(Nk) minimalizálása. Könnyen hoz létre túl sok osztályt. Még több számolás.
MI 2003/11 - 16 • Mikor álljunk le a további kérdésekkel? - tanítás -tesztelés eredménye elég jó, - a következő kérdésnél a tisztátlanság csökkenése elég kicsi, - kevés pont marad a leveleknél, - statisztikai módszerek.
MI 2003/11 - 17 • Vágás (nyesés): gyakran érdemes nagyon nagy fát felépíteni, és utána összevonni ágakat (több információnk van, mintha korábban leállnánk). • Címkék hozzárendelése a levelekhez: “tiszta” osztályoknál triviális, egyébként a legtöbb elemet tartalmazó osztály. • Példa
MI 2003/11 - 18 • Példa
MI 2003/11 - 19 • Számítási bonyolultság: jó esetben O(dn(log n)2), rossz esetben: O(dn2log n). • Tulajdonságok kiválasztása: gyakran sokat segíthet egy jó előfeldolgozás.
MI 2003/11 - 20 • Példa.
MI 2003/11 - 21 • Leggyakoribb módszer: ID3. Nominális adatok (ha numerikus is van, először rész-intervallumokba osztjuk azokat), entrópia használata. • Példa • Továbbfejlesztett (és leggyakrabban használt) változata: C4.5
MI 2003/11 - 22 • Minták (sztringek) illesztése. Adott egy véges abc, fölötte szavak. Minta, szöveg, faktor, részsorozat definíciója. • Alkalmazási lehetőségek: - keresés szövegekben, - keresés DNS láncokban, - számítógépes grafika.
MI 2003/11 - 23 • Alapproblémák: - minta keresése (faktora egy szövegnek?) - szerkesztési távolság: a lehető legkevesebb elemi művelettel (törlés, beszúrás, csere) való átvitel - minta keresése hibával - minta keresése “akármi” szimbólummal
MI 2003/11 - 24 • Szerkesztési távolság: dinamikus programozás. Alapképlet: C(i,j) = min {C(i-1,j)+1, C(i,j-1)+1, C(i-1,j-1)+1-(x[i], y[j])} • Példa