MI 2003/11 - 1

MI 2003/11 - 1 • Mi lenne a b legjobb választása? Statisztikai eljárásoknál az un. Fisher féle lineáris diszkriminancia függvény adja a legjobb szétválasztási lehetőséget - ha b-t jól választjuk, ezt itt is megkaphatjuk. A levezetése elég hosszadalmas, nem adjuk meg. • A Bayes döntéshez tart növekvő mintánál!

MI 2003/11 - 2 • A perceptron modell igazából csak az szétválasztható esetre működik jól, a legkisebb négyzetes pedig a nem szétválaszthatóra. • Ha a b-t is változónak tekintjük, eljutunk a Ho-Kashyap eljáráshoz, amelyik mindkét esetre alkalmazható.

MI 2003/11 - 3 • A kritérium-függvényünk: Js(a,b) = Ya - b2 Az a szerinti gradienst már kiszámoltuk: aJs= 2Yt(Ya-b) a b szerinti pedig: bJs= -2(Ya-b)

MI 2003/11 - 4 • Elindulhatunk az a szerinti gradiensekből (a=Y†b) és a b > 0 feltételt megőrző megoldáshoz juthatunk. Ehhez a bJspozitív kompenenseit nullának vesszük, és ezzel a b(k+1) = b(k) - (k)[bJs - | bJs |]/2 összefüggéshez jutunk, ahonnan a gradienseket felhasználva kapjuk:

MI 2003/11 - 5 b(1) > 0, b(k+1) = a(k) + 2(k)e+(k), ahol e(k) = Ya (k) - b (k) a hibafüggvény, e+(k) = (e(k) + |e(k)| )/2 pedig ennek pozitív része, továbbá a(k)=Y†b (k). • Ez a Ho-Kashyap eljárás

MI 2003/11 - 6 • Több osztály esete: itt is lineáris diszkriminancia függvényeket keresünk, és csak a szeparálható esettel foglalkozunk. Homogén koordinátákkal ez gi(x) = aity, i = 1, 2, …, c alakú függvényeket jelent, és azt az i osztályt választjuk, amelyre gi(x) > gj(x), minden j i -re.

MI 2003/11 - 7 • Kessler módszere: kétosztályos esetre vezet vissza mindent (ezzel a dimenziókat c-szeresre növeli, de már ismert módszert fog tovább használni). Pontosabban: először az első osztályhoz tartozó pontokat választjuk el a többiektől a a1tyk - ajtyk > 0, j = 2, 3, …, c segítségével.

MI 2003/11 - 8 • Ez tulajdonképpen c-1 egyenlőtlenséget jelent, amelyeket a korábbi eljárásokkal oldhatunk meg. • Vissza: agy működése (neuronhálók) • Példák logikai függvényekre • Többszintű hálók

MI 2003/11 - 9 • Szintaktikus módszerek Nem-numerikus adatok: például gyümölcsök osztályozásánál színek, méret, … . Attributumok listája. Mit és hogyan lehet tanulni? • Döntési fa: minden csúcsban két- vagy többértékű döntés. Levelek: osztályok. Példa.

MI 2003/11 - 10 • Hogyan építsünk fel egy döntési fát? Itt is adott egy minta (osztályzott példák halmaza). Ezt szeretnénk kérdésekkel felosztani. Ideális (tiszta) eset: egy kialakult részhalmazban minden elemnek azonos a címkéje. Addig: döntés, leálljunk-e (kevert osztály), vagy további kérdést fogalmazzunk meg (növeljük a fát).

MI 2003/11 - 11 • Faépítés általános kérdései - elágazási szám: bináris vagy többértékű? - melyik csúcsnál milyen tulajdonság ellenőrzése? - mi legyen levél? - ha túl nagy a fa, hogyan csökkenthetjük? - ha egy levélnél több címke, melyiket válasszuk? - mi legyen hiányzó adatoknál?

MI 2003/11 - 12 • Bináris eset. • Mikor melyik kérdés? Tisztaságra törekvés. Mérték? Tisztátlanság (i: impurity). • Entrópia az N csúcsnál: i(N) = - jP(j)log2P(j), ez akkor nulla, ha minden elem egy osztályba tartozik. • Másik (két osztályra): i(N) = P(1) P(2).

MI 2003/11 - 13 • Gini tisztátlanság (több osztályra): i(N) = ijP(i)P(j) = 1 - jP2(j), • Hibás osztályozás tisztátlanság: i(N) = 1 - maxjP(j) • Alapkérdés: egy adott csúcspontban melyik tulajdonság szerint döntsünk?

MI 2003/11 - 14 • Válasz: amelyik a tisztátlanságot a legjobban csökkenti:  i(N) = i(N) - PLi(NL) - (1 - PL)i(NR), valamelyik tisztátlanság-definícióval (vagy annak monoton függvényével). • Elég sok számolással járhat.

MI 2003/11 - 15 • Többlépcsős eljárás - mohó módszer. Szükség esetén szuper-osztályok létrehozása. • Nagyobb elágazási faktor: a cél itt  i(N) = i(N) - Bk=1Pki(Nk) minimalizálása. Könnyen hoz létre túl sok osztályt. Még több számolás.

MI 2003/11 - 16 • Mikor álljunk le a további kérdésekkel? - tanítás -tesztelés eredménye elég jó, - a következő kérdésnél a tisztátlanság csökkenése elég kicsi, - kevés pont marad a leveleknél, - statisztikai módszerek.

MI 2003/11 - 17 • Vágás (nyesés): gyakran érdemes nagyon nagy fát felépíteni, és utána összevonni ágakat (több információnk van, mintha korábban leállnánk). • Címkék hozzárendelése a levelekhez: “tiszta” osztályoknál triviális, egyébként a legtöbb elemet tartalmazó osztály. • Példa

MI 2003/11 - 18 • Példa

MI 2003/11 - 19 • Számítási bonyolultság: jó esetben O(dn(log n)2), rossz esetben: O(dn2log n). • Tulajdonságok kiválasztása: gyakran sokat segíthet egy jó előfeldolgozás.

MI 2003/11 - 20 • Példa.

MI 2003/11 - 21 • Leggyakoribb módszer: ID3. Nominális adatok (ha numerikus is van, először rész-intervallumokba osztjuk azokat), entrópia használata. • Példa • Továbbfejlesztett (és leggyakrabban használt) változata: C4.5

MI 2003/11 - 22 • Minták (sztringek) illesztése. Adott egy véges abc, fölötte szavak. Minta, szöveg, faktor, részsorozat definíciója. • Alkalmazási lehetőségek: - keresés szövegekben, - keresés DNS láncokban, - számítógépes grafika.

MI 2003/11 - 23 • Alapproblémák: - minta keresése (faktora egy szövegnek?) - szerkesztési távolság: a lehető legkevesebb elemi művelettel (törlés, beszúrás, csere) való átvitel - minta keresése hibával - minta keresése “akármi” szimbólummal

MI 2003/11 - 24 • Szerkesztési távolság: dinamikus programozás. Alapképlet: C(i,j) = min {C(i-1,j)+1, C(i,j-1)+1, C(i-1,j-1)+1-(x[i], y[j])} • Példa

MI 2003/11 - 1

MI 2003/11 - 1

Presentation Transcript

PowerPoint 2003 Vs 2007

Financial Stability 1/2003 Charts Chapter 1

Recom mandations : pose et gestion d’une sonde vé sicale CCLI N Sud-Ou est 2003 27 novembre 03 Agen d Z g

Recom mandations : pose et gestion d’une sonde vé sicale CCLI N Sud-Ou est 2003 27 novembre 03 Agen d Z g

Correction du Cas CAMP-SPORT

Chap. 3 Microsoft Word 2003

Active Directory

PUPNS

Ажурирање на Меѓународните стандарди за ревизија - МСР од 2003 г. до 2008 г

RECHT & INFORMATICA academiejaar 2003-0224

施普林格出版社香港分社 11/2003

正念學四念住的當代理解與運用

STERLING HIGH SCHOOL CAREER ART DIGITAL PORTFOLIOS 2002-2003

20. Mai 2003

OCAK 2003

DEPARTMENT OF HEALTH & WELFARE

ASP 2003 Handprints in Appalachia

Update of ISAs from 2003 to 2008

2003 년 4 월 14,17 일 6 조 : 정보통신 성효은 정현빈 광고홍보 장효진

INFOhio Retreat 2003

中国医药商业物流专项研究报告 (2003 版 )

2003 FFA-FCCLA Summer Camp Week 4 June 16-20, 2003

MI 2003/11 - 1

MI 2003/11 - 1

Presentation Transcript

PowerPoint 2003 Vs 2007

Financial Stability 1/2003 Charts Chapter 1

Recom mandations : pose et gestion d’une sonde vé sicale CCLI N Sud-Ou est 2003 27 novembre 03 Agen d Z g

Recom mandations : pose et gestion d’une sonde vé sicale CCLI N Sud-Ou est 2003 27 novembre 03 Agen d Z g

Correction du Cas CAMP-SPORT

Chap. 3 Microsoft Word 2003

Active Directory

PUPNS

Ажурирање на Меѓународните стандарди за ревизија - МСР од 2003 г. до 2008 г

RECHT &amp; INFORMATICA academiejaar 2003-0224

施普林格出版社香港分社 11/2003

正念學 四念住的當代理解與運用

STERLING HIGH SCHOOL CAREER ART DIGITAL PORTFOLIOS 2002-2003

20. Mai 2003

OCAK 2003

DEPARTMENT OF HEALTH &amp; WELFARE

ASP 2003 Handprints in Appalachia

Update of ISAs from 2003 to 2008

2003 년 4 월 14,17 일 6 조 : 정보통신 성효은 정현빈 광고홍보 장효진

INFOhio Retreat 2003

中国医药商业 物流 专项研究报告 (2003 版 )

2003 FFA-FCCLA Summer Camp Week 4 June 16-20, 2003

RECHT & INFORMATICA academiejaar 2003-0224

正念學四念住的當代理解與運用

DEPARTMENT OF HEALTH & WELFARE

中国医药商业物流专项研究报告 (2003 版 )