1 / 14

Kognitivní inspirace třídění na základě závislostí atributů

Kognitivní inspirace třídění na základě závislostí atributů. Jan Burian Eurfomise centrum – Kardio, Ú stav informatiky AV ČR Článek je dostupný na WWW : http: //nb.vse.cz/~ burianj /articles/ burian_classification.rtf. Učení bez učitele a třídění.

aysha
Download Presentation

Kognitivní inspirace třídění na základě závislostí atributů

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kognitivní inspirace třídění na základě závislostí atributů Jan Burian Eurfomise centrum – Kardio, Ústav informatiky AV ČR Článek je dostupný na WWW: http://nb.vse.cz/~burianj/articles/burian_classification.rtf

  2. Učení bez učitele a třídění • Učení bez učitele – rozpoznáváme v datech jisté pravidelnosti, aniž bychom disponovali informací, kde a jak tyto pravidelnosti hledat • Typická úloha – nalézt způsob jak roztřídit záznamy v tabulce relační databáze • Klasické třídění – nalézt funkci rozdělující shluky záznamů v prostoru atributů s danou metrikou

  3. Problém klasického třídění • V případě, že máme kategoriální atributy, klasické třídění postihuje vztahy mezi záznamy v třídě vždy v rámci jednoho atributu, nepostihuje vztahy mezi atributy • Vztah mezi atributy je vlastností celku • Klasické třídění nepostihuje vlastnost skupiny záznamů jako celku, vlastnosti třídy se dají redukovat na vlastnosti jednotlivých částí (záznamů) • Inspirativní řešení – kognitivní vědy

  4. Kognitivní vědy • Zabývají se procesem poznávání v živých i umělých systémech • Poznávání můžeme chápat jako proces získávání znalostí • Učení jedna ze základních složek poznávání • Inspirace – neurofyziologie ukládání a vybavování znalostí v mozku

  5. Kognitivní inspirace • Poškození mozku nezpůsobuje úplnou ztrátu schopnosti vybavovat si naučené znalosti, ale pouze zmenšení této schopnosti • Znalosti nejsou poškozením odstraněny nebo vymazány, jen je snížena jejich celková kvalita

  6. Kognitivní inspirace • Znalosti nejsou v mozku uložené v jednotlivých neuronech, ale jsou distribuovány v rozsáhlých vzorech aktivit neuronových drah • Znalosti v mozku se nedají redukovat na součet jednotlivých částí, ale vznikají až jako vlastnost celku • Inspirace - chápat vztahy mezi třídami záznamů v databázi nikoliv jako odlišnost jednotlivých záznamů, ale jako odlišnost mezi charakteristikami celků jednotlivých tříd

  7. Vztah atributů • Vhodnou charakteristikou skupiny záznamů je ohodnocení závislostí atributůna základě kontingenční tabulky

  8. Třídící atribut • V odlišných skupinách záznamů mohou (ale nemusí) být odlišné závislosti atributy • Chceme najít způsob jak roztřídit záznamy tak, aby mezi třídami byly co nejodlišnější závislosti mezi atributy • Pokusme se najít takový atribut jehož kategorie roztřídí záznamy do tříd s maximálně odlišnými závislostmi atributů.

  9. Závislost atributů • Nechť V je množina všech atributů tabulky databáze • Nechť C  V je kandidát na třídící atribut a C1,C2 … Ck jsou kategorie (třídy) tohoto atributu • Pro A,S  V; A  S; A,S  C označme AD(A,S|Ci) odnotu nějaké testové statistiky (například χ², Kendallův koeficient apod.) o závislosti dvou atributů A a S ve třídě Ci.

  10. Odlišnost jako úhel mezi vektorem závislostí a osou souřadnic • Pro AD(A,S|C1) =AD(A,S|C2) • bod [AD(A,S|C1) ; AD(A,S|C2) ] se nalézá na ose souřadnic • úhel  je nulový • závislost A a S není podmíněna C

  11. Odlišnost závislostí atributů v třídách • ADCD (Attribute Dependency Class Difference) • Suma odlišností závislostí atributů v třídách pro různé kombinace atributů • Použití kosinové věty • Maximální odlišnost závislostí mezi atributy má minimální ADCD

  12. Postup identifikace třídícího atributu • Pro každého kandidáta na třídící atribut vyber z databázové tabulky třídy podle jeho kategorií (skupina záznamů, u kterých se daná kategorie vyskytuje). Pro tyto třídy vygeneruj závislosti dvojic ostatních atributů. • Urči odlišnost závislostí atributů v třídách (ADCD) pro jednotlivé kandidáty na třídící algoritmus. • Vyber jako třídící ten atribut, u nějž je odlišnost závislostí atributů v třídách maximální.

  13. Závěr a další vývoj • Zatím není implementováno, ale … • Procedura KL-Miner (součást systému LISp-Miner), generuje vztahy mezi atributy na základě kontingenční tabulky • Ve vývoji je program SDKL-Miner hledající zajímavé odlišnosti mezi vztahy atributů ve dvou zadaných skupinách záznamů

  14. Závěr a další vývoj • Obecný problém: Tvorba nového atributu, který záznamy roztřídí tak, aby odlišnost závislostí atributů v třídách byla maximální ze všech možných roztřídění. • Patrně vhodné použití suboptimálních a subsymbolických metod (neuronové sítě, genetické algoritmy)

More Related