Kognitivní inspirace třídění na základě závislostí atributů

Kognitivní inspirace třídění na základě závislostí atributů Jan Burian Eurfomise centrum – Kardio, Ústav informatiky AV ČR Článek je dostupný na WWW: http://nb.vse.cz/~burianj/articles/burian_classification.rtf

Učení bez učitele a třídění • Učení bez učitele – rozpoznáváme v datech jisté pravidelnosti, aniž bychom disponovali informací, kde a jak tyto pravidelnosti hledat • Typická úloha – nalézt způsob jak roztřídit záznamy v tabulce relační databáze • Klasické třídění – nalézt funkci rozdělující shluky záznamů v prostoru atributů s danou metrikou

Problém klasického třídění • V případě, že máme kategoriální atributy, klasické třídění postihuje vztahy mezi záznamy v třídě vždy v rámci jednoho atributu, nepostihuje vztahy mezi atributy • Vztah mezi atributy je vlastností celku • Klasické třídění nepostihuje vlastnost skupiny záznamů jako celku, vlastnosti třídy se dají redukovat na vlastnosti jednotlivých částí (záznamů) • Inspirativní řešení – kognitivní vědy

Kognitivní vědy • Zabývají se procesem poznávání v živých i umělých systémech • Poznávání můžeme chápat jako proces získávání znalostí • Učení jedna ze základních složek poznávání • Inspirace – neurofyziologie ukládání a vybavování znalostí v mozku

Kognitivní inspirace • Poškození mozku nezpůsobuje úplnou ztrátu schopnosti vybavovat si naučené znalosti, ale pouze zmenšení této schopnosti • Znalosti nejsou poškozením odstraněny nebo vymazány, jen je snížena jejich celková kvalita

Kognitivní inspirace • Znalosti nejsou v mozku uložené v jednotlivých neuronech, ale jsou distribuovány v rozsáhlých vzorech aktivit neuronových drah • Znalosti v mozku se nedají redukovat na součet jednotlivých částí, ale vznikají až jako vlastnost celku • Inspirace - chápat vztahy mezi třídami záznamů v databázi nikoliv jako odlišnost jednotlivých záznamů, ale jako odlišnost mezi charakteristikami celků jednotlivých tříd

Vztah atributů • Vhodnou charakteristikou skupiny záznamů je ohodnocení závislostí atributůna základě kontingenční tabulky

Třídící atribut • V odlišných skupinách záznamů mohou (ale nemusí) být odlišné závislosti atributy • Chceme najít způsob jak roztřídit záznamy tak, aby mezi třídami byly co nejodlišnější závislosti mezi atributy • Pokusme se najít takový atribut jehož kategorie roztřídí záznamy do tříd s maximálně odlišnými závislostmi atributů.

Závislost atributů • Nechť V je množina všech atributů tabulky databáze • Nechť C  V je kandidát na třídící atribut a C1,C2 … Ck jsou kategorie (třídy) tohoto atributu • Pro A,S  V; A  S; A,S  C označme AD(A,S|Ci) odnotu nějaké testové statistiky (například χ², Kendallův koeficient apod.) o závislosti dvou atributů A a S ve třídě Ci.

Odlišnost jako úhel mezi vektorem závislostí a osou souřadnic • Pro AD(A,S|C1) =AD(A,S|C2) • bod [AD(A,S|C1) ; AD(A,S|C2) ] se nalézá na ose souřadnic • úhel  je nulový • závislost A a S není podmíněna C

Odlišnost závislostí atributů v třídách • ADCD (Attribute Dependency Class Difference) • Suma odlišností závislostí atributů v třídách pro různé kombinace atributů • Použití kosinové věty • Maximální odlišnost závislostí mezi atributy má minimální ADCD

Postup identifikace třídícího atributu • Pro každého kandidáta na třídící atribut vyber z databázové tabulky třídy podle jeho kategorií (skupina záznamů, u kterých se daná kategorie vyskytuje). Pro tyto třídy vygeneruj závislosti dvojic ostatních atributů. • Urči odlišnost závislostí atributů v třídách (ADCD) pro jednotlivé kandidáty na třídící algoritmus. • Vyber jako třídící ten atribut, u nějž je odlišnost závislostí atributů v třídách maximální.

Závěr a další vývoj • Zatím není implementováno, ale … • Procedura KL-Miner (součást systému LISp-Miner), generuje vztahy mezi atributy na základě kontingenční tabulky • Ve vývoji je program SDKL-Miner hledající zajímavé odlišnosti mezi vztahy atributů ve dvou zadaných skupinách záznamů

Závěr a další vývoj • Obecný problém: Tvorba nového atributu, který záznamy roztřídí tak, aby odlišnost závislostí atributů v třídách byla maximální ze všech možných roztřídění. • Patrně vhodné použití suboptimálních a subsymbolických metod (neuronové sítě, genetické algoritmy)

Kognitivní inspirace třídění na základě závislostí atributů