210 likes | 306 Views
Ph.D beszámoló 2004/2005 I.félév. Készítette: Iváncsy Renáta Konzulens: Vajk István. Elemhalmaz bányászat. Eddigi kutatási terület Vásárlói kosár Minden tranzakció elemek halmazát tartalmazza Cél: olyan termékeket találni, amik együttesen a megadott értéknél gyakrabban fordulnak elő.
E N D
Ph.D beszámoló 2004/2005 I.félév Készítette: Iváncsy Renáta Konzulens: Vajk István
Elemhalmaz bányászat • Eddigi kutatási terület • Vásárlói kosár • Minden tranzakció elemek halmazát tartalmazza • Cél: olyan termékeket találni, amik együttesen a megadott értéknél gyakrabban fordulnak elő
Szekvencia bányászat • Olyan vásárlói kosár, ahol a vásárlókat megkülönböztetjük egymástól • A tranzakciók elemhalmazok sorozatát tartalmazza Egy vásárló az egyes vásárlási alkalmai során miket vásárolt • Egy elemhalmazon belül az elemek sorrendje irreleváns (Ált. lexikografikusan rendezett) • Az elemhalmazok sorrendje fontos vásárolt termékek gyakran előforduló szekvenciáját keressük • Példa szekvencia:<(1,2,5)(1,3,6,7,8)(3,4,7)>
Részszekvencia -- Tartalmazás • Legyen az elemhalmazi=(i1, i2, …, im)aholijegy elem. Legyena szekvencias=<s1, s2, …,sn>,aholsiegy elemhalmaz. • Az <a1, a2, …,an>szekvenciát tartalmazza a <b1, b2, …, bm>szekvencia, ha léteznek egészeki1< i2< …< in, hogya1bi1,a2bi2,…,anbin. • Példa: <(1,2,5)(2,5,7)(1,2)> része az <(1,5)(1)> vagy az <(5)(5)(1,2)>, de például nem része az <(1,7)(2)>
Szekvencia bányászat feladata • Adott a szekvenciák halmaza • Feladat megtalálni az összes résszekvenciát, ami gyakori a szekvencia adatbázisban • Legelterjedtebb algoritmusok: • AprioriAll • GSP • SPADE • SPAM • PrefixSpan • …
A GSP algoritmus • Generalized Sequential Patterns • Szintenként halad • Kihasználja az apriori hipotézist • Első körben a gyakori elemeket határozza meg • További lépésekben jelölteket generál, és egy újabb adatbázis olvasás során meghatározza a támogatottságukat
<(1,2,3)(2,4)(2)> <(2,3)(2,4)(2,5)> <(1,2,3)(2,4)(2,5)> <(1,2,3)(2,4)(2)> <(2,3)(2,4)(2)(5)> <(1,2,3)(2,4)(2)(5)> GSP – jelölt generálás
GSP – támogatottság meghatározása • Az azonos méretű jelölteket hash-fában tárolja • A jelöltek tárolásánál csak az elemeket veszi figyelembe • A tranzakció feldolgozásakor a tranzakció elemeit rekurzívan dolgozza fel egy elemre többször is sor kerül
Az SM-Tree algoritmus • Szintenként haladó algoritmus • A kételemű jelöltek támogatottságát mátrix segítségével határozza meg • A jelölteket azonos elv alapján állítja elő, mint a GSP • A jelöltek támogatottságához az automata elmélet alapján készített SM-Tree-t használja
A 2-szekvenciák meghatározása • Egyelemű jelöltek tömbbel • Kételemű jelöltek mátrixszal • Két mátrix kell, az <(x,y)> típusú és az <(x)(y)> típusú jelölteknek. • Három elemű jelöltek generálása: • <(x,y)> és <(y,z)> <(x,y,z)> • <(x,y)> és <(y)(z)> <(x,y)(z)> • <(x)(y)> és <(y,z)> <(x)(y,z)> • <(x)(y)> és <(y)(z)> <(x)(y)(z)>
Véges automata elmélet • Egy véges automata öt paraméterrel jellemezhető: M= (Q,Σ,δ,q0,F) • Q: állapotok halmaza • Σ: alfabeta • δ: Q Σ Q mozgási szabály • q0: kiindulási állapot • F: elfogadó állapotok halmaza • Célunk: jelölt szekvenciákat elfogadó automata generálása
\{a} \{b,-} \{-} \{c} \{-} \{d} \{e,-} S0 S1 S2 S3 S4 S5 S6 S7 - - a b c d e - - Szekvencia felismerése véges automatával • Szekvenciát ábrázoljuk sztringként • <(ab)(c)(de)> = ab-c-de • A szekvencia véges automatája akkor fogadja el a bemenetét, ha a bemenet tartalmazza a szekvenciát
Az SM-Tree létrehozása (1) • Minden jelölt szekvenciához létre kell hozni egy automatát • A könnyebb kezelés érdekében érdemes ezeket az automatákat összevonni State Machine-Tree • Az összevonáshoz definiálni kell a JOIN műveletet • M1M2=SM3, lényegében olyan, mint egy automata, csak a mozgási szabályban tér el: • δ: Q Σ Q2
a b - c - d e S0 S1 S2 S3 S4 S5 S6 S7 - - a b - c d - e S0 S1 S2 S3 S4 S5 S6 S7 - - JOIN S5 S6 S7 d a b - c S0 S1 S2 S3 S4 - d e S8 S9 S10 - - - e - Az SM-Tree létrehozása - példa
A bemenet: - C F D - A B A 0 D A B 6 1 3 - F B 7 4 2 A F - B 5 8 9 11 - - F A B F 10 12 F A A 1 1 1
Mérési eredmények D25C10T5S4I1.25
Összefoglalás • Probléma: nagy szekvenciákat tartalmazó adathalmazban gyakori részszekvenciák meghatározása • Megoldás: automata elméleti alapokon • Automata a jelölt szekvenciáknak • SM-Tree készítése az automatákból • A tranzakció minden elemét pontosan egyszer kell beolvasni
Publikációs lista -- Folyóirat • Iváncsy, R. and I. Vajk, “A Time and Memory Efficient Frequent Itemset Discovering Algorithm for Association Rule Mining”, International Journal of Computer Applications in Technology, Special Issue on "Data Mining Applications" by Inderscience Enterprises Ltd. (accepted) • Iváncsy, R. and I. Vajk, “Fast Discovery of Frequent Itemsets: a Cubic-Structure-based Approach”, Computational Intelligence in Data mining Special Issue of the Informatica Journal (ISSN 0350-5596) (accepted)
Publikációs lista -- Konferencia • Iváncsy, G, R. Iváncsy and I. Vajk, “Graph Mining-Based Image Indexing”, In Proc. of the 5th International Symposium of Hungarian Researchers on Computational Intelligence,Budapest,Hungary, Nov. 11 -12, 2004. pp. • Iváncsy R and I. Vajk, “A Survey of Discovering Frequent Patterns in Graph Data”, In Proc. of the IASTED International Conference on Databases and Applications ~DBA 2005~ as part of the Twenty-Third IASTED International Multi-Conference on Applied Informatics, Innsbruck, Austria, Feb. 14 -16, 2005. (accepted) • Iváncsy R and I. Vajk, “Efficient Sequential Pattern Mining Algorithms”, In Proc. of the 4th WSEAS International Conference on Artificial Intelligence, Knowledge Engineering and Databases (AIKED 2005), Salzburg, Austria , Feb. 13 -15, 2005. (accepted) • Iváncsy, R., S. Juhász and I. Vajk, “Fast Discovery of Sequential Patterns by Level-Wise Approach”, MicroCAD 2005 International Scientific Conference, University of Miskolc, March 10-11, Miskolc, 2005 (accepted) • Iváncsy, R., T. Levendovszky and H. Charaf, “.NET Facilities in Data Mining Applications”, MicroCAD 2005 International Scientific Conference, University of Miskolc, March 10-11, Miskolc, 2005 (accepted) • Iváncsy, R. and G. Iváncsy, “Image Indexing Using Frequent Graph Mining Technique”, MicroCAD 2005 International Scientific Conference, University of Miskolc,March 10-11, Miskolc, 2005 (accepted)