1 / 21

Ph.D beszámoló 2004/2005 I.félév

Ph.D beszámoló 2004/2005 I.félév. Készítette: Iváncsy Renáta Konzulens: Vajk István. Elemhalmaz bányászat. Eddigi kutatási terület Vásárlói kosár Minden tranzakció elemek halmazát tartalmazza Cél: olyan termékeket találni, amik együttesen a megadott értéknél gyakrabban fordulnak elő.

morna
Download Presentation

Ph.D beszámoló 2004/2005 I.félév

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ph.D beszámoló 2004/2005 I.félév Készítette: Iváncsy Renáta Konzulens: Vajk István

  2. Elemhalmaz bányászat • Eddigi kutatási terület • Vásárlói kosár • Minden tranzakció elemek halmazát tartalmazza • Cél: olyan termékeket találni, amik együttesen a megadott értéknél gyakrabban fordulnak elő

  3. Szekvencia bányászat • Olyan vásárlói kosár, ahol a vásárlókat megkülönböztetjük egymástól • A tranzakciók elemhalmazok sorozatát tartalmazza  Egy vásárló az egyes vásárlási alkalmai során miket vásárolt • Egy elemhalmazon belül az elemek sorrendje irreleváns (Ált. lexikografikusan rendezett) • Az elemhalmazok sorrendje fontos  vásárolt termékek gyakran előforduló szekvenciáját keressük • Példa szekvencia:<(1,2,5)(1,3,6,7,8)(3,4,7)>

  4. Részszekvencia -- Tartalmazás • Legyen az elemhalmazi=(i1, i2, …, im)aholijegy elem. Legyena szekvencias=<s1, s2, …,sn>,aholsiegy elemhalmaz. • Az <a1, a2, …,an>szekvenciát tartalmazza a <b1, b2, …, bm>szekvencia, ha léteznek egészeki1< i2< …< in, hogya1bi1,a2bi2,…,anbin. • Példa: <(1,2,5)(2,5,7)(1,2)> része az <(1,5)(1)> vagy az <(5)(5)(1,2)>, de például nem része az <(1,7)(2)>

  5. Szekvencia bányászat feladata • Adott a szekvenciák halmaza • Feladat megtalálni az összes résszekvenciát, ami gyakori a szekvencia adatbázisban • Legelterjedtebb algoritmusok: • AprioriAll • GSP • SPADE • SPAM • PrefixSpan • …

  6. A GSP algoritmus • Generalized Sequential Patterns • Szintenként halad • Kihasználja az apriori hipotézist • Első körben a gyakori elemeket határozza meg • További lépésekben jelölteket generál, és egy újabb adatbázis olvasás során meghatározza a támogatottságukat

  7. <(1,2,3)(2,4)(2)> <(2,3)(2,4)(2,5)> <(1,2,3)(2,4)(2,5)> <(1,2,3)(2,4)(2)> <(2,3)(2,4)(2)(5)> <(1,2,3)(2,4)(2)(5)> GSP – jelölt generálás

  8. GSP – támogatottság meghatározása • Az azonos méretű jelölteket hash-fában tárolja • A jelöltek tárolásánál csak az elemeket veszi figyelembe • A tranzakció feldolgozásakor a tranzakció elemeit rekurzívan dolgozza fel  egy elemre többször is sor kerül

  9. Az SM-Tree algoritmus • Szintenként haladó algoritmus • A kételemű jelöltek támogatottságát mátrix segítségével határozza meg • A jelölteket azonos elv alapján állítja elő, mint a GSP • A jelöltek támogatottságához az automata elmélet alapján készített SM-Tree-t használja

  10. A 2-szekvenciák meghatározása • Egyelemű jelöltek tömbbel • Kételemű jelöltek mátrixszal • Két mátrix kell, az <(x,y)> típusú és az <(x)(y)> típusú jelölteknek. • Három elemű jelöltek generálása: • <(x,y)> és <(y,z)>  <(x,y,z)> • <(x,y)> és <(y)(z)>  <(x,y)(z)> • <(x)(y)> és <(y,z)>  <(x)(y,z)> • <(x)(y)> és <(y)(z)>  <(x)(y)(z)>

  11. Véges automata elmélet • Egy véges automata öt paraméterrel jellemezhető: M= (Q,Σ,δ,q0,F) • Q: állapotok halmaza • Σ: alfabeta • δ: Q Σ Q mozgási szabály • q0: kiindulási állapot • F: elfogadó állapotok halmaza • Célunk: jelölt szekvenciákat elfogadó automata generálása

  12. \{a} \{b,-} \{-} \{c} \{-} \{d} \{e,-}  S0 S1 S2 S3 S4 S5 S6 S7 - - a b c d e - - Szekvencia felismerése véges automatával • Szekvenciát ábrázoljuk sztringként • <(ab)(c)(de)> = ab-c-de • A szekvencia véges automatája akkor fogadja el a bemenetét, ha a bemenet tartalmazza a szekvenciát

  13. Az SM-Tree létrehozása (1) • Minden jelölt szekvenciához létre kell hozni egy automatát • A könnyebb kezelés érdekében érdemes ezeket az automatákat összevonni  State Machine-Tree • Az összevonáshoz definiálni kell a JOIN műveletet • M1M2=SM3, lényegében olyan, mint egy automata, csak a mozgási szabályban tér el: • δ: Q Σ Q2

  14. a b - c - d e S0 S1 S2 S3 S4 S5 S6 S7 - - a b - c d - e S0 S1 S2 S3 S4 S5 S6 S7 - - JOIN S5 S6 S7 d a b - c S0 S1 S2 S3 S4 - d e S8 S9 S10 - - - e - Az SM-Tree létrehozása - példa

  15. A bemenet: - C F D - A B A 0 D A B 6 1 3 - F B 7 4 2 A F - B 5 8 9 11 - - F A B F 10 12 F A A 1 1 1

  16. Mérési eredmények D25C10T5S4I1.25

  17. D200C10T5S6I3

  18. Összefoglalás • Probléma: nagy szekvenciákat tartalmazó adathalmazban gyakori részszekvenciák meghatározása • Megoldás: automata elméleti alapokon • Automata a jelölt szekvenciáknak • SM-Tree készítése az automatákból • A tranzakció minden elemét pontosan egyszer kell beolvasni

  19. Publikációs lista -- Folyóirat • Iváncsy, R. and I. Vajk, “A Time and Memory Efficient Frequent Itemset Discovering Algorithm for Association Rule Mining”, International Journal of Computer Applications in Technology, Special Issue on "Data Mining Applications" by Inderscience Enterprises Ltd. (accepted) • Iváncsy, R. and I. Vajk, “Fast Discovery of Frequent Itemsets: a Cubic-Structure-based Approach”, Computational Intelligence in Data mining Special Issue of the Informatica Journal (ISSN 0350-5596) (accepted)

  20. Publikációs lista -- Konferencia • Iváncsy, G, R. Iváncsy and I. Vajk, “Graph Mining-Based Image Indexing”, In Proc. of the 5th International Symposium of Hungarian Researchers on Computational Intelligence,Budapest,Hungary, Nov.  11 -12, 2004. pp. • Iváncsy R and I. Vajk, “A Survey of Discovering Frequent Patterns in Graph Data”, In Proc. of the IASTED International Conference on Databases and Applications ~DBA 2005~ as part of the Twenty-Third IASTED International Multi-Conference on Applied Informatics, Innsbruck, Austria, Feb. 14 -16, 2005. (accepted) • Iváncsy R and I. Vajk, “Efficient Sequential Pattern Mining Algorithms”, In Proc. of the 4th WSEAS International Conference on Artificial Intelligence, Knowledge Engineering and Databases (AIKED 2005), Salzburg, Austria , Feb. 13 -15, 2005. (accepted) • Iváncsy, R., S. Juhász and I. Vajk, “Fast Discovery of Sequential Patterns by Level-Wise Approach”, MicroCAD 2005 International Scientific Conference, University of Miskolc, March 10-11, Miskolc, 2005 (accepted)   • Iváncsy, R., T. Levendovszky and H. Charaf, “.NET Facilities in Data Mining Applications”, MicroCAD 2005 International Scientific Conference, University of Miskolc, March 10-11, Miskolc, 2005 (accepted) • Iváncsy, R. and G. Iváncsy, “Image Indexing Using Frequent Graph Mining Technique”, MicroCAD 2005 International Scientific Conference, University of Miskolc,March 10-11, Miskolc, 2005 (accepted)

  21. Kérdések

More Related