1 / 34

دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي دکتر عبداله زاده

به نام خداوند جان و خرد. ارائه يک چارچوب کارآمد براي کاوش الگوهاي متناوب بر روي پايگاه‌هاي تراکنش بسيار بزرگ Representing an Efficient Framework for Frequent Pattern Mining on Very Large Transaction Databases. دانشگاه صنعتي اميرکبير دانشکده مهندسي کامپيوتر. دانشجو: محمد کريم سهرابي 84131906

shania
Download Presentation

دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقا ي دکتر عبداله زاده

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. به نام خداوند جان و خرد ارائه يک چارچوب کارآمد براي کاوش الگوهاي متناوب بر روي پايگاه‌هاي تراکنش بسيار بزرگRepresenting an Efficient Framework for Frequent Pattern Mining on Very Large Transaction Databases دانشگاه صنعتي اميرکبير دانشکده مهندسي کامپيوتر دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقاي دکتر عبداله زاده مهرماه 1386

  2. فهرست مطالب • هدف رسالة دکتري • فرضيات مساله • دستاوردهاي اصلي رساله • تعريف مساله • رهيافت هاي جاري براي حل مساله • روش حل مساله • بستر آزمون • معيارهاي ارزيابي و روشهاي آزمون و اثبات

  3. فهرست مطالب هدف رسالة دکتري فرضيات مساله دستاوردهاي اصلي رساله تعريف مساله رهيافت هاي جاري براي حل مساله روش حل مساله بستر آزمون معيارهاي ارزيابي و روشهاي آزمون و اثبات 3

  4. هدف رسالة دکتري • در اين رساله به دنبال ارائه يک چارچوب مناسب براي کاوش الگوهاي متناوب هستيم. • اين چارچوب بستري فراهم ميکند تا • کاربر بتواند يک پايگاه تراکنش ايجاد کند، • الگوريتمهاي کارآمد جديدي را که در اين رساله ارائه مي شود، براي کاوش اين پايگاه تراکنش به کار گيرد، • نتايج به دست آمده از اين الگوريتم ها را با نتايج الگوريتم هاي پيشين مقايسه نمايد، • و در نهايت امکان اجراي موازي الگوريتمها به صورت کارآمد را داشته باشد. • آنچه در اين رساله به عنوان الگو مد نظر قرار دارد مجموعه آيتمهاي متناوب است.

  5. هدف رسالة دکتري • کارآمدي براي الگوريتمهاي ارائه شده در اين رساله، بسته به کاربرد الگوريتم، داراي دو جنبه متفاوت است. • دسته اول کاربردها (مانند پاسخگويي به پرس و جوهاي آستانهاي) • هدف: کاوش مجموعه کاملي از همه الگوهاي متناوب • در اين دسته از کاربردها، الگوريتمي را کارآمد ميدانيم که • در کمترين زمان ممکن و • با به کارگيري حداقل فضاي حافظه • مجموعه کامل همه الگوهاي متناوب موجود در پايگاه تراکنش را محاسبه نمايد.

  6. هدف رسالة دکتري دسته دوم کاربردها (مانند کاوش اطلاعات زيستي) نیاز به الگوهاي بزرگ موجود در پايگاه تراکنش الگوهای کوچک و متوسط کارآيي ندارند و تنها الگوهاي بزرگ به درد مي خورند براي آنکه بتوانيم الگوهاي بزرگ متناوب را به دست آوريم به ناچار بايد الگوهاي کوچکتر را کاوش نماييم. کاوش الگوهاي بزرگ بدون ايجاد و تست تناوب همه الگوهاي کوچکتر کاهش قابل توجه زمان کاوش عدم قطعيت موجود در الگوريتم هاي کاوش مجموعه کامل الگوهاي متناوب معیار در اين دسته از کاربردها کم بودن زمان کاوش دقت نتايج 6

  7. فهرست مطالب هدف رسالة دکتري فرضيات مساله دستاوردهاي اصلي رساله تعريف مساله رهيافت هاي جاري براي حل مساله روش حل مساله بستر آزمون معيارهاي ارزيابي و روشهاي آزمون و اثبات 7

  8. فرضيات حل مساله در رساله • در حل مساله همواره فرض بر اين است که • تراکنشهای مورد استفاده مساله درون يک پايگاه تراکنش ذخيره شده اند. • در ارائه راه حلهای معمولی برای مسائل فرض بر این است که پايگاه تراکنش مورد نظر به روز رسانی نمی شود. • در صورت به روز رسانی پايگاه تراکنش، اين به روزرسانی سبب تغيير در الگوهای متناوب کاوش شده نمی گردد. • الگوها را به سه دسته اصلی تقسيم می شوند: • مجموعه آیتم­های متناوب • توالی های متناوب • توالی های متناوب بسته . تکنيکهای پيشنهادي در اين رساله، مجموعه آيتمهای متناوب را به عنوان الگو در نظر می گيرند.

  9. فهرست مطالب هدف رسالة دکتري فرضيات مساله دستاوردهاي اصلي رساله تعريف مساله رهيافت هاي جاري براي حل مساله روش حل مساله بستر آزمون معيارهاي ارزيابي و روشهاي آزمون و اثبات 9

  10. دستاوردهاي اصلي رساله دکتري مطالعات و پژوهش‌های اين رساله در سه جنبه انجام خواهد شد. • بهبود الگوريتم‌های موجود طوری که مجموعه کامل همه الگوهای متناوب به صورت کارآتر قابل کاوش باشند. • ارائه برای يافتن الگوهای بسيار بزرگ بدون نياز به کاوش همه الگوهای کوچک و متوسط. • بررسی امکان موازی شدن الگوريتم‌های کاوش • بررسی بخش‌های ذاتا سريال مساله کاوش، • کشف بخش‌هايی از مساله که مستعد موازی شدن هستند، • نحوه توزيع متوازن عملیات کاوش و داده‌های مورد استفاده بر روی پردازنده‌ها، • کاهش حجم تبادلات داده‌ای

  11. فهرست مطالب هدف رسالة دکتري فرضيات مساله دستاوردهاي اصلي رساله تعريف مساله رهيافت هاي جاري براي حل مساله روش حل مساله بستر آزمون معيارهاي ارزيابي و روشهاي آزمون و اثبات 11

  12. تعریف مساله الگوها کاوش الگوی متناوب: یافتن الگویی از عناصر، ویژگی ها یا آیتم ها که در یک مجموعه داده بیش از حد معینی تکرار شده باشند. حد آستانه توسط کاربر مشخص می شود. انواع الگوهای مهم. مجموعه آیتم ها توالی ها توالی های بسته 12

  13. تعریف مساله مجموعه آیتم های متناوب پیشینه: در سال 1993 توسط Agrawal در قالب کاوش الگوهای تداعی. تعریف ریاضی: مجموعه I={i1, i2, …, in} مجموعه ای از آیتم ها 13

  14. فهرست مطالب هدف رسالة دکتري فرضيات مساله دستاوردهاي اصلي رساله تعريف مساله رهيافت هاي جاري براي حل مساله روش حل مساله بستر آزمون معيارهاي ارزيابي و روشهاي آزمون و اثبات 14

  15. رهیافت های جاری برای حل مساله کاوش مجموعه آیتم های متناوب به ازای d آیتم موجود در یک مجموعه داده، 2^dمجموعه آیتم کاندیدا ممکن وجود خواهد داشت. یک روش سردستی(Naïve) مقایسه هر یک از این مجموعه آیتم‌ها با تک تک تراکنش‌های موجود در پایگاه تراکنش شمارش تعداد تراکنش‌های مشتمل بر مجموعه آیتم مزبور مشخص نمودن مجموعه آیتم‌هایی که تعداد تکرار آنها ازحد آستانه‌ای بیشتراست مرتبه نمایی تعداد مجموعه آیتم‌ها امکان وجود میلیون‌ها آیتمدر پایگاه‌ تراکنش مورد استفاده این روش از نظر محاسباتی بسیار زمان‌گیر خواهد بود و نمی‌تواند در زمان قابل قبولی پاسخ را به دست آورد. 15

  16. رهیافت های جاری برای حل مساله کاوش مجموعه آیتم های متناوب فضای جستجوی همه مجموعه آیتم‌ها را می‌توان با یک شبکه بندی زیرمجموعه‌ای(Subset lattice) نشان داد. مجموعه آیتم تهی در راس این شبکه بندی قرار می‌گیرد مجموعه آیتمی که شامل همه آیتم‌هاست، در پایین‌ترین سطح است. شبکه بندی مجموعه‌ای پایگاه تراکنشی که مشتمل بر 5 آیتم A، B، C، D و E است، نشان داده شده است 16

  17. رهیافت های جاری برای حل مساله شبکه ای از همه مجموعه آیتم های ممکن به ازای 5 آیتم {A, B, C, D, E} null C D B A E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCE ABDE ACDE BCDE ABCD ABCDE مثالی از شبکه بندی زيرمجموعه‌ای 17

  18. رهیافت های جاری برای حل مساله کاوش مجموعه آیتم های متناوب دو دسته کلی از الگوریتم‌های کاوش مجموعه آیتم‌های متناوب وجود دارند: الگوریتم‌های اول سطح از نود راس شبکه شروع به پویش می‌نمایند. مجموعه آیتم‌های کاندید را سطح به سطح مورد تست قرار می‌دهند. در مورد تناوب یا عدم تناوب آنها در پایگاه تراکنش را تصمیم‌گیری می‌کنند. الگوریتم‌های اول عمق شبکه را با شروع از نود منحصر به فردی مانند i جستجو می‌نمایند. مجموعه‌های کاندید بزرگتر در هر بار، با افزودن یک آیتم تولید می‌شوند. 18

  19. رهیافت های جاری برای حل مساله کاوش مجموعه آیتم های متناوب جستجوی مبتنی برسطح الگوریتم Apriori بهبودهای انجام شده بر روی Apriori شمارش پویای مجموعه آیتم ها Dynamic Itemset Counting (DIC) جستجوی مبتنی بر عمق تصویر سازی درختی TreeProjection FP-Growth 19

  20. رهیافت های جاری برای حل مساله Apriori اساس اين روش بر اصل زير استوار است هيچ ابرمجموعه متناوبي از يک مجموعه آيتم نامتناوب وجود ندارد. اگر مجموعه آيتم نامتناوبي داشته باشيم، همه ابرمجموعه‌هاي آن نامتناوب خواهند بود. نتيجه مستقيم اين مطلب اين است که هر زيرمجموعه‌اي از يک مجموعه آيتم متناوب، خود مجموعه آيتمي متناوب خواهد بود. الگوريتم Apriori يک پايگاه تراکنش TDB و يک حد آستانه S را می گيرد و مجموعه همه الگوهای متناوب موجود در TDB را خواهد يافت 20

  21. رهیافت های جاری برای حل مساله Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير (TDB) و با حد آستانه S=3 در ابتدا TDB، براي يافتن همه آيتمهاي متناوب (الگوهاي متناوب يک آيتمي)، يک بار پويش مي‌شود. 21

  22. رهیافت های جاری برای حل مساله Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير (TDB) و با حد آستانه S=3 در ابتدا TDB، براي يافتن همه آيتمهاي متناوب (الگوهاي متناوب يک آيتمي)، يک بار پويش مي‌شود. L1: مجموعه همه مجموعه آیتمهای تک آیتمی L1={(a:3) 22

  23. رهیافت های جاری برای حل مساله Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير (TDB) و با حد آستانه S=3 در ابتدا TDB، براي يافتن همه آيتمهاي متناوب (الگوهاي متناوب يک آيتمي)، يک بار پويش مي‌شود. L1: مجموعه همه مجموعه آیتمهای تک آیتمی L1={a, (b:3) 23

  24. رهیافت های جاری برای حل مساله Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير (TDB) و با حد آستانه S=3 در ابتدا TDB، براي يافتن همه آيتمهاي متناوب (الگوهاي متناوب يک آيتمي)، يک بار پويش مي‌شود. L1: مجموعه همه مجموعه آیتمهای تک آیتمی L1={a, b, (c:4) 24

  25. رهیافت های جاری برای حل مساله Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير (TDB) و با حد آستانه S=3 در ابتدا TDB، براي يافتن همه آيتمهاي متناوب (الگوهاي متناوب يک آيتمي)، يک بار پويش مي‌شود. L1: مجموعه همه مجموعه آیتمهای تک آیتمی L1={a, b, c, (f:4) 25

  26. رهیافت های جاری برای حل مساله Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير (TDB) و با حد آستانه S=3 در ابتدا TDB، براي يافتن همه آيتمهاي متناوب (الگوهاي متناوب يک آيتمي)، يک بار پويش مي‌شود. L1: مجموعه همه مجموعه آیتمهای تک آیتمی L1={a, b, c, f, (m:3) 26

  27. رهیافت های جاری برای حل مساله Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير (TDB) و با حد آستانه S=3 در ابتدا TDB، براي يافتن همه آيتمهاي متناوب (الگوهاي متناوب يک آيتمي)، يک بار پويش مي‌شود. L1: مجموعه همه مجموعه آیتمهای تک آیتمی L1={a, b, c, f, m, (p:3)} 27

  28. رهیافت های جاری برای حل مساله Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير (TDB) و با حد آستانه S=3 در ابتدا TDB، براي يافتن همه آيتمهاي متناوب (الگوهاي متناوب يک آيتمي)، يک بار پويش مي‌شود. L1: مجموعه همه مجموعه آیتمهای تک آیتمی L1={a, b, c, f, m, p} 28

  29. رهیافت های جاری برای حل مساله Apriori 29

  30. فهرست مطالب هدف رسالة دکتري فرضيات مساله دستاوردهاي اصلي رساله تعريف مساله رهيافت هاي جاري براي حل مساله روش حل مساله بستر آزمون معيارهاي ارزيابي و روشهاي آزمون و اثبات 30

  31. فهرست مطالب هدف رسالة دکتري فرضيات مساله دستاوردهاي اصلي رساله تعريف مساله رهيافت هاي جاري براي حل مساله روش حل مساله بستر آزمون معيارهاي ارزيابي و روشهاي آزمون و اثبات 31

  32. بستر آزمون بستر ایجاد شده برای پیاده سازی و تست الگوریتمهای کاوش مشتمل بر نرم افزارها و برنامههای زیر است: • پايگاه تراکنش مورد نیاز در قالب یک فایل اطلاعاتی • برنامه اي جهت توليد داده تصادفي هدفدار به منظور ايجاد داده حجيم در پايگاه تراکنش • ایجاد تراکنش به صورت تصادفی • ایجاد تراکنش های سفارشی • برنامه پالایش داده به منظور داشتن پايگاه تراکنش پالایش شده جهت اجرای صحيح عملیات کاوش • پیاده سازی الگوریتم های موجود در زمینه کاوش مجموعه آیتمهای متناوب و امکان مقایسه نتایج • برنامه ای به منظور نگهداری درخت پایگاههای تراکنش بسیار بزرگ در قالب فایل بر روی دیسک • در مواقعی که درخت مزبور قابل ایجاد و نگهداری در حافظه اصلی نباشد • شبیه سازی عملکرد آتوماتای سلولی یادگیری که به منظور به روزرسانی نتایج کاوش متناظر با به روزرسانی پایگاه تراکنش مورد استفاده قرار گرفته • بستر ایجاد شده باید نرم افزارهایی برای شبیه سازی محیط موازی و انتقال برنامه ها به محیط مزبور را داشته باشد که در فازهای بعدی ایجاد خواهند شد.

  33. فهرست مطالب هدف رسالة دکتري فرضيات مساله دستاوردهاي اصلي رساله تعريف مساله رهيافت هاي جاري براي حل مساله روش حل مساله بستر آزمون معيارهاي ارزيابي و روشهاي آزمون و اثبات 33

  34. معيارهاي ارزيابي و روشهاي آزمون و اثبات معيارهاي ارزيابي الگوریتمهای ارائه شده، توازن بين پارامترهاي زير است: • زمان لازم جهت کاوش الگوها در هریک از روشها. • فضاي لازم جهت ذخيره نتایج میانی و ساختارها در هر روش. • میزان دقت و کمال مجموعه الگوهای متناوب کاوش شده. • میزان قابلیت الگوریتم برای موازی شدن (موازی پذیری).

More Related