340 likes | 500 Views
به نام خداوند جان و خرد. ارائه يک چارچوب کارآمد براي کاوش الگوهاي متناوب بر روي پايگاههاي تراکنش بسيار بزرگ Representing an Efficient Framework for Frequent Pattern Mining on Very Large Transaction Databases. دانشگاه صنعتي اميرکبير دانشکده مهندسي کامپيوتر. دانشجو: محمد کريم سهرابي 84131906
E N D
به نام خداوند جان و خرد ارائه يک چارچوب کارآمد براي کاوش الگوهاي متناوب بر روي پايگاههاي تراکنش بسيار بزرگRepresenting an Efficient Framework for Frequent Pattern Mining on Very Large Transaction Databases دانشگاه صنعتي اميرکبير دانشکده مهندسي کامپيوتر دانشجو: محمد کريم سهرابي 84131906 استاد راهنما: جناب آقاي دکتر عبداله زاده مهرماه 1386
فهرست مطالب • هدف رسالة دکتري • فرضيات مساله • دستاوردهاي اصلي رساله • تعريف مساله • رهيافت هاي جاري براي حل مساله • روش حل مساله • بستر آزمون • معيارهاي ارزيابي و روشهاي آزمون و اثبات
فهرست مطالب هدف رسالة دکتري فرضيات مساله دستاوردهاي اصلي رساله تعريف مساله رهيافت هاي جاري براي حل مساله روش حل مساله بستر آزمون معيارهاي ارزيابي و روشهاي آزمون و اثبات 3
هدف رسالة دکتري • در اين رساله به دنبال ارائه يک چارچوب مناسب براي کاوش الگوهاي متناوب هستيم. • اين چارچوب بستري فراهم ميکند تا • کاربر بتواند يک پايگاه تراکنش ايجاد کند، • الگوريتمهاي کارآمد جديدي را که در اين رساله ارائه مي شود، براي کاوش اين پايگاه تراکنش به کار گيرد، • نتايج به دست آمده از اين الگوريتم ها را با نتايج الگوريتم هاي پيشين مقايسه نمايد، • و در نهايت امکان اجراي موازي الگوريتمها به صورت کارآمد را داشته باشد. • آنچه در اين رساله به عنوان الگو مد نظر قرار دارد مجموعه آيتمهاي متناوب است.
هدف رسالة دکتري • کارآمدي براي الگوريتمهاي ارائه شده در اين رساله، بسته به کاربرد الگوريتم، داراي دو جنبه متفاوت است. • دسته اول کاربردها (مانند پاسخگويي به پرس و جوهاي آستانهاي) • هدف: کاوش مجموعه کاملي از همه الگوهاي متناوب • در اين دسته از کاربردها، الگوريتمي را کارآمد ميدانيم که • در کمترين زمان ممکن و • با به کارگيري حداقل فضاي حافظه • مجموعه کامل همه الگوهاي متناوب موجود در پايگاه تراکنش را محاسبه نمايد.
هدف رسالة دکتري دسته دوم کاربردها (مانند کاوش اطلاعات زيستي) نیاز به الگوهاي بزرگ موجود در پايگاه تراکنش الگوهای کوچک و متوسط کارآيي ندارند و تنها الگوهاي بزرگ به درد مي خورند براي آنکه بتوانيم الگوهاي بزرگ متناوب را به دست آوريم به ناچار بايد الگوهاي کوچکتر را کاوش نماييم. کاوش الگوهاي بزرگ بدون ايجاد و تست تناوب همه الگوهاي کوچکتر کاهش قابل توجه زمان کاوش عدم قطعيت موجود در الگوريتم هاي کاوش مجموعه کامل الگوهاي متناوب معیار در اين دسته از کاربردها کم بودن زمان کاوش دقت نتايج 6
فهرست مطالب هدف رسالة دکتري فرضيات مساله دستاوردهاي اصلي رساله تعريف مساله رهيافت هاي جاري براي حل مساله روش حل مساله بستر آزمون معيارهاي ارزيابي و روشهاي آزمون و اثبات 7
فرضيات حل مساله در رساله • در حل مساله همواره فرض بر اين است که • تراکنشهای مورد استفاده مساله درون يک پايگاه تراکنش ذخيره شده اند. • در ارائه راه حلهای معمولی برای مسائل فرض بر این است که پايگاه تراکنش مورد نظر به روز رسانی نمی شود. • در صورت به روز رسانی پايگاه تراکنش، اين به روزرسانی سبب تغيير در الگوهای متناوب کاوش شده نمی گردد. • الگوها را به سه دسته اصلی تقسيم می شوند: • مجموعه آیتمهای متناوب • توالی های متناوب • توالی های متناوب بسته . تکنيکهای پيشنهادي در اين رساله، مجموعه آيتمهای متناوب را به عنوان الگو در نظر می گيرند.
فهرست مطالب هدف رسالة دکتري فرضيات مساله دستاوردهاي اصلي رساله تعريف مساله رهيافت هاي جاري براي حل مساله روش حل مساله بستر آزمون معيارهاي ارزيابي و روشهاي آزمون و اثبات 9
دستاوردهاي اصلي رساله دکتري مطالعات و پژوهشهای اين رساله در سه جنبه انجام خواهد شد. • بهبود الگوريتمهای موجود طوری که مجموعه کامل همه الگوهای متناوب به صورت کارآتر قابل کاوش باشند. • ارائه برای يافتن الگوهای بسيار بزرگ بدون نياز به کاوش همه الگوهای کوچک و متوسط. • بررسی امکان موازی شدن الگوريتمهای کاوش • بررسی بخشهای ذاتا سريال مساله کاوش، • کشف بخشهايی از مساله که مستعد موازی شدن هستند، • نحوه توزيع متوازن عملیات کاوش و دادههای مورد استفاده بر روی پردازندهها، • کاهش حجم تبادلات دادهای
فهرست مطالب هدف رسالة دکتري فرضيات مساله دستاوردهاي اصلي رساله تعريف مساله رهيافت هاي جاري براي حل مساله روش حل مساله بستر آزمون معيارهاي ارزيابي و روشهاي آزمون و اثبات 11
تعریف مساله الگوها کاوش الگوی متناوب: یافتن الگویی از عناصر، ویژگی ها یا آیتم ها که در یک مجموعه داده بیش از حد معینی تکرار شده باشند. حد آستانه توسط کاربر مشخص می شود. انواع الگوهای مهم. مجموعه آیتم ها توالی ها توالی های بسته 12
تعریف مساله مجموعه آیتم های متناوب پیشینه: در سال 1993 توسط Agrawal در قالب کاوش الگوهای تداعی. تعریف ریاضی: مجموعه I={i1, i2, …, in} مجموعه ای از آیتم ها 13
فهرست مطالب هدف رسالة دکتري فرضيات مساله دستاوردهاي اصلي رساله تعريف مساله رهيافت هاي جاري براي حل مساله روش حل مساله بستر آزمون معيارهاي ارزيابي و روشهاي آزمون و اثبات 14
رهیافت های جاری برای حل مساله کاوش مجموعه آیتم های متناوب به ازای d آیتم موجود در یک مجموعه داده، 2^dمجموعه آیتم کاندیدا ممکن وجود خواهد داشت. یک روش سردستی(Naïve) مقایسه هر یک از این مجموعه آیتمها با تک تک تراکنشهای موجود در پایگاه تراکنش شمارش تعداد تراکنشهای مشتمل بر مجموعه آیتم مزبور مشخص نمودن مجموعه آیتمهایی که تعداد تکرار آنها ازحد آستانهای بیشتراست مرتبه نمایی تعداد مجموعه آیتمها امکان وجود میلیونها آیتمدر پایگاه تراکنش مورد استفاده این روش از نظر محاسباتی بسیار زمانگیر خواهد بود و نمیتواند در زمان قابل قبولی پاسخ را به دست آورد. 15
رهیافت های جاری برای حل مساله کاوش مجموعه آیتم های متناوب فضای جستجوی همه مجموعه آیتمها را میتوان با یک شبکه بندی زیرمجموعهای(Subset lattice) نشان داد. مجموعه آیتم تهی در راس این شبکه بندی قرار میگیرد مجموعه آیتمی که شامل همه آیتمهاست، در پایینترین سطح است. شبکه بندی مجموعهای پایگاه تراکنشی که مشتمل بر 5 آیتم A، B، C، D و E است، نشان داده شده است 16
رهیافت های جاری برای حل مساله شبکه ای از همه مجموعه آیتم های ممکن به ازای 5 آیتم {A, B, C, D, E} null C D B A E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCE ABDE ACDE BCDE ABCD ABCDE مثالی از شبکه بندی زيرمجموعهای 17
رهیافت های جاری برای حل مساله کاوش مجموعه آیتم های متناوب دو دسته کلی از الگوریتمهای کاوش مجموعه آیتمهای متناوب وجود دارند: الگوریتمهای اول سطح از نود راس شبکه شروع به پویش مینمایند. مجموعه آیتمهای کاندید را سطح به سطح مورد تست قرار میدهند. در مورد تناوب یا عدم تناوب آنها در پایگاه تراکنش را تصمیمگیری میکنند. الگوریتمهای اول عمق شبکه را با شروع از نود منحصر به فردی مانند i جستجو مینمایند. مجموعههای کاندید بزرگتر در هر بار، با افزودن یک آیتم تولید میشوند. 18
رهیافت های جاری برای حل مساله کاوش مجموعه آیتم های متناوب جستجوی مبتنی برسطح الگوریتم Apriori بهبودهای انجام شده بر روی Apriori شمارش پویای مجموعه آیتم ها Dynamic Itemset Counting (DIC) جستجوی مبتنی بر عمق تصویر سازی درختی TreeProjection FP-Growth 19
رهیافت های جاری برای حل مساله Apriori اساس اين روش بر اصل زير استوار است هيچ ابرمجموعه متناوبي از يک مجموعه آيتم نامتناوب وجود ندارد. اگر مجموعه آيتم نامتناوبي داشته باشيم، همه ابرمجموعههاي آن نامتناوب خواهند بود. نتيجه مستقيم اين مطلب اين است که هر زيرمجموعهاي از يک مجموعه آيتم متناوب، خود مجموعه آيتمي متناوب خواهد بود. الگوريتم Apriori يک پايگاه تراکنش TDB و يک حد آستانه S را می گيرد و مجموعه همه الگوهای متناوب موجود در TDB را خواهد يافت 20
رهیافت های جاری برای حل مساله Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير (TDB) و با حد آستانه S=3 در ابتدا TDB، براي يافتن همه آيتمهاي متناوب (الگوهاي متناوب يک آيتمي)، يک بار پويش ميشود. 21
رهیافت های جاری برای حل مساله Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير (TDB) و با حد آستانه S=3 در ابتدا TDB، براي يافتن همه آيتمهاي متناوب (الگوهاي متناوب يک آيتمي)، يک بار پويش ميشود. L1: مجموعه همه مجموعه آیتمهای تک آیتمی L1={(a:3) 22
رهیافت های جاری برای حل مساله Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير (TDB) و با حد آستانه S=3 در ابتدا TDB، براي يافتن همه آيتمهاي متناوب (الگوهاي متناوب يک آيتمي)، يک بار پويش ميشود. L1: مجموعه همه مجموعه آیتمهای تک آیتمی L1={a, (b:3) 23
رهیافت های جاری برای حل مساله Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير (TDB) و با حد آستانه S=3 در ابتدا TDB، براي يافتن همه آيتمهاي متناوب (الگوهاي متناوب يک آيتمي)، يک بار پويش ميشود. L1: مجموعه همه مجموعه آیتمهای تک آیتمی L1={a, b, (c:4) 24
رهیافت های جاری برای حل مساله Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير (TDB) و با حد آستانه S=3 در ابتدا TDB، براي يافتن همه آيتمهاي متناوب (الگوهاي متناوب يک آيتمي)، يک بار پويش ميشود. L1: مجموعه همه مجموعه آیتمهای تک آیتمی L1={a, b, c, (f:4) 25
رهیافت های جاری برای حل مساله Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير (TDB) و با حد آستانه S=3 در ابتدا TDB، براي يافتن همه آيتمهاي متناوب (الگوهاي متناوب يک آيتمي)، يک بار پويش ميشود. L1: مجموعه همه مجموعه آیتمهای تک آیتمی L1={a, b, c, f, (m:3) 26
رهیافت های جاری برای حل مساله Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير (TDB) و با حد آستانه S=3 در ابتدا TDB، براي يافتن همه آيتمهاي متناوب (الگوهاي متناوب يک آيتمي)، يک بار پويش ميشود. L1: مجموعه همه مجموعه آیتمهای تک آیتمی L1={a, b, c, f, m, (p:3)} 27
رهیافت های جاری برای حل مساله Apriori مثال: يافتن مجموعه آيتم های متناوب در پايگاه تراکنش زير (TDB) و با حد آستانه S=3 در ابتدا TDB، براي يافتن همه آيتمهاي متناوب (الگوهاي متناوب يک آيتمي)، يک بار پويش ميشود. L1: مجموعه همه مجموعه آیتمهای تک آیتمی L1={a, b, c, f, m, p} 28
رهیافت های جاری برای حل مساله Apriori 29
فهرست مطالب هدف رسالة دکتري فرضيات مساله دستاوردهاي اصلي رساله تعريف مساله رهيافت هاي جاري براي حل مساله روش حل مساله بستر آزمون معيارهاي ارزيابي و روشهاي آزمون و اثبات 30
فهرست مطالب هدف رسالة دکتري فرضيات مساله دستاوردهاي اصلي رساله تعريف مساله رهيافت هاي جاري براي حل مساله روش حل مساله بستر آزمون معيارهاي ارزيابي و روشهاي آزمون و اثبات 31
بستر آزمون بستر ایجاد شده برای پیاده سازی و تست الگوریتمهای کاوش مشتمل بر نرم افزارها و برنامههای زیر است: • پايگاه تراکنش مورد نیاز در قالب یک فایل اطلاعاتی • برنامه اي جهت توليد داده تصادفي هدفدار به منظور ايجاد داده حجيم در پايگاه تراکنش • ایجاد تراکنش به صورت تصادفی • ایجاد تراکنش های سفارشی • برنامه پالایش داده به منظور داشتن پايگاه تراکنش پالایش شده جهت اجرای صحيح عملیات کاوش • پیاده سازی الگوریتم های موجود در زمینه کاوش مجموعه آیتمهای متناوب و امکان مقایسه نتایج • برنامه ای به منظور نگهداری درخت پایگاههای تراکنش بسیار بزرگ در قالب فایل بر روی دیسک • در مواقعی که درخت مزبور قابل ایجاد و نگهداری در حافظه اصلی نباشد • شبیه سازی عملکرد آتوماتای سلولی یادگیری که به منظور به روزرسانی نتایج کاوش متناظر با به روزرسانی پایگاه تراکنش مورد استفاده قرار گرفته • بستر ایجاد شده باید نرم افزارهایی برای شبیه سازی محیط موازی و انتقال برنامه ها به محیط مزبور را داشته باشد که در فازهای بعدی ایجاد خواهند شد.
فهرست مطالب هدف رسالة دکتري فرضيات مساله دستاوردهاي اصلي رساله تعريف مساله رهيافت هاي جاري براي حل مساله روش حل مساله بستر آزمون معيارهاي ارزيابي و روشهاي آزمون و اثبات 33
معيارهاي ارزيابي و روشهاي آزمون و اثبات معيارهاي ارزيابي الگوریتمهای ارائه شده، توازن بين پارامترهاي زير است: • زمان لازم جهت کاوش الگوها در هریک از روشها. • فضاي لازم جهت ذخيره نتایج میانی و ساختارها در هر روش. • میزان دقت و کمال مجموعه الگوهای متناوب کاوش شده. • میزان قابلیت الگوریتم برای موازی شدن (موازی پذیری).