داده کاوی سئوالات نمونه

داده کاوی سئوالات نمونه دکتر محمدحسین ندیمی دانشکده مهندسی کامپیوتر دانشگاه آزاد اسلامی واحد مجف آباد

تلاش دانشجویان درس داده کاوی ترم مهر ماه سال 1392 دانشکده مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد نجف آباد و اینجانب بر این بوده که اشکالات این نمونه سئوالات در حداقل ممکن باشد ولی مطمئنآ بی اشکال نمی باشد و از شما خواننده محترم خواهشمندیم که در صورت مطمئن شدن وجود هر گونه اشکال در سئوالات، به جهت اصلاح آن، به ما یاری داده و شرح اشکال مذکوررا با ذکر شماره اسلاید آن به آدرس nadimi@ieee.org ارسال نمایید. امکان استفاده از این اسلایدها به صورت فعلی و بدون هیچگونه تغییری در آنها برای عموم آزاد است. با سپاس دکتر محمد حسین ندیمی دانشکده مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد نجف آباد 7 دی ماه سال 1392 Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran.

فصل دوم پیش پـــردازش داده ها Data preprocessing Data Mining Sample Questions

Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال1 : مراحل فرایند تبدیل داده ها را نام برده و توضیح دهید. • جواب : • هموار سازی (Smoothing): که برای حذف Noise از داده بکار می رود و شامل تکنیک های Regression ,Clustering و biningاست. • تجمیع (Aggregation): د راین روش عملیات خلاصه صه سازی یا تجمیع داده ها اعمال می شود(جهت ساخت مکعب داده برای تجزیه و تحلیل) • تعمیم داده ها (Generalization): داده ها با سطح پایین به داده ها با سطح بالاتر تبدیل می شوند. • نرمال سازی (Normalization): درجه بندی داده ها در یک محدوده خاص مثل -1 تا 1. • ساخت صفت (جدید) : صفات جدید ایجاد و به مجموعه اضافه می شوند.

Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 2 : داده های زیر که شامل صفت سن می باشند مفروض است (صعودی)13-15-16-16-19-20-20-21-22-22-25-25-25-25-30-33-33-35-35-35-36-40-45-46-52-70 4- چارک های اول() و سوم () را محاسبه کنید(تقریبی) . 6- تفاوت بین نمودار quantilt-quantile با نمودار quantile چیست؟ 3- مرکزیت دامنه (midrange) دادها را مشخص کنید. 1- میانگین داده ها را حساب کنید؟ میانه کدام است؟ 5- خلاصه سازی 5 عددی را ارائه دهید. 2- مد را مشخص کنید.نوع آن چیست؟ Quantile نموداری است برای بررسی و ترسیم توزیع های تک متغیری اما quantile-quantile نموداری است که دارای دو متغییر است و برای بررسی تغییر در حرکت از یک توزیع به توزیع دیگر مورد استفاده قرار می گیرد. این مجموعه از داده ها دارای دو عدد است که بیشترین تعداد را دارند بنابراین دارای bimodalمی باشد: 25 و 35 مرکزیت دامنه (midrange) : متوسط بزرگترین و کوچکترین مقدار در مجموعه است. چارک اول آن 20 و چارک سوم آن 35 است. خلاصه سازی پنج عددی شامل مقادیر : مینیمم مجموعه ، چارک اول ، میانه ، چارک سوم ، ماکزیمم می باشد که برای این مثال به ترتیب عبارتند از : 13-20-25-35-70

Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 3 : مجموعه داده های زیر ارائه شده است ، با استفاده از تکنیک bining آ ن ها را در سه طبقه قرار داده و بر اساس مقدار میانگین و مرزهای پایین و بالایی در هر طبقه ، آ ن ها را همو ار سازی کنید. 3 – 7 – 14 -18 – 23 – 25 – 31 – 42 – 47 Bin1 : 3 – 7 – 14 Bin2 : 18 – 23 – 25 Bin3 : 31 – 42 – 47 Bin1 : 8 – 8 – 8 Bin2 : 22 – 22 – 22 Bin3 : 40 – 40 – 40 Bin1 : 3 – 3 – 14 Bin2 : 18 – 25 – 25 Bin3 : 31 – 47 – 47

1- نادیده گرفتن تاپل ها 2- استفاده از محتمل ترین ارزش برای آن 3 – استفاده از میانگین صفات برای تمام نمونه های متعلق به کلاس 4 – استفاده از یک ثابت سراسری Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 4 : شما به عنوان یک تحلیل گر داده ها در یک شرکت مشغول به کار می باشید، مجموعه داده ای شامل 100 هزار رکورد جهت تحلیل و داده کاوی در اختیار شما قرار می گیرد ، با بررسی داده ها متوجه می شوید که داده ها دارای Missing Value در یک Attribute می باشند.(ضمنا خود این Attribute نیز دارای 10 کلاس می باشد) رویکرد شما در مواجه با حل این مساله چیست ؟

Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال5 : مجموعه داده های یک بعدی x={5.0,23.0,17.6,7.32,1.11} مفروض است، با استفاده از نرمال سازی Min-Max بر فاصله [-1,1] آن را نرمال سازی کنید.

1- نادیده گرفتن تاپل ها 2- استفاده از محتمل ترین ارزش برای آن 3 – استفاده از میانگین صفات برای تمام نمونه های متعلق به کلاس 4 – استفاده از یک ثابت سراسری Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 6: شما به عنوان یک تحلیل گر داده ها در یک شرکت مشغول به کار می باشید، مجموعه داده ای شامل 100 هزار رکورد جهت تحلیل و داده کاوی در اختیار شما قرار می گیرد ، با بررسی داده ها متوجه می شوید که داده ها دارای Missing Value در یک Attribute می باشند.(ضمنا خود این Attribute نیز دارای 2کلاس می باشد) رویکرد شما در مواجه با حل این مساله چیست ؟

فصل سومolap ، انباره ها و مکعب های دادهData warehouse

Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 1) انباره داده را تعریف نمائید؟ تعریف جامع انبار داده: یک انباره داده جمع آوری موضوع گرا ، یکپارچه ، متغیر بر اساس زمان و پایدار از داده ها است که امکان حمایت از فرآیند تصمیم گیری مدیران را فراهم می کند.

Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال2) اجزای مکعب داده را تشریح نمائید؟ ابعاد یا Dimensions دیدگاها یا موجودیت هایی هستند که با توجه با خواسته های یک سازمان به عنوان رکورد نگهداری می شوند . هر بعد ممکن است یک جدول مربوط به خود به نام جدول بعد (dimension table) داشته باشد که این بعد را بیشتر توصیف می کند. • حقایق یا Facts حقایق معیارهای عددی هستند که به منظور تحلیل روابط بین ابعاد بکار گرفته می شوند. و با یک جدول حقیقت (Fact table) نشان داده می شوند.

مجموع سراسري Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. نمونه اي از مكعب داده مجموع سالانه فروش تلويزيون در آمريكا زمان زمستان مجموع پائيز تابستان بهار تلويزيون محصول آمريكا كامپيوتر ويدئو مجموع كانادا كشور مكزيك مجموع

Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال3) شماهای پایگاه داده چند بعدی را نام ببرید و با در نظر گرفتن محیط عملیاتی یک فروشگاه قسمت فروش را با استفاده از شماهای موجود پیاده سازی نمائید؟ • شمای ستاره ای یا Star • شمای دانه برفی یا Snowflake • شمای صورت فلکی واقعی یا Fact Constellation

Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. :Star schema • Fact table: یک جدول مرکزی بزرگ که شامل مجموعه ای بدون افزونگی از دادهاست • Dimension table:یک مجموعه جداول کوچکتر به ازای هر بعد. :Snowflake schema • نوعی از مدل شمای Star است به طوریکه جداول بعد نرمال شده هستند. • تفاوت اصلی بین مدل های شمای Star و Snowfalke این است که جداول بعد مدل Snow flake برای حذف افزونگی ها به شکل نرمال شده نگهداری می شوند. • این روش باعث کاهش افزونگی و همین طور کارآیی می شود. • :Fact Constellation schema • از مجموعه ای از شماهای Star تشکیل شده است. • برنامه های کاربردی پیچیده تر به چندین جدول حقیقت برای به اشتراک گذاری جداول بعد نیاز دارند: یک شمای Fact Constellation امکان استفاده اشتراکی جداول حقیقت از جداول بعد را میسر می سازد.

item time item_key item_name brand type supplier_type time_key day day_of_the_week month quarter year location branch location_key street city state_or_province country branch_key branch_name branch_type Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. مدل Star Schema time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures

supplier item time Supplier_key supplier_type item_key item_name brand type supplier_key time_key day day_of_the_week month quarter year city location branch City _key city Province country location_key street City _key branch_key branch_name branch_type Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. مدل snowflake schema Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures

item time item_key item_name brand type supplier_type time_key day day_of_the_week month quarter year location location_key street city province_or_state country shipper branch shipper_key shipper_name location_key shipper_type branch_key branch_name branch_type Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. مدل Fact Constellation Schema time_key item_key time_key shipper_key item_key from_location branch_key to_location location_key dollars_cost units_sold units_shipped dollars_sold avg_sales Measures

سلسله مراتب مفهومی دنباله ای از نگاشت‌ها را از مجموعه ای از مفاهیم سطح پایین به سطح بالاتر ، که مفاهیم کلی‌تر است تعریف می‌کند. مثل: خیابان<شهر<استان یا ایالت<کشور Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال4) سلسله مراتب مفهومی را توضیح دهید.

Roll Up : تجمیع یا کاهش بعد Drill Down : افزایش بعد Slice and Dice: selection روی بعد Pivot: عملگر تجسم سازی Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 5 ) عملگرهای OLAP در مدل داده های چند بعدی را نام ببریدویکی از آنها را با رسم شکل تو ضیح دهید.

Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran.

1-سیستم های SDB بر کاربردهای اجتماعی و اقتصادی متمرکز هستند درحالیکه سیستم های OLAPبیشتر برای کاربردهای تجاری هدف گیری میشوند. 2-مسائل مربوط به محرماگی در سلسله مراتب مفهومی یک موضوع مهم در سیستم پایگاه داده ی آماری است. 3-بر خلاف سیستم های پایگاه داده آماری، سیستم OLAP برای مدیریت کارآمد داده های حجیم طراحی می شود. Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 6 ) تفاوت پایگاه داده آماری (SDB) با OLAP را بیان کنید.

دیدگاه بالا به پایین(Top-down view) • دیدگاه داده‌ای منبع(Data source view) • دیدگاه انبار داده(Data warehouse view) • دیدگاه پرس و جوی تجاری(Business query view) Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 7 ) چهار دیدگاه متفاوتی که در طراحی یک انبار داده وجود دارد را بیان نمایید.

1- انتخاب یک فرایند تجاری برای مدلسازی 2- انتخاب دانه بندی فرایند تجاری 3- انتخاب ابعادی که روی هر رکورد از جدول حقیقت اعمال خواهد شد. 4- انتخاب معیارهایی که هر رکورد در جدول حقیقت قرار می گیرد. Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 8 ) مراحل فرایند طراحی انباره‌های داده را بنویسید.

1- پایین‌ترین لایه در معماری انباره‌های داده، سرویس دهنده انبار داده است که تقریبا همیشه یک سیستم پایگاه داده رابطه ای است. 2- لایه میانی که یک سرویس دهنده OLAP است و به 2 مدل تقسیم می‌شود. 1. مدل OLAP رابطه‌ای(ROLAP) 2. مدل OLAP چند بعدی(MOLAP) 3- بالاترین لایه که با کاربر در ارتباط است. Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 9 ) لایه‌های انبار داده در معماری سه لایه را بیان کنید.

Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran.

1- انبار داده تجاری(Enterprise warehouse): يك انبار اينتر پرايز همه اطلاعات در مورد همه موضوعات پوشش دهنده سازمان را جمع آوري مي‌كند. و همچنين داده‌اي يكپارچه در سطح شرکت‌ها فراهم می‌آورد كه معمولاً از يك يا چند سيستم عملياتي يا فراهم کننده‌ی داده‌ی خارجي به دست مي‌آيند و نيز داراي عملكرد متقابل در دامنه مي‌باشد. اين نوع انبار داده معمولاً حاوي داده‌هاي با جزئيات و داده‌هاي خلاصه مي‌باشد و حجم آن نيز مي‌تواند از چند گيگابايت تا چند صد گيگابايت، ترابايت يا فراتر نيز باشد. Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 10 ) از نقطه نظر معماری چند مدل انبار داده وجود دارد، آن‌ها را بیان کنید.

2- انبار داده اختصاصی(Data Mart): ديتامارت حاوي بخشي از داده‌هاي در سطح شرکت‌ها مي‌باشد كه فقط براي گروه خاصي از كاربران اهميت دارند. دامنه محدود به موضوعات انتخاب شده و خاص مي‌باشد. ديتامارت ها معمولاً بر روي سرورهاي ارزان قيمت ويندوزي يا لينوكسي / يونيكسي پياده سازي مي‌شوند. چرخه پياده سازي ديتامارت به طور معمول بر حسب هفته اندازه گيري مي‌شود تا ماه يا سال اما پياده سازي ديتامارت مي‌تواند شامل يكپارچه سازي پيچيده و با مدت زمان طولاني همراه باشد Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 10 ) از نقطه نظر معماری چند مدل انبار داده وجود دارد، آن‌ها را بیان کنید.

3- انبار داده مجازی(Virtual Warehouse): يك انبار مجازي مجموعه‌اي از view ها كه بر روي پايگاه داده‌هاي عملياتي ساخته مي‌شوند مي‌باشد. براي پردازش كارایي پرس و جوها (queries) فقط برخي view هاي خلاصه واقعاً ساخته مي‌شوند. يك انبار مجازي به راحتي ساخته مي‌شود. اما فضاي زيادي را بر روي ديتابيس عملياتي اشغال مي‌كند. Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 10 ) از نقطه نظر معماری چند مدل انبار داده وجود دارد، آن‌ها را بیان کنید.

1- سرویس دهنده‌های OLAP رابطه‌ای(ROLAP) 2- سرور های OLAP چند بعدی(MOLAP) 3- سرویس دهنده‌های OLAPترکیبی(HOLAP) Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 11 ) انواع سرویس دهنده های OLAP را بیان کنید.

1- ابزارهای دستیابی و بازیاب(access and retrieval tools) 2- ابزارهای گزارش گیری از پایگاه داده‌ها(database reporting tools) 3- ابزارهای آنالیز داده(data analysis tools) 4- ابزارهای استخراج داده(data mining tools) Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 12 ) ابزارهای انبار کردن داده را نام ببریدوتوضیح دهید در یک سیستم تصمیم گیری بورس از چه ابزاری و به چه دلیل استفاده می شود؟

در یک سیستم تصمیم گیری بورس از ابزار داده کاوی استفاده می شود زیرا داده کاوی کشف دانش را از طریق یافتن الگوهای پنهان و انجمن، ساخت مدل های تحلیلی، انجام طبقه بندی و پیش بینی، و ارائه نتایج کاوش با استفاده از ابزارهای تجسم،پشتیبانی می کند. Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 12 ) ابزارهای انبار کردن داده را نام ببریدوتوضیح دهید در یک سیستم تصمیم گیری بورس از چه ابزاری و به چه دلیل استفاده می شود؟

یک انبار داده، اطلاعات مربوط به موضوعاتی که کل سازمان را پوشش می‌دهند را جمع آوری می‌کند اما یک دیتا مارت،یک بخش زیر مجموعه ای انبار داده است. دیتا مارت روی اشیا ء انتخاب شده تمرکز می‌کند و در نتیجه محدوده‌ی آن، محدوده شعبهاست. Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 13 ) تفاوت بین انبار داده و دیتا مارت را بیان کنید.

فصل چهارم استخراج الگوهای پرتکرار، قوانین انجمنی و همبستگی هاFrequent Pattern Mining & Association Rule Mining Data Mining Sample Questions

سوال 1 ) الف-پروسه استخراج قوانین انجمنی شامل چند مرحله میشود نام ببرید؟ شامل دو مرحله • پیدا کردن تمام اقلام پرتکرار • تولید قوانین انجمنی از اقلام پر تکرار ب- خاصیت مهم الگوریتم Aprioriچیست ؟ همه ی زیر مجموعه های غیر تهی از اقلام تکراری باید تکراری باشندیا به عبارتی حتی اگر یک زیر مجموعه غیر تهی ازمجموعه ای ,غیر تکراری باشد به طور حتم آن مجموعه تکراری نیست . ج- دومشکل عمده الگوریتم Apriori را نام ببرید. • نیاز به تولید حجم زیادی از مجموعه های کاندید دارد. • نیاز دارد که به طور تکراری پایگاه داده را اسکن کند و مجموعه بزرگی از کاندیدها را با الگوی تطبیقی بررسی کند. Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran.

سوال 2) فرض کنید جدول زیر نشان دهنده مجموعه تراکنش های پایگاه داده باشد وmin-sup=2 وmin-confidence=50% . مطلوب است: مجموعه های کاندید و مجموعه های L را پیدا کنید یکی از قوانین انجمن استنباط شده از این پایگاه را بنویسید و درمورد پذیرش یا عدم پذیرش این قانون بحث کنید....

Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. C1 L1 Compare candidate support count with min support count Scan D for count of cach candidate {B C} {B D} {C D} {C D} {C E} {D E} × Min_sup=2 C2 C2 L2 Compare candidate support count with min support count Generate C2 candidates from L1 Scan D for count of cach candidate Compare candidate support count with min support count Generate C3 candidates from L2 Scan D for count of cach candidate C3 C3 L3

تولید قوانین انجمنی از اقلام پر تکرار: فرض می کنیم L= {BCD} که زیر مجموعه های غیر تهی آن به شکل زیر می باشد {B} , {C} , {D} , {B C} , {B D} , {C D} , {B C D} به طور مثال یکی از قوانین به صورت زیر است که باید با توجه به شرط min-confidence=50% بررسی کنیم که آیا این قانون پذیرفته است یا خیر: Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. L= {BCD} S={B C} s  L-s Conf(A B)=sup (A  B)/sup (A) B^C  D confidence=support(B C D) / support (B C) =2/2=100 % پس این قانون پذیرفته است.

3) دومشکل عمده الگوریتم Apriori را نام ببرید. سپس چهار تکنیک برای بهبود کارایی الگوریتم Apriori را نام برده و ذکر کنید هر کدام از این تکنیک ها چگونه باعث بهبود کارایی الگوریتم Apriori میشوند. پاسخ: • نیاز به تولید حجم زیادی از مجموعه های کاندید دارد. • نیاز دارد که به طور تکراری پایگاه داده را اسکن کند و مجموعه بزرگی از کاندیدها را با الگوی تطبیقی بررسی کند. تکنیک های بهبود کارایی الگوریتم Apriori : • تکنیک مبتنی بر hash با کاهش مجموعه کاندید • پارتیشن بندی با کاهش تعداد اسکن بر روی پایگاه داده • نمونه گیری با کاهش تعداد اسکن بر روی پایگاه داده • محاسبه اقلام پویا با کاهش تعداد اسکن بر روی پایگاه داده

4) برای مجموعه تراکنش های پایگاه داده زیر با استفاده از تکنیک hashو تابع hash داده شده با در نظر گرفتن اینکه min-sup=2 است مجموعه کاندید 2-itemset ای را پیدا کنید. h(x, y) = ((order of x) 10+(order of y))mod 7

پاسخ: ابتدا جدولی رسم می کنیم با 7 آدرس باکت (چون تابع hash مد 7 است)بعد از آن تابع hash را برای تک تک 2-itemset ای ها محاسبه کرده و با توجه به عدد بدست آمده آنرا در یکی از آدرس های باکت قرار میدهیم و هر بار که یک 2-itemset ای به ادرس باکتی اضافه میشود شمارنده مربوط به آن ادرس را یکی اضافه می کنیم. به عنوان مثال تابع hash را برای (1 4 ) محاسبه می کنیم که حاصلش 0 میشود بنابراین (1 4 ) در آدرس باکت 0 قرار می گیرد . h(x, y) = ((order of x) 10+(order of y))mod 7 =(1*10 + 4) mod 7 =0 1 1 2 3 1 1 1 (1 4 ) (1 5 ) (2 3 ) (4 5 ) (2 5 ) (1 2 ) (1 3 ) (4 5 )    (2 3 )  (1 2 ) (2 4 ) حال با توجه به min-support که 2 است اقلام در باکت های 0 و1و4و6 پرتکرار نمی باشند بنابراین آنهادر C2 نمی باشند.

پاسخ: مشکل نیاز به اسکن مکرر پایگاه داده در الگوریتم Apriori را حل میکند . در تکنیک پارتیشن بندی پایگاه داده تنها دو بار اسکن میشود. پارتیشن بندی شامل دو مرحله است: مرحله اول: الگوریتم, تراکنش ها را در D به n تا پارتیشن جدا از هم تقسیم می کند.اگر حداقل آستانه support برای تراکنش ها در D برابر min-sup باشد.آنگاه حداقل تعداد support برای یک پارتیشن برابر با (تعداد تراکنش ها در آن پارتیشن ضرب در مقدارmin-sup) خواهد بود. مرحله دوم: اسکن دوم D اجرا میشود و support واقعی از هر کاندید برای تعیین اقلام تکراری سراسری ارزیابی می شود.اندازه پارتیشن و تعداد پارتیشن ها تنظیم می شوند به طوریکه هر پارتیشن در حافظه اصلی جای می گیرد بنابراین تنها یکبار در هر مرحله خوانده می شود. 5) تکنیک پارتیشن بندی به منظور بهبود کارایی الگوریتم Apriori را مختصرا توضیح دهید و شرح دهید کدام مشکل الگوریتم Aprioriرا حل می کند؟

Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. پارتیشن بندی مرحله اول مرحله دوم ترکیب همه اقلام تکراری محلی به فرم اقلام کاندید تقسیم پارتیشن D به n پارتیشن پیدا کردن اقلام تکراری محلی در هر پارتیشن 1 اسکن پیدا کردن اقلام تکراری در بین کاندیدها 1 اسکن تراکنش ها در D اقلام تکراری در D

سوال 6 ) بروي پايگاه داده زير با min Sup=2 قسمتهاي زير را انجام دهيد: الف)Frequent 1-Itemset (آيتمهاي پرتكرار به طول 1) را بدست آوريد ب)FP tree اين پايگاه را رسم كنيد ج)الگوهاي پايه مشروط (conditional pattern-base)مربوط به آخرين آيتم پرتكرار موجود در Header Table(كه در قسمت قبل كشيده ايم )را بدست آوريد د)الگوهاي پرتكراري(FP) كه به آخرين آيتم پرتكرار موجود ختم ميشود را بدست آوريد(روند بازگشتي الگوريتم FP growth را دقيق نشان دهيد) Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran.

الف)Frequent1-Itemset(آيتمهاي پرتكرار به طول 1) را بدست آوريد: ابتدا براي اولين بار پايگاه داده اسكن كرده و تعداد تكرار هر آيتم را بدست مي آوريم (1-Itemset) حالا آيتم هاي به طول 1 پرتكرار(Frequent 1-Itemset ) را بدست مي آوريم يعني آيتم هايي كه مقدار Cont supشان كمتر از min-sup است حذف ميشوند ولي هيچكدام از آيتمهاي بالا حذف نميشوند چون Con Sup همه آيتم ها مساوي ويا بشتر 2 است. Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran.

اين پايگاه را رسم كنيد:FPtreeب ) ابتدا آيتمهاي پرتكرار به طول 1 را بدست مي آوريم(كه در قسمت الف بدست آورديم) و سپس آيتم هاي پرتكرار را بر اساس مقدار Cont Sup به صورت نزولي در ليست L مرتب ميكنيم. L={(b:7) (a:6) (c:6) (d:3) (e:2)} سپس با اسكن پايگاه داده براي بار دوم درخت را تشكيل ميدهيم: Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. Null b :6 b :5 b :4 b :3 b :7 b :2 b :1 a:1 a:2 c:2 c:1 a:4 a:3 a:2 a:1 d:1 C:1 C:2 d:1 e:1 d:1 C:1 C:2 Header Table e:1

ج)الگوهاي پايه مشروط (conditional pattern-base)مربوط به آخرين آيتم پرتكرار موجود در Header Table(كه در قسمت قبل كشيده ايم )را بدست آوريد: آخرين آيتم در جدول Header آيتم پرتكرار e است. 2تا مسير به آيتم e ختم شده است. بنابراين 2تا الگوي پايه مشروط براي آيتم e داريم: Item e’s prefix paths : {<ba:1> , <bac:1>} Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. Null b :7 a:2 c:2 a:4 d:1 C:2 d:1 e:1 d:1 C:2 Header Table e:1

د)الگوهاي پرتكراري(FP) كه به آخرين آيتم پرتكرار موجود ختم ميشود را بدست آوريد(روند بازگشتي الگوريتم FPgrowthرا دقيق نشان دهيد) Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. FP-Tree آخرين آيتم پرتكرار در جدول Header همانطور كه ديديم e بود. Frequent pattern e b=2 a=2 c=1 null Conditional pattern Base ba:1 bac:1 b:2 Conditional FP-tree e a:2 e <b:2,a:2> mined recursively mine(<b:2,a:2>|e>) null ae:2 be:2 b:2 ae Frequent Patterns b:2 null <b:2> Frequent Patterns Conditional pattern Base Conditional FP-tree mined recursively bae:2 null

Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. FP-Tree Frequent pattern c d a Conditional pattern Base Conditional pattern Base Conditional pattern Base ba:2 b:2 a:2 b:1 b:4 ba:1 ac:1 Conditional FP-tree Conditional FP-tree Conditional FP-tree <b:4,a:2>,<a:2> <b:2,a:1>,<a:1> <b:4> mined recursively mined recursively mine(<b:2,a:1>,<a:1>|d>) ba:4 mine(<b:4,a:2>,<a:2>|c>) null ac:4 ad:2 bd:2 bc:4 b:2 null b:1 null b:2 b:1 Frequent Patterns Conditional pattern Base Conditional FP-tree mined recursively bac:2 bad:1 null null

Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. null b:4 a null b=4 a=4 a:2 b:4 c c a:2 c null b=2 a=2 c=1 a:1 b:2 d d a:1 d null b=2 a=2 c=1 b:2 e a:2 e دايره هاي بنفش رنگ ،آيتم پرتكرار در هر گروه(يكي از پايگاه داده هاي شرطي)فرض شده اند كه به آيتم هايمان متصل اند

داده کاوی سئوالات نمونه

داده کاوی سئوالات نمونه

Presentation Transcript