650 likes | 922 Views
نام درس: مباحث ويژه درپايگاه داده ها شماره مهارت : 03.
E N D
نام درس: مباحث ويژه درپايگاه داده ها شماره مهارت : 03
نام درس: مباحث ويژه در پايگاه داده ها نام منبع : جزوه درسي دانشگاه پيام نورنام مولف : دکتر احمد فراهيانتشارات : دانشگاه پيام نورتعداد واحد : 3رشته : مهندسي کامپيوتر گرايش نرم افزار مقطع : کارشناسي ارشدنام استاد محتوا : دکتر احمد فراهيشماره مهارت/ تعداد کل مهارت : 11/03تاريخ توليد : 1390/11/07
اهدافمهارت : آشنايي با تکنيک ها، روشها، الگوريتم ها و فنون هاي مرتبط با داده کاوي نام مهارت : روشها و الگوريتم های داده کاوی • زير مهارت 1: تکنيک های روش پيشگويی • زير مهارت 2: تکنيک های روش توصيفی • زير مهارت 3: الگوريتم های خوشه بندی • زير مهارت 4: الگوريتم Apriori • زير مهارت 5: الگوريتم K-Means
اهداف مهارت فنون داده کاوي، گروه نامتجانسي از علوم مختلف را شکل ميدهند هر تکنيکي که بتواند بينش جديدي از دادهها را استخراج کند ميتواند داده کاوي به حساب آيد. به طور خلاصه، داده کاوي پل ارتباطي ميان علم آمار،علم کامپيوتر،هوش مصنوعي، الگو شناسي، يادگيري ماشين و بازنمايي بصري داده ميباشد. ميتوان گفت در داده کاوي، تئوريهاي پايگاه دادهها، هوش مصنوعي، يادگيري ماشين و علم آمار را در هم ميآميزند تا زمينه کاربردي فراهم شود.
زير مهارت 1 : تکنيک های روش پيشگويیروشهاي اصلي داده کاوي به دو دسته کلي تقسيم ميشوند: توصيفي و پيشگويي. اين دو گروه، بيانگر اهداف و عملکرد روشهاي داده کاوي نيز هستند.
زير مهارت 1 : تکنيک های روش پيشگويی دسته بندی دسته بندي يا طبقه بندي در واقع ارزشيابي ويژگيهاي مجموعهاي از دادهها و سپس اختصاص دادن آنها به مجموعهاي از گروههاي از پيش تعريف شده است. اين متداولترين قابليت داده كاوي ميباشد. در دسته بندي، به دنبال مدلي هستيم که با تشخيص دستهها ميتواند دسته ناشناخته اشياء ديگر را پيش بيني کند. دسته بندي جهت پيشگويي مقادير گسسته و اسمي مورد استفاده قرار ميگيرد.دسته بندي نوعي يادگيري است که به کمک نمونهها صورت ميگيرد و طبقه بندي بر اساس مجموعههاي از پيش تعريف شده انجام ميشود لذا ميتوان گفت دسته بندي يادگيري با نظارت (هدايت شده) است. دسته بندي فرآيندي دو مرحلهاي ميباشد. در گام اول، يک مدل بر اساس مجموعه دادههاي آموزشي موجود در پايگاه دادهها ساخته ميشود. اين مدلها به فرمهايي از درخت تصميم، يا فرمولهاي رياضي نمايش داده ميشود. مجموعه دادههاي آموزشي از رکوردها، نمونهها، مثالها و يا اشيائي که شامل مجموعهاي از صفات يا جنبهها ميباشد، تشکيل شدهاند.
زير مهارت 1 : تکنيک های روش پيشگويی دسته بندی سيستم بر اساس اين مجموعه آموزشي به خود آموزش ميدهد يا به عبارتي پارامترهاي دسته بندي را براي خود مهيا ميکند. هر نمونه يک برچسب کلاس معلوم دارد، که به طور تصادفي از مجموعه دادهها انتخاب ميشود. گام بعدي پس از مرحله آموزش، براي پيش بيني و تعيين دسته ميباشد. توسط قوانين صورت مي گيرد، آنگاه مدل ميتواند، جهت پيشگويي برچسبهاي کلاس براي دادههاي جديد -که داراي برچسب کلاس نامعلوم هستند-مورد استفاده قرار گيرد.تکنيکهاي داده كاوي كه براي دسته بندي به كار ميآيند عموماً شامل تکنيکهاي شبكه عصبي و درخت تصميم گيري هستند. دسته بندي کاربردهاي زيادي در بازرگاني، بانکداري، پزشکي، ارتباطات، کشاورزي و غيره دارد. به عنوان مثال طبقه بندي در بازاريابي هدف، تصويب اعتبار و بررسي تقلب است. از جمله کاربردهاي ديگر دسته بندي، متن کاوي ميباشد.
زير مهارت 1 : تکنيک های روش پيشگويی رگرسيون رگرسيون بهترين مدلي است که ميتواند متغيرهاي خروجي را با متغيرهاي ورودي متعدد ارتباط دهد. سادهترين حالت آن، مدل به ارزش خطي است، يعني ارتباط بين متغيرهاي ورودي و خروجي را به صورت خطي برقرار ميکند. از نقطه نظر کلي، دسته بندي و رگرسيون دو نوع اصلي از مسائل پيشگويي هستند، که دسته بندي، جهت پيشگويي مقادير گسسته و اسمي مورد استفاده قرار ميگيرد، در حالي که رگرسيون جهت پيشگويي مقادير پيوسته مورد استفاده قرار ميگيرد. انواع مدلهاي يكساني را ميتوان هم براي رگرسيون و هم براي دسته بندي استفاده کرد. براي مثال الگوريتم درخت تصميم CART را ميتوان هم براي ساخت درختهاي دسته بندي و هم درختهاي رگرسيون استفاده کرد. شبکههاي عصبي را نيز ميتوان براي هر دو مورد استفاده كرد
زير مهارت 1 : تکنيک های روش پيشگويی سريهاي زمانيتحليل سريهاي زماني تكنيكي ديگر در دادهكاوي كه هدف از آن، يافتن خصوصيات جالب توجه و نظمهاي مشخص در حجم بالاي داده است. يکي از سري هاي زماني دنبالهاي مرتب شده از مشاهدات است که،ارزش يک شيء را به عنوان تابعي از زمان در مجموعه دادههاي جمع آوري شده توصيف ميکند. رخداد وقايع متوالي در اصل مجموعهي وقايعي است كه بعد از يك واقعهي مشخص به وقوع ميپيوندند.پيش بينيپيشبيني يکي از تكنيك داده كاوي است که در اين تكنيك مقادير ممكن براي متغيرهاي نامعلوم پيشبيني ميشود. از شبكههاي عصبي و الگوريتم ژنتيك براي پيشبيني استفاده ميشود.
زير مهارت 2 : تکنيک های روش توصيفیدر روشهاي توصيفي، خواص عمومي دادهها بيان ميشود. هدف از توصيف، يافتن الگوهايي در مورد دادههاست که براي انسان قابل تفسير باشد. روش توصيفي نيز شامل تکنيکهاي: خوشه بندي، خلاصه سازي، کشف توالي (تحليل دنباله) ، قوانين انجمني ميباشد.خوشه بندي خوشه بندي، گروه بندي نمونههاي مشابهبا هم، در يک حجمداده ميباشد. خوشه بندي يک دسته بندي بدون نظارت (هدايت نشده) است که دستهها از قبل تعريف نشده اند. در خوشهبندي -بر خلاف طبقهبندي که هر داده به يک طبقهي (کلاس) از پيش مشخص شده تخصيص مييابد- هيچ اطلاعي از کلاسهاي موجود درون دادهها وجود ندارد و به عبارتي خود خوشهها نيز از دادهها استخراج ميشوند.
زير مهارت 2 : تکنيک های روش توصيفیهدف از خوشه بندي اين است که دادههاي موجود، به چند گروه تقسيم شوند و در اين تقسيم بندي دادههاي گروههاي مختلف حداکثر تفاوت ممکن را به هم داشته باشند و دادههاي موجود در يک گروه بايد بسيار به هم شبيه باشند. (تشابه يا عدم تشابه بر اساس معيارهاي اندازه گيري فاصله تعريف ميشود.) پس از اينکه دادهها به چند گروه منطقي و توجيه پذير تقسيم شدند از اين تقسيم بندي ميتوان براي کسب اطلاعات در مورد دادهها يا تقسيم دادهها جديد استفاده کنيم.خوشه بندي کاربردهاي متعددي دارد. اغلب از خوشه بندي به عنوان اولين گام در فرايندهاي داده كاوي ياد ميشود كه قبل از ساير فرايندها براي شناسايي گروهي از ركوردهاي مرتبط با هم كه بعداً بتوانند نقطه آغاز تحليلها باشند، بر روي ركوردها اعمال ميشود. در برخي موارد براي تشخيص دادههاي پرت که با ساير دادهها تفاوت چشمگير دارند (مورد کاربرد در کشف وقوع جرم و تخلف در عمليات بانکي يا در وب)، استفاده ميشود
زير مهارت 2 : تکنيک های روش توصيفی قوانين انجمنياستخراج قواعد انجمني، نوعي عمليات داده کاوي است که به جستجو براي يافتن ارتباط بين ويژگيها در مجموعه دادهها ميپردازد. نام ديگر اين روش، تحليل سبد بازار است. اين روش به دنبال استخراج قواعد، به منظور کمي کردن ارتباط ميان دو يا چند خصوصيت ميباشد. قواعد انجمني ماهيتي احتمالي دارد و به شکل اگر و آنگاه و به همراه دو معيار پشتيبان و اطمينان تعريف ميشوند. اين دو شاخص به ترتيب مفيد بودن و اطمينان از قواعد مکشوفه را نشان ميدهند.معيار اطمينان: ميزان وابستگي يک کالاي خاص را به ديگري بيان ميکند. يعني درجه وابستگي بين دو مجموعه X و Y را محاسبه ميکند و به عنوان شاخصي براي اندازه گيري توان يک قاعده در نظر گرفته ميشود.معيار پشتيبان (X,Y): نشان دهنده درصد يا تعداد تراکنش هايي (زيرمجموعههايي از اقلام خريداري شده) است که شامل هر دوي اقلام (مجموعه اقلام)X و Y باشند.
زير مهارت 2 : تکنيک های روش توصيفی قوانين انجمنيمثالهايي از کاربرد قوانين انجمني ميتواند اين گونه باشد:بررسي اينکه چه اقلامي در يک فروشگاه با هم خريداري ميشوند و اينکه چه اقلامي هيچ گاه خريداري نميشوند.بررسي ارتباط بين توانايي خواندن کودکان با خواندن داستان توسط والدين براي آنها.اگر مجموعهاي از عناصر، حداقل پشتيباني را داشته باشند، "مکرر" خوانده ميشوند. "قواعد قوي" قواعدي هستند که به طور توامان داراي مقدار پشتيبان و اطمينان بيش از آستانه باشند. با استفاده از اين مفاهيم پيدا کردن قواعد انجمني در دو گام خلاصه ميشود،: پيدا کردن مجموعههاي مکرر و استخراج قواعد قوي.
زير مهارت 2 : تکنيک های روش توصيفی خلاصه سازي (تلخيص)در برگيرنده روشهايي براي يافتن يک توصيف فشرده از زير مجموعهاي از دادهها است. به عنوان مثالي ساده ميتوان اشاره داشت به: تهيهي جدول ميانگين و انحراف معيار براي تمام فيلدها. روشهاي پيچيدهتر شامل استنتاج قواعد خلاصه، فنون مصورسازي چند متغيره و کشف رابطه تابعي بين متغيرهاست. کاربرد فنون تلخيص معمولاً در تحليل اکتشافي دادهها و توليد گزارش خودکار به کار برده ميشوند.
زير مهارت 2 : تکنيک های روش توصيفیمدلسازي وابستگي (تحليل لينک)شامل يافتن مدلي براي توصيف وابستگيهاي معني دار بين متغيرهاست. مدلهاي وابستگي در دو سطح وجود دارند: سطح ساختاري و سطح کمّي. در سطح ساختاري، مدل از طريق رسم شکل مشخص ميکند که کدام متغيرها به طور محلي به ديگري وابستهاند. در سطح کمّي، مدل قدرت وابستگيها را با مقياس عددي مشخص ميکند.وابستگيها به صورت A->B نمايش داده ميشوند كه به A مقدم و به B موخر يا نتيجه گفته ميشود. مثلاً اگر يك قانون به صورت زير داشته باشيم:" اگر افراد چكش بخرند، آنگاه آنها ميخ خواهند خريد"در اين قانون مقدم، خريد چكش و نتيجه، خريد ميخ ميباشد.
زير مهارت3: الگوريتم های خوشه بندیدر خوشهبندي بر خلاف طبقهبندي که هر داده به يک طبقه (کلاس) از پيش مشخص شده تخصيص مييابد هيچ اطلاعي از کلاسهاي موجود درون دادهها وجود ندارد و به عبارتي خود خوشهها نيز از دادهها استخراج ميشوند. لذا ميتوان گفت خوشه بندي نوعي يادگيري بدون نظارت (هدايت نشده) است يعني نوعي يادگيري است که به وسيلهي مشاهدات انجام ميشود نه با مثالها.خوشه بندي در انجام فعاليت داده کاوي در موارد زير استفاده ميشود:تجزيه و تحليل شباهت يا عدم شباهت: تحليل اينکه کدام نقاط داده در يک نمونه به يکديگر شبيه هستند.تشخيص دادههاي پرت: تشخيص دادههايي که با ساير دادهها تفاوت چشمگيري دارند.کاهش بُعد (حجم): به عنوان پيش پردازش دادهها قبل از فعاليتهاي داده کاوي، ميتوان حجم يا بُعد دادهها را به وسيلهي تکنيکهاي خوشه بندي، کاهش داد.
زير مهارت3: الگوريتم های خوشه بندیمعيارهاي ارزيابي الگوريتمهاي خوشه بندي براي ارزيابي و سنجش انواع الگوريتمهاي خوشه بندي، معيارهاي متعددي مطرح ميشود:1- امکان اعمال بر روي تعداد نمونههاي زياد2- توانايي پردازش انواع متفاوت خصيصه3- ادارهي دادههاي بعد بالا4- توانايي اداره کردن دادههاي پويا5- توانايي پردازش دادههاي پرت و اغتشاش6- کشف خوشهها با اشکال دلخواه7- ميزان وابستگي به پارامترهاي ورودي8- حساسيت به ترتيب رکوردهاي ورودي
زير مهارت3: الگوريتم های خوشه بندیطبقه بندي روشهاي خوشه بنديخوشهبندي انحصاري و خوشهبندي باهمپوشي در روش خوشهبندي انحصاري پس از خوشهبندي، هر داده دقيقأ به يک خوشه تعلق ميگيرد مانند روش خوشهبندي K-Means. ولي در خوشهبندي باهمپوشي پس از خوشهبندي، به هر داده يک درجهي تعلق به ازای هر خوشه نسبت داده ميشود. به عبارتي يک داده ميتواند با نسبتهاي متفاوتي به چندين خوشه تعلق داشته باشد. نمونهاي از آن خوشهبندي فازي است. خوشه بندي سلسله مراتبي و خوشه بندي مسطح با توجه با اينکه روشهاي خوشهبندي سلسله مراتبي اطلاعات بيشتر و دقيقتري توليد ميکنند براي تحليل دادههاي با جزئيات پيشنهاد ميشوند ولي از طرفي چون پيچيدگي محاسباتي بالايي دارند براي مجموعه دادههاي بزرگ روشهاي خوشهبندي مسطح پيشنهاد ميشوند.
زير مهارت 4 : الگوريتم AprioriApriori يک الگوريتم کلاسيک براي قوانين انجمني است.اين الگوريتم به صورت تکراري مجموعه آيتم هاي تکراري(iterative) را در پايگاه داده ها مشخص مي کند.هر تکرار 2 مرحله دارد: توليد کانديد، شماره و انتخاب کانديد. مجموعه آيتمي که شامل I نمونه از آيتم هاست را مجموعه آيتم i تايي مي نامند.(i-itemset) در تکرار i همه تکرار هاي مجموعه آيتم i تايي محاسبه مي شوند.(شمرده مي شوند)قانون X=>Yدر مجموعه تراکنش هاي پايگا ه داده ها با اطمينان (Confidence) c برقرار است، اگر c% از تراکنش هايي که شامل X هستند، شامل Y هستند.قانون X=>Yدر مجموعه تراکنش هاي پايگا ه داده ها داراي پشتيبان (Support) s است، اگر s% از تراکنش ها در پايگاه داده ها شامل XUY باشند.
زير مهارت 4 : الگوريتم AprioriApriori يک الگوريتم کلاسيک براي قوانين انجمني است.اين الگوريتم به صورت تکراري مجموعه آيتم هاي تکراري(itrative) را در پايگاه داده ها مشخص مي کند.هر تکرار 2 مرحله دارد: توليد کانديد، شماره و انتخاب کانديد. مجموعه آيتمي که شامل I نمونه از آيتم هاست را مجموعه آيتم i تايي مي نامند.(i-itemset) در تکرار i همه تکرار هاي مجموعه آيتم i تايي محاسبه مي شوند.(شمرده مي شوند)قانون X=>Yدر مجموعه تراکنش هاي پايگا ه داده ها با اطمينان (Confidence) c برقرار است، اگر c% از تراکنش هايي که شامل X هستند، شامل Y هستند.قانون X=>Yدر مجموعه تراکنش هاي پايگا ه داده ها داراي پشتيبان (Support) s است، اگر s% از تراکنش ها در پايگاه داده ها شامل XUY باشند.
زير مهارت 4 : الگوريتم Aprioriبه عنوان مثال پايگاه داده زير را در نظر بگيريد،فرض کنيد حداقل مقدار پشتيبان s=50% باشد. • در مرحله اول از اولين تکرار(توليد کانديد) همه آيتم ها به عنوان کانديد در نظر گرفته مي شوند.بنابراين 5 مجموعه آيتم 1 تايي(1-items) تشکيل مي شود.در مرحله دوم از اولين تکرار، 4 مجموعه از آيتم 1 تايي (1-items) به عنوان مجموعه L1 انتخاب مي شوند، چرا که مقدار پشتيباني آنها %50 يا بيشتر مي باشد.
زير مهارت 4 : الگوريتم Aprioriنتايج حاصل از تکرار الگوريتمApriori در تکرار اول در شکل زير آمده است: B1) count phase B2) select phase a) Generate phase
زير مهارت 4 : الگوريتم Aprioriدر تکرار دوم براي توليد مجموعه هاي C2 وL2 از نتايج مرحله قبلي استفاده مي شود.همه ي زير مجموعه هاي يک مجموعه آيتم بزرگ نيز بايد شرط حداقل پشتيبان را برآورده کنند.الگوريتم Apriori براي توليد مجموعه کانديد C2 از L1*L2 استفاده مي کند، که عملگر * به صورت زير توصيف مي گردد:Lk * Lk ={ XUY where X,Y ɛ Lk ,|X∩Y=K-1 } نتايج حاصل از اجراي عملگر* توسط الگوريتم Apriori در تکرار دوم در اسلايد بعدی آمده است.
زير مهارت 4 : الگوريتم Aprioriمجموعه آيتم هاي 2 تايي که شرط حداقل پشتيباني را برآورده مي کنند، ملاحظه مي فرماييد.به همين ترتيب در تکرار سوم ، مجموعه C3 از روي L2 توسط L2 * L2 توليد مي شود. مجموعه آيتم هاي دو تايي که داراي عضو اول يکسان هستند، همان ابتدا انتخاب مي شوند: {B,C}و {B,E} سپس الگوريتم بررسي مي کند که آيا مجموعه {C,E} خودش يک مجموعه آيتم 2 تايي هست يا خير، با توجه به شرط اينکه {C,E} خودش يک مجموعه آيتم 2 تايي هست، معلوم مي شود که همه زير مجموعه هاي {B,C,E} نيز شرط حداقل پشتيبان را فراهم مي نمايند. بنابراين {B,C,E} يک کانديد يک کانديد 3-itemset است.Apriori سپس تمام تراکنش هاي پايگاه داده را بررسي مي کند و L3 را بصورت ذيل تعريف مي نمايد:
زير مهارت 5 : الگوريتم K-Meansاين الگوريتم يک متد ساده تکرار شونده است، و براي خوشه بندي مجموعه اي از داده ها ي در اختيار در تعداد مشخصي خوشه (K) که کاربر تعيين مي کند کاربرد دارد.الگوريتمK_Means توسط محققين متعدد و به روش هاي مختلفي بيان شده است. الگوريتمK_Means بيشترين استفاده در عمل تقسيم بندي خوشه ها را دارد و الگوريتمي بسيار ساده، قابل فهم و بطور منطقي قابل مقياس بندي است و مي توان آن را به سادگي اصلاح کرد تا با سناريوهاي مختلف مانند يادگيري شبه مشاوره يا داده هاي جاري سروکار داشته باشد. پيشرفت ها و کليت هاي مداوم الگوريتم پايه، ارتباط مداوم آن را تضمين مي کند و به تدريج بر تأثير گزاري آن افزوده است.اين الگوريتم پارامتر k را به عنوان ورودي گرفته و مجموعهي n شيء را به k خوشه افراز ميکند به طوري که سطح شباهت داخلي خوشهها بالا و سطح شباهت اشياء بيرون خوشهها پايين باشد. شباهت هر خوشه نسبت به متوسط اشياء آن خوشه -که مرکز خوشه ناميده ميشود- سنجيده ميشود.
زير مهارت 5 : الگوريتم K-Meansگام هاي الگوريتم k-meansگام 1: انتخاب k نقطهي دلخواه به عنوان مراکز خوشههاي ابتدايي به صورت تصادفي (بهتر است k نقطه از n نقطهي موجود انتخاب شود.)گام 2: تخصيص هرشي به خوشهها با توجه به بيشترين شباهت آن به مراکز خوشهها. گام 3: به روز کردن مراکز خوشهها به اين معني که براي هر خوشه، ميانگين اشياء آن خوشه، محاسبه ميشود.گام 4: بازگشت به قدم 2با توجه به مراکز جديد خوشهها، تا هنگامي که هيچ تغييري در خوشهها رخ ندهد. (در اين حالت الگوريتم پايان يافته است)
زير مهارت 5 : الگوريتم K-Meansويژگيهاي الگوريتم k-meansپيچيدگي محاسباتي الگوريتم: O(tkn).( n: تعداد کل اشيا، k: تعداد خوشهها، t : تعداد تکرارهاي الگوريتم).پارامتر ورودي: تعداد خوشهها (k) توسط کاربر بايد تعيين شود و راه خاصي براي تعيين آن مشخص نشده است. (يک راه، امتحان k هاي مختلف و بررسي معيار مربع خطا براي هر k ميباشد)نوع دادهي ورودي: اين الگوريتم با دادههاي از نوع عددي، انجام پذير است. مقياس پذيري: اين الگوريتم براي پايگاه دادههاي بزرگ، کارا نيست و نياز به توسعه دارد.مواجهه با اغتشاش: از مهمترين نقاط ضعف اين روش، حساسيت در برابر اغتشاشات و نقاط پرت است زيرا در اين روش از ميانگين دادهها استفاده شده که به راحتي تحت تأثير دادههاي پرت قرار ميگيرد.
زير مهارت 5 : الگوريتم K-Meansويژگيهاي الگوريتم k-meansشکل خوشه: اين الگوريتم هنگامي که خوشهها به صورت ابرهاي فشرده هستند و اين ابرها نيز خودشان از يکديگر مجزا هستند، به خوبي عمل ميکند لذا اين روش تنها خوشههاي کروي شکل را تشخيص داده و براي کشف خوشههايي با شکلهاي پيچيده به خصوص غير محدب، مناسب نيست. اين روش اغلب به يک بهينه محلي ختم ميشود نه يک بهينهي سراسري.
زير مهارت 5 : الگوريتم K-Meansرفع اشکالات الگوريتم k-means: براي رفع اشکالات الگوريتم k-means روشهايي توسعه يافته که در انتخاب k مرکز اوليه، محاسبهي عدم شباهت و استراتژيهاي محاسبه مراکز خوشهها با يکديگر متفاوتند. يکي از اين تغييرات اين است که ابتدا روي پايگاه داده، توسط الگوريتم تجميع سلسله مراتبي، تعداد خوشههاي مطلوب را پيدا کرده و سپس از خوشههاي بدست آمده، به عنوان مرحله اول الگوريتم k-means استفاده ميشود.يکي ديگر از روشهاي مشابهk-means روش k-modes ميباشد. که توسعه يافتهي k-means براي استفاده از دادههاي طبقهاي است و به جاي استفاده از مراکز خوشهها، از مدهاي خوشهها (روش مبتني بر فراواني) استفاده ميکند. لذا از يک رابطهي اندازه گيري عدم شباهت جديد براي دادههاي اسمي يا طبقهاي استفاده ميکند. از مزاياي روش فوق، جبران نقص حساسيت نسبت به دادههاي دور از مرکز ميباشد زيرا ميانه (مد) از مقادير بزرگ تأثير نميپذيرد. اما ايراد روش اين است که بعضاً نماينده خوشهها از ميان اشيا انتخاب نميشود.
خلاصه مهارتفنون داده کاوي، گروه نامتجانسي از علوم مختلف را شکل ميدهند هر تکنيکي که بتواند بينش جديدي از دادهها را استخراج کند ميتواند داده کاوي به حساب آيد. به طور خلاصه، داده کاوي پل ارتباطي ميان علم آمار،علم کامپيوتر،هوش مصنوعي، الگو شناسي، فراگيري ماشين و بازنمايي بصري داده ميباشد. ميتوان گفت در داده کاوي، تئوريهاي پايگاه دادهها، هوش مصنوعي، يادگيري ماشين و علم آمار را در هم ميآميزند تا زمينه کاربردي فراهم شود.داده کاوي يکي از پيشرفت هاي اخير در صنعت مديريت داده ها است.در اصل داده کاوي مجموعه اي از فنون مي باشد که به شخص اين امکان را مي دهد تا وراي داده پردازي معمولي حرکت کند و به استخراج اطلاعاتي درانبوه داده هاي مخفي يا پنهان دست پيدا کند.براي داده کاوي الگوريتم ها و روش هاي بسياري معرفي شده است ولي موضوع مورد نظر انتخاب تعدادي از اين الگوريتم ها و توضيح مختصر در مورد آنها مي باشد.
کلمات کليدي مهارتAssociation rules-Classification-Cluster AnalysisGenetic algorithms-High Dimension-Market Basket AnalysisPredict-Time series
آزمون مهارت آزمونچهار گزينه اي آزمونتشريحي
1. تکنيک هاي « رگرسيون » و « قوانين انجمن » به ترتيب جزء کداميک از روش هاي اصلي مي باشند؟ • الف) توصيفي - پيشگويي • ب) هردو پيشگويي • ج) هر دو توصيفي • د) پيشگويي- توصيفي آزمون چهار گزينه اي
2. تعريف زير بيان کننده کداميک از روش هاي داده کاوي مي باشد؟ • « ارزشيابي ويژگيهاي مجموعهاي از دادهها و سپس اختصاص دادن آنها به مجموعهاي از گروههاي از پيش تعريف شده است و جهت پيشگويي مقادير گسسته و اسمي مورد استفاده قرار ميگيرد.» • الف) رگرسيون • ب) دسته بندي • ج) قوانين انجمني • د) موارد الف و ج آزمون چهار گزينه اي
3.کداميک از موارد زير صحيح نمي باشد؟ • الف) رگرسيون بهترين مدلي است که ميتواند متغيرهاي خروجي را با متغيرهاي ورودي متعدد ارتباط دهد. • ب) دسته بندي، جهت پيشگويي مقادير گسسته و اسمي، و رگرسيون جهت پيشگويي مقادير پيوسته مورد استفاده قرار ميگيرد. • ج) الگوريتم درخت تصميم CARTفقط براي ساخت درختهاي دسته بندي استفاده مي شود. • د) روش توصيفي شامل تکنيکهاي خوشه بندي، خلاصه سازي، کشف توالي (تحليل دنباله) ، قوانين انجمني ميباشد. آزمون چهار گزينه اي
4. به ساختار سلسله مراتبي حاصل از روشهاي خوشهبندي سلسله مراتبي .......... گفته ميشود. • الف) Cluster • ب) Dendogram • ج)Datalog • د) Dataset آزمون چهار گزينه اي
5. کداميک از موارد زير جزء ويژگي هاي ارزيابي الگوريتم خوشه بندي نيست؟ • الف) امکان اعمال بر روي تعداد نمونههاي زياد • ب) ادارهي دادههاي بعد بالا • ج) عدم توانايي پردازش دادههاي پرت و اغتشاش • د) توانايي پردازش انواع متفاوت خصيصه آزمون چهار گزينه اي
6. کداميک از موارد زير صحيح نمي باشد؟ • الف) در روش خوشهبندي انحصاري پس از خوشهبندي، هر داده دقيقا به يک خوشه تعلق ميگيرد مانند روش خوشهبندي K-Means. • ب) در خوشهبندي باهمپوشي پس از خوشهبندي، به هر داده يک درجهي تعلق به ازاء هر خوشه نسبت داده ميشود. • روش خوشه بندي سلسله مراتبي داراي پيچيدگي محاسباتي کم مي باشد. • د) مجموعه دادههاي بزرگ روشهاي خوشهبندي مسطح پيشنهاد ميشوند. آزمون چهار گزينه اي
7. کدام گزينه در مورد الگوريتم Apriori صحيح نمي باشد؟ • الف) Apriori يک الگوريتم کلاسيک براي قوانين انجمني است. • ب) اين الگوريتم به صورت تکراري مجموعه آيتم هاي تکراري(itrative) را در پايگاه داده ها مشخص مي کند.هر تکرار 2 مرحله دارد: توليد کانديد، شماره و انتخاب کانديد. • ج) Apriori يک الگوريتم پر کاربرد در خوشه بندي است. • د) موارد الف و ب. آزمون چهار گزينه اي
8. کداميک از گزينه هاي زير صحيح است؟ • الف) الگوريتمk_Means بيشترين استفاده در عمل تقسيم بندي خوشه ها را دارد. • ب) پيچيدگي محاسباتي الگوريتمk-means: O(tkn). • ج) نوع داده هاي ورودي اين الگوريتم از نوع عددي مي باشد. • د) همه موارد. آزمون چهار گزينه اي
9. اين روش توسعه يافتهي k-means است که براي استفاده از دادههاي طبقهاي، به جاي استفاده از مراکز خوشهها، از مدهاي خوشهها (روش مبتني بر فراواني) استفاده ميکند. الف) الگوريتم k-modes ب) الگوريتم EM ج) الگوريتم CART د) الگوريتم Apriori آزمون چهار گزينه اي
فهرست مطالب واژگان تخصصي کلمات کليدي آزمون کتابنامه • داده کاوي را در يک جمله تعريف کرده و ارتباط آن را با کشف دانش ذکر نماييد. • هدف از انجام داده کاوي پيشگويانه چيست؟ • هدف از انجام داده کاوي توصيفي چيست؟ • تفاوت هاي بين علم آمار و داده کاوي را بيان نماييد. • چرخه عمر يک پروژه داده کاوي را نام ببريد. • گام درک داده ها در داده کاوي چند بخش است؟ آنها را نام ببريد. • راهبردهاي برخورد با مقادير مفقودشده را نام ببريد. • تکنيک هاي تلخيص داده ها را نام ببريد. آزمون تشريحي صفحه قبل صفحه بعد
پاسخنامه سوال تشريحي 1داده کاوي فرآيندي تکراری است که پيشرفت آن در کشف دانش ، هم به روش دستي و هم به روش خودکار امکان پذير است. درحقيقت ، داده کاوي ، تلاش مشترک بين انسان ها وکامپيوترهاست که در آن، جستجوي لازم براي کشف اطلاعات جديد وارزشمند ازميان حجم بسيار زياد داده ها صورت مي گيرد.
پاسخنامه سوال تشريحي 2در انتهاي طيف پيشگويي، هدف داده کاوي ايجاد مدلي است که به صورت يک برنامه و کداجرايي مي باشد و مي تواند براي دسته بندي ، پيشگويي ، برآورد و ديگر اعمال مشابه مورد استفاده قرارگيرد
پاسخنامه سوال تشريحي 3در انتهاي طيف توصيف ، هدف ، بدست آوردن يک درک و شناخت از سيستم تحليل شده از طريق کشف الگوها و روابط آشکار در مجموعه داده هاي بزرگ مي باشد