E N D
مقدمه اي بر داده کاوي و اکتشاف دانش استاد : جناب آقاي دکتر رهگذر تهيه کننده : يوحنا قديمي - علی عباسی - کاوه پاشايي
مقدمه • امروزه با گسترش سيستم هاي پايگاهي و حجم بالاي داده ها ي ذخيره شده در اين سيستم ها ، نياز به ابزاري است تا بتوان داده هاي ذخيره شده پردازش کرد و اطلاعات حاصل از اين پردازش را در اختيار کاربران قرار داد . • با استفاده ار پرسش هاي ساده در SQL و ابزارهاي گوناگون گزارش گيري معمولي ، مي توان اطلاعاتي را در اختيار کاربران قرار داد تا بتوانند به نتيجه گيري در مورد داده ها و روابط منطقي ميان آنها بپردازند • وقتي که حجم داده ها بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمي توانند الگوهاي مفيد را در ميان حجم انبوه داده ها تشخيص دهند و يا اگر قادر به اين کار هم با شند ، هزينه عمليات از نظر نيروي انساني و مادي بسيار بالا است
مقدمه • از سوي ديگر کاربران معمولا فرضيه اي را مطرح مي کنند و سپس بر اساس گزارشات مشاهده شده به اثبات يا رد فرضيه مي پردازند ، در حالي که امروزه نياز به روشهايي است که اصطلاحا به کشف دانشبپردازند يعني با کمترين دخالت کاربر و به صورت خودکار الگوها و رابطه هاي منطقي را بيان نمايند . • داده کاوييکي از مهمترين اين روشها است که به وسيله آن الگوهاي مفيد در داده ها با حداقل دخالت کاربران شناخته مي شوند و اطلاعاتي را در اختيار کاربران و تحليل گران قرار مي دهند تا براساس آنها تصميمات مهم و حياتي در سازمانها اتخاذ شوند .
مفاهيم پايه در داده کاوي • در داده کاوي معمولا به کشف الگوهاي مفيد از ميان داده ها اشاره مي شود . منظور از الگوي مفيد ، مدلي در داده ها است که ارتباط ميان يک زير مجموعه از داده ها را توصيف مي کند و معتبر ، ساده ، قابل فهم و جديد است .
تعريف داده کاوي • داده کاوي عبارت است از فرايند استخراج اطلاعات معتبر ، از پيش ناشناخته ، قابل فهم و قابل اعتماد از پايگاه داده هاي بزرگ و استفاده از آن در تصميم گيري در فعاليت هاي تجاري مهم. • اصطلاح داده کاوي به فرايند نيم خودکار تجزيه و تحليل پايگاه داده هاي بزرگ به منظور يافتن الگوهاي مفيد اطلاق مي شود • داده کاوي يعني جستجو در يک پايگاه داده ها براي يافتن الگوهايي ميان داده ها
تعريف داده کاوي • داده کاوي يعني استخراج دانش کلان ، قابل استناد و جديد از پايگاه داده ها ي بزرگ . • داده کاوي يعني تجزيه و تحليل مجموعه داده هاي قابل مشاهده براي يافتن روابط مطمئن بين داده ها .
کاربردهاي داده کاوي • خرده فروشي : از کاربردهاي کلاسيک داده کاوي است که مي توان به موارد زير اشاره کرد : • تعيين الگوهاي خريد مشتريان • تجزيه و تحليل سبد خريد بازار • پيشگويي ميزان خريد مشتريان از طريق پست(فروش الکترونيکي)
کاربردهاي داده کاوي • بيمه : • تجزيه و تحليل دعاوي • پيشگويي ميزان خريد بيمه نامه هاي جديد توسط مشتريان • پزشکي : • تعيين نوع رفتار با بيماران و پيشگويي ميزان موفقيت اعمال جراحي • تعيين ميزان موفقيت روشهاي درماني در برخورد با بيماريهاي سخت
کاربردهاي داده کاوي • بانکداري : • پيش بيني الگوهاي کلاهبرداري از طريق کارتهاي اعتباري • تشخيص مشتريان ثابت • تعيين ميزان استفاده از کارتهاي اعتباري بر اساس گروههاي اجتماعي
مراحل فرايند کشف دانش از پايگاه داده ها • انبارش داده ها • انتخاب داده ها • تبديل داده ها • کاوش در داده ها • تفسير نتيجه
انبارش داده ها • هدف از فرايند انبارش داده ها فراهم کردن يک محيط يکپارچه جهت پردازش اطلاعات است . • در اين فرايند ، اطلاعات تحليلي و موجز در دوره هاي مناسب زماني سازماندهي و ذخيره مي شود تا بتوان از آنها در فرايند هاي تصميم گيري که از ملزومات آن داده کاوي است ، استفاده شود • انبار داده ها ، مجموعه اي است موضوعي، مجتمع، متغير در زمانو پايداراز داده ها که به منظور پشتيباني از فرايند مديريت تصميم گيري مورد استفاده قرار مي گيرد
انتخاب داده ها • براي فرايند داده کاوي بايد داده ها ي مورد نياز انتخاب شوند • به عنوان مثال در يک پايگاه داده هاي مربوط به سيستم فروشگاهي ، اطلاعاتي در مورد خريد مشتريان ، خصوصيات آماري آنها ، تامين کنندگان ، خريد ، حسابداري و ... وجود دارند . • براي تعيين نحوه چيدن قفسه ها تنها به داده ها يي در مورد خريد مشتريان و خصوصيات آماري آنها نياز است . • حتي در مواردي نياز به کاوش در تمام محتويات پايگاه نيست بلکه ممکن است به منظور کاهش هزينه عمليات ، نمونه هايي از عناصر انتخاب و کاوش شوند .
تبديل داده ها • هنگامي که داده هاي مورد نياز انتخاب شدند و داده ها ي مورد کاوش مشخص گرديدند ، معملا به تبديلات خاصي روي داده ها نياز است . • نوع تبديل به عمليات و تکنيک داده کاوي مورد استفاده بستگي دارد : تبديلاتي ساده همچون تبديل نوع داده اي به نوع ديگر تا تبديلات پيچيده تر همچون تعريف صفات جديد با انجام عملياتهاي رياضي و منطقي روي صفات موجود .
کاوش در داده ها • داده هاي تبديل شده با استفاده از تکنيکها و عملياتهاي داده کاوي مورد کاوش قرار مي گيرند تا الگوهاي مورد نظر کشف شوند .
تفسير نتيجه • اطلاعات استخراج شده با توجه به هدف کاربر تجزيه و تحليل و بهترين نتايج معين مي گردند . • هدف از اين مرحله تنها ارائه نتيجه (بصورت منطقي و يا نموداري) نيست ، بلکه پالايش اطلاعات ارايه شده به کاربر نيز از اهداف مهم اين مرحله است .
عملياتهاي داده کاوي • مدلسازي پيشگويي کننده • تقطيع پايگاه داده ها • تحليل پيوند • تشخيص انحراف
معیارهای انتخاب عملیات داده کاوی • تناسب با نوع داده هاي ورودي • شفافيت خروجي داده کاوي • مقاومت در مقابل اشتباه در مقادير داده ها • ميزان صحت خروجي • توانايي کار کردن با حجم بالاي داده ها
عملياتها و تکنيکهاي داده کاوي • مدلسازي پيشگويي کننده • رده بندي ، پيشگويي مقدار • تقطيع پايگاه داده ها • خوشه بندي آماري ، خوشه بندي • تحليل پيوند • کشف بستگي ، کشف الگوهاي متوالي ، کشف دنباله هاي زماني مشابه • تشخيص انحراف • آمار ، تجسم مدل
تحليل پيوند • کشف بستگي • کشف الگوهاي متوالي • کشف دنباله هاي زماني مشابه
پارامترهای قوانين وابستگي • درجه پشتيباني • کسري از جمعيت است که در يک قاعده ، هم مقدم و هم تالي را دارند • درجه اطمينان • در يک جمعيت مورد بررسي ، کسري از موارد است که وقتي مقدم قاعده در آنها ظاهر شده است ، تالي نيز در آنها وجود دارد
مدلها و الگوريتمهاي داده كاوي • شبكه هاي عصبي • شبكه هاي عصبي به طور خاصي مورد استفاده اند چرا كه آنها ابزاري موثر براي مدلسازي مسائل بزرگ و پيچيده كه ممكن است در آنها صدها متغير پيش بيني كننده كه فعل و انفعالات زيادي دارند وجود داشته باشد • شبكه هاي عصبي مي توانند در مسائل طبقه بندي يا حدسهاي بازگشتي(كه در آنها متغير خروجي پيوسته است) استفاده شوند.
مدلها و الگوريتمهاي داده كاوي • يك شبكه عصبي با يك لايه داخلي شروع مي شود كه در آن هر گره به يك متغير پيشگو منسوب مي گردد. • اين گره هاي ورودي به يك تعداد از گره ها در لايه پنهان متصل مي شوند.گره ها در لايه پنهان مي توانند به گره هايي در يك لايه پنهان ديگر يا به يك لايه خروجي متصل شود. • لايه خروجي خود شامل يك يا بيشتر متغيرهاي جواب مي باشد.
درخت هاي انتخاب • درخت هاي انتخاب راهي براي نمايش يك سري از قوانين كه به يك كلاس يا مقدار منجر مي شود مي باشند. • براي مثال شما ممكن است بخواهيد درخواستهاي وام را برحسب ريسك اعتبار خوب يا بد طبقه بندي كنيد.
استنتاج قانون • استنتاج قانون روشي براي بدست آوردن يك سري از قوانين براي طبقه بندي موارد مي باشد. • اگرچه درختهاي تصميم مي توانند يك سري قوانين توليد كنند روشهاي استنتاج قانون يك مجموعه از قوانين وابسته كه ضرورتا درختي تشكيل نمي دهند را توليد مي نمايد. • چون استنتاج كننده قوانين لزوما انشعابي در هر سطح قرار نمي دهد و مي تواند گام بعدي را تشخيص دهد گاهي اوقات مي تواند الگوهاي مختلف و بهتري را براي طبقه بندي بيابد. • برخلاف درختان قوانين توليدي ممكن است تمام حالتهاي ممكن را پوشش ندهند.
الگوريتمهاي ژنتيك • الگوريتمهاي ژنتيك براي يافت الگوها استفاده نمي شود بلكه بيشتر به منظور راهنمايي در مورد فرآيند يادگيري الگوريتمهاي داده كاوي مانند شبكه هاي عصبي مورد استفاده قرار مي گيرد. • الگوريتمهاي ژنتيك به عنوان يك متد جهت انجام يك جستجوي هدايت شده براي مدلهاي خوب در فضاي حل مساله عمل مي كند.
الگوريتمهاي ژنتيك • اين الگوريتمها, الگوريتمهاي ژنتيك ناميده مي شوند چون بطور بي قاعده اي الگوي تكامل زيستي كه در آن اعضاي يك نسل بر سر انتقال خصوصيات خود به نسل بعد رقابت مي كنند تا نهايتا بهترين مدل يافت شود را دنبال مي كنند. • اطلاعاتي كه بايد انتقال داده شود در قالب كروموزمها كه شامل پارامترهايي براي ساختن مدل مي باشد قرار مي گيرد.
گامهاي اصلي داده كاوي جهت كشف دانش • تعريف مساله • ساختن پايگاه داده مربوط به داده كاوي • جستجوي داده • آماده ساختن داده براي مدل سازي • ساختن مدل • ارزيابي مدل • ساخت مدل ونتايج
مراحل لازم براي ساخت يك پايگاه داده داده كاوي • جمع آوري داده ها • توضيح داده ها • انتخاب داده ها • تعيين كيفيت داده ها و پاك كردن آن • تثبيت و يكپارچگي • ساختن فوق داده (داده هايي كه خود بيانگر توضيحي در مورد داده هاي موجود مي باشند.) • باركردن پايگاه داده مربوط به داده كاوي • نگهداري پايگاه داده مربوط به داده كاوي
آماده سازي داده براي مدل سازي • انتخاب متغيرها • انتخاب سطرها • ساختن متغيرهاي جديد • تغيير شكل متغيرها
منابعو مراجع: • [1] Introduction to Data Mining and Knowledge Discovery By Two Crows Corporation • [2] Jeffery W. Seifert , Analyst in information science and Technology Policy, ‘ Data Mining : An Overview ‘ December 2004. • [3] David J. HAND , Data Mining: Statistics and More? , December 2002. • [4]Eamonn Keogh , Stefano Lonardi , Chotirat Ann Ratanamahatana , ‘Towards Parameter-Free Data Mining ‘ Semtember 2005.