1 / 100

بسم الله الرحمن الرحیم

بسم الله الرحمن الرحیم. وب سایت تخصصی استادان و دانشجویان کامپیوتر ایران www.Aiapir.com. انتخاب ويژگی برای مقاصد داده کاوی بر مبنای ترکيب الگوريتم ژنتيک و مورچگان. ارائه کننده : دکتر مهدی صادق زاده. فهرست مطالب. آشنایی با داده کاوی آشنایی با الگوریتم ژنتیک آشنایی با الگوریتم مورچگان

elias
Download Presentation

بسم الله الرحمن الرحیم

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. بسم الله الرحمن الرحیم وب سایت تخصصی استادان و دانشجویان کامپیوتر ایران www.Aiapir.com

  2. انتخاب ويژگی برای مقاصد داده کاوی بر مبنای ترکيب الگوريتم ژنتيک و مورچگان ارائه کننده : دکتر مهدی صادق زاده

  3. فهرست مطالب • آشنایی با داده کاوی • آشنایی با الگوریتم ژنتیک • آشنایی با الگوریتم مورچگان • روش های انتخاب ویژگی • انتخاب ویژگی توسط ترکیب الگوریتم ژنتیک و مورچگان • مراجع

  4. گرایشات جریان داده ها • تولید داده های زیاد • بانک، دیگر تراکنش های تجاری • داده : ستاره شناسی، زیست شناسی، و غیره • وب، متن، و تجارت الکترونیکی

  5. بزرگترین پایگاه های داده در 2003 • پایگاه داده های تجاری • طبق گزارش winter Corp. 2003 Survey : France Telecom بزرگترین پایگاه داده حمایت از تصمیم گیری دارند تقریبا 30TB • وب • جستجوی Google در 4 بیلیون صفحه شامل صدها ترابایت می باشد • آرشیو اینترنت (www.archive.org) تقریبا 300 TB

  6. نرخ رشد داده • دو برابر اطلاعات در سال 2002 نسبت به سال 1999ایجاد شده بود. (تقریبا 30 درصد نرخ رشد) • داده کمی بوسیله یک انسان مورد نگرش قرار می گیرد • کشف دانش برای حس و استفاده از داده مورد نیاز است

  7. نواحی کاربرد یادگیری ماشین/داده کاوی • علم • ستاره شناسی، زیست شناسی، کشف دارو، و ... • تجاری • تبلیغات، مدیریت ارتباط با مشتری (CRM) ، سرمایه گذاری، کارخانه سازی، تجارت الکترونیکی، ارتباطات، مراقبت پزشکی، و ... • وب • موتورهای جستجو، و ... • دولتی • اعمال قانون، تاریخچه متقلبان مالیات، و ...

  8. مطالعه موردی : ارزیابی مخاطره موجودی • وضعیت : شخصی برای یک وام اقدام می کند • وظیفه : آیا بانک اعطای وام را تصویب نماید؟ • توجه : افرادی که بالاترین موجودی را دارند نیازی به وام ندارند، و افرادی که پایین ترین موجودی را دارند احتمالا قدرت بازپرداخت را ندارند. بهترین مشتریان بانک در میانه این دو هستند.

  9. مخاطره موجودی - نتایج • بانک ها مدل های موجودی را با استفاده از روش های متنوع یادگیری ماشین توسعه می دهند • افزایش وام مسکن و کارت اعتباری نتایج قادر بودن به تخمین اینکه یک فرد احتمالا وام را بازپرداخت ننماید، ارائه می نمایند. • در بسیاری از کشورها توسعه یافته است

  10. تجارت الکترونیکی موفق – مطالعه موردی • یک شخص یک کتاب (محصول) از Amazon.comخریداری می کند. • وظیفه : توصیه دیگر کتابها (محصولاتی) که این فرد احتمالا خریداری می کند. • آمازون بر اساس کتاب های خریداری شده، خوشه بندی را انجام می دهد • مشتریانی که کتاب “Advances in Knowledge Discovery and Data Mining” را خریداری کرده اند، همچنین کتاب “Data Mining: Practical MachineLearning Tools and Techniques with Java Implementations” را خریداری کرده اند. • برنامه توصیه کاملا موفق بوده است

  11. تعریف کشف دانش کشف دانش در داده عبارت است از فرآیند غیر جزئی شناسایی الگوهای • معتبر • جدید • مفید • و قابل درک در داده from Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, (Chapter 1), AAAI/MIT Press 1996

  12. Related Fields Machine Learning Visualization Data Mining and Knowledge Discovery Statistics Databases

  13. آمار، یادگیری ماشین و داده کاوی • آمار • بیشتر مبتنی بر نظریه • بیشتر متمرکز بر روی آزمایش نظریه ها • یادگیری ماشین • مکاشفه ای تر • متمرکز بر روی بهبود کارآیی یک عامل یادگیرنده • نگرشی بر یادگیری بلادرنگ و رباتیک ، این نواحی بخشی از داده کاوی نیستند • داده کاوی و کشف دانش • نظریه و مکاشفه را یکپارچه می نماید • متمرکز بر روی فرآیند کامل کشف دانش، شامل پاکسازی داده، یادگیری، و یکپارچه سازی و بصری سازی نتایج • تمایزات فازی می باشند witten&eibe

  14. Monitoring CRISP-DM جریان فرآیند کشف دانش بر اساس www.crisp-dm.org

  15. نکات تاریخی : چندین نام برای داده کاوی • جستجو و لاروبی داده ها Data Fishing, Data Dredging: 1960- • بوسیله آمارگران استفاده می شد • داده کاویData Mining :1990 -- • در پایگاه داده و تجارت استفاده شد • کشف دانش در پایگاه های داده Knowledge Discovery in Databases (1989-) • بوسیله انجمن هوش مصنوعی و یادگیری ماشین استفاده شد امروزه داده کاوی و کشف دانش بصورت قابل معاوضه استفاده می شوند

  16. وظایف اساسی در داده کاوی • طبقه بندی Classification : تخمین کلاس یک قلم • خوشه بندی Clustering : یافتن خوشه ها در داده • استخراج روابط انجمنی Associations : مثلا غالبا A & B & C رخ می دهند • بصری سازی Visualization : برای تسهیل کشف انسان • خلاصه سازی Summarization : توصیف یک گروه • کشف انحرافDeviation Detection : یافتن تغییرات • تخمین Estimation : پیش بینی یک مقدار پیوسته • تحلیل پیوند Link Analysis : یافتن ارتباطات • …

  17. وظایف داده کاوی : طبقه بندی یادگیری روشی برای تخمین کلاس نمونه از روی نمونه های (طبقه بندی شده) پیش برچسب خورده روشهای متنوع : آمار درختهای تصمیم گیری شبکه های عصبی ...

  18. وظایف داده کاوی : خوشه بندی یافتن گروه بندی ”طبیعی“ از نمونه های داده ای که برچسب ندارند

  19. یافتن الگوها • هدف : برنامه هایی که الگوها و نظام ها در داده را کشف می کنند • الگوهای قوی منجر به تخمین های خوب می شوند • مسئله1 : اکثر الگوها مورد علاقه نیستند • مسئله2 : الگوها ممکن است غیر دقیق باشند • مسئله3 : داده ممکن است منحرف و یا گم شود

  20. تکنیک های یادگیری ماشین • الگوریتم هایی برای کسب توصیفات ساختاری از مثالها • توصیفات ساختاری الگوها را صریحا نمایش می دهند • می توانند برای پیشگویی نتایج در وضعیت جدید استفاده شوند • می توانند در درک و تشریح چگونگی اشتقاق تخمین استفاده شوند • این روش ها از هوش مصنوعی، آمار، و تحقیقاتی روی پایگاه های داده سرچشمه گرفته اند

  21. طبقه بندی یادگیری روشی برای تخمین کلاس نمونه از روی نمونه های (طبقه بندی شده) برچسب خورده روش های متنوع :رگرسیون درخت های تصمیم گیری بیز شبکه های عصبی ... Given a set of points from classes what is the class of new point ?

  22. طبقه بندی : رگرسیون خطی • رگرسیون خطی w0 + w1 x + w2 y >= 0 • رگرسیون wi را از روی داده ها محاسبه می کند تا خطای مربعات را حداقل سازد بطوریکه برازنده داده ها باشد • به اندازه کافی منعطف نیست

  23. طبقه بندی : درخت های تصمیم گیری if X > 5 then blue else if Y > 3 then blue else if X > 2 then green else blue Y 3 X 2 5

  24. طبقه بندی : شبکه های عصبی • می تواند نواحی پیچیده تر را انتخاب نماید • می تواند دقیق تر عمل کند • می تواند برازندگی زیادی برای داده ها داشته باشد- الگوها را در اغتشاش تصادفی می یابد

  25. مسئله آب و هوا داده های گذشته را در نظر بگیرید آیا می توانید قوانینی برای برگزاری بازی/ عدم برگزاری بازی ارائه دهید؟ بازی چیست؟

  26. مسئله آب و هوا • شرایط برای انجام بازی گلف

  27. داده آب و هوا با صفات خاصه مخلوط • برخی صفات خاصه دارای مقادیر عددی هستند

  28. CPU تخمین کارآیی • مثال : 209 پیکربندی مختلف کامپیوتر • تابع رگرسیون خطی

  29. یادگیری به عنوان جستجو • یادگیری استنتاجی : یافتن توصیف یک مفهوم که برازنده داده ها باشد • مثال : مجموعه قوانین به عنوان زبان توصیف • فضای جستجوی بزرگ ولی متناهی • راه حل ساده : • شمارش فضای مفهومی • حذف توصیفگرهایی که برازنده مثالها نیستند • نگهداری توصیفگرهایی که شامل مفهوم مقصد می باشند witten&eibe

  30. شمارش فضای مفهومی • فضای حالت برای مسئله آب و هوا • تعداد ترکیبات ممکن 4 x 4 x 3 x 3 x 2 = 288 • با 14 قانون : 2.7x1034 مجموعه قوانین ممکن • راه حل : الگوریتم حذف کاندید • دیگر مسائل عملی : • ممکن است بیش از یک توصیف موجود باشد • ممکن است توصیفی موجود نباشد • زبان قادر به توصیف مفهوم مقصد نباشد • یا داده شامل اغتشاش باشد witten&eibe

  31. تمایل • تصمیمات مهم در سیستم های یادگیری • زبان توصیف مفهوم • ترتیب جستجوی فضا • روشی که از برازندگی اضافی جهت پرورش داده های خاص اجتناب شود • موارد زیر ”تمایل“ جستجو را شکل می دهند • تمایل زبان • تمایل جستجو • تمایل اجتناب از برازندگی اضافی

  32. تمایل زبان • سوال مهم : • آیا زبان عمومی است یا آنچه که می تواند یادگرفته شود محدود می نماید؟ • زبان عمومی می تواند زیر مجموعه های دلخواهی از مثال ها را بیان نماید • اگر زبان شامل منطق یا ”فصل“ باشد عمومی است • مثال : مجموعه های قوانین • دانش دامنه می تواند برای مستثنی کردن برخی توصیفات مفهوم در جستجو استفاده شود

  33. تمایل جستجو • مکاشفه جستجو • جستجوی حریصانه : انجام بهترین حرکت تک مرحله ای • جستجوی پرتو : نگهداری چندین پیشنهاد • … • جهت جستجو • عام به خاص • مانند اختصاصی کردن یک قانون با افزودن شرایط به آن • خاص به عام • مانند تعمیم یک نمونه مجزا به یک قانون

  34. تمایل اجتناب از برازش اضافی • می تواند به عنوان شکلی از تمایل جستجو دیده شود • تغییر معیار ارزیابی • مثلا تعادل بین سادگی و تعداد خطاها • تغییر استراتژی جستجو • مانند هرس (سادگی یک توصیف) • پیش هرس : قبل از اینکه جستجو به یک توصیف پیچیده برسد در یک توصیف ساده متوقف می شود • پس هرس : ابتدا یک توصیف پیچیده را تولید می کند و سپس آن را ساده می نماید

  35. اصطلاحات • اجزای ورودی : • مفهوم : انواع چیزهایی که می تواند آموخته شود • نمونه : مثال های مجزا، و مستقل از یک مفهوم • صفات خاصه : جنبه های قابل اندازه گیری از یک نمونه • می تواند صوری یا عددی باشد witten&eibe

  36. یک مفهوم چیست ؟ • وظایف داده کاوی (سبک های یادگیری) • یادگیری طبقه بندی : تخمین یک طبقه گسسته • یادگیری انجمنی : کشف همبستگی بین ویژگی ها • خوشه بندی : گروه بندی نمونه های مشابه در خوشه ها • تخمین عددی : تخمین یک کمیت عددی • مفهوم : چیزی که باید یاد گرفته شود • توصیف مفهوم : خروجی شمای یادگیری

  37. یادگیری طبقه بندی • مانند مسئله آب و هوا جهت برگزاری/عدم برگزاری بازی • یادگیری طبقه بندی با سرپرستی است • خروجی، طبقه مثال می باشد • موفقیت می تواند بر اساس داده جدید که به کدام طبقه متعلق می شود اندازه گیری شود (داده آزمایشی) • در عمل موفقیت بصورت ذهنی اندازه گیری می شود

  38. یادگیری انجمنی • مانند تحلیل سبد خرید : چه اقلامی با هم خریداری می شود (مانند شیر و برشتوک) • زمانی که هیچ کلاسی مشخص نباشد و هیچ ساختاری مورد علاقه نباشد می تواند استفاده شود • با یادگیری طبقه بندی تفاوت دارد : • می تواند هر مقدار صفت خاصه را و نه طبقه آن و بیش از یک مقدار صفت خاصه در هر زمان را تخمین بزند. • حاصل قوانین انجمنی تر از قوانین طبقه بندی است • بنابراین : محدودیت ها الزامی هستند • کمترین پوشش و کمترین دقت

  39. خوشه بندی • مثال : گروه بندی مشتریان • یافتن گروه هایی از اقلام که مشابه هستند • خوشه بندی بدون سرپرستی است • طبقه مثال ناشناخته است • موفقیت اغلب بصورت ذهنی اندازه گیری می شود

  40. تخمین عددی • یادگیری طبقه بندی، ولی طبقه، عددی است • یادگیری با سرپرستی است • طرح با مقدار مقصد مهیا شده است • اندازه گیری موفقیت روی داده آزمایشی است

  41. یک مثال چیست؟ • نمونه : نوع خاصی از مثال • چیزی که باید طبقه بندی، همبسته یا خوشه بندی شود • مثال مجزا، و مستقل از مفهوم مقصد • بوسیله یک مجموعه از پیش تعریف شده از صفات خاصه مشخص می شود • ورودی به شمای یادگیری : مجموعه ای از نمونه ها/ مجموعه داده • به عنوان یک فایل مسطح/تک رابطه ارائه می شود • شکل محدودی از ورودی است • بین اشیا رابطه ای موجود نیست • شکل عادی در داده کاوی عملی است

  42. یک درخت خانواده Peter M Peggy F Grace F Ray M = = Steven M Graham M Pam F Ian M Pippa F Brian M = Anna F Nikki F

  43. نمایش درخت خانواده با یک جدول

  44. رابطه خواهر بودن Closed-world assumption

  45. یک ارائه کامل در یک جدول

  46. یک صفت خاصه چیست؟ • هر نمونه بوسیله مجموعه ثابت از پیش تعریف شده ویژگی ها توصیف می شود (صفات خاصه) • ولی : ممکن است تعداد صفات خاصه در عمل متغیر باشد • راه حل ممکن : پرچم ”مقدار غیر مربوطه“ • مسئله مربوطه : وجود یک صفت خاصه ممکن است وابسته به مقدار صفت خاصه دیگری باشد • امکان انواع صفت خاصه (”سطوح اندازه گیری“) • صوری، ترتیبی، فاصله ای، و نسبی

  47. کمیت های صوری • مقادیر نمادهای مجزا هستند • مقادیر خودشان به عنوان برچسب ها یا نام ها استفاده می شوند • مثال : صفت خاصه “outlook” در داده مسئله آب و هوا • مقادیر : “sunny”,”overcast”, and “rainy” • هیچ ارتباطی بین مقادیر صوری برقرار نیست (هیچ ترتیب یا اندازه فاصله) • فقط آزمون تساوی قابل انجام است

  48. کمیت های ترتیبی • شامل ترتیب روی مقادیر است • ولی : هیچ فاصله ای بین مقادیر تعریف نشده است • مثال :صفت خاصه“temperature” در داده مسئله آب و هوا • مقادیر : “hot” > “mild” > “cool” • توجه : جمع و تفریق مفهومی ندارد • قانون مثال : temperature < hot c play = yes • تمایز بین کمیت های صوری و ترتیبی همواره واضح نیست (مانند صفت خاصه “outlook”)

  49. کمیت های فاصله ای (عددی) • کمیت های فاصله ای نه تنها ترتیبی هستند بلکه بر حسب واحدهای ثابت و مساوی اندازه گیری می شوند • مثال1 : صفت خاصه “temperature” بر حسب درجه فارنهایت اندازه گیری می شود • مثال2 : صفت خاصه “year” • اختلاف دو مقدار ممکن است • مجموع یا حاصل ضرب مفهومی ندارد • نقطه صفر تعریف نشده است

  50. کمیت های نسبی • کمیت های نسبی کمیت هایی که برای آنها نقطه صفر تعریف شده است • مثال : صفت خاصه “distance” • فاصله بین یک شی و خودش صفر است • کمیت های نسبی به عنوان اعداد حقیقی مورد بحث قرار می گیرند • همه عملیات ریاضی مجاز هستند • ولی : آیا نقطه صفر ذاتا تعریف شده است ؟ • پاسخ بستگی به دانش علمی دارد (مثلا می دانیم فارنهایت حد پایینی برای دما ندارد)

More Related