1.01k likes | 1.26k Views
بسم الله الرحمن الرحیم. وب سایت تخصصی استادان و دانشجویان کامپیوتر ایران www.Aiapir.com. انتخاب ويژگی برای مقاصد داده کاوی بر مبنای ترکيب الگوريتم ژنتيک و مورچگان. ارائه کننده : دکتر مهدی صادق زاده. فهرست مطالب. آشنایی با داده کاوی آشنایی با الگوریتم ژنتیک آشنایی با الگوریتم مورچگان
E N D
بسم الله الرحمن الرحیم وب سایت تخصصی استادان و دانشجویان کامپیوتر ایران www.Aiapir.com
انتخاب ويژگی برای مقاصد داده کاوی بر مبنای ترکيب الگوريتم ژنتيک و مورچگان ارائه کننده : دکتر مهدی صادق زاده
فهرست مطالب • آشنایی با داده کاوی • آشنایی با الگوریتم ژنتیک • آشنایی با الگوریتم مورچگان • روش های انتخاب ویژگی • انتخاب ویژگی توسط ترکیب الگوریتم ژنتیک و مورچگان • مراجع
گرایشات جریان داده ها • تولید داده های زیاد • بانک، دیگر تراکنش های تجاری • داده : ستاره شناسی، زیست شناسی، و غیره • وب، متن، و تجارت الکترونیکی
بزرگترین پایگاه های داده در 2003 • پایگاه داده های تجاری • طبق گزارش winter Corp. 2003 Survey : France Telecom بزرگترین پایگاه داده حمایت از تصمیم گیری دارند تقریبا 30TB • وب • جستجوی Google در 4 بیلیون صفحه شامل صدها ترابایت می باشد • آرشیو اینترنت (www.archive.org) تقریبا 300 TB
نرخ رشد داده • دو برابر اطلاعات در سال 2002 نسبت به سال 1999ایجاد شده بود. (تقریبا 30 درصد نرخ رشد) • داده کمی بوسیله یک انسان مورد نگرش قرار می گیرد • کشف دانش برای حس و استفاده از داده مورد نیاز است
نواحی کاربرد یادگیری ماشین/داده کاوی • علم • ستاره شناسی، زیست شناسی، کشف دارو، و ... • تجاری • تبلیغات، مدیریت ارتباط با مشتری (CRM) ، سرمایه گذاری، کارخانه سازی، تجارت الکترونیکی، ارتباطات، مراقبت پزشکی، و ... • وب • موتورهای جستجو، و ... • دولتی • اعمال قانون، تاریخچه متقلبان مالیات، و ...
مطالعه موردی : ارزیابی مخاطره موجودی • وضعیت : شخصی برای یک وام اقدام می کند • وظیفه : آیا بانک اعطای وام را تصویب نماید؟ • توجه : افرادی که بالاترین موجودی را دارند نیازی به وام ندارند، و افرادی که پایین ترین موجودی را دارند احتمالا قدرت بازپرداخت را ندارند. بهترین مشتریان بانک در میانه این دو هستند.
مخاطره موجودی - نتایج • بانک ها مدل های موجودی را با استفاده از روش های متنوع یادگیری ماشین توسعه می دهند • افزایش وام مسکن و کارت اعتباری نتایج قادر بودن به تخمین اینکه یک فرد احتمالا وام را بازپرداخت ننماید، ارائه می نمایند. • در بسیاری از کشورها توسعه یافته است
تجارت الکترونیکی موفق – مطالعه موردی • یک شخص یک کتاب (محصول) از Amazon.comخریداری می کند. • وظیفه : توصیه دیگر کتابها (محصولاتی) که این فرد احتمالا خریداری می کند. • آمازون بر اساس کتاب های خریداری شده، خوشه بندی را انجام می دهد • مشتریانی که کتاب “Advances in Knowledge Discovery and Data Mining” را خریداری کرده اند، همچنین کتاب “Data Mining: Practical MachineLearning Tools and Techniques with Java Implementations” را خریداری کرده اند. • برنامه توصیه کاملا موفق بوده است
تعریف کشف دانش کشف دانش در داده عبارت است از فرآیند غیر جزئی شناسایی الگوهای • معتبر • جدید • مفید • و قابل درک در داده from Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, (Chapter 1), AAAI/MIT Press 1996
Related Fields Machine Learning Visualization Data Mining and Knowledge Discovery Statistics Databases
آمار، یادگیری ماشین و داده کاوی • آمار • بیشتر مبتنی بر نظریه • بیشتر متمرکز بر روی آزمایش نظریه ها • یادگیری ماشین • مکاشفه ای تر • متمرکز بر روی بهبود کارآیی یک عامل یادگیرنده • نگرشی بر یادگیری بلادرنگ و رباتیک ، این نواحی بخشی از داده کاوی نیستند • داده کاوی و کشف دانش • نظریه و مکاشفه را یکپارچه می نماید • متمرکز بر روی فرآیند کامل کشف دانش، شامل پاکسازی داده، یادگیری، و یکپارچه سازی و بصری سازی نتایج • تمایزات فازی می باشند witten&eibe
Monitoring CRISP-DM جریان فرآیند کشف دانش بر اساس www.crisp-dm.org
نکات تاریخی : چندین نام برای داده کاوی • جستجو و لاروبی داده ها Data Fishing, Data Dredging: 1960- • بوسیله آمارگران استفاده می شد • داده کاویData Mining :1990 -- • در پایگاه داده و تجارت استفاده شد • کشف دانش در پایگاه های داده Knowledge Discovery in Databases (1989-) • بوسیله انجمن هوش مصنوعی و یادگیری ماشین استفاده شد امروزه داده کاوی و کشف دانش بصورت قابل معاوضه استفاده می شوند
وظایف اساسی در داده کاوی • طبقه بندی Classification : تخمین کلاس یک قلم • خوشه بندی Clustering : یافتن خوشه ها در داده • استخراج روابط انجمنی Associations : مثلا غالبا A & B & C رخ می دهند • بصری سازی Visualization : برای تسهیل کشف انسان • خلاصه سازی Summarization : توصیف یک گروه • کشف انحرافDeviation Detection : یافتن تغییرات • تخمین Estimation : پیش بینی یک مقدار پیوسته • تحلیل پیوند Link Analysis : یافتن ارتباطات • …
وظایف داده کاوی : طبقه بندی یادگیری روشی برای تخمین کلاس نمونه از روی نمونه های (طبقه بندی شده) پیش برچسب خورده روشهای متنوع : آمار درختهای تصمیم گیری شبکه های عصبی ...
وظایف داده کاوی : خوشه بندی یافتن گروه بندی ”طبیعی“ از نمونه های داده ای که برچسب ندارند
یافتن الگوها • هدف : برنامه هایی که الگوها و نظام ها در داده را کشف می کنند • الگوهای قوی منجر به تخمین های خوب می شوند • مسئله1 : اکثر الگوها مورد علاقه نیستند • مسئله2 : الگوها ممکن است غیر دقیق باشند • مسئله3 : داده ممکن است منحرف و یا گم شود
تکنیک های یادگیری ماشین • الگوریتم هایی برای کسب توصیفات ساختاری از مثالها • توصیفات ساختاری الگوها را صریحا نمایش می دهند • می توانند برای پیشگویی نتایج در وضعیت جدید استفاده شوند • می توانند در درک و تشریح چگونگی اشتقاق تخمین استفاده شوند • این روش ها از هوش مصنوعی، آمار، و تحقیقاتی روی پایگاه های داده سرچشمه گرفته اند
طبقه بندی یادگیری روشی برای تخمین کلاس نمونه از روی نمونه های (طبقه بندی شده) برچسب خورده روش های متنوع :رگرسیون درخت های تصمیم گیری بیز شبکه های عصبی ... Given a set of points from classes what is the class of new point ?
طبقه بندی : رگرسیون خطی • رگرسیون خطی w0 + w1 x + w2 y >= 0 • رگرسیون wi را از روی داده ها محاسبه می کند تا خطای مربعات را حداقل سازد بطوریکه برازنده داده ها باشد • به اندازه کافی منعطف نیست
طبقه بندی : درخت های تصمیم گیری if X > 5 then blue else if Y > 3 then blue else if X > 2 then green else blue Y 3 X 2 5
طبقه بندی : شبکه های عصبی • می تواند نواحی پیچیده تر را انتخاب نماید • می تواند دقیق تر عمل کند • می تواند برازندگی زیادی برای داده ها داشته باشد- الگوها را در اغتشاش تصادفی می یابد
مسئله آب و هوا داده های گذشته را در نظر بگیرید آیا می توانید قوانینی برای برگزاری بازی/ عدم برگزاری بازی ارائه دهید؟ بازی چیست؟
مسئله آب و هوا • شرایط برای انجام بازی گلف
داده آب و هوا با صفات خاصه مخلوط • برخی صفات خاصه دارای مقادیر عددی هستند
CPU تخمین کارآیی • مثال : 209 پیکربندی مختلف کامپیوتر • تابع رگرسیون خطی
یادگیری به عنوان جستجو • یادگیری استنتاجی : یافتن توصیف یک مفهوم که برازنده داده ها باشد • مثال : مجموعه قوانین به عنوان زبان توصیف • فضای جستجوی بزرگ ولی متناهی • راه حل ساده : • شمارش فضای مفهومی • حذف توصیفگرهایی که برازنده مثالها نیستند • نگهداری توصیفگرهایی که شامل مفهوم مقصد می باشند witten&eibe
شمارش فضای مفهومی • فضای حالت برای مسئله آب و هوا • تعداد ترکیبات ممکن 4 x 4 x 3 x 3 x 2 = 288 • با 14 قانون : 2.7x1034 مجموعه قوانین ممکن • راه حل : الگوریتم حذف کاندید • دیگر مسائل عملی : • ممکن است بیش از یک توصیف موجود باشد • ممکن است توصیفی موجود نباشد • زبان قادر به توصیف مفهوم مقصد نباشد • یا داده شامل اغتشاش باشد witten&eibe
تمایل • تصمیمات مهم در سیستم های یادگیری • زبان توصیف مفهوم • ترتیب جستجوی فضا • روشی که از برازندگی اضافی جهت پرورش داده های خاص اجتناب شود • موارد زیر ”تمایل“ جستجو را شکل می دهند • تمایل زبان • تمایل جستجو • تمایل اجتناب از برازندگی اضافی
تمایل زبان • سوال مهم : • آیا زبان عمومی است یا آنچه که می تواند یادگرفته شود محدود می نماید؟ • زبان عمومی می تواند زیر مجموعه های دلخواهی از مثال ها را بیان نماید • اگر زبان شامل منطق یا ”فصل“ باشد عمومی است • مثال : مجموعه های قوانین • دانش دامنه می تواند برای مستثنی کردن برخی توصیفات مفهوم در جستجو استفاده شود
تمایل جستجو • مکاشفه جستجو • جستجوی حریصانه : انجام بهترین حرکت تک مرحله ای • جستجوی پرتو : نگهداری چندین پیشنهاد • … • جهت جستجو • عام به خاص • مانند اختصاصی کردن یک قانون با افزودن شرایط به آن • خاص به عام • مانند تعمیم یک نمونه مجزا به یک قانون
تمایل اجتناب از برازش اضافی • می تواند به عنوان شکلی از تمایل جستجو دیده شود • تغییر معیار ارزیابی • مثلا تعادل بین سادگی و تعداد خطاها • تغییر استراتژی جستجو • مانند هرس (سادگی یک توصیف) • پیش هرس : قبل از اینکه جستجو به یک توصیف پیچیده برسد در یک توصیف ساده متوقف می شود • پس هرس : ابتدا یک توصیف پیچیده را تولید می کند و سپس آن را ساده می نماید
اصطلاحات • اجزای ورودی : • مفهوم : انواع چیزهایی که می تواند آموخته شود • نمونه : مثال های مجزا، و مستقل از یک مفهوم • صفات خاصه : جنبه های قابل اندازه گیری از یک نمونه • می تواند صوری یا عددی باشد witten&eibe
یک مفهوم چیست ؟ • وظایف داده کاوی (سبک های یادگیری) • یادگیری طبقه بندی : تخمین یک طبقه گسسته • یادگیری انجمنی : کشف همبستگی بین ویژگی ها • خوشه بندی : گروه بندی نمونه های مشابه در خوشه ها • تخمین عددی : تخمین یک کمیت عددی • مفهوم : چیزی که باید یاد گرفته شود • توصیف مفهوم : خروجی شمای یادگیری
یادگیری طبقه بندی • مانند مسئله آب و هوا جهت برگزاری/عدم برگزاری بازی • یادگیری طبقه بندی با سرپرستی است • خروجی، طبقه مثال می باشد • موفقیت می تواند بر اساس داده جدید که به کدام طبقه متعلق می شود اندازه گیری شود (داده آزمایشی) • در عمل موفقیت بصورت ذهنی اندازه گیری می شود
یادگیری انجمنی • مانند تحلیل سبد خرید : چه اقلامی با هم خریداری می شود (مانند شیر و برشتوک) • زمانی که هیچ کلاسی مشخص نباشد و هیچ ساختاری مورد علاقه نباشد می تواند استفاده شود • با یادگیری طبقه بندی تفاوت دارد : • می تواند هر مقدار صفت خاصه را و نه طبقه آن و بیش از یک مقدار صفت خاصه در هر زمان را تخمین بزند. • حاصل قوانین انجمنی تر از قوانین طبقه بندی است • بنابراین : محدودیت ها الزامی هستند • کمترین پوشش و کمترین دقت
خوشه بندی • مثال : گروه بندی مشتریان • یافتن گروه هایی از اقلام که مشابه هستند • خوشه بندی بدون سرپرستی است • طبقه مثال ناشناخته است • موفقیت اغلب بصورت ذهنی اندازه گیری می شود
تخمین عددی • یادگیری طبقه بندی، ولی طبقه، عددی است • یادگیری با سرپرستی است • طرح با مقدار مقصد مهیا شده است • اندازه گیری موفقیت روی داده آزمایشی است
یک مثال چیست؟ • نمونه : نوع خاصی از مثال • چیزی که باید طبقه بندی، همبسته یا خوشه بندی شود • مثال مجزا، و مستقل از مفهوم مقصد • بوسیله یک مجموعه از پیش تعریف شده از صفات خاصه مشخص می شود • ورودی به شمای یادگیری : مجموعه ای از نمونه ها/ مجموعه داده • به عنوان یک فایل مسطح/تک رابطه ارائه می شود • شکل محدودی از ورودی است • بین اشیا رابطه ای موجود نیست • شکل عادی در داده کاوی عملی است
یک درخت خانواده Peter M Peggy F Grace F Ray M = = Steven M Graham M Pam F Ian M Pippa F Brian M = Anna F Nikki F
رابطه خواهر بودن Closed-world assumption
یک صفت خاصه چیست؟ • هر نمونه بوسیله مجموعه ثابت از پیش تعریف شده ویژگی ها توصیف می شود (صفات خاصه) • ولی : ممکن است تعداد صفات خاصه در عمل متغیر باشد • راه حل ممکن : پرچم ”مقدار غیر مربوطه“ • مسئله مربوطه : وجود یک صفت خاصه ممکن است وابسته به مقدار صفت خاصه دیگری باشد • امکان انواع صفت خاصه (”سطوح اندازه گیری“) • صوری، ترتیبی، فاصله ای، و نسبی
کمیت های صوری • مقادیر نمادهای مجزا هستند • مقادیر خودشان به عنوان برچسب ها یا نام ها استفاده می شوند • مثال : صفت خاصه “outlook” در داده مسئله آب و هوا • مقادیر : “sunny”,”overcast”, and “rainy” • هیچ ارتباطی بین مقادیر صوری برقرار نیست (هیچ ترتیب یا اندازه فاصله) • فقط آزمون تساوی قابل انجام است
کمیت های ترتیبی • شامل ترتیب روی مقادیر است • ولی : هیچ فاصله ای بین مقادیر تعریف نشده است • مثال :صفت خاصه“temperature” در داده مسئله آب و هوا • مقادیر : “hot” > “mild” > “cool” • توجه : جمع و تفریق مفهومی ندارد • قانون مثال : temperature < hot c play = yes • تمایز بین کمیت های صوری و ترتیبی همواره واضح نیست (مانند صفت خاصه “outlook”)
کمیت های فاصله ای (عددی) • کمیت های فاصله ای نه تنها ترتیبی هستند بلکه بر حسب واحدهای ثابت و مساوی اندازه گیری می شوند • مثال1 : صفت خاصه “temperature” بر حسب درجه فارنهایت اندازه گیری می شود • مثال2 : صفت خاصه “year” • اختلاف دو مقدار ممکن است • مجموع یا حاصل ضرب مفهومی ندارد • نقطه صفر تعریف نشده است
کمیت های نسبی • کمیت های نسبی کمیت هایی که برای آنها نقطه صفر تعریف شده است • مثال : صفت خاصه “distance” • فاصله بین یک شی و خودش صفر است • کمیت های نسبی به عنوان اعداد حقیقی مورد بحث قرار می گیرند • همه عملیات ریاضی مجاز هستند • ولی : آیا نقطه صفر ذاتا تعریف شده است ؟ • پاسخ بستگی به دانش علمی دارد (مثلا می دانیم فارنهایت حد پایینی برای دما ندارد)