مروری برداده كاوی

مروری برداده كاوی مسعود مشتاقی

سرفصل موضوعات • معرفی • الگوريتم های داده كاوی • معرفی قانون كاوی • معرفیخوشه يابی • معرفی كلاس بندی

معرفی • تلاش انسان از ابتدا برای تحليل مشاهدات • افزايش حجم اطلاعات • كتابخانه های الكترونيكی • اينترنت • اطلاعات مالی و سپرده گذاری و تجارت و .. • كشف دانش در پايگاه داده ها (KDD)

معرفی (ادامه) • مراحل كشف دانش در پايگاه داده (KDD) انتخاب و پردازش اوليه داده كاوی تصديق درستی توصيف Dataware house هوش سيستم حافظه سيستم دانش

معرفی (ادامه) • Data warehousing: به فرایند جمع آوری و تمیز كردن دادهای تراكنش ها و مهیا كردن آن برای آنالیز و سیستم های پشتیبان تصمیم می باشد. • انتخاب و پيش پردازش اوليه : فرآيند بهبود كيفيت داده های موجود بر اساس روش های زير: • تميز كردن داده ها به منظور نرمال سازی ، خارج كردن نویز ، كنترل داده هاي گم شده ، كاهش redundancy و غیره • Data Integration : شامل يكي كردن داده های جمع آوری شده از چند منبع غیر همگن. • Data Reduction and Projection: انتخاب جزییات مفید كه نشان دهنده داده های ما باشند‌، كه معمولا" با توجه به كاري كه مي خواهیم انجام دهیم صورت مي گیرد. • توصیف و ترجمه : شامل Visualize كردن و توصیف الگو های كشف شده می باشد. • تصديق درستی

الگوريتم های داده كاوی • مدل : تابع مدل Model Function)) و فرم نشان دادن(Representational form) آن مدل شامل پارامتر هایی است كه باید از داده ها با توجه به تابع انتخاب شده و به وسیله فرم یا ابزار نشان دادن محاسبه شوند. • شرایط دلخواه :‌ یك پایه برای برتری دادن یك مدل يا مجموعه پارامتر ها بر دیگری بر اساس داده ها. • الگوریتم جستجو : مشخصات يك الگوریتم جستجو برای پیدا كردن یك مدل ، الگو یا پارامترهای خاص با داده ، مدل ها ، و شروط داده شده است.

توابع مدل • كلاس بندی (Classification): تابع مدل یك آيتم داده ای را در یك سری كلاس های از پیش تعریف شده كلاسه بندی می كند. (Supervised Learning) • رگرسيون (Regression):قصد این تابع تصوير كردن یك آيتم داده به یك مقدار واقعی پیش بينی است. • خوشه يابی(Clustering):يك آيتم داده ای را به یكی از چند خوشه تصوير می كند كه اين خوشه ها گروه های طبیعی هستند كه بر اساس مثلا" متريك های شباهت ايجاد شده اند. هدف اصلی پيدا كردن نظم در داده ها مي باشد. (Unsupervised Learning) • توليد قانون (Rule Generation): Association rule mining and Dependency modeling كه دومی به كشف وابستگی های قوی بین متغیر ها به كار مي رود.

توابع مدل (ادامه) • خلاصه و فشرده سازی (Summarization and condensation): یك توصیف فشرده از داده ها به ما می دهد. • آناليز دنباله ها (Sequence Analysis): الگو های دنباله مثل سريهای زمانی را مدل می كند. مثال : • كشف آنومالی در سيستم • پيش بينی وضع هوا • تشخيص تومور در عكس های مغزی كلاس بندی رگرسيونی خوشه يابی

كاوش قانون • هدف اصلی :پيدا كردن قوانين منطقی كه بر داده ها حاكم می باشد • روش های اصلی : • Association Rule Mining : به صورت عبارت هایي است به شكل X=>Y كه X و Y زیر مجموعه از تمام ویژهگيها هستند. و این ادعا با درجه اعتبار بزرگتر از c درست باشد. • Classification Rule Mining: يك پروسه كنترل شده كه از يك سری مجموعه داده برای آموزش استفاده می كند و هدف پيدا كردن قوانين در داده هابه منظور پيش بينی كلاس از پيش تعريف شده برای يك سری داده تستی می باشد • Dependency Rule Mining : يك پروسه كنترل شده است كه ویژهگيها را به دو قسمت هدف و غیر هدف تقسيم مي كند و قسمت غير هدف فقط می تواند در قسمت شرط باشد ولی به دنبال قوانينی هستيم كه شامل ويژهگيهای هدف باشد.

خوشه يابی • هدف اصلی :كاهش فاصله بين بردار های داخل يك خوشه و افزايش فاصله بين خوشه ها می باشد. • چالش های اصلی: انتخاب تعداد خوشه مناسب ، تعريف معيار فاصله و تشخيص خوشه هايی كه شكل منظم ندارند ، می باشد. • انواع برخورد ها : • Partial)Sequential): یك بخش اولیه درست می كند و بعد بوسیله از روشهای تكرار شونده براي بهينه كردن هدف كار استفاده می شود. • Hierarchical : بدين صورت كه ابتدا كل داده ها را در يك خوشه قرار می دهد سپس اين خوشه را در چند گام می شكند تا به n كلاستر برسد. • بر اساس بهينه سازی : روش های K-Means و توابع Density

كلاس بندی • هدف اصلی :پيدا كردن روشی خاص و پارامترهای روش به گونه ای كه علاوه بر خطای كم قابليت عمومی شدن را نيز داشته باشد. • روش های اصلی در كلاس بندی : • درخت تصميم : فضاي تصميم را به تكه هاي ثابت مي شكند. • Probabilistic or Generative Model : از روش های آماریمعمولا“ مبتنی بر تئوریBayes استفاده می شود. • Nearest Neighbor Classifiers: كمترین فاصله را نمونه ها نشان دسته (Prototype) ها محاسبه می كند. • رگرسيونی : مي تواند چندجمله ای باشد مثلا“ شكل : aX1+bX2+c=Ci باشد.

كلاس بندی (ادامه) • ادامه روش های اصلی در كلاس بندی: • شبكه های عصبی : يكی از پركاربردترین روشهای محاسبات نرم ( Soft Computing) ساختار ANN شامل يك سری گره می باشد كه با تعدادی رابط جهت دار به هم متصل مي باشند. خروجی تمام گره های شبكه خاصيت بستگی به يك سری پارامتر قابل تغيير مرتبط به اين گره ها دارد. • شبكه هایRBF : از مدل هاي عمومی تشخيص تابعی كه در كلاس بندی نيز استفاده مي شود. خصوصيات نزديك به شبكه های عصبی دارد ولی از نظر رفتار شفاف تر است. • Support Vector Machines : ايده اصلي اين است كه با يك تصويرغير خطي داده هايی را كه نمي توان با يك مرز تصميم خطي در فضاي خصوصيات جدا كرد را به فضايي با بعد بالاتر ببرد كه در اين بعد به توان يك مرز تصميم خطي براي داده ها رسم كرد.

با تشكر

منابع • Mitra, Sushmita : Data mining: Multimedia, Soft Computing and Bioanformatics. Published by John Wiley & Sons, Inc.2003 ISBN 9812-53-063-0 • Daniel T. Larose : Discovering knowledge in data : an introduction to data mining . Published by John Wiley & Sons, Inc.2005 ISBN 0-471-66657-2 • Mehmed Kantardzic : Data Mining: Concepts, Models, Methods, and Algorithms. Published by John Wiley & Sons, Inc.2003 ISBN 0471228524 • Abraham Silberschatz : Database System Concepts fifth Edition, Ch. 18 Published by McGraw-Hill. 2006 ISBN 007-124476-X • Richard O. Duda : Pattern Classification . Published by John Wiley & Sons, Inc. ISBN 0476-05669-3 • Corrina Cortes, Veladimir Vapnik: Support Vector Networks,1995 Machine Learning

مروری برداده كاوی

مروری برداده كاوی

Presentation Transcript