1 / 27

دسته بندي داده ها Data Classification

دسته بندي داده ها Data Classification. پروژه درس مباحث پیشرفته در بانک های اطلاعاتی استاد: جناب آقای دکتر رهگذر دانشجو : امين ابوالقاسم رسولی. رئوس مطالب. مقدمه روشهاي دسته بندي روش قطعه قطعه خطي نتايج آزمايشات. مقدمه. فرايند نسبت دادن اشياء به يکي از دسته هاي از پيش تعريف شده مثال:

mali
Download Presentation

دسته بندي داده ها Data Classification

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. دسته بندي داده هاData Classification پروژه درس مباحث پیشرفته در بانک های اطلاعاتی استاد: جناب آقای دکتر رهگذر دانشجو: امين ابوالقاسم رسولی

  2. رئوس مطالب • مقدمه • روشهاي دسته بندي • روش قطعه قطعه خطي • نتايج آزمايشات

  3. مقدمه • فرايند نسبت دادن اشياء به يکي از دسته هاي از پيش تعريف شده • مثال: • کشف هرزنامه هاي الکترونيکي بر اساس سرامد و محتوا • طبقه بندي سلول ها به بدخيم و خوش خيم بر اساس نتايج MRI • طبقه بندي کهکشان ها بر اساس شکل آنها

  4. مقدمه • ورودي در هر الگوريتم دسته بندي، مجموعه اي از رکوردها است. • نمايش يک رکورد (نمونه) : (x,y) • X: مجموعه ويژگيهاي نمونه • Y: برچسب کلاس نمونه • تعريف: دسته بندي عبارت است از يادگيري يک تابع هدف مانند f که هر مجموعه از ويژگيها مانند x را به يک برچسب از کلاسهاي از پيش تعريف شده مانند y نگاشت مي کند.

  5. رويکرد کلي يافتن مدل دسته بندي • تکنيک دسته بندي: رويکردي سيتماتيک براي دست يابي به مدلهاي دسته بندي • بکارگيري يک الگوريتم يادگيري براي دستيابي به مدل • داشتن مجموعه داده هاي آموزشي • در بر گيرنده نمونه هاي با بر چسب مشخص • توليد مدل از روي داده هاي آموزشي • بکارگيري مدل توليد شده بر روي داده هاي تست • حاوي نمونه هاي بدون برچسب کلاس • انطباق مدل بر داده هاي آموزشي • پيش بيني صحيح داده هاي ديده نشده

  6. Training Set Learning Algorithm Induction Learn Model Test Set Model Apply Model Deduction

  7. تکنيک هاي دسته بندي • Decision tree classifiers • Rule-based classifiers • Nearest-neighbor classifiers • Neural networks • Support vector machines • Naïve Bayes

  8. روش قطعه قطعه خطي • دسته بندي داده هاي با ويژگيهايي از نوع اعداد حقيقي • هر نمونه داده به عنوان يک نقطه داده اي در فضاي چند بعدي • جداسازي داده هاي دو کلاس با استفاده از چندين قطعه خط (ابر صفحه) • تعميم براي حالتهاي چند کلاسي

  9. روش قطعه قطعه خطي • کلاس 1 و 2 • يافتن نقاط مرزي هر کلاس • براي يافتن نقاط مرزي کلاس 1 • يافتن نزديکترين نقطه به هر نقطه از کلاس 2 در کلاس 1 • فاصله اقليدسي • علامت گذاري نقطه به عنوان يکي از نقاط مرزي کلاس 1 • تکرار گامهاي 1 و 2 براي کلاس 2

  10. روش قطعه قطعه خطي • يافتن نقطه متناظر هر داده مرزي • نقطه متناظر: نزديکترين نقطه به هر نقطه مرزي در کلاس مقابل • نقطه مرزي هر کلاس با نقطه متناظرش در کلاس ديگر يک جفت تشکيل مي دهند. (نقاط بردار پشتيبان) • عمود منصف خطي که از اين جفت نقطه مي گذرد کانديدي براي جداسازي دو کلاس مي باشد. • عمود منصفي انتخاب مي گردد که بيشترين تمايز را بين داده هاي دو کلاس ايجاد نمايد.

  11. روش قطعه قطعه خطي • براي هر عمود منصف، تعداد نقاط هر کلاس که به درستي جداساري نشده اند محاسبه مي گردد. • پس از يافتن بهترين عمود منصف : • حذف داده هايي که به درستي تفکيک شده اند. • يافتن بهترين عمود منصف براي داده هاي باقي مانده • استفاده از نقطه متناظر در صورت حذف تمام داده هاي يک کلاس • تکرار رويه

  12. مثال

  13. مثال

  14. مثال 2 1 3

  15. تعيين شايستگي نقاط • انتساب ميزان شايستگي به نقاط مرزي براي انتخاب به عنوان بردار پشتيبان • معيار شايستگي: • دوري از همکلاسيها و نزديکي به غيرهمکلاسيها • متوسط فاصله نقطه تا نقاط همکلاس • متوسط فاصله نقطه تا نقاط غيرهمکلاس • محاسبه شايستگي (α)

  16. تعيين شايستگي نقاط • : معياراندازهگيري نزديک بودن نقطه iام از کلاس مثبت به ساير نقاط اين کلاس • : معيار اندازهگيري نزديک بودن نقطه iام از کلاس مثبت به نقاط کلاس منفي

  17. تعيين شايستگي نقاط • :معياري براي اندازهگيري نزديک بودن نقطه iام از کلاس منفي با نقاط کلاس مثبت • : معياري براي اندازهگيري نزديک بودن نقطه iام از کلاس منفي با ساير نقاط کلاس منفي

  18. تعيين شايستگي نقاط • با داشتن مقادير ، ، و شايستگي هر نقطه مرزي به صورت زير محاسبه مي گردد : • شايستگي نقطه iام از کلاس مثبت • شايستگي نقطه iام از کلاس منفي

  19. گامهاي الگوريتم • يافتن نقاط مرزي • محاسبه شايستگي نقاط • بدست آوردن نقاط بردار پشتيبان • ساخت صفحه های جدا کننده • حذف داده هايي که به درستي تفکيک شده اند • تکرار از مرحله 2

  20. تعميم روش • در حالتي که بيش از دو کلاس داده وجود دارد، دسته بندي را به صورت دو به دو براي کلاسها تکرار مي کنيم. • کلاس 1، 2 و 3 • جداسازي 1 و 2 • جداسازي 1 و 3 • جداسازي 2 و 3

  21. Cross Validation • حضور تمام داده ها به دفعات يکسان در مرحله آموزش • يکبار حضور هر داده در مرحله تست • K-fold cross validation • مجموعه داده ها به k قسمت مساوي تقسيم مي گردد • هر بار يک قسمت به عنوان مجموعه تست و ساير قسمتها به عنوان داده هاي آموزشي بکار مي رود. • فرايند دسته بندي k بار اجرا مي شود تا تمام داده ها به عنوان داده تست بکار روند. • خطاي نهايي برابر با ميانگين خطاها در هر بار اجرا خواهد بود

  22. مجموعه داده هاي آزمايش

  23. WBC Mean Error (%) Neighborhood Radius

  24. IRIS Mean Error (%) Neighborhood Radius

  25. BUPA Mean Error (%) Neighborhood Radius

  26. خلاصه نتايج

  27. با تشکر

More Related