330 likes | 507 Views
دسته بندي داده ها Data Classification. پروژه درس مباحث پیشرفته در بانک های اطلاعاتی استاد: جناب آقای دکتر رهگذر دانشجو : امين ابوالقاسم رسولی. رئوس مطالب. مقدمه روشهاي دسته بندي روش قطعه قطعه خطي نتايج آزمايشات. مقدمه. فرايند نسبت دادن اشياء به يکي از دسته هاي از پيش تعريف شده مثال:
E N D
دسته بندي داده هاData Classification پروژه درس مباحث پیشرفته در بانک های اطلاعاتی استاد: جناب آقای دکتر رهگذر دانشجو: امين ابوالقاسم رسولی
رئوس مطالب • مقدمه • روشهاي دسته بندي • روش قطعه قطعه خطي • نتايج آزمايشات
مقدمه • فرايند نسبت دادن اشياء به يکي از دسته هاي از پيش تعريف شده • مثال: • کشف هرزنامه هاي الکترونيکي بر اساس سرامد و محتوا • طبقه بندي سلول ها به بدخيم و خوش خيم بر اساس نتايج MRI • طبقه بندي کهکشان ها بر اساس شکل آنها
مقدمه • ورودي در هر الگوريتم دسته بندي، مجموعه اي از رکوردها است. • نمايش يک رکورد (نمونه) : (x,y) • X: مجموعه ويژگيهاي نمونه • Y: برچسب کلاس نمونه • تعريف: دسته بندي عبارت است از يادگيري يک تابع هدف مانند f که هر مجموعه از ويژگيها مانند x را به يک برچسب از کلاسهاي از پيش تعريف شده مانند y نگاشت مي کند.
رويکرد کلي يافتن مدل دسته بندي • تکنيک دسته بندي: رويکردي سيتماتيک براي دست يابي به مدلهاي دسته بندي • بکارگيري يک الگوريتم يادگيري براي دستيابي به مدل • داشتن مجموعه داده هاي آموزشي • در بر گيرنده نمونه هاي با بر چسب مشخص • توليد مدل از روي داده هاي آموزشي • بکارگيري مدل توليد شده بر روي داده هاي تست • حاوي نمونه هاي بدون برچسب کلاس • انطباق مدل بر داده هاي آموزشي • پيش بيني صحيح داده هاي ديده نشده
Training Set Learning Algorithm Induction Learn Model Test Set Model Apply Model Deduction
تکنيک هاي دسته بندي • Decision tree classifiers • Rule-based classifiers • Nearest-neighbor classifiers • Neural networks • Support vector machines • Naïve Bayes
روش قطعه قطعه خطي • دسته بندي داده هاي با ويژگيهايي از نوع اعداد حقيقي • هر نمونه داده به عنوان يک نقطه داده اي در فضاي چند بعدي • جداسازي داده هاي دو کلاس با استفاده از چندين قطعه خط (ابر صفحه) • تعميم براي حالتهاي چند کلاسي
روش قطعه قطعه خطي • کلاس 1 و 2 • يافتن نقاط مرزي هر کلاس • براي يافتن نقاط مرزي کلاس 1 • يافتن نزديکترين نقطه به هر نقطه از کلاس 2 در کلاس 1 • فاصله اقليدسي • علامت گذاري نقطه به عنوان يکي از نقاط مرزي کلاس 1 • تکرار گامهاي 1 و 2 براي کلاس 2
روش قطعه قطعه خطي • يافتن نقطه متناظر هر داده مرزي • نقطه متناظر: نزديکترين نقطه به هر نقطه مرزي در کلاس مقابل • نقطه مرزي هر کلاس با نقطه متناظرش در کلاس ديگر يک جفت تشکيل مي دهند. (نقاط بردار پشتيبان) • عمود منصف خطي که از اين جفت نقطه مي گذرد کانديدي براي جداسازي دو کلاس مي باشد. • عمود منصفي انتخاب مي گردد که بيشترين تمايز را بين داده هاي دو کلاس ايجاد نمايد.
روش قطعه قطعه خطي • براي هر عمود منصف، تعداد نقاط هر کلاس که به درستي جداساري نشده اند محاسبه مي گردد. • پس از يافتن بهترين عمود منصف : • حذف داده هايي که به درستي تفکيک شده اند. • يافتن بهترين عمود منصف براي داده هاي باقي مانده • استفاده از نقطه متناظر در صورت حذف تمام داده هاي يک کلاس • تکرار رويه
مثال 2 1 3
تعيين شايستگي نقاط • انتساب ميزان شايستگي به نقاط مرزي براي انتخاب به عنوان بردار پشتيبان • معيار شايستگي: • دوري از همکلاسيها و نزديکي به غيرهمکلاسيها • متوسط فاصله نقطه تا نقاط همکلاس • متوسط فاصله نقطه تا نقاط غيرهمکلاس • محاسبه شايستگي (α)
تعيين شايستگي نقاط • : معياراندازهگيري نزديک بودن نقطه iام از کلاس مثبت به ساير نقاط اين کلاس • : معيار اندازهگيري نزديک بودن نقطه iام از کلاس مثبت به نقاط کلاس منفي
تعيين شايستگي نقاط • :معياري براي اندازهگيري نزديک بودن نقطه iام از کلاس منفي با نقاط کلاس مثبت • : معياري براي اندازهگيري نزديک بودن نقطه iام از کلاس منفي با ساير نقاط کلاس منفي
تعيين شايستگي نقاط • با داشتن مقادير ، ، و شايستگي هر نقطه مرزي به صورت زير محاسبه مي گردد : • شايستگي نقطه iام از کلاس مثبت • شايستگي نقطه iام از کلاس منفي
گامهاي الگوريتم • يافتن نقاط مرزي • محاسبه شايستگي نقاط • بدست آوردن نقاط بردار پشتيبان • ساخت صفحه های جدا کننده • حذف داده هايي که به درستي تفکيک شده اند • تکرار از مرحله 2
تعميم روش • در حالتي که بيش از دو کلاس داده وجود دارد، دسته بندي را به صورت دو به دو براي کلاسها تکرار مي کنيم. • کلاس 1، 2 و 3 • جداسازي 1 و 2 • جداسازي 1 و 3 • جداسازي 2 و 3
Cross Validation • حضور تمام داده ها به دفعات يکسان در مرحله آموزش • يکبار حضور هر داده در مرحله تست • K-fold cross validation • مجموعه داده ها به k قسمت مساوي تقسيم مي گردد • هر بار يک قسمت به عنوان مجموعه تست و ساير قسمتها به عنوان داده هاي آموزشي بکار مي رود. • فرايند دسته بندي k بار اجرا مي شود تا تمام داده ها به عنوان داده تست بکار روند. • خطاي نهايي برابر با ميانگين خطاها در هر بار اجرا خواهد بود
WBC Mean Error (%) Neighborhood Radius
IRIS Mean Error (%) Neighborhood Radius
BUPA Mean Error (%) Neighborhood Radius