1 / 39

یادگیری مبتنی بر نمونه

یادگیری مبتنی بر نمونه. Instance Based Learning. مدرس: علی فروتن راد گروه مهندسی کامپیوتر دانشگاه آزاد اسلامی زنجان & Mitchell Ch. 8. با تشکر از دکتر سعید شیری و دکتر فریبز محمودی گروه مهندسی کامپیوتر و فناوری اطلاعات دانشگاه صنعتی امیرکبیر و دانشگاه آزاد قزوین. مقدمه.

genica
Download Presentation

یادگیری مبتنی بر نمونه

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. یادگیریمبتنیبرنمونه Instance Based Learning مدرس: علی فروتن راد گروه مهندسی کامپیوتر دانشگاه آزاد اسلامی زنجان & Mitchell Ch. 8 با تشکر از دکتر سعید شیری و دکتر فریبز محمودی گروه مهندسی کامپیوتر و فناوری اطلاعات دانشگاه صنعتی امیرکبیر و دانشگاه آزاد قزوین

  2. مقدمه • درروشهائیکهتاکنونبررسیکردیم،سعیبراینبودکهبااستفادهازمثالهایآموزشیتابعیپیداکنیمکهبتواند توصیف‌کننده داده‌هاباشد. • درروشیادگیری IBL بسادگیفقطمثالهاراذخیرهمی‌کنیموهرگونهتعمیمتامشاهدهمثالجدیدبهتعویقمی‌افتد. بههمیندلیلاینروشگاهیروشتنبلیاlazyهمنامیدهمی‌شود. • بامشاهدهمثالهایجدیدرابطهآنبانمونه‌هایذخیرهشدهبررسیشدهویکمقداربرایتابعهدفآننسبتدادهمی‌شود. درروش IBL یکفرضیه عمومیمشخصبرایداده‌هابدستنخواهدآمدبلکهدسته‌بندی هرنمونهجدید هنگاممشاهدهآنوبراساسنزدیکترینمثالهایذخیرهشده،انجامخواهدشد.

  3. Instance-based Learning Its very similar to a Desktop!!

  4. یکتفاوتاساسی • روش IBL برایهرنمونهجدید،تقریبجداگانه‌ایازتابعهدفراایجادمی‌کند. اینتقریبفقطبههمسایگینمونهجدید قابلاعمالبودهوهرگزنمی‌تواندبررویفضایتمامنمونه‌هاعملکند. • کاربرداینروشهنگامیموثراستکهتابعهدفخیلیپیچیدهبودهولیدرعینحالقابلنمایشتوسطتوابعساده‌ترمحلیباشد.

  5. مشخصه‌ها • اینروشدارای 3 مشخصهاصلیاست: • تابعشباهت: مشخصمی‌کندکهدونمونهچقدرنزدیکبههمهستند.انتخاباینتابعمی‌تواندبسیارمشکلباشد. مثلاچگونهمی‌توانشباهترنگموی 2 نفررابیاننمود؟ • انتخابنمونه‌هابرایذخیره: دراینالگوریتمسعیمی‌شودنمونه‌هائیذخیرهشوندکهعمومی‌ترباشند. تشخیصاینکهآیایکنمونهعمومیتداردیاخیر،می‌تواندکارمشکلیباشد. • تابعدسته‌بندی‌کننده: تابعی است که بامشاهده یک مثال جدید دسته‌بندی آنرا تعیین می‌کند.

  6. مشکلات • دسته‌بندی دادهجدیدمی‌تواندبسیارپرهزینهباشد.زیرادرمرحلهآموزشعملیصورتنمی‌پذیردوتمامیمحاسباتدرهنگامدسته‌بندی انجاممی‌گردند. • ازاین روبرایکاهشزماندسته‌بندی ازتکنیک‌هایایندکساستفادهمی‌شود. • دراغلبروشهایIBLبرایبازیابیمثالهایمشابهازحافظهازتمامیویژگی‌هایموجوداستفادهمی‌شود.بنابرایناگرتابعهدفواقعیفقطبهبرخیازویژگی‌هابستگیداشتهباشد،مثالهائیکهواقعامشابه هستندممکناستبسیارازیکدیگردورشوند.

  7. مثالیازکاربردها Image Scene Classification برایهرتصویربااستفادهازمقادیرپیکسلهایآنیکsignatureمحاسبهشدهو ازآنبرایمقایسهتصویرورودیباتصاویرموجوددرپایگاه دادهاستفادهمی‌شود.

  8. مثالیازکاربردها • image size: 82x100 pixels • each pixel is associated with 36(=(1+8)x4) features • 5NN is used for prediction • error rate is about 9.5% • 5NN performs best among LVQ, CART, NN, … .

  9. روشهایمختلف • K-Nearest neighbor (k-NN) • Discrete Target Functions • Continuous Target Functions • Distance Weighted • Locally weighted regression • Radial basis function networks • Case-based reasoning • General Regression Neural Networks

  10. K-Nearest Neighbor Learning (k-NN) • k-NNساده‌ترینومتداولترینروشمبتنیبر یادگیرینمونهاست. • دراینروشفرضمی‌شودکهتمامنمونه‌هانقاطیدرفضایnبعدیحقیقی هستندوهمسایه‌هابرمبنایفواصلاقلیدسیاستانداردتعیینمی‌شوند. • مراداز kتعدادهمسایه‌هایدرنظرگرفتهشدهاست.

  11. فاصلهاقلیدسی • اگریکمثالدلخواهرابه صورت یکبردارویژگینمایشدهیم: • فاصلهبیندومثالxiوxjبه صورت زیرتعریفمی‌شود:

  12. الگوریتمk-NNبرایتابعهدفگسسته براییکتابعهدفگسستهبه صورت الگوریتمk-NNبه صورت زیراست: الگوریتمیادگیری • هرمثالآموزشی< x , f(x) >رابهلیستtraining_examplesاضافهکنید. الگوریتمدسته‌بندی : • براینمونهموردبررسی : xq • نزدیک‌تریننمونه‌هائیاز training_examplesبهآنرابا x1… xkنمایشدهید. • مقدارزیررامحاسبهنمودهوبرگردانید.

  13. - - + - · + Xq - + + - مثال • اگرk=1انتخابشودالگوریتم1-NNمقدارنزدیکتریننمونهبه xqراانتخابخواهدنمود. برایمقادیربزرگترkمتداولترینمقداربینk همسایه نزدیکانتخابخواهدشد. دراینمثالxqدرحالت1-NNمثبتوبرای 5-NNمنفیخواهدبود.

  14. فضایفرضیه ماهیتفضایفرضیهضمنیدرنظرگرفتهشدهتوسطالگوریتمk-NNچیست؟ • اگرچهاینالگوریتمهرگزفرضیهعمومیمشخصیایجادنمی‌کند،بااینوجود ممکناستسطحتصمیمالقاشدهتوسطالگوریتمبراییکفضایدوبعدیرابه صورت ترکیبیازچندوجهی‌هانشاندادکههرچندوجهیمجموعه‌ایازنقاطیراکهتوسطآندسته‌بندی خواهندشدرامشخصمی‌نماید. • نقاطخارجچندوجهینقاطیخواهندبودکهتوسطسایرچندوجهی‌هادسته‌بندی خواهندشد. • ایننوعنمودار Voronoidiagramخواندهمی‌شود.

  15. Voronoi diagram query point qf nearest neighbor qi

  16. بایاساستقرا • بایاساستقراالگوریتمk-NNرامی‌توانبه صورت زیردرنظرگرفت: دسته‌بندی یکنمونهمشابهدسته‌بندی نمونه‌هایدیگریخواهدبودکهدرنزدیکیآنقراردارند.

  17. الگوریتمk-NNبرایتابعهدفپیوسته • الگوریتمk-NNرامی‌توانبه سادگیبرایتوابعهدفپیوسته نیزاستفادهنمود.دراینحالتبه جایانتخاب متداولترینمقدارموجوددرهمسایگیمقدارمیانگینkمثالهمسایهمحاسبهمی‌شود. • درنتیجهدرخطآخرالگوریتمازرابطهزیراستفادهمی‌شود:

  18. k-NN برایتابعهدفپیوسته 1-nearest neighbor 3-nearest neighbor

  19. one two three six five four Eight ? seven مثال

  20. Training data Test instance

  21. نرمالیزهکردنداده‌هایآموزشی یکراهنرمالیزهکردندادهآموزشیar(x)بهa´r(x)عبارتاستاز

  22. Normalised training data Test instance

  23. Distances of test instance from training data Classification 1-NN Yes 3-NN Yes 5-NN No 7-NN No

  24. Distance-weighted k-NN می‌توانعملکرداینالگوریتمرابادرنظرگرفتنوزنیبرایهریکازkمثالهمسایگیبهترنمود.اینوزنبراساسفاصلهنمونه‌هاتانمونهموردبررسیاعمالمی‌شودومعمولابافاصلهنمونه‌هارابطعمعکوسدارد. • درحالتگسسته: • درحالتپیوسته: درصورتاعمالوزناینامکانوجودخواهدداشتکهبهجایkنمونههمسایهازتمامینمونه‌هابرایدسته‌بندی استفادهکنیم.امااینانتخابباعثکندشدنعملدسته‌بندی خواهدشد.

  25. نکاتیدرموردالگوریتمk-NN • الگوریتمDistance-weighted k-NNبطورموثریدرمسائلعملی مختلفیبرایاستنتاجاستقرائیبکاررفتهاست. • اینروشنسبتبهنویزمقاومبودهودرمواردیکهدادهآموزشیزیادیموجودباشدبسیارکاراست.

  26. واژگان • :Regression عبارتاستازتقریبیکتابعبامقدارحقیقی. • :Residual عبارتاستازمقدارخطایحاصلازتقریبتابع. • :KernelFunction عبارتاستازتابعیکهبااستفادهازفاصله،مقداروزنهایمثالهایآموزشیرامعینمی‌کند.

  27. توابع Kernel • معمولابافاصلهرابطهمعکوسدارندتا نقاطنزدیکتروزنبیشتریبگیرند. • K(d(xi,xq)) • 1/d2 • e-d • 1/(1+d)

  28. توابع Kernel K(d(xq,xi)) = exp(-(d(xq,xi)/0)2) K(d(xq,xi)) = 1/ d(xq,xi)2 K(d(xq,xi)) = 1/(d0+d(xq,xi))2

  29. The curse of dimensionality • ازآنجائیکهبرایمحاسبهفاصلهازتمامیویژگی‌هااستفادهمی‌شوداینامکانوجودداردکهحتیویژگی‌هاینامرتبطدرامردسته‌بندی مورداستفادهقرارگیرند. اینامربرخلافروشهائیمثلدرختتصمیماستکهدرآنسعیمی‌شدتافقطازویژگی‌هایمرتبطاستفادهشود. • برایمثالفرضکنیدکههرنمونهبا20ویژگیمشخصشوندکهازمیانآنانفقط2ویژگیبرایدسته‌بندی کافیباشنددراینصورتممکناستنمونه‌هایذخیرهشده‌ایکهدراین دوویژگیمشابههستندبسیارازهمفاصلهداشتهباشند.در این صورت معیارفاصلهمورداستفادهدرk-NNمی‌تواندبسیارگمراه‌کننده باشد. • اینمسئله curseofdimensionality نامیدهمی‌شود.

  30. Cross-validation • یکراهحلاینمشکلاستفادهازوزنبیشتر برایویژگی‌هایمرتبطاست.اینامرمشابهتغییرمقیاسمحور‌هاست:محورویژگی‌هاینامرتبط کوتاهترومحورویژگی‌هایمرتبططولانی‌ترمی‌شوند. • برایتعیینوزنویژگی‌هامی‌توانازروشcross-validationاستفادهنمود: • مجموعه‌ایازداده‌هابهعنوانداده‌هایآموزشیانتخابمی‌شوند. • مقادیرz1,…,znبعنوانضرایبیکهبایددرهرمحورضربشوندانتخابمی‌گردند.اینانتخاببه نحویاستکهخطایدسته‌بندی در باقیماندهمثالها کاهشیابد. • می‌توانباقراردادنzj=0اثریکویژگیرابکلیحذفنمود.

  31. Indexing • ازآنجائیکهدرروشK-NN دسته‌بندی مثالهاتازمانبرخوردباآنمثالبهتعویقمی‌افتداستفادهازIndexingبرایمرتبکردن مثالهایآموزشیمی‌تواند بطورچشمگیریکارائیالگوریتم راافزایشدهد. • روش kd-treeیکروشبرایایندکسکردناستکهدرآننمونه‌هادرسطح یکدرختذخیرهشدهو نمونه‌هاینزدیکبههمدرهمانگرهویاگره‌هاینزدیکبههمذخیرهمی‌شوند.

  32. Locally Weighted Regression • الگوریتمLWRتعمیمیبرالگوریتمK-NNاستکهتقریبصریحیازتابعf حولناحیهمحلیدربرگیرندهنمونهموردبررسیxqبدستمی‌دهد. • اینتقریبمحلیبااستفادهازمثالهاینزدیکهمویامثالهایdistanceweighted انجاممی‌شود. • اینتابعتقریبمحلیممکناستیکتابعخطی،درجهدوویایکشبکهعصبیباشد. دلیلنامگذاری: • :local ازمثالهاینزدیکنمونهموردبررسیاستفادهمی‌کند. • :Weighted اثرهرمثالآموزشیبادر نظرگرفتنفاصلهآنمنظورمی‌شود. • :Regression برایتقریبیکتابعبامقدارحقیقیبکارمی‌رود.

  33. f1 (simple regression) Locally-weighted regression f2 Locally-weighted regression f3 Locally-weighted regression f4 Training data Predicted value using simple regression Predicted value using locally weighted (piece-wise) regression

  34. Locally Weighted Linear Regression • اینروشازیکتابعخطیبرایتقریبتابعهدفدرنزدیکیمثالموردبررسیاستفادهمی‌کند: • اینتابعمشابهتابعمورداستفادهدرفصل4برایمحاسبهوزنهاییکشبکهعصبیاست کهدرآن وزنها طوریانتخابمی‌شدندکهمقدارخطایزیرحداقلگردد: • کهبرایاینکارازقانونآموزشgradient descentاستفادهمی‌شد.

  35. رابطهمحلی؟ • قانوندلتایکرویهتقریبکلیاستدرحالیکهدرروشnearestneighbor بهدنبالیکرابطهبرایتقریبمحلیهستیم. • سوال:چگونهمی‌توانبااستفادهازرابطهکلیقانوندلتا رابطهمحلیموردنظررابدستآوریم؟

  36. استفادهازخطایمحلی • بهنظرمی‌رسدکهساده‌ترینراه، تعریفمجددرابطهخطاستبه نحویکهبامثالهایمحلیآموزشیتطبیقنماید. • اینکاررابهسهروشمی‌توانانجامداد: -1 استفادهازkمثالهمسایگی -2 استفادهازتمامیمثالهاباتخصیصیکمقداروزنیبهآنها -3 ترکیبیازروشهای 1 و2

  37. قانونتغییروزنها • درانتخابهایفوق: • E1فاصلهرادرنظرنمی‌گیرد. • E2جالبترازهمهبودهامامحاسبهآنپرهزینهاست. • E3یکانتخاببینابیناست. • باانتخابE3می‌توان قانوندلتارابراییادگیریوزنهابه صورتزیرنوشت:

  38. انتخابمقدارk • اگرkخیلیکوچکباشد،نسبتبهنویزحساسخواهدبود. • اگرkخیلیبزرگباشدممکناستیکهمسایگینقاطیازسایرکلاسهارانیزدربرگیرد.

  39. ویژگیهای یادگیری مبتنی بر نمونه • مزایا: • می‌تواندتوابعپیچیدهرامدلکند. • اطلاعاتموجوددرمثالهایآموزشیازبیننمی‌رود. • می‌تواندازنمایشسمبلیکنمونه‌هااستفادهکند. (CBR) • معایب: • بازده الگوریتمهنگامانجامدسته‌بندی کماست. • تعیینیکتابعفاصلهمناسبمشکلاست. • ویژگیهاینامرتبطتاثیرمنفیدرمعیارفاصلهدارند. • ممکناستبهحافظهبسیارزیادینیازداشتهباشد.

More Related