380 likes | 784 Views
خوشهبندي مقيد Constrained Clustering. فهرست مطالب. مقدمه ای بر خوشه بندی ارزیابی خوشه بندی خوشه بندی مقید چالشها و راهکارها پژوهش های انجام شده. خوشهبندي. خوشهبندي گروهبندي دادهها به گونهاي که خصوصيات مشترک بين دادههاي هر گروه زياد و خصوصيات مشترک بين گروههاي متفاوت کم باشد.
E N D
فهرست مطالب • مقدمه ای بر خوشه بندی • ارزیابی خوشه بندی • خوشه بندی مقید • چالشها و راهکارها • پژوهش های انجام شده
خوشهبندي • خوشهبندي گروهبندي دادهها به گونهاي که خصوصيات مشترک بين دادههاي هر گروه زياد و خصوصيات مشترک بين گروههاي متفاوت کم باشد. سوال 1: خصوصيات مشترک؟ چگونگي تشخيص خصوصيات؟ • طيف وسيع كاربرد يادگيري ماشين، هوش مصنوعي، الگوشناسي، وب كاوي، تحليل پايگاه داده، پردازش متون و تصاوير، علوم پزشكي، علوم اجتماعي، اقتصاد و تجارت، علوم كامپيوتر، پزشكي • خوشهبندي به عنوان يك مساله مشكل • مهمترين دلايل مشكلبودن مساله: • ذات بدون ناظر بودن الگوريتمهاي خوشهبندي • ابهام در تعريف خوشه مناسب • مشكل بودن تعريف معيار فاصله مناسب • تعريف تابع هدف مناسب به منظور خوشهبندي • عدم وجود الگوريتم جامع براي حل همه مسائل خوشهبندي
ارزیابی کلاسترینگ • چند مساله • تمایل به خوشه بندی شدن داده؟ • آیا یک ساختار غیر تصادفی در داده وجود دارد؟ • استفاده از تستهای آماری • تعداد خوشه ها؟ • برخی الگوریتم ها نیاز به دانستن تعداد خوشه ها قبل از خوشه بندی دارند. • راهکارهای تقسیم و ادغام با معیارهایی از قبیل واریانس درون و برون خوشه ای • کیفیت خوشه بندی انجام شده؟ • خوشه بندی انجام شده چقدر خوب است؟ • ارائه معیارهای ارزیابیمناسب
ویژگیهای یک معیار ارزیابی مناسب (4 شرط) • Cluster homogeneity • هر چه خلوص در خوشه بندی (با دانستن کلاس اصلی داده ها، داده های هم کلاس در یک خوشه قرار بگیرند) بیشتر باشد این معیار بیشتر است. • داده های دسته های متفاوت در خوشه های متفاوت قرار داده شوند.
ارزیابی کلاسترینگ (کیفیت خوشه بندی انجام شده؟) • Cluster completeness • نقطه مقابل Cluster homogeneity • داده ها ی دسته های یکسان در خوشه های یکسان قرار داده شوند.
ارزیابی کلاسترینگ (کیفیت خوشه بندی انجام شده؟) • Rag bag • در برخی مسایل دسته ای به نام «متفرقه» داریم که شامل داده هایی است که نمی توانند با داده های دیگر کلاسها هم خوشه شوند. • جریمه انتساب این نوع داده ها به یک خوشه خالص بیشتر از انتساب آنها به خوشه متفرقه است .
ارزیابی کلاسترینگ (کیفیت خوشه بندی انجام شده؟) • Small cluster preservation • هدف: ممانعت از شکسته شدن دسته های کوچک اشیا • تقسیم یک دسته کوچک از اشیا به دسته های ریز بسیار خطرناکتر از تقسیم دسته بزرگ به دسته های کوچکتر است. • داده ها ممکن است با فرض نویز یا outlier حذف شوند.
ارزیابی کلاسترینگ (کیفیت خوشه بندی انجام شده؟) • معیار Bcubed
مسائل مطرح خوشهبندي • ذات بدون ناظر مساله • پيش فرضهاي اوليه • ساختار داده ها • معيارهاي فاصله و شباهت • تابع هدف • عدم انطباق پيش فرضها و مدل واقعي (Model mismatch) راه حل؟ استفاده از اطلاعات جانبي براي كمك به الگوريتمهاي خوشهبندي جهت توليد فرضهاي صحيح
استفاده از اطلاعات جانبي در خوشهبندي • اطلاعات جانبي • ساختار دادهها • هدف خوشهبندي • شكل خوشهها • بيشينه اندازه خوشهها • حداكثر اعضاي هر خوشه • قيدهاي در سطح نمونه • قيدهاي بايد-پيوند Must-link(ML) • قيدهاي نفي-پيوند Cannot-link(CL) • قابليت اين قيدها در تعريف قيدهاي پيچيده تر • قيد وجود حداقل يك همسايه در فاصله ε: با ايجاد قيد بايد-پيوند ميان هر داده و حداقل يكي از نقاط موجود در همسايگي ε CL ML خوشه بندي مقيد Constrained Clustering (Wagstaff 2000)
خوشهبنديمقيد (دستهبندي ) • مبتني بر ارضاء قيد: • ارضاء سخت: • ارضاء تمامي قيدها به طور كامل • رويكرد جستجوي حريصانه، عدم يافتن يك جواب ممكن براي مساله حتي در صورت وجود جواب • COP-KMEANS[Wagstaff01] • ارضاء نرم: تا حد ممكن سعي در ارضاء قيدها دارند.
خوشهبنديمقيد (دستهبندي) • سلسله مراتبي: • با تغيير الگوريتمهاي خوشهبندي سلسلهمراتبي قابليت برآورده كردن قيدها را نيز در آنها تعبيه مينمايند. • خوشهبندي با ساختن دندروگرامي از دادهها • روش پايه: • ابتدا هر داده به عنوان يك خوشه درنظر گرفته مي شود. • عمل ادغام خوشهها تا هنگامي كه ادغام آنها هيچ قيدي را نقض نكند • روش Davidson[Davidson05] • ابتدا بستارهاي تراگذري مربوط به قيدهاي بايد-پيوند (ML) محاسبه ميشود • خوشهبندي را با X1+r خوشه آغاز مينمايد كهX1 تعداد نمونههايي است كه هيچ قيد بايد-پيوندي بر روي آنها اعمال نشده و r تعداد اجزاء همبند حاصل از قيدهاي بايد-پيوند است.. • انتخاب دو نزديكترين خوشه و ادغام آنها تا زماني كه دو خوشه براي ادغام وجود دارند.
خوشهبنديمقيد (دستهبندي) • تغيير ماتريس فاصله • استفاده از اطلاعات قيدها قبل از خوشهبندي براي تغيير ماتريس فاصله و استفاده از آن در خوشهبندي نهايي • روش Klein[Klein02]
خوشهبنديمقيد (دستهبندي) • يادگيري معيار فاصله به عنوان محبوبترين روش خوشهبندي مقيد • معيار فاصله اقليدسي به عنوان معيار فاصله متداول در فرايند خوشهبندي • ناكارامدي معيار فاصله اقليدسي در توصيف صحيح فاصله در يك مجموعه داده نوعي • معيار فاصله ماهالانوبيس بسيار مورد توجه قرار گرفته است
مزايا و مشكلات استفاده از قيدها در خوشهبندي • مزايا • افزايش ميانگين دقت خوشهبندي [Wagstaff00] • توليد خوشههايي به شكل دلخواه [Wagstaff01b] • مشكلات • شدني بودن (Feasibility) • مفيد نبودن هر مجموعه اي از قيدها [Wagstaff06]
چالشهاي موجود در خوشهبندي مقيد • با وجود الگويتم هاي بسيار در خوشه بندي مقيد چالشهايي در اين حوزه وجود دارد كه نيازمند تحقيق گسترده مي باشد.
چالشهاي موجود در خوشهبندي مقيد • مجموعه قيدهاي متفاوت سودمندي متفاوتي براي الگوريتمهاي خوشهبندي دارند • قيدهايي كه الگوريتم خوشهبندي به خودي خود قادر به استخراج آن از دادهها باشد، تاثير چنداني بر بهبود دقت خوشهبندي نخواهد داشت • تعيين سودمندي يك مجموعه قيد قبل از خوشهبندي • به الگوريتم خوشهبندي اين قابليت را ميدهد كه تصميم بگيرد كه آيا از يك مجموعه قيد در راستاي خوشهبندي استفاده نمايد يا خير. • انتخاب بهترين مجموعه قيد ممكن. • از 1000 بار انتخاب تصادفي مجموعه قيدهاي 25 تايي، درصد مواردي كه سبب كاهش دقت خوشهبندي در چند الگوريتم شده است. (جدول از [Davidson06])
چالشهاي موجود در خوشهبندي مقيد • در يك مجموعه داده با n نمونه، n(n-1)/2 قيد کانديد براي انتخاب وجود دارد. • انتخاب λ بهترين قيد چگونه است؟ • به گونه اي چالش اول را در خود دارد. • رفع اين چالش با معرفي معيارهاي كارامد براي تعيين سودمندي يك مجموعه قيد، سبب كاهش هزينه گردآوري قيدها ميگردد. • روشها • انتخاب قيدها از ميان L داده (L<n) است كه در آن هزينه گردآوري قيدها، فقط شامل برچسبگذاري L داده ميباشد. • پيمايش دورترين-اولين [Basu04] • انتخاب فعال قيدها به كمك تشخيص نقاط مرزي [Xu05]
چالشهاي موجود در خوشهبندي مقيد • تمامي روشهاي خوشه بندي مقيد بر اين فرض استوارند كه انتشار محلي اطلاعات قيدها به همسايهها ايمن بوده و ميتواند سبب بهبود نتيجه خوشهبندي گردد. • مسائل مهم: • تشخيص ايمن بودن انتشار قيد بر روي يك مجموعه داده خاص • درجه انتشار قيد به همسايهها (تعيين شعاع همسايگي بهينه و ...
خوشهبندي مقيد با رويكرد انتخاب فعال قيدها • مساله: خوشهبندي مقيد با رويكرد انتخاب فعال قيدها • نگاه تكرارشونده به حل مساله فضاي قيدها قيدها انتخاب قيدها و انتساب درجه اهميت به آنها خوشهبندي مقيد • تعيين ميزان سودمندي يك قيد مشخص • تاثير انتخاب يك قيد بر انتخاب قيدهاي بعدي • تعيين ميزان سودمندي يك مجموعه قيد • تعريف تابع هدف مناسب براي انتخاب يك مجموعه قيد
خوشه بندی مقید • ارائه یک روش خوشه بندی مقید • مبتنی بر یادگیری معیار فاصله • حفظ ساختار را در حین تبدیل در نظر می گیرد. • درجه اهمیت قیدها را هم در نظر می گیرد
مدل خطي رويكرد دوم • در مدل خطي • يادگيري ماتريس تبديل d*D • WM و WC ماتريس درجه اهميت قيدهاي بايد-پيوند و نفي-پيوند • DM و DC ماتريس هاي قطري حاصل از جمع ستوني WM و WC • به صورت مستقيم با رويكردهاي تجزيه طيفي قابل حل نميباشد. • از روش ارائهشده در [Xiang08] براي يافتن ماتريس بهينه A استفاده مي شود..
مدل غيرخطي رويكرد دوم • در مدل غيرخطي • استفاده از توابع هسته براي حالت غيرخطي • يادگيري ماتريس تبديل به صورت • تبديليافته دادهها در فضاي هسته • نوشتن هر بردار Ai به صورت تركيب خطي از نقاط • در نتيجه يك ماتريس وجود دارد كه • با جايگذاري در مدل اصلي داريم: • تبديل بهينه نقاط به فضاي مقصد
انتخاب فعال قيدها (مستقل از الگوریتم خوشه بندی مقید) • ایده: استفاده از اطلاعات مرز داده ها • مسائل مطرح: • تعيين ميزان سودمندي يك قيد مشخص • با استفاده از فاصله نقاط مرزی • تاثير انتخاب يك قيد بر انتخاب قيدهاي بعدي • با تعریف فاصله قید کاندید با قیدهای قبلی • تعيين ميزان سودمندي يك مجموعه قيد • حاصل جمع سودمندی قید با درنظرگرفتن ترتیب • تعريف تابع هدف مناسب براي انتخاب يك مجموعه قيد
انتخاب فعال قیدها توزیع قیدها در فضای داده
نگاه تكرارشونده به حل مساله در ادامه راه - سودمندی قید بسیار به الگوریتمی که از آن استفاده می کند وابسته است. - ارائه راهکاری برای انتخاب قید در حین خوشه بندی قيدها فضاي قيدها انتخاب فعال قيدها خوشهبندي مقيد
منابع (1) [Bilenko04]. M. Bilenko, S. Basu, and R. J. Mooney, “Integrating constraints and metric learning in semi-supervised clustering,” In Proceedings of International Conference on Machine Learning (ICML), 2004. [Wagstaff01]. K. Wagstaff, C. Cardie, S. Rogers, and S. Schrodl, “Constrained k-means clustering with background knowledge,” In Proceedings of International Conference on Machine Learning (ICML), ICML ’01, pp.577–584, 2001. [Davidson05]. I. Davidson and S. S. Ravi, “Clustering with constraints: Feasibility issues and the k-means algorithm,” In Proceedings of SIAM International Conference on Data Mining, 2005. [Klein02]. D. Klein, S. D. Kamvar, and C. D. Manning, “From instance-level constraints to space-level constraints: Making the most of prior knowledge in data clustering,” In Proceedings of the Nineteenth International Conference on Machine Learning, ICML ’02, pp.307–314, 2002. [Bar-Hillel03] A. Bar-Hillel, T. Hertz, N. Shental, and D. Weinshall, “Learning distance functions using equivalence relations,” In Proceedings of International Conference on Machine Learning (ICML), pp.11–18, 2003. [Xing02]. E. P.Xing, A.Y.Ng,M. I. Jordan, and S. J. Russell, “Distancemetric learningwith application to clustering with side-information,” In Proceedings of Neural Information Processing Systems (NIPS), pp.505–512, 2002.
منابع (2) [Xiang08]. S. Xiang, F. Nie, and C. Zhang, “Learning a mahalanobis distance metric for data clustering and classification,” Pattern Recognition, Vol.41, No.12, pp.3600–3612, 2008. [Wang11]. F. Wang, “Semisupervised metric learning by maximizing constraint margin,” IEEE Transactions on Systems, Man, and Cybernetics, Part B, Vol.41, No.4, pp.931–939, 2011. [Li08]. Z. Li, J. Liu, and X. Tang, “Pairwise constraint propagation by semidefinite programming for semi-supervised classification,” In Proceedings of the 25th international conference on Machine learning, International Conference on Machine Learning (ICML), pp.576–583, 2008. [Soleymani10]. M. S. Baghshah and S. B. Shouraki, “Non-linearmetric learning using pairwise similarity and dissimilarity constraints and the geometrical structure of data,” Pattern Recognition, Vol.43, No.8, pp.2982–2992, 2010. [Wagstaff00 ]. K.Wagstaff and C. Cardie, “Clustering with instance-level constraints,” In Proceedings of the Seventeenth International Conference on Machine Learning (ICML 2000), pp.1103–1110, 2000. [Wagstaff01b]. K. Wagstaff, C. Cardie, S. Rogers, and S. Schrodl, “Constrained k-means clustering with background knowledge,” In Proceedings of International Conference on Machine Learning (ICML), ICML ’01, pp.577–584, 2001.
منابع (3) [Wagstaff06]. K. Wagstaff, “Value, cost, and sharing: Open issues in constrained clustering,” In Proceedings of 5th International Workshop on Knowledge Discovery in Inductive Databases, KDID 2006, pp.1–10, 2006. [Basu04]. S. Basu, A. Banerjee, and R. J. Mooney, “Active semi-supervision for pairwise constrained clustering,” In Proceedings of the Fourth SIAM International Conference on Data Mining, pp.333–344, 2004. [Xu05]. Q. Xu, M. desJardins, and K. L. Wagstaff, “Active constrained clustering by examining spectral eigen-vectors,” In Proceedings of the 8th international conference on Discovery Science, DS’05, pp.294–307, 2005. [Davidson06]. I. Davidson, K. Wagstaff, and S. Basu, “Measuring constraint-set utility for partitional clustering algorithms,” In Proceedings of Pacific-Asia Conference on Knowledge Discovery and DataMining (PAKDD), pp.115–126, 2006. [Mallapragada08]. P. K. Mallapragada, R. Jin, and A. K. Jain, “Active query selection for semi-supervised clustering,” In Proceedings of International Conference on Pattern Recognition, pp.1–4, 2008. [Vu12]. V.-V. Vu, N. Labroche, and B. Bouchon-Meunier, “Improving constrained clustering with active query selection,” Pattern Recognition, Vol.45, No.4, pp.1749–1758, 2012.
منابع (4) [Wang10]. X. Wang and I. Davidson, “Active spectral clustering,” In Proceedings of International Conference on Data Mining (ICDM), pp.561–568, 2010. [Hoi07]. S. C. H. Hoi, R. Jin, and M. R. Lyu, “Learning nonparametric kernel matrices from pairwise constraints,” In Proceedings of the 24th international conference on Machine learning, International Conference on Machine Learning (ICML), pp.361–368, 2007. [Liu10]. W. Liu, X. Tian, D. Tao, and J. Liu, “Constrained metric learning via distance gap maximization,” In Proceedings of AAAI Conference on Artificial Intelligence, AAAI 2010, 2010. [Grira08]. N.Grira, M. Crucianu, andN. Boujemaa, “Active semi-supervised fuzzy clustering,” Pattern Recognition, Vol.41, No.5, pp.1834–1844, 2008.