1 / 42

یادگیری بیزی

یادگیری بیزی. مدرس: علی فروتن راد گروه مهندسی کامپیوتر دانشگاه آزاد اسلامی زنجان & Mitchell Ch. 6. با تشکر از دکتر سعید شیری و دکتر فریبز محمودی گروه مهندسی کامپیوتر و فناوری اطلاعات دانشگاه صنعتی امیرکبیر و دانشگاه آزاد قزوین. مقدمه.

nigel-horn
Download Presentation

یادگیری بیزی

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. یادگیریبیزی مدرس: علی فروتن راد گروه مهندسی کامپیوتر دانشگاه آزاد اسلامی زنجان & Mitchell Ch. 6 با تشکر از دکتر سعید شیری و دکتر فریبز محمودی گروه مهندسی کامپیوتر و فناوری اطلاعات دانشگاه صنعتی امیرکبیر و دانشگاه آزاد قزوین

  2. مقدمه • استدلالبیزیروشیبرپایهاحتمالاتبرایاستنتاجکردناست. • اساساینروشبرایناصلاستواراستکهبرای هرکمیتییکتوزیعاحتمالوجوددارد که بامشاهده یکدادهجدیدواستدلالدرموردتوزیعاحتمالآنمی‌توانتصمیماتبهینه‌ایاتخاذ کرد.

  3. اهمیتیادگیریبیزی • دربرخیکاربردها)نظیردسته‌بندی متن (استفادهازروشهاییادگیریبیزی)نظیردسته‌بندی‌کنندهبیزیساده( توانستهاستراهحلهایعملیمفیدیرا ارائهکند. نشاندادهشدهاستکهکارائیاینروشقابلمقایسهبادرختتصمیموشبکهعصبیاست. • مطالعهیادگیریبیزیبهفهمسایرروشهاییادگیریکهبطورمستقیمازاحتمالاتاستفادهنمی‌کنند،کمکمی‌کند.

  4. ویژگیهاییادگیریبیزی • مشاهدههرمثالمی‌تواندبه صورت جزئیباعثافزایشویاکاهشاحتمالدرستبودنیکفرضیهگردد. • برایبدستآوردناحتمالیکفرضیهمی‌تواندانشقبلی رابامثالمشاهدهشدهترکیبکرد.ایندانشقبلیازدوطریقبدستمی‌آید: • احتمالقبلیبرای هرفرضیهموجودباشد. • توزیعاحتمالدادهمشاهدهشدهبرای هرفرضیهممکنموجودباشد. • روشهایبیزیفرضیه‌هائیارائهمی‌دهندکهقادربهپیش‌بینیاحتمالیهستند) مثلبیماربهاحتمال 93% بهبودمی‌یابد(. • مثالهایجدیدرامی‌توانباترکیبوزنیچندینفرضیهدسته‌بندینمود. • حتیدرمواردیکهروشهایبیزیقابلمحاسبهنباشند،می‌توانازآنهابهعنوانمعیاریبرایارزیابیروشهایدیگراستفادهکرد.

  5. مشکلاتعملی • نیازبهدانشاولیهدرموردتعدادزیادیازاحتمالات دارد.وقتیکهایناطلاعاتموجودنباشنداغلبناگزیربهتخمینزدنآنهستیم. برایاینکارازاطلاعاتزمینه، داده‌هائیکهقبلاجمع‌آوریشده‌اند،وفرضیاتیدرموردتوزیع احتمالاستفادهمی‌شود. • محاسبه فرضیاتبهینهبیزیدر حالت عمومی بسیارهزینه‌براست. (متناسب خطیبا تعدادفرضیه‌هایکاندیداست.)

  6. ساختاراینفصل • معرفیتئوریبیز،ML , MAP روشهاییادگیریبیزیشامل: • Optimal classifier algorithm • Naive Bayes learning • Bayesian belief network learning • رابطهتئوریبیزوسایرروشهاییادگیری

  7. تئوریبیز • دریادگیریماشینمعمولادرفضایفرضیهHبدنبالبهترینفرضیه‌ایهستیمکه درموردداده‌هایآموزشیDصدقکند. یکراهتعیینبهترینفرضیه،ایناست کهبدنبالمحتمل‌ترین فرضیه‌ای باشیم که با داشتن داده‌های آموزشی D و احتمال قبلی در مورد فرضیه‌های مختلف می‌توان انتظار داشت. • تئوریبیزراهحلمستقیمیدر این خصوص ارائهمی‌دهد.

  8. تئوریبیز • سنگبناییادگیریبیزیرا تئوریبیزتشکیلمی‌دهد.اینتئوریامکانمحاسبهاحتمالثانویهرابرمبنایاحتمالاتاولیهمی‌دهد: Likelihood Prior probability Posterior probability Evidence

  9. تئوریبیز:تعریفمفاهیماولیه • فرضکنیدکهفضایفرضیه HومجموعهمثالهایآموزشDموجودباشند.مقادیراحتمالزیرراتعریفمی‌کنیم: • = P(h)احتمالاولیه‌ای (priorprobablity)کهفرضیهhقبلازمشاهدهمثالآموزشیD داشتهاست. اگرچنیناحتمالیموجودنباشدمی‌توانبهتمامیفرضیه‌هااحتمالیکسانینسبتداد. • = P(D) احتمالاولیه‌ایکهدادهآموزشیDمشاهدهخواهدشد. • = P(D|h) احتمال مشاهدهدادهآموزشیDبهفرضآنکهفرضیهhصادقباشد. • دریادگیریماشینعلاقمندبه دانستنP(h|D)یعنیاحتمالاینکهبامشاهدهدادهآموزشیDفرضیهhصادقباشد،هستیم.اینرابطهاحتمالثانویه(posterior probablity)نامیدهمی‌شود. • توجهشودکهاحتمالاولیهمستقلازدادهآموزشیاستولیاحتمالثانویه تاثیردادهآموزشیرامنعکسمی‌کند.

  10. تئوریبیز • همانطورکهمشاهدهمی‌شودباافزایشP(D)مقدارP(h|D)کاهشمی‌یابد.زیراهرچهاحتمالمشاهدهDمستقلازhبیشترباشد،بهاینمعناخواهدبودکهDشواهدکمتریدرحمایتاز h دربردارد.

  11. Maximum A Posteriori (MAP) hypothesis • درمسایلیکهمجموعه‌ایازفرضیه‌هایHوجودداشتهوبخواهیممحتمل‌ترینفرضیه راازمیانآنانانتخابکنیم،فرضیهباحداکثراحتمالMaximum A Posteriori (MAP) hypothesisنامیدهمی‌شودوازرابطهزیربدستمی‌آید. دراینرابطهP(D) یک مقدار ثابت مستقلاز h بودهوحذفمی‌شود.

  12. Maximum likelihood (ML) hypothesis • درمواقعیکههیچاطلاعیدرموردP(h) وجودنداشتهباشدمی‌توانفرضکردکهتمامفرضیه‌هایHدارایاحتمالاولیهیکسانیهستند.دراین صورتبرایمحاسبهفرضیهباحداکثراحتمالمی‌توانفقطمقدارP(D|h)رادرنظرگرفت.اینمقدارlikelihood دادهDبافرضhنامیدهمی‌شودوهرفرضیه‌ایکهمقدارآنراماکزیممکندفرضیهMaximum Likelihood (ML)نامیدهمی‌شود:

  13. مثال: تشخیصبیماری • دریکمسئلهتشخیصبیماریبادوفرضیهروبروهستیم: -1بیماردارایسرطاناست.-2بیمارسالماست. • داده‌هایآزمایشگاهینشانمی‌دهدکه0.008جمعیتدارایاینبیماریهستند. • به علتنادقیقبودنتست‌هایآزمایشگاهینتایجآنبه صورت زیراست: • در98%مواقعیکه شخصواقعابیماراستنتیجهصحیحمثبتحاصلمی‌شود. • در97%مواقعیکهبیمارسالماستنتیجهصحیحمنفیحاصلمی‌شود. P(cancer)=0.008, P(+|cancer)=0.98, P(+|~cancer)=0.03, P(~cancer)=0.992, P(-|cancer)=0.02, P(-|~cancer)=0.97

  14. مثال: تشخیصبیماری • حالاگربیمارجدیدیمشاهدهشودکهجوابآزمایشگاهمثبتباشد،آیابایدبیماررامبتلابهسرطانبدانیم؟ • احتمالابتلایبیماربهسرطانعبارتاستاز: P(cancer|+) = P(+|cancer) P(cancer) / P(+) = (0.98)(0.008) / P(+) = 0.0078 / P(+) • احتمالنداشتنسرطانعبارتاستاز: P(~cancer|+) = P(+|~cancer) P(~cancer) / P(+) = (0.03)(0.992) / P(+) = 0.0298 / P(+) • لذافرضیهMAPعبارتخواهدبوداز: hMAP=~cancer

  15. مثال: تشخیصبیماری • P(cancer|+) + P(~cancer|+) = 1 • 0.0078 / P(+) + 0.0298 / P(+) =1 • P(+) = 0.0078 + 0.0298 = 0.0376 • احتمالابتلایبیماربهسرطانعبارتاستاز: P(cancer|+) = 0.0078 / P(+) = 0.21 • احتمالنداشتنسرطانعبارتاستاز: P(~cancer|+) = 0.0298 / P(+) = 0.79

  16. خلاصه فرمولهای احتمال

  17. Brute-force MAP Learning • می‌توانبااستفادهازتئوریبیزیالگوریتمیبراییادگیریمفهومارائهنمودکهبتواندفرضیهبابیشتریناحتمالرابدستدهد: Brute-force MAP Learning Algorithm • برایهرفرضیهhموجوددر Hمقداراحتمالثانویهراحسابمی‌کنیم. • فرضیهhMAPراکهبیشتریناحتمالثانویهراداردمشخصمی‌کنیم.

  18. دسته‌بندی‌کنندهبیزیبهینهBayes Optimal Classifier • الگوریتمBrute-Force MAP learning درپیپاسخگوئیبهاینسوالاست:محتمل‌ترین فرضیهبرای مجموعهدادهآموزشیچیست؟ • درحالیکهاغلبدنبالیافتنپاسخاینسوالهستیم: محتمل‌تریندسته‌بندی یکنمونهمشاهدهشدهچیست؟ • اگرچهبهنظرمی‌رسدکهپاسخسوالدومرامی‌توانبااعمالفرضیهMAPبهنمونهموردنظربدستآورد،روشبهتریبرایاینکاروجوددارد: • درعملمحتمل‌ترین دسته‌بندی براییکنمونهجدیدازترکیبپیش‌بینیتمامیفرضیه‌هابدستمی‌آید.مقدارپیش‌بینیهرفرضیهدراحتمالثانویهآنضربشدهوحاصلآنهاباهمترکیبمی‌شود.

  19. مثال • فرضکنید3فرضیهh1, h2, h3برای داده‌هایآموزشیدارایاحتمالثانویهزیرباشند: P(h1|D) = 0.4, P(h2|D) = 0.3, P(h3|D) = 0.3 درنتیجهh1فرضیهMAPمی‌باشد. • اگر بهنمونهجدیدیمثلxبرخورد کنیمکه P(h1) = +, P(h2) = - , P(h3) = - • دراین صورتاحتمالمثبتبودنxبرابربا0.4واحتمالمنفیبودنآن0.6استدراین صورتدسته‌بندیxچیست؟

  20. دسته‌بندی‌کنندهبیزیبهینهBayes Optimal Classifier • درعملمحتمل‌ترین دسته‌بندی براییکنمونهجدیدازترکیبوزنیپیش‌بینیتمامیفرضیه‌هابدستمی‌آید. اگردسته‌بندی مثالجدیدبتواندهرمقدارvjازمجموعهVرا داشتهباشددراین صورتاحتمالاینکهمثالجدیددسته‌بندیvjراداشتهباشدبرابراستبا: • مقدارماکزیممرابطهفوقدسته‌بندی بهینهایننمونهرامشخصخواهدنمود: Bayes Optimal Classification

  21. دسته‌بندی بهینهOptimal Classification • برایمثالفوقدسته‌بندی بهینهبیزیبه صورت زیرخواهدبود. P(h1|D) = 0.4 P(-|h1) = 0 P(+|h1) = 1 P(h2|D) = 0.3 P(-|h2) = 1 P(+|h2) = 0 P(h3|D) = 0.3 P(-|h3) = 1 P(+|h3) = 0 • لذا Σi P( + | hi ) P (hi | D) = 0.4 and Σi P( - | hi ) P (hi | D) = 0.6 • درنتیجهایننمونهبه صورت منفیدسته‌بندی خواهدشد. استفادهازاینروشبرایفضاهایفرضیه‌های بزرگغیرعملیاست.

  22. Naive Bayes Classifier • یکروشیادگیریبسیارعملیروشNaive Bayes learnerاست.درکاربردهائینظیردسته‌بندی متنوتشخیصپزشکیاینروشکارائیقابلمقایسه‌ایباشبکه‌هایعصبیودرختتصمیمدارد. • اینروشدرمسایلیکاربردداردکه: • نمونهxتوسطترکیبعطفیویژگیهاقابلتوصیفبودهو • اینویژگیهابه صورت شرطیمستقلازیکدیگرباشند. • تابعهدفf(x)بتواندهرمقداریراازمجموعهمحدودVداشتهباشد. • مجموعهمثالهایآموزشینسبتازیادیدردستباشد.

  23. Naive Bayes Classifier • تابعهدفزیررادرنظربگیریدf : X  Vکهدرآنهرنمونهx توسطویژگیزیرمشخصمی‌شود: (a1,…an) • صورتمسئله:براییکنمونهمشاهدهشده، مقدارتابعهدفیابه عبارتدیگردسته‌بندی آنرامشخصکنید. • درروشبیزیبرایحلمسئلهمحتمل‌ترینمقدارهدف vMAPمحاسبهمی‌شود: اینرابطهبااستفادهازتئوریبیزبه صورت روبرونوشتهمی‌شود:

  24. Naive Bayes Classifier • دررابطهفوقمقدارP(vj)باشمارشدفعاتیکهvjدرمثالهایآموزشیمشاهدهشدهاستمحاسبهمی‌شود. • امامحاسبهP(a1,…,an | vj)چندانعملینیستمگراینکهمجموعهدادهآموزشیبسیاربسیاربزرگیدردستباشد. • روشیادگیریNaive BayesClassifierبرپایهاینفرضساده(Naive)عملمی‌کندکه: مقادیرویژگیهابه صورت شرطیمستقلهستند • دراین صورتبراییکمقدارهدفمشخصاحتمالمشاهده ترکیبعطفی(a1,…an) برابراستبا حاصلضرباحتمالتکتکویژگیها. دراین صورترابطهفوقبه صورت زیردرمی‌آید: Naive Bayes Classifier

  25. Naive Bayes Classifier خلاصه: • درروشیادگیری Naive BayesClassifierمقادیرمختلف P(vj) وP(ai| vj) بااستفادهازدفعاتتکرارآنهاتخمینزدهمی‌شود. • مجموعهاینتخمین‌هافرضیه‌ایراتشکیلمی‌دهدکهبااستفادهازرابطهزیربرایدسته‌بندی دادهجدیدبکارمی‌رود: • دراینروشهیچگونهعملجستجویآشکاریدر فضای فرضیه وجودندارد.

  26. مثال • اعمالدسته‌بندی‌کنندهسادهبیزیبهمسئلهدسته‌بندی روزهابراساساینکهبازیتنیسدرآنانجامخواهدشدیانه؟ • داده‌هایاینمثالدرجدولزیرنشاندادهشدهاست:

  27. مثال • می‌خواهیمبااینروشدستهمثالزیررامشخصکنیم: x:(Outl=Sunny, Temp=Cool, Hum=High,Wind=strong) • بااعمالرابطهدسته‌بندی‌کنندهسادهبیزیداریم: • برایمحاسبهاینمقداربایدتعداد 10 مقداراحتمالراتخمینبزنیم.

  28. مثال • اینکارباشمارشدفعاتتکراردرمثالهایآموزشیانجاممی‌شود:

  29. تخمینمقادیراحتمال • درمثالقبلمقداراحتمالاتبراساسنسبتتعدادمشاهدهشدهیکمقداربهتعدادکلحالاتممکنمحاسبهگردیدnc/n • اگرچهاینمقدارمشاهدهشدهمی‌تواندتخمینخوبیازمقداراحتمالباشد،با اینوجوداگرمقدارnc خیلیکوچکویاصفرباشدمی‌تواندمنجربهنتایجغلطیشود. • اگربرایدستهvjمقدارaiهرگز مشاهدهنشود، مقدارP(ai|vj)=0شدهودرنتیجهکلحاصل‌ضربصفرخواهدشد.برایجلوگیریازاینمشکلازروشیبهنامm-estimateاستفادهمی‌شود. • کهدرآنncوnهمانمقادیرقبلیبودهوpتخمیناولیهازمقداراحتمالیاستکهبه دنبالآنهستیموm یک مقدار ثابت و تعدادمثالهایمجازیاست.معمولامقدارpبه صورت یکنواختدرنظرگرفتهشدهوبرابرباp = 1/kدرنظرگرفتهمی‌شودکهkتعدادمقادیرممکنبرایویژگیهاست. در حقیقتm یک وزنی برای احتمالp است. m-estimate of probablity

  30. دسته‌بندی متن مثالهائیازدسته‌بندی متن: • تعیینمقاله‌هایموردعلاقه یکشخص. • دسته‌بندی صفحاتوببراساسموضوع. برایچنینکاربردهائیدسته‌بندی‌کنندهسادهبیزیمی‌تواندبسیارموثر عملکند .اگرچهدرعملشرطاستقلالویژگیهابرقرارنیست. ) مثلااحتمالدیدنکلمهماشینبعداز کلمهیادگیریزیاداست(

  31. دسته‌بندی متن درطراحییکراهحلبرایچنینمسئله‌ای بادونکتهمواجههستیم: • تصمیم‌گیریدرمورداینکهیکمتندلخواهراچگونهبه صورت مقادیرویژگینشاندهیم. • تصمیم‌گیریدرمورداینکهمقادیراحتمالموردنیازراچگونهتخمینبزنیم.

  32. نشاندادنمتنبه صورت مقادیرویژگی • دوراهبرایاینکارامتحانشدهاست: • موقعیتهرکلمهدرمتنبه صورت یکویژگیدرنظرگرفتهمی‌شود.مثلامتنیکه 100 کلمهدارددارای 100 ویژگینیزخواهدبود. مقدار هر ویژگی یک کلمه است. • هرکلمهموجوددرفرهنگلغاتبهعنوانیکویژگیدرنظرگرفتهشده) حدود (50000 وتعدادتکرارآنهادرمتنشمارشمی‌شود. فرض کنیم در ابتدا از روش اول استفاده شده است.

  33. نمایشمتن • درروشاولهرمتنبهبرداریازکلماتتبدیلشدهوبازایموقعیت هرکلمهیکویژگینسبتدادهمی‌شود.کهمقدارآنویژگیبرابربا آنکلمهخواهدبود. doc = (a1=w1, ai=wk, … , an=wn) • برایمثالفرضکنیدکهازتعداد1000متنآموزشیتعداد700متنبه صورتdislike و300متنبه صورتlike دسته‌بندی شدهباشند.دراین صورتبرایدسته‌بندی یکمتنجدیدبا111کلمهمی‌توانرابطهدسته‌بندی‌کنندهسادهبیزیرابه صورت زیربکاربرد:

  34. مثال از نمایشمتن .

  35. یکاشکالاساسی • استفادهازفرضاستقلالبیزیدراینمثال به وضوحغلطاستیعنینمی‌توانفرضکرد کهاحتمالبودنیککلمهدریکمحلمستقلازکلماتیاستکهدرسایرمحل‌هاقرارگرفته‌اند. بااینوجودچونچارهدیگرینداریمناگزیرازاستفادهازاینفرضهستیم. درعملنشاندادهشدهکهعلیرغماینفرضنادرست،استفادهازدسته‌بندی‌کنندهبیزیسادهنتایجخوبیداشتهاست.

  36. محاسبهمقادیر احتمال • برایمحاسبهP(vj)تعدادهرکلاسدر دادهآموزشیشمارشمی‌شود. • محاسبهP(ai=wk|vj)(در اینجا wk لغت kام از فرهنگ لغت است.) بسیار سخت است. • زیرا باید برای تمام ترکیباتممکن از موقعیتهای کلمات فرهنگ لغت این احتمال تخمین زده شود. که برای این مثال باید 2*111*50,000 تقریبا معادل با 10,000,000 احتمال از روی مجموعه داده‌های آموزشی تخمین زده شود، کهعملیناشدنیاست.

  37. محاسبهمقادیر احتمال • ازاینرودرعملفرضمی‌شودکهاحتمالمشاهدهیککلمه مشخصwkمستقلازمحلقرارگرفتنآنباشد. • به عبارتدیگرکلمجموعهP(a1=wk|vj), P(a2=wk|vj),... باP(wk|vj) تخمینزدهمی‌شود،که در این حال فقط باید 2*50,000احتمالمحاسبهشود. • همچنینبرایمحاسبهمقداراحتمالازروشm-estimateاستفادهخواهدشد.

  38. الگوریتمیادگیری

  39. الگوریتمدسته‌بندی CLASSIFY_NAIVE_BAYES_TEXT ( Doc) Return the estimated target value for the document Doc. ai denotes the word found in the ith position within Doc. • positions  all word positions in Doc that contain tokens found in Vocabulary • Return vNB, where vNB = argmax vj in V P( vj)Pi in positions P( ai| vj)

  40. نتایجتجربی:یادگیری گروههای خبری • هدف:تعیناینکهیکمقالهموردبررسیبهکدامیکاز 20 گروهخبریnews groupزیراختصاصدارد: • دادهآموزشی:تعداد 1000 متنبههمراهگروهخبریمربوطه. • نتیجهدسته‌بندی: 89% دقتدردسته‌بندی حاصلگردید. دراینمثال 100 کلمهمتداولنظیر the ازمجموعهلغاتحذفشدهاست.همچنینکلماتیکهتعدادتکرارآنهااز 3 کمتربودهنیزحذفگردیدهاست. درمجموعتعداد 38500 کلمهدرلغتنامهوجودداشتهاست.

  41. منحنییادگیری

  42. خلاصه از نگرشبیزیبهیادگیریماشین نگرشبیزیبهیادگیریماشین) ویاهرفراینددیگر(به صورت زیراست: • دانشموجوددربارهموضوعرابه صورت احتمالاتیفرمولهمی‌کنیم. • برایاینکارمقادیرکیفیدانشرابه صورت توزیعاحتمال،فرضیاتاستقلالوغیرهمدلمی‌نمائیم. اینمدلدارایپارامترهایناشناخته‌ایخواهدبود. • برایهریکازمقادیرناشناخته،توزیعاحتمالاولیه‌ایدرنظرگرفتهمی‌شودکهبازگو‌کنندهباورمابه محتملبودنهریکازاینمقادیربدوندیدنداده است. • دادهراجمع‌آوریمی‌نمائیم. • بامشاهدهداده‌هامقدارتوزیعاحتمالثانویهراتخمینمی‌زنیم. • بااستفادهازایناحتمالثانویه: • بهیکنتیجه‌گیریدرموردعدمقطعیتمی‌رسیم. • بامیانگین‌گیریرویمقادیراحتمالثانویهپیش‌بینیانجاممی‌دهیم. • برایکاهشخطایثانویهموردانتظارتصمیم‌گیریمی‌کنیم.

More Related