آشنايي با درخت هاي تصميم گيري

آشنايي با درخت هاي تصميم گيري ارائه دهنده: احمد نيك آبادي 8313177 استاد: دکتر شيري بهار 84

فهرست مطالب • مقدمه • طراحي درخت تصميم گيري • پرسش هاي مطرح براي درخت تصميم گيري (CART) • الگوريتم يادگيري درخت ID3، C4.5 • يادگيري افزايشي درخت هاي تصميم گيري • کاربرد درخت هاي تصميم گيري

مقدمه

مقدمه • بردار ويژگي: دوتايي (X,Y) بيانگر بردار ويژگي (الگو) X است و Y برچسب كلاس مربوطه است. اجزاء X همان ويژگي‌هاي مورد نظر هستند. • الگوي مرتب: اگر ويژگي‌هاي X داراي مقاديري از يك مجموعه مرتب باشند، X را يك الگوي مرتب (orderd)يا عددي(numerical) مي‌ناميم . • الگوي حتمي: اگر ويژگي‌هاي بردار مقاديري اختيار كنند كه داراي ترتيب طبيعي نباشند، آن را يك الگوي حتمي (Categorical) مي‌نامند. • ويژگي‌هاي عددي (مرتب) ممكن است داراي مقادير گسسته يا پيوسته باشند. • روش هاي دسته بندي: • تك مرحله اي • چند مرحله اي • مقادير ويژگي ها: • پيوسته • گسسته

معرفي درخت تصميم گيري و برخي تعاريف مورد نياز نمايي از يك درخت تصميم گيري:

معرفي درخت تصميم گيري و برخي تعاريف مورد نياز • ميانگين تعداد لايه‌ها از ريشه تا گره‌هاي پاياني را عمق متوسط مي‌ناميم. • ميانگين تعداد گره‌هاي مياني در هر سطح درخت عرض متوسط درخت ناميده مي‌شود. • اگر دو گره داخلي حداقل داراي يك كلاس مشترك باشند در اين حالت گفته مي‌شود كه كلاس‌ها داراي روي هم افتادگي (Overlap) هستند.

معرفي درخت تصميم گيري و برخي تعاريف مورد نياز • نحوة انتساب كلاس به يك بردار ورودي در درخت تصميم گيري: • بردار ورودي در گره ريشه قرار مي گيريد. • بردار ورودي در هر گرهي كه قرار مي گيرد با توجه به ارزيابي انجام شده در يكي از شاخه ها پايين مي رود تا در يك برگ قرار بگيرد. • برچسب برگي كه گره در آن قرار مي گيرد به عنوان برچسب بردار برگردانده مي شود.

معرفي درخت تصميم گيري و برخي تعاريف مورد نياز • مزايا: • قوانين توليد شده و به كارگرفته شده قابل استخراج و قابل فهم. • کار با داده هاي پيوسته و گسسته. • استفاده از نواحي تصميم گيري ساده. • حذف مقايسه هاي غيرضروري. • استفاده از ويژگي هاي متفاوت براي نمونه هاي مختلف. • احتياجي به تخمين تابع توزيع نيست.

معرفي درخت تصميم گيري و برخي تعاريف مورد نياز • معايب: • در مواردي كه هدف تخمين تابعي با مقادير پيوسته است مناسب نيستند. • در موارد با تعداد كلاس زياد و نمونه آموزشي كم، احتمال خطا بالاست. • هزينه محاسباتي بالاي توليد درخت تصميم گيري. • هرس كردن درخت نيز هزينه بالايي دارد. • در مسائلي كه كلاس هاي ورودي با نواحي مكعبي به خوبي جدا نشوند خوب عمل نمي كنند. • زياد شدن گره پاياني در صورت روي هم افتادگي گره ها. • انباشته شدن خطاي لايه ها بر روي يكديگر. • طراحي درخت تصميم گيري بهينه مشكل است.

طراحي درخت تصميم گيري

طراحي درخت تصميم گيري • اهداف اصلي درخت‌هاي تصميم‌گيري دسته‌بندي كننده: • داده‌هاي ورودي را تا حد ممكن درست دسته‌بندي كنند. • دانش آموخته شده از داده‌هاي آموزشي را به گونه‌اي عموميت ببخشند كه داده‌هاي ديده نشده را با بالاترين دقت ممكن دسته‌بندي كنند. • در صورت اضافه شدن داده‌هاي آموزشي جديد بتوان به راحتي درخت تصميم‌گيري را گسترش داد(داراي خاصيت افزايشي باشند). • ساختار درخت حاصل به ساده‌ترين شكل ممكن باشد.

طراحي درخت تصميم گيري • گام‌هاي لازم براي طراحي يك درخت تصميم‌گيري: • انتخاب مناسبي براي ساختار درخت. • انتخاب ويژگي‌هايي مورد نظر براي تصميم‌گيري در هر يك از گره‌هاي مياني. • انتخاب قانون تصميم‌گيري يا استراتژي مورد استفاده در هر يك از گره‌هاي مياني.

طراحي درخت تصميم گيري • روش‌هاي هيوريستيك ساخت درخت تصميم‌گيري: • روش‌هاي پايين به بالا • روش‌هاي بالا به پايين • روش تركيبي • روش‌هاي رشد دهنده-هرس كننده

طراحي درخت تصميم گيري روش‌هاي پايين به بالا: • درخت تصميم گيري از پايين به بالا با حركت از برگ ها به سمت ريشه ساخته مي شود. • در هر مرحه دو يا چند كلاس بر اساس معياري با يكديگر تركيب مي شوند. • فرآيند تركيب كلاس ها تا زماني كه تنها يك كلاس باقي بماند ادامه مي يابد.

طراحي درخت تصميم گيري • روش‌هاي بالا به پايين : • در روش‌هاي بالا به پايين براي طراحي درخت تصميم‌گيري سه كار زير انجام مي گيرد: • انتخاب يك قانون براي تقسيم گره‌ها. • تصميم‌گيري در مورد اينكه چه گره‌هايي گره پاياني هستند. • انتساب برچسب كلاس به گره‌هاي پاياني. • اكثر كارهاي انجام شده در زمينه درخت هاي تصميم گيري روش هاي بالا به پايين هستند. • نمونه الگوريتم هاي بالا به پايين: • ID3، ID4، ID5R، C4.5، CART

طراحي درخت تصميم گيري • روش هاي رشد دهنده-هرس كننده: • در اين روش ابتدا درخت تصميم گيري با استفاده از روشي همچون يك روش بالا به پايين ساخته مي شود. • در مرحله بعد با استفاده از يك الگوريتم هرس شاخه هاي اضافي درخت حذف مي شوند. • الگوريتم CART از جمله اين الگوريتم هاست. • الگوريتم C4.5 نيز داراي يك الگوريتم هرس مي باشد.

طراحي درخت تصميم گيري • روش هاي تركيبي: • در اين روش ها از هر دو روش بالا به پايين و پايين به بالا استفاده مي شود.

پرسش هاي مطرح براي درخت تصميم گيري (CART)

پرسش هاي مطرح براي درخت تصميم گيري CART • الگوريتم ساخت درخت CART: • Classification And Regression Trees (CART) • Bereiman(1983) • ارائه نرم افزاري با همين نام كه اين الگوريتم را پياده سازي مي كند توسط Salford Systems • الگوريتم هاي ديگري مشابه الگوريتم CART پياده سازي شده و نشان داده شده كه از CART بهتر عمل مي كنند.

پرسش هاي مطرح براي درخت تصميم گيري CART • براي ساخت درخت تصميم گيري با استفاده از الگوريتم CART و بسياري از الگوريتم هاي ديگر ساخت درخت بايد به پرسش هاي زير پاسخ داد: • ويژگي‌ها به مقادير دوتايي محدود مي‌شوند يا مي‌توانند چند مقدار داشته باشند؟ تعداد مقادير ويژگي‌ها تعداد خروجي‌هاي هر گره را مشخص مي‌كند. • در هر گره چه ويژگي بايد ارزيابي شود؟ • چه موقع يك گره را به عنوان گره پاياني اعلام كنيم؟ • اگر درخت تصميم‌گيري خيلي بزرگ شد چگونه مي‌توان آن را كوچكتر (ساده‌تر) كرد؟ پاسخ اين پرسش الگوريتم هرس را مشخص مي‌كند. • اگر يك برگ درخت داراي ناخالصي بود چه برچسب كلاسي به آن نسبت داده مي‌شود؟ • با نمونه‌هايي كه مقدار برخي ويژگي‌هاي آنان معلوم نيست چگونه برخورد شود؟

پرسش هاي مطرح براي درخت تصميم گيري CART • تعداد انشعاب • انتساب برچسب كلاس به برگ‌ها • نمونه‌هايي كه مقادير برخي ويژگي‌هاي آنان مشخص نيست

پرسش هاي مطرح براي درخت تصميم گيري CART • انتخاب ارزيابي و ناخالصي گره: • معيارهاي اندازه گيري ناخالصي بايد داراي ويژگي هاي زير باشند: • در صورتي كه كليه داده‌هاي يك گره به يك كلاس تعلق داشته باشند بايد مقدار آن صفر شود. • در صورتي كه داده‌ها به صورت مساوي بين تمام كلاس‌هاي موجود تقسيم شده باشند بايد بيشترين مقدار خود را داشته باشد. • برخي روش هاي اندازه گيري ناخالصي: • ناخالصي انتروپي • ناخالصي Gini • ناخالصي دسته‌بندي اشتباه

پرسش هاي مطرح براي درخت تصميم گيري CART نمودار مقادير معيارهاي مختلف ناخالصي براي حالت دو كلاسه

پرسش هاي مطرح براي درخت تصميم گيري CART • در هر گره از چه ارزيابي براي تقسيم داده‌ها استفاده كنيم؟ • با داشتن رابطه‌اي كه با استفاد از آن بتوان ناخالصي داده‌ها را اندازه‌گيري كرد به دنبال ارزيابي مي‌گرديم كه ناخالصي داده‌ها را تا حد ممكن كاهش دهد. • براي اندازه‌گيري ميزان كاهش ناخالصي در موراد دو كلاسه از رابطه • استفاده مي‌كنيم. • در اين رابطه NL و NR به ترتيب بيانگر گره‌هاي چپ و راست ايجاد شده در نتيجه ارزيابي در گره فعلي و PL احتمال قرار گرفتن نمونه در گره چپ است.

پرسش هاي مطرح براي درخت تصميم گيري CART • چه موقع تقسيم گره‌ها را خاتمه دهيم؟ • برازش بيش از حد (overfitting) • برخي روش هاي مورد استفاده براي پايان دادن به تقسيم ها: • وارسي اعتبار: هر زمان كه خطاي دسته‌بندي براي داده‌هاي ارزيابي از يك حد از پيش تعيين شده كمتر شد آموزش (تقسيم گره‌ها) را خاتمه مي‌دهيم. • حد آستانه براي تغييرات ناخالصي:اگر بهترين انتخابي كه براي ارزيابي وجود دارد، ناخالصي را از يك حد آستانه كمتر كاهش ‌دهد، تقسيم در آن گره را خاتمه مي‌دهيم.

پرسش هاي مطرح براي درخت تصميم گيري CART • هرس كردن درخت تصميم‌گيري: • پديده horizon effect : گاهي اوقات متوقف شدن تقسيم نمونه‌ها در يك گره و اعلام گره به عنوان برگ به دليل فقدان پيش‌بيني در مورد ميزان مطلوبيت تقسيم‌هاي گره‌هاي بعدي است. • رويه ديگري كه در مقابل روش متوقف ساختن تقسيم به كار گرفته مي‌شود، هرس كردن درخت است. • در اين روش ابتدا درخت تصميم‌گيري را تا حد ممكن گسترش مي‌دهيم تا به كمترين مقادير ناخالصي در برگ‌ها برسيم. سپس به بررسي دو برگ مجاور (داراي پدر يكسان) مي‌پردازيم كه آيا مي‌توان اين دو برگ را با يكديگر تركيب كرد يا خير.

پرسش هاي مطرح براي درخت تصميم گيري CART • الگوريتم هرس CART: • فرض كنيد مقدار را از رابطه • بدست مي‌آوريم. كه در آن نرخ دسته‌بندي اشتباه در گره t است كه با استفاده از رابطه • محاسبه مي‌شود. • فرض كنيد زيردرختي با ريشه t باشد و از رابطه • محاسبه شود. كه در آن ثابتي است كه پيچيدگي درخت تصميم‌گيري را به ازاء هر گره پاياني بيان مي‌كند و مجموعه گره‌هاي پاياني زير درخت است. تخميني از نرخ دسته‌بندي اشتباه و پيچيدگي درخت ارائه مي‌كند.

اگر آنگاه پيچيدگي هزينه زير درخت كمتر از گره tخواهد بود. اين امر براي مقادير كمرخ مي‌دهد. با افزايش اين رابطه تا زماني درست خواهد بود كه • كه در آن تعداد گره‌هاي پاياني زيردرخت است. در نهايت مقدار را به شكل زير محاسبه مي کنيم. • براي هرس كردن درخت در هر مرحله مقدار g(t)را براي تمام گره‌هاي غير برگ محاسبه مي‌كنيم. تا زماني كه حداقل اين مقدار براي گره‌ها از مقدار آستانه‌اي كمتر است، گره مياني با كمترين مقدار g(t) را به عنوان برگ اعلام مي‌كنيم و مقدار g(t) تمام گره‌هاي پدر آن تا ريشه را مجدداً محاسبه مي‌كنيم.

پرسش هاي مطرح براي درخت تصميم گيري CART • الگوريتم يادگيري درخت ID3، C4.5

الگوريتم يادگيري درخت ID3، C4.5 • الگوريتم ID3: • 1986 – Quinlan • بالا به پايين • پايه بسياري از الگوريتم هاي يادگيري درخت • جستجوي حريصانه اي را براي درخت تصميم گيري بهينه انجام مي دهد. • الگوريتم C4.5: • 1993 – Quinlan • حاصل اعمال برخي بهبودها در الگوريتم ID3 (كار با داده هاي پيوسته، كار با ويژگي هاي بدون مقدار و ... ) • الگوريتم C5:

الگوريتم يادگيري درخت ID3، C4.5 • الگوريتم ID3: • كار كردن با مثال‌هاي آموزشي داراي صفات بدون مقدار • كار با صفات داراي مقادير پيوسته • كدام صفت بهترين دسته‌بندي كننده است؟ • مشكل معيارِ اندازه‌گيري بهره اطلاعاتي • مقياس‌‌ ديگر براي انتخاب صفات • نسبت بهره (Quinlan 1986, C4.5):

الگوريتم يادگيري درخت ID3، C4.5 • كار با صفات داراي هزينه‌هاي متفاوت: • گاهي اوقات ويژگي هاي مختلف داراي هزينه‌ محاسبه متفاوتي هستند. • مي‌توان با اضافه كردن عبارت هزينه در مقياس انتخاب صفات ID3 را به گونه‌اي تغيير داد كه هزينه صفات را نيز در نظر بگيرد. • پيشنهادي ارائه شده (جريمه كردن ويژگي با هزينه آن): • Tan و Schlimmer (1990) و Tan (1993) : • Nunez (1988)

الگوريتم يادگيري درخت ID3، C4.5 • ايجاد پنجره در ID3 • روشي براي برخورد با داده‌هاي آموزشي بسيار زياد • بدون استفاده از تكنيك ايجاد پنجره الگوريتم‌هاي فوق بسيار كند عمل خواهند كرد • نمونه‌اي از يك الگوريتم يادگيري به شكل زير است: • زيرمجموعه‌اي از نمونه‌هاي آموزشي را به تصادف انتخاب كنيد. • الگوريتم ID3 را بر روي نمونه‌هاي آموزشي انتخاب شده اجرا و درخت تصميم‌گيري حاصل را بدست آوريد. • كليه نمونه‌هاي آموزشي را با استفاده از درخت به دست آمده دسته‌بندي كنيد. نمونه‌هاي آموزشي را كه اشتباه دسته‌بندي شده‌اند در مجموعه‌اي همانند E قرار دهيد. • در صورتي كه E تهي بود الگوريتم خاتمه مي‌يابد. • زير مجموعه نمونه‌هاي آموزشي (S) را برابر با اجتماع S و E قرار بده. • به گام 2 برو و الگوريتم ID3 را براي زيرمجموعه نمونه‌هاي آموزشي جديد اجرا كن.

يادگيري افزايشي درخت هاي تصميم گيري

يادگيري افزايشي درخت هاي تصميم گيري • يادگيري درخت تصميم گيري: • غير افزايشي: الگوريتم درخت تصميم گيري مورد نظر را در يك بار آموزش با داده‌هاي آموزشي ياد مي‌گيرد. • افزايشي: با دريافت هر نمونه آموزشي جديد در صورتي كه لازم باشد، الگوريتم، درخت يادگرفته شده را بازبيني مي‌كند و ممكن است آنچه را كه ياد گرفته است بهبود بخشد. • ويژگي هاي الگوريتم افزايشي خوب: • حافظه مورد نياز كم. • سرعت بازسازي بالاي درخت. • توليد درختي مناسب نسبت به روش هاي غيرافزايشي. • الگوريتم هاي CART و ID3 كه تا اينجا ديديم همگي الگوريتم هاي غير افزايشي بودند. • برخي الگوريتم هاي افزايشي ساخت درخت: • ID3’ • ID4 • ID5R

يادگيري افزايشي درخت هاي تصميم گيري • الگوريتم ID3’: • ساده ترين ساخت درخت تصميم گيري به صورت افزايشي است. • كليه نمونه هاي آموزشي را نگهداري مي كند و با دريافت هر نمونه جديد الگورتيم ساخت درخت را از ابتدا اجرا مي كند. • ويژگي ها: • حافظه مورد نياز زياد. • سرعت كم. • درختي مشابه درخت ID3 ايجاد مي كند!

يادگيري افزايشي درخت هاي تصميم گيري • الگوريتم ID4: • اساس کار اين الگوريتم دسته بندي ورودي جديد و خراب کردن زيردرختي است که بهترين صفت برا ي ارزيابي در آن انتخاب نشده باشد. • ويژگي ها: • اين الگوريتم ساخت درختي مشايه درخت ID3 را تضمين نمي كند. • در برخي موارد قادر به يافتن درخت مناسب نيست.

يادگيري افزايشي درخت هاي تصميم گيري • الگوريتم ID5R: • تضمين مي‌كند كه با استفاده از داده‌هاي آموزشي يكسان درخت حاصل از آن مشابه درخت توليدي الگوريتم ID3 خواهد بود. • تفاوت اين الگوريتم با ID4 در روش تغيير ويژگي ارزيابي در يك گره است. • به جاي آنكه زير درخت مربوط به گرهي كه قرار است ويژگي مورد ارزيابي آن تغيير كند كلاً خراب شود، اين زير درخت را به گونه‌اي بازسازي مي‌كند كه ويژگي مورد نظر در ريشه قرار بگيرد. • شامل دو الگوريتم به روز رساني درخت و بازسازي است. • براي بازسازي درخت، اين الگوريتم در هر گره تعداد نمونه هاي هر يك از كلاس ها را براي هر يك از مقادير ويژگي ها نگهداري مي كند. به متغيرهاي نگهدارنده هر يك از اين مقادير «شمارنده مورد» گفته مي شود.

يادگيري افزايشي درخت هاي تصميم گيري • الگوريتم به روزرساني درخت ID5R • اگر درخت خالي است، درخت را به عنوان يك گره تنها تعريف كن. برچسب گره را برچسب داده آموزشي جديد قرار بده و مجموعه موارد را نيز مجموعه‌اي شامل تنها داده آموزشي ارائه شده قرار بده. • در غير اين صورت اگر درخت گسترش داده نشده است و برچسب داده آموزشي جديد با برچسب گره يكي است، داده آموزشي جديد را به مجموعه داده‌هاي گره اضافه كن. • در غير اين صورت • اگر درخت گسترش داده نشده است، آن را با انتخاب يك صفت دلخواه براي ريشه، يك سطح گسترش بده. • تعداد موارد مثبت و منفي را به ازاء مقادير ويژگي‌هاي داده آموزشي جديد براي صفت ارزيابي و كليه صفات ديگر در گره فعلي به روز رساني كن. • اگر در گره فعلي بهترين ويژگي براي ارزيابي انتخاب نشده است، • درخت را به گونه‌اي بازسازي كن كه ويژگي مورد نظر در ريشه مورد ارزيابي قرار بگيرد. • به صورت بازگشتي بهترين ويژگي براي ارزيابي در هر يك از زير درخت‌ها –بجز زير درختي كه در گام d به روزرساني مي‌شود- را انتخاب كن. • زير درختي از گره جاري كه داده آموزشي در آن قرار مي‌گيرد را به صورت بازگشتي به روزرساني كن و در صورت لزوم آن را گسترش بده.

يادگيري افزايشي درخت هاي تصميم گيري • الگوريتم بازسازي ID5R : • اگر ويژگي مورد نظر هم اكنون در ريشه باشد، آنگاه الگورتيم خاتمه مي‌يابد. • در غير اين صورت: • به صورت بازگشتي هر يك از زير درخت‌هاي گره فعلي را با انتخاب ويژگي مورد نظر به عنوان ويژگي ارزيابي بازسازي كن. در مواردي كه لازم است، درخت را گسترش بده. • ويژگي انتخاب شده را در ريشه و ويژگي قبلي را در ريشه هر يك از زيردرخت‌هاي قبلي قرار بده.

يادگيري افزايشي درخت هاي تصميم گيري • مثالي از به كارگيري الگوريتم ID5R : • مجموعه داده هاي مورد استفاده براي ساخت درخت:

يادگيري افزايشي درخت هاي تصميم گيري • نمونه جديد: • درخت حاصل:

يادگيري افزايشي درخت هاي تصميم گيري • درخت حاصل را مي توان به شكل فشرده زير نيز ارائه كرد اما اين كار در الگوريتم ID5R انجام نمي شود.

يادگيري افزايشي درخت هاي تصميم گيري • برررسي پيچيدگي الگوريتم هاي معرفي شده: • پيچيدگي الگوريتم ها بر اساس تعداد نمونه هاي آموزشي (n) است. • دو معيار ارزيابي تعداد افزايش هاي شمانده هاي مورد و محاسبه ارزش تقسيم هستند.

کاربرد درخت هاي تصميم گيري • مسائل دسته بندی • Using Decision Tree Confidence Factors for Multi agent Control

آشنايي با درخت هاي تصميم گيري

آشنايي با درخت هاي تصميم گيري

Presentation Transcript

آشنايي با درخت هاي تصميم گيري