1 / 35

تحلیل مولفه‌های اصلی P rincipal C omponents A nalysis ( PCA )

تحلیل مولفه‌های اصلی P rincipal C omponents A nalysis ( PCA ). موسوی ندوشنی پاییز 1390. مقدمه. در رگرسیون چندگانه، در پاره‌ای از موارد ملاحظه می‌شود که بین متغیرهای مستقل که برای پیشگویی متغیر وابسته به‌کار می‌روند، همبستگی معنی‌داری وجود دارد.

Download Presentation

تحلیل مولفه‌های اصلی P rincipal C omponents A nalysis ( PCA )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. تحلیل مولفه‌های اصلیPrincipal Components Analysis (PCA) موسوی ندوشنی پاییز 1390 دانشگاه صنعت آب و برق

  2. مقدمه در رگرسیون چندگانه، در پاره‌ای از موارد ملاحظه می‌شود که بین متغیرهای مستقل که برای پیشگویی متغیر وابسته به‌کار می‌روند، همبستگی معنی‌داری وجود دارد. در مورد فوق دیگر نمی‌توان از روش معمول (رگرسیون چندگانه) استفاده نمود. در اینجا لازم است که با تکنیکی متغیرهای وابسته را به سیستم مستقلی تبدیل نمود. اگر یک تعبیر هندسی را در نظر آورید. متغیرهای مشاهده شده حول محورهایی قرار می‌گیرند که شرط استقلال را برقرار می‌کنند. این محورها حاصل چرخش محورهای قبلی است. به این تکنیک اصطلاحا تحلیل مولفه‌های اصلی گویند. دانشگاه صنعت آب و برق

  3. مقدار و بردار ویژه (Eigenvalve & Eigenvector) یک ماتریس قبل از شروع تحلیل لازم است که قدری با مقادیر و بردارهای ویژه (eigenvaues & eigen vectors) ماتریس‌ها آشنا شد. اگر رابطه زیر برای ماتریس A برقرار باشد، آنگاه می‌توان مقادیر  (اسکالر) و بردارX مشخص نمود. AX=λX در این معادله باید λ و X را محاسبه نمود. برای حل معادله بالا می‌توان λX را به‌صورت λIX نوشت که I ماتریس واحد است. بنابراین AX-λIX=0 → (A-λI)X=0 است. معادله اخیر وقتی برابر صفر است که یا X=0 و یا A-I=0 باشد. اکنون اگر X=0 باشد یک جواب کاملا خاص است، بنابراین لازم است که A-I=0 باشد. دانشگاه صنعت آب و برق

  4. دنباله مقدار و بردار ویژه اگر معادله صفحه قبل برای مرتبه سه بنویسیم چنین خواهد شد. اگر معادله بالا بدون Xi نوشته شود، لازم است که دترمینان (A-I) برابر صفر گردد، که معادله مشخصه نام دارد. دانشگاه صنعت آب و برق

  5. دنباله مقدار و بردار ویژه بسط معادله مشخصه یک معادله درجه سوم ایجاد می‌کند، که ریشه‌های معادله بالا مقادیر ویژه را بدست می‌دهد. بنابراین تعداد ریشه‌ها بستگی به مرتبه ماتریس دارد. برای ماتریس‌های متقارن ریشه‌های معادله حقیقی است. با جایگزینی هر مقدار  در دستگاه معادلات قبل می‌توان آن را حل نمود و برای X1، X2 و X3 جواب‌ها را یافت. هر دسته از متغیرهای مذکور بردارهای ویژه را معین می‌کنند. دانشگاه صنعت آب و برق

  6. مثال ماتریس 3×3 زیر را در نظر بگیرید. معادله بر حسب λ زیر است. با حل این دترمینان معادله زیر حاصل می‌گردد. λ3-3λ2+2.0482λ-0.09266=0 با حل این معادله داریم. λ1=1.9982, λ2=0.9532, λ3=0.0486 دانشگاه صنعت آب و برق

  7. دنباله مثال با جایگزینی مقدار= 1.9982λ1 داریم. با حل معادلات فوق داریم: دانشگاه صنعت آب و برق

  8. دنباله مثال با جایگزینی مقدار= 0.9532λ2 داریم. با حل معادلات فوق داریم: دانشگاه صنعت آب و برق

  9. دنباله مثال با جایگزینی مقدار= 0.0486λ3 داریم. با حل معادلات فوق داریم: دانشگاه صنعت آب و برق

  10. محاسبه مقادیر و بردارهای ویژه در R > a=matrix(c(1,.13,.18,.13,1,.95,.18,.95,1),3,3, byrow=T) > a [,1] [,2] [,3] [1,] 1.00 0.13 0.18 [2,] 0.13 1.00 0.95 [3,] 0.18 0.95 1.00 > eigen(a,symmetric = FALSE) $values [1] 1.99816910 0.95318068 0.04865022 $vectors [,1] [,2] [,3] [1,] 0.2146239 0.9759514 -0.03814932 [2,] 0.6878692 -0.1787694 -0.70347523 [3,] 0.6933776 -0.1247409 0.70969517 دانشگاه صنعت آب و برق

  11. خاصیت نرمالیزه و تعامد بردارهای ویژه اگر جمع مربع درایه‌های بردارهای ویژه را محاسبه کنیم برابر واحد است.به عنوان مثال برای اولین مورد به صورت زیر است: 0.214612+0.687862+0.693392=1 این مطلب نشان می‌دهد که بردارهای ویژه نرمالیزه شده‌اند. حاصل‌جمع ضرب هر یک از بردارهای ویژه برابر صفر است. به‌عنوان مثال 0.21461*0.97598-0.68786*0.17862-0.69339*0.12475=0 این مطلب نشان می‌دهد که بردارهای ویژه دوبدو متعامد هستند. دانشگاه صنعت آب و برق

  12. دوران محورها مقدار و بردار ویژه می‌تواند محورها را از یک سیستم مختصات به سیستم مختصات بچرخاند. می‌توان بردار را در یک سیستم بر حسب سیستم مختصات دیگر و کسینوس بین محورها محاسبه نمود. معادلات خرجش برای سیستم 3تایی به صورت زیر است. در دستگاه بالا Xi، بردار در سیستم مختصات اصلی و Yi، بردار در سیستم دوران یافته می‌باشد. کسینوس جهت بین محورهای اصلی و محورهای دوران یافته را با lij نشان می‌دهند. اندیس i مربوط به سیستم جدید و اندیس j مربوط به سیستم قدیم است. دانشگاه صنعت آب و برق

  13. دنباله چرخش محورها در فرم ماتریسی داریم Y=RX که در آن R ماتریس دوران می‌باشد، که از عناصر lij تشکیل شده است. R را ماتریس متعامد می‌گویند. زیرا محورها با هم زاویه 90 درجه می‌سازند. فرض کنید که رابطه‌ی بین دو بردار درسیستم اولیه به صورت زیر است. AX1=X2 اکنون مي‌خواهیم رابطه‌ی این دو بردار در سیستم خرجش یافته چگونه خواهد بود. دو بردار به‌صورت زیر در سیستم دوران یافته بیان می‌شوند. Y1=RX1, Y2=RX2 اکنون طرفین رابطه دو بردار سیستم اولیه در R ضرب می‌‌کنیم. RAX1=RX2 در رابطه اخیر R-1R وارد می‌شود. لذا داریم. RAR-1RX1=RX2 اگر B=RAR-1 فرض گردد، آنگاه داریم BY1=Y2 دانشگاه صنعت آب و برق

  14. دنباله چرخش محورها اکنون می‌توان بیان نمود که ما ماتریس روابط تبدیل شده را داریم. سیستم اصلی یا اولیه برابر A است و ماتریس B سیستم دوران یافته می‌باشد. بردارهای X1 و Y1 یکسان هستند منتها بردار X1 در سیستم قدیم و بردار Y1 در سیستم جدید است. برای X2 و Y2 نیز به همین صورت است. عملیات RAR-1 ماتریس روابط را به سیستم جدید تبدیل می‌کند. می‌توان نشان داد که هر ماتریس A به یک ماتریس قطری S است، اگر داشته باشیم. S=Q-1AQ که ماتریس S را ماتریس طیفی گویند که عناصر قطری آن مقادیر ویژه و بقیه عناصر آن برابر صفر هستند. ماتریس Q، ماتریس نرمال شده بردارهای ویژه ماتریس A است. دانشگاه صنعت آب و برق

  15. دنباله چرخش محورها اکنون از معادله S می‌توان دو فرم نوشت، زیرا معکوس و ترانهاده ماتریس‌های متعامد نرمالیزه برابر هستند. B=RAR-1, S=Q-1AQ به‌طور خلاصه معادله AX1=X2 به صورت BY1=Y2 تبدیل شد. در این دوران محورهای جدیدی ایجاد شد که محورهای اصلی نامیده می‌شود، که B ماتریس جدید و برابر ماتریس S است. بنابراین کافی است که مقادیر و بردارهای ویژه A محاسبه گردد و در معادلات S و B استفاده شود. برای نمایش مناسب‌تر بجای محورهای اصلی Y1 و Y2 از P1 و P2 استفاده می کنیم. P1=(p11,p12,p13)T, P2=(p21,p22,p23)T دانشگاه صنعت آب و برق

  16. طول و زاویه بردارها اگر xRp باشدع نرم یا طول بردار x (نسبت به ماتریس Ip) به صورت زیر تعریف می شود. اگر ||x||=1 باشد. بردار یکه است. زاویه بین دو بردار x,yRp که  است به صورت زیر تعریف می شود. اگر p=2 باشد، داریم دانشگاه صنعت آب و برق

  17. دنباله طول و زاویه بردارها آنگاه روابط زیر برقرار است. اکنون داریم. دانشگاه صنعت آب و برق

  18. تجزیه و تحلیل مولفه‌ها  d x ملاحظه شد که محورهای دوران یافته که ناشی از مقادیر و بردارهای ویژه است، مبنای تحلیل محورهای اصلی است. با توجه به شکل زیر می‌توان نوشت. اگر کسینوس زاویه را برابر l=d/x فرض کنید، آنگاه می‌توان نوشت که: دانشگاه صنعت آب و برق

  19. دنباله تجزیه و تحلیل مولفه‌ها رابطه صفحه قبل را برای مجموع P مولفه، می‌توان نوشت. اگر این عمل روی n داده انجام شود، آنگاه انحراف کل عبارتست از: اگر از معادله بالا از liها مشتق گرفته شود و معادلات را برابر صفر قرار گیرد. معادله ماتریسی به صورت زیر است. دانشگاه صنعت آب و برق

  20. دنباله تجزیه و تحلیل مولفه‌ها • که در آن: • r: ماتریس ضرایب همبستگی متغیر xi است. • L: بردار کسینوس جهت‌ها است. • بنابراین با داشتن ماتریس ضرایب همبستگی و بردار ویژه سیستم جدید نتیجه می‌شود. دانشگاه صنعت آب و برق

  21. رگرسیون مولفه‌ها اکنون بجای استفاده از مجموعه Xiها که همبسته‌اند، از مجموعه متغیرهای متعامد k که ki است، استفاده می‌شود. اکنون می‌توان نگاه جدیدی به مساله رگرسیون چندگانه افکند. حالا به جای استفاده Y نسبت به Xi می‌توان Y نسبت به k را در نظر گرفت. بنابراین معادله به صورت زیر در می‌آید. استفاده از حروف کوچک به منزله این است که داده‌ها استاندارد شده‌اند. یعنی میانگین آن‌ها صفر و انحراف معیارشان برابر یک است. در واقع ضرایب k به مثابه bi در معادله رگرسیون تلقی می‌شود. دانشگاه صنعت آب و برق

  22. دنباله رگرسیون مولفه‌ها معادله قبل را می‌توان بر حسب xi استاندارد شده بیان نمود. تاثیر 1 در y برابر 11 است. اکنون مقادیر متاثر شده به شرح زیر تنظیم می‌شود. دانشگاه صنعت آب و برق

  23. دنباله رگرسیون مولفه‌ها در دستگاه قبل 1y پشتیبان مستقل 1 است و 2y پشتیبان مستقل 2است و الخ. نظر به اینکه مجموع yها مستقل از مجموع xi می‌توان نوشت. دانشگاه صنعت آب و برق

  24. دنباله رگرسیون مولفه‌ها این رابطه برای سه مولفه به شرح زیر است. اکنون دستگاه معادلات نرمال به شرح زیر است: دانشگاه صنعت آب و برق

  25. دنباله رگرسیون مولفه‌ها در معادلات نرمال تمام جملات ik به ازای i≠k برابر صفر است، چون iها متعامد هستند. نظر به جمل صفر نتیجه می‌شود که دانشگاه صنعت آب و برق

  26. دنباله رگرسیون مولفه‌ها کندال در 1957 نشان داد که ضریب همبستگی در معادلهy بر حسب i برابر مجموع همبستگی‌ها است. ضرایب همبستگی مجزا به صورت زیر هستند. بنابراین همبستگی کل برای اولین j دسته متغیرهای متعامد برابر است با: دانشگاه صنعت آب و برق

  27. مثال دانشگاه صنعت آب و برق

  28. دنباله مثال ماتریس همبستگی Xiها با هم و همبستگی Xi و Y به شرح زیر است: همانطور که ملاحظه می‌شود، متغیرهای X1 و X3 با ضریب همبستگی -0.970 قویا به هم وابسته‌اند. هم‌چنین متغیرهای X1 و X2 دارای ضریب همبستگی 0.706 هستند. دانشگاه صنعت آب و برق

  29. دنباله مثال مقادیر ویژه و بردارهای ویژه به شرح جدول زیر هستند. همانطور که در جدول بالا ملاحظه می‌شود، مولفه چهارم قابل اغماض است، زیرا مقدار ویژه آن ناچیز است. بنابراین سه مولفه اصلی باقی می‌ماند که مجموع مقادیر ویژه آنها برابر 3.99 است. دانشگاه صنعت آب و برق

  30. دنباله مثال چگونگی محاسبه ضرایب biها با استفاده از مولفه اصلی اول دانشگاه صنعت آب و برق

  31. دنباله مثال دانشگاه صنعت آب و برق

  32. دنباله مثال برای مولفه اول، ضرایب به شرح زیر است. برای مولفه دوم، ضرایب به شرح زیر است. دانشگاه صنعت آب و برق

  33. دنباله مثال برای مولفه سوم، ضرایب به شرح زیر است. دانشگاه صنعت آب و برق

  34. دنباله مثال اکنون در جدول زیر ضرایب bi ها را برای مولفه‌های گوناگون ملاحظه می‌کنید. اگر معادله را به روش حداقل مربعات (رگرسیون چندگانه معمولی) در نظر بگیرید به صورت زیر است. دانشگاه صنعت آب و برق

  35. دنباله مثال اکنون اگر بخواهید معادله رگرسیون را با داده‌های اصلی و سه مولفه مورد اشاره داشته باشید، به صورت زیر عمل کنید. اکنون پس از محاسبات ضرایب معادله فوق (با در نظر گرفتن سه مولفه اصلی) نتیجه می‌شود. دانشگاه صنعت آب و برق

More Related