990 likes | 1.95k Views
تحلیل مولفههای اصلی P rincipal C omponents A nalysis ( PCA ). موسوی ندوشنی پاییز 1390. مقدمه. در رگرسیون چندگانه، در پارهای از موارد ملاحظه میشود که بین متغیرهای مستقل که برای پیشگویی متغیر وابسته بهکار میروند، همبستگی معنیداری وجود دارد.
E N D
تحلیل مولفههای اصلیPrincipal Components Analysis (PCA) موسوی ندوشنی پاییز 1390 دانشگاه صنعت آب و برق
مقدمه در رگرسیون چندگانه، در پارهای از موارد ملاحظه میشود که بین متغیرهای مستقل که برای پیشگویی متغیر وابسته بهکار میروند، همبستگی معنیداری وجود دارد. در مورد فوق دیگر نمیتوان از روش معمول (رگرسیون چندگانه) استفاده نمود. در اینجا لازم است که با تکنیکی متغیرهای وابسته را به سیستم مستقلی تبدیل نمود. اگر یک تعبیر هندسی را در نظر آورید. متغیرهای مشاهده شده حول محورهایی قرار میگیرند که شرط استقلال را برقرار میکنند. این محورها حاصل چرخش محورهای قبلی است. به این تکنیک اصطلاحا تحلیل مولفههای اصلی گویند. دانشگاه صنعت آب و برق
مقدار و بردار ویژه (Eigenvalve & Eigenvector) یک ماتریس قبل از شروع تحلیل لازم است که قدری با مقادیر و بردارهای ویژه (eigenvaues & eigen vectors) ماتریسها آشنا شد. اگر رابطه زیر برای ماتریس A برقرار باشد، آنگاه میتوان مقادیر (اسکالر) و بردارX مشخص نمود. AX=λX در این معادله باید λ و X را محاسبه نمود. برای حل معادله بالا میتوان λX را بهصورت λIX نوشت که I ماتریس واحد است. بنابراین AX-λIX=0 → (A-λI)X=0 است. معادله اخیر وقتی برابر صفر است که یا X=0 و یا A-I=0 باشد. اکنون اگر X=0 باشد یک جواب کاملا خاص است، بنابراین لازم است که A-I=0 باشد. دانشگاه صنعت آب و برق
دنباله مقدار و بردار ویژه اگر معادله صفحه قبل برای مرتبه سه بنویسیم چنین خواهد شد. اگر معادله بالا بدون Xi نوشته شود، لازم است که دترمینان (A-I) برابر صفر گردد، که معادله مشخصه نام دارد. دانشگاه صنعت آب و برق
دنباله مقدار و بردار ویژه بسط معادله مشخصه یک معادله درجه سوم ایجاد میکند، که ریشههای معادله بالا مقادیر ویژه را بدست میدهد. بنابراین تعداد ریشهها بستگی به مرتبه ماتریس دارد. برای ماتریسهای متقارن ریشههای معادله حقیقی است. با جایگزینی هر مقدار در دستگاه معادلات قبل میتوان آن را حل نمود و برای X1، X2 و X3 جوابها را یافت. هر دسته از متغیرهای مذکور بردارهای ویژه را معین میکنند. دانشگاه صنعت آب و برق
مثال ماتریس 3×3 زیر را در نظر بگیرید. معادله بر حسب λ زیر است. با حل این دترمینان معادله زیر حاصل میگردد. λ3-3λ2+2.0482λ-0.09266=0 با حل این معادله داریم. λ1=1.9982, λ2=0.9532, λ3=0.0486 دانشگاه صنعت آب و برق
دنباله مثال با جایگزینی مقدار= 1.9982λ1 داریم. با حل معادلات فوق داریم: دانشگاه صنعت آب و برق
دنباله مثال با جایگزینی مقدار= 0.9532λ2 داریم. با حل معادلات فوق داریم: دانشگاه صنعت آب و برق
دنباله مثال با جایگزینی مقدار= 0.0486λ3 داریم. با حل معادلات فوق داریم: دانشگاه صنعت آب و برق
محاسبه مقادیر و بردارهای ویژه در R > a=matrix(c(1,.13,.18,.13,1,.95,.18,.95,1),3,3, byrow=T) > a [,1] [,2] [,3] [1,] 1.00 0.13 0.18 [2,] 0.13 1.00 0.95 [3,] 0.18 0.95 1.00 > eigen(a,symmetric = FALSE) $values [1] 1.99816910 0.95318068 0.04865022 $vectors [,1] [,2] [,3] [1,] 0.2146239 0.9759514 -0.03814932 [2,] 0.6878692 -0.1787694 -0.70347523 [3,] 0.6933776 -0.1247409 0.70969517 دانشگاه صنعت آب و برق
خاصیت نرمالیزه و تعامد بردارهای ویژه اگر جمع مربع درایههای بردارهای ویژه را محاسبه کنیم برابر واحد است.به عنوان مثال برای اولین مورد به صورت زیر است: 0.214612+0.687862+0.693392=1 این مطلب نشان میدهد که بردارهای ویژه نرمالیزه شدهاند. حاصلجمع ضرب هر یک از بردارهای ویژه برابر صفر است. بهعنوان مثال 0.21461*0.97598-0.68786*0.17862-0.69339*0.12475=0 این مطلب نشان میدهد که بردارهای ویژه دوبدو متعامد هستند. دانشگاه صنعت آب و برق
دوران محورها مقدار و بردار ویژه میتواند محورها را از یک سیستم مختصات به سیستم مختصات بچرخاند. میتوان بردار را در یک سیستم بر حسب سیستم مختصات دیگر و کسینوس بین محورها محاسبه نمود. معادلات خرجش برای سیستم 3تایی به صورت زیر است. در دستگاه بالا Xi، بردار در سیستم مختصات اصلی و Yi، بردار در سیستم دوران یافته میباشد. کسینوس جهت بین محورهای اصلی و محورهای دوران یافته را با lij نشان میدهند. اندیس i مربوط به سیستم جدید و اندیس j مربوط به سیستم قدیم است. دانشگاه صنعت آب و برق
دنباله چرخش محورها در فرم ماتریسی داریم Y=RX که در آن R ماتریس دوران میباشد، که از عناصر lij تشکیل شده است. R را ماتریس متعامد میگویند. زیرا محورها با هم زاویه 90 درجه میسازند. فرض کنید که رابطهی بین دو بردار درسیستم اولیه به صورت زیر است. AX1=X2 اکنون ميخواهیم رابطهی این دو بردار در سیستم خرجش یافته چگونه خواهد بود. دو بردار بهصورت زیر در سیستم دوران یافته بیان میشوند. Y1=RX1, Y2=RX2 اکنون طرفین رابطه دو بردار سیستم اولیه در R ضرب میکنیم. RAX1=RX2 در رابطه اخیر R-1R وارد میشود. لذا داریم. RAR-1RX1=RX2 اگر B=RAR-1 فرض گردد، آنگاه داریم BY1=Y2 دانشگاه صنعت آب و برق
دنباله چرخش محورها اکنون میتوان بیان نمود که ما ماتریس روابط تبدیل شده را داریم. سیستم اصلی یا اولیه برابر A است و ماتریس B سیستم دوران یافته میباشد. بردارهای X1 و Y1 یکسان هستند منتها بردار X1 در سیستم قدیم و بردار Y1 در سیستم جدید است. برای X2 و Y2 نیز به همین صورت است. عملیات RAR-1 ماتریس روابط را به سیستم جدید تبدیل میکند. میتوان نشان داد که هر ماتریس A به یک ماتریس قطری S است، اگر داشته باشیم. S=Q-1AQ که ماتریس S را ماتریس طیفی گویند که عناصر قطری آن مقادیر ویژه و بقیه عناصر آن برابر صفر هستند. ماتریس Q، ماتریس نرمال شده بردارهای ویژه ماتریس A است. دانشگاه صنعت آب و برق
دنباله چرخش محورها اکنون از معادله S میتوان دو فرم نوشت، زیرا معکوس و ترانهاده ماتریسهای متعامد نرمالیزه برابر هستند. B=RAR-1, S=Q-1AQ بهطور خلاصه معادله AX1=X2 به صورت BY1=Y2 تبدیل شد. در این دوران محورهای جدیدی ایجاد شد که محورهای اصلی نامیده میشود، که B ماتریس جدید و برابر ماتریس S است. بنابراین کافی است که مقادیر و بردارهای ویژه A محاسبه گردد و در معادلات S و B استفاده شود. برای نمایش مناسبتر بجای محورهای اصلی Y1 و Y2 از P1 و P2 استفاده می کنیم. P1=(p11,p12,p13)T, P2=(p21,p22,p23)T دانشگاه صنعت آب و برق
طول و زاویه بردارها اگر xRp باشدع نرم یا طول بردار x (نسبت به ماتریس Ip) به صورت زیر تعریف می شود. اگر ||x||=1 باشد. بردار یکه است. زاویه بین دو بردار x,yRp که است به صورت زیر تعریف می شود. اگر p=2 باشد، داریم دانشگاه صنعت آب و برق
دنباله طول و زاویه بردارها آنگاه روابط زیر برقرار است. اکنون داریم. دانشگاه صنعت آب و برق
تجزیه و تحلیل مولفهها d x ملاحظه شد که محورهای دوران یافته که ناشی از مقادیر و بردارهای ویژه است، مبنای تحلیل محورهای اصلی است. با توجه به شکل زیر میتوان نوشت. اگر کسینوس زاویه را برابر l=d/x فرض کنید، آنگاه میتوان نوشت که: دانشگاه صنعت آب و برق
دنباله تجزیه و تحلیل مولفهها رابطه صفحه قبل را برای مجموع P مولفه، میتوان نوشت. اگر این عمل روی n داده انجام شود، آنگاه انحراف کل عبارتست از: اگر از معادله بالا از liها مشتق گرفته شود و معادلات را برابر صفر قرار گیرد. معادله ماتریسی به صورت زیر است. دانشگاه صنعت آب و برق
دنباله تجزیه و تحلیل مولفهها • که در آن: • r: ماتریس ضرایب همبستگی متغیر xi است. • L: بردار کسینوس جهتها است. • بنابراین با داشتن ماتریس ضرایب همبستگی و بردار ویژه سیستم جدید نتیجه میشود. دانشگاه صنعت آب و برق
رگرسیون مولفهها اکنون بجای استفاده از مجموعه Xiها که همبستهاند، از مجموعه متغیرهای متعامد k که ki است، استفاده میشود. اکنون میتوان نگاه جدیدی به مساله رگرسیون چندگانه افکند. حالا به جای استفاده Y نسبت به Xi میتوان Y نسبت به k را در نظر گرفت. بنابراین معادله به صورت زیر در میآید. استفاده از حروف کوچک به منزله این است که دادهها استاندارد شدهاند. یعنی میانگین آنها صفر و انحراف معیارشان برابر یک است. در واقع ضرایب k به مثابه bi در معادله رگرسیون تلقی میشود. دانشگاه صنعت آب و برق
دنباله رگرسیون مولفهها معادله قبل را میتوان بر حسب xi استاندارد شده بیان نمود. تاثیر 1 در y برابر 11 است. اکنون مقادیر متاثر شده به شرح زیر تنظیم میشود. دانشگاه صنعت آب و برق
دنباله رگرسیون مولفهها در دستگاه قبل 1y پشتیبان مستقل 1 است و 2y پشتیبان مستقل 2است و الخ. نظر به اینکه مجموع yها مستقل از مجموع xi میتوان نوشت. دانشگاه صنعت آب و برق
دنباله رگرسیون مولفهها این رابطه برای سه مولفه به شرح زیر است. اکنون دستگاه معادلات نرمال به شرح زیر است: دانشگاه صنعت آب و برق
دنباله رگرسیون مولفهها در معادلات نرمال تمام جملات ik به ازای i≠k برابر صفر است، چون iها متعامد هستند. نظر به جمل صفر نتیجه میشود که دانشگاه صنعت آب و برق
دنباله رگرسیون مولفهها کندال در 1957 نشان داد که ضریب همبستگی در معادلهy بر حسب i برابر مجموع همبستگیها است. ضرایب همبستگی مجزا به صورت زیر هستند. بنابراین همبستگی کل برای اولین j دسته متغیرهای متعامد برابر است با: دانشگاه صنعت آب و برق
مثال دانشگاه صنعت آب و برق
دنباله مثال ماتریس همبستگی Xiها با هم و همبستگی Xi و Y به شرح زیر است: همانطور که ملاحظه میشود، متغیرهای X1 و X3 با ضریب همبستگی -0.970 قویا به هم وابستهاند. همچنین متغیرهای X1 و X2 دارای ضریب همبستگی 0.706 هستند. دانشگاه صنعت آب و برق
دنباله مثال مقادیر ویژه و بردارهای ویژه به شرح جدول زیر هستند. همانطور که در جدول بالا ملاحظه میشود، مولفه چهارم قابل اغماض است، زیرا مقدار ویژه آن ناچیز است. بنابراین سه مولفه اصلی باقی میماند که مجموع مقادیر ویژه آنها برابر 3.99 است. دانشگاه صنعت آب و برق
دنباله مثال چگونگی محاسبه ضرایب biها با استفاده از مولفه اصلی اول دانشگاه صنعت آب و برق
دنباله مثال دانشگاه صنعت آب و برق
دنباله مثال برای مولفه اول، ضرایب به شرح زیر است. برای مولفه دوم، ضرایب به شرح زیر است. دانشگاه صنعت آب و برق
دنباله مثال برای مولفه سوم، ضرایب به شرح زیر است. دانشگاه صنعت آب و برق
دنباله مثال اکنون در جدول زیر ضرایب bi ها را برای مولفههای گوناگون ملاحظه میکنید. اگر معادله را به روش حداقل مربعات (رگرسیون چندگانه معمولی) در نظر بگیرید به صورت زیر است. دانشگاه صنعت آب و برق
دنباله مثال اکنون اگر بخواهید معادله رگرسیون را با دادههای اصلی و سه مولفه مورد اشاره داشته باشید، به صورت زیر عمل کنید. اکنون پس از محاسبات ضرایب معادله فوق (با در نظر گرفتن سه مولفه اصلی) نتیجه میشود. دانشگاه صنعت آب و برق