360 likes | 603 Views
第十二章 線性規劃與相關. 目標 在學習完本章之後,你將能夠:. 1. 繪製散佈圖。 2. 瞭解與解釋獨立變數與相依變數。 3. 計算與解釋相關係數、判定係數與估計標準誤。. 第十二章 線性規劃與相關. 目標 在學習完本章之後,你將能夠:. 4. 進行在母體中相關係數是否為 0 的假設檢定。 5. 計算最小平方迴歸線。. 6. 建構並解釋相依變數預測值的信賴區間。 7. 建立並解釋 ANOVA 表格。. 相關分析. 相關分析 (Correlation Analysis) : 測量兩個變數間關係強度的技巧。. 相關分析.
E N D
第十二章 線性規劃與相關 目標 在學習完本章之後,你將能夠: 1.繪製散佈圖。 2.瞭解與解釋獨立變數與相依變數。 3.計算與解釋相關係數、判定係數與估計標準誤。
第十二章 線性規劃與相關 目標 在學習完本章之後,你將能夠: 4.進行在母體中相關係數是否為0的假設檢定。 5.計算最小平方迴歸線。 6.建構並解釋相依變數預測值的信賴區間。 7.建立並解釋ANOVA表格。
相關分析 • 相關分析(Correlation Analysis): • 測量兩個變數間關係強度的技巧。
相關分析 • 散佈圖(Scatter Diagram): • 描繪兩變數間關係的圖。 • 相依變數(Dependent Variable): 要進行估計或是預測的變數。 • 獨立變數(Independent Variable): 提供進行估計基礎的變數。它是預測 者變數。
相關係數,r • 相關係數(coefficient of correlation)主 • 要在描述兩組等距或是等比尺度變數間 • 線性關係的強度。
相關係數,r 相關係數的特徵有: • 其需要等級或比例尺度的資料。 • 其值在-1.00至+1.00之間。 • -1.00 或 1.00 的值即為完全或強相關。 • 越接近 0.0的值稱為弱相關 。 • 負的值稱為反向關係,以及正的值稱為直接關係
完全負相關 10 9 8 7 6 5 4 3 2 1 0 Y 0 1 2 3 4 5 6 7 8 9 10 X
完全正相關 10 9 8 7 6 5 4 3 2 1 0 Y 0 1 2 3 4 5 6 7 8 9 10 X
零相關 10 9 8 7 6 5 4 3 2 1 0 Y 0 1 2 3 4 5 6 7 8 9 10 X
強正相關 10 9 8 7 6 5 4 3 2 1 0 Y 0 1 2 3 4 5 6 7 8 9 10 X
計算 r 的公式 計算公式如下: S - - ( X X )( Y Y ) = r - ( n 1 ) s s x y S - S S n ( XY ) ( X )( Y ) = [ ] [ ] ( ) ) ( 2 2 2 2 - n n ( X S - S S X S Y Y ) ( )
判定係數 • 判定係數(Coefficient of Determination (r2)): • 在相依變數Y之總變異中,可以由獨立 • 變數X之變異解釋的部分。
判定係數 • 其為相關係數的平方。 • 其範圍在 0至 1間。 • 判定係數沒有指出變數間的方向。 判定係數的特徵為:
範例 1 • Toledo 大學的教授Dan Ireland目前正 • 在關心學生教科書的價錢。 他相信在 • 書本頁數與銷售價格間有關係 。為了 • 進一步瞭解這個問題,他隨機選擇書 • 店中正在銷售的8本教科書。請繪製散 • 佈圖。計算相關係數。
範例 1 continued 書名 頁數 價格 ($) Into to History 500 84 Basic Algebra 700 75 Into to Psyc 800 99 Into to Sociology 600 72 Bus. Mmgt 400 69 Intro to Biology 500 81 Fund. of Jazz 600 63 Princ. of Nursing 800 93
範例 1 continued 教科書售價與頁數的散佈圖 1 0 0 9 0 P r i c e ( ) $ 8 0 7 0 6 0 4 0 0 5 0 0 6 0 0 7 0 0 8 0 0 P a g e
範例 1 continued 書名 頁數 售價 ($) X Y XY X2 Y2 Into to History 500 84 42,000 250,000 7,056 Basic Algebra 700 75 52,500 490,000 5,625 Into to Psyc 800 99 79,200 640,000 9,801 Into to Sociology 600 72 43,200 360,000 5,184 Bus. Mmgt 400 69 27,600 160,000 4,761 Intro to Biology 500 81 40,500 250,000 6,561 Fund. of Jazz 600 63 37,800 360,000 3,969 Princ. of Nursing 8009374,400640,0008,649 Total 4,900 636 397,200 3,150,000 51,606
S - S S n ( XY ) ( X )( Y ) = r [ [ ] ( ) ] ( ) 2 2 2 2 - S - Y n ( S X ) n ) ( S S X Y - 8 ( 397 , 200 ) ( 4 , 900 )( 636 ) = [ [ ] ] 2 2 - - 51 , 606 ) ( 636 ) 8 ( 8 ( 3 , 150 , 000 ( 4 , 900 ) = 0 . 614 範例 1 continued
範例 1 continued • 教科書的頁數與售價間的相關係數為 • 0.614。其指出變數間的關係為中等。
範例 1 continued • 試檢定母體兼有無相關。 • 使用0 .02顯著水準。 SH0: 母體相關係數為0。 H1:母體相關係數不為0。
範例 1 continued 決策法則為: 若t >3.143或 t<-3.143,則拒絕H0。 自由度為6 ,由n – 1 = 8 – 2 = 6。
範例 1 continued • 計算檢定統計量: • 拒絕H0。我們無法拒絕虛無假設, 因此其間的差距是因為抽樣誤差所導致。
迴歸分析 • 在迴歸分析中,我們使用依據獨立變數X • 來估計相依變數Y。 • 兩變數間線性(直線)關係 • 兩變數必須至少為等級尺度。 • 使用最小平方法計算。 亦即 (Y – Y’ ) 2的值會最小。
迴歸分析 • 迴歸方程式為 Y’= a + b • 其中 • Y’ 讀成Y prime,是在選取一個X值下Y的預測值。 • a是Y 的截距。它是當X=0時,Y的估計值。 • 換句話說,a是當X為0時,迴歸直線與Y軸相關的 • Y估計值。 • b是線的斜率,或是當每一個獨立變數變動一個單位時, • Y’的平均變動量。 • X是所選取的任何一個獨立變數的值。
迴歸分析 • 因此迴歸方程式中a與b值被稱為估計迴歸係數,或是迴歸係數。 • 係數的計算公式如下所示:
範例 2 continued • 同範例1的問題,請基於頁數估計售價,並建立迴歸方程式。
範例 2 continued • 迴歸方程式為: • Y’ = 48.0 + .05143X • 方程式在座標$48上交於Y軸 。意指沒有頁數的書售價為 $48。 • 斜率為0.05143。每加一頁的成本約為5分錢。 • b值的符號與r的符號相等。
範例 2 continued • 我們可以使用迴歸方程式估計Y的值。 • 對於一本800頁的教科書,售價是$89.14 • 由:
標準誤的估計 • 估計標準誤(Standard Error of Estimate): • 測量觀察資料與迴歸線之間散佈或是離散 • 的程度。
標準誤的估計 • 計算估計標準誤的公式為:
範例 3 • 對於計算此問題的估計標準誤,需要使用書的頁數與售價兩個數字:
迴歸直線下的假設 1.每個X值都會有對應的Y值,且這些Y值服從常態分配。 2.這些常態分配的平均數落在迴歸線上。 3.這些常態分配的標準差都相同。標準差的最佳估計量是 估計標準誤。 4.Y值間相互獨立,亦即選取一特定X值作為樣本時與其他 X的值不相關。
信賴區間 • 對於在特定 X 下之平均值 Y 的信賴區間為:
預測區間 • 對於在特定 X 下之平均值 Y 的預測區間為:
範例 3 • 結論: • 對於一本800頁的教科書的售價約為$89.14 • 估計標準誤為 $10.41 • 對於所有800頁的教科書的95% 信賴區間為 • $89.14±$15.31。平均數的界限為$73.83 到$104.45間 • 對於特定800頁的教科書的95% 預測區間為 $89.14±$29.72。平均數的界限為 $59.42與$118.86間
範例 3 continued • Regression Analysis: Price versus Pages • The regression equation is • Price = 48.0 + 0.0514 Pages • Predictor Coef SE Coef T P • Constant 48.00 16.94 2.83 0.030 • Pages 0.05143 0.02700 1.90 0.105 • S = 10.41 R-Sq = 37.7% R-Sq(adj) = 27.3% • Analysis of Variance • Source DF SS MS F P • Regression 1 393.4 393.4 3.63 0.105 • Residual Error 6 650.6 108.4 • Total 7 1044.0 • Predicted Values for New Observations • New Obs Fit SE Fit 95.0% CI 95.0% PI • 1 89.14 6.26 ( 73.82, 104.46) ( 59.41, 118.88)