180 likes | 285 Views
區別分析 --Discriminate Analysis. 行銷研究 以別墅 ( 耐久財 ) 銷售為例,應用區別分析預測 客戶之購買行為,進而鎖定目標客戶。. 0 , 未購買 1 , 已購買. 函數關係 A=f ( X 1 ,X 2 ,X 3 ) A= 購買行為變數,令 A= ; X 1 = 別墅之一般性偏好,可應用李克特量表衡 量之; X 2 = 別墅屬性之評估,如別墅的材質、式樣、 色澤、景觀、聯外交通 … 等,可應用李克 特量表衡量之;
E N D
區別分析--Discriminate Analysis 行銷研究 以別墅(耐久財)銷售為例,應用區別分析預測 客戶之購買行為,進而鎖定目標客戶。
0,未購買 1,已購買 • 函數關係 A=f(X1,X2,X3) A=購買行為變數,令A= ; X1=別墅之一般性偏好,可應用李克特量表衡 量之; X2=別墅屬性之評估,如別墅的材質、式樣、 色澤、景觀、聯外交通…等,可應用李克 特量表衡量之; X3=購買力,以個人所得及家庭所得衡量之。
教育研究 在教育研究方面,區別分析可協助甄選決策支 援系統之建立。 • 函數關係 A=f(X1,X2,X3,X4) A=成功與否,令A= 0 or 1 ,成功係指順利 畢業且獲得理想工作等情形,失敗係指未能畢業 或畢業後無法找到理想工作等; X1=TOEFL成績; X2=GMAT成績; X3=GPA,即在校平均成績; X4=推薦信函評估分數。 0,代表成功 1,代表失敗
財務研究 在財務方面,金融機構可應用區別分析評估貸 款客戶之倒帳可能性,進而研擬適當的放款策 略。 • 函數關係 A=f(X1,X2,X3,X4,X5) A=公司倒帳與否,令A= 0 or 1 ; X1=公司流動性; X2=公司償債力; X3=公司安定性; X4=公司獲益性; X5=公司成長性。 0,未倒帳 1,曾倒帳
方法說明 1. Y = X1+X2+X3+…+Xm (名目) (計量) 2.區別分析可處理下列任何一個研究目的: • 確定在兩個(或以上)事先界定之群體的一組變數上的平均分數間是否有統計上的顯著差異存在。 • 確定哪些預測變數最能解釋兩個或以上群體之平均分數的差異。 • 建立將事物(個人、廠商、產品等)分類的程序,俾依據他們在一組預測變數上的分數將之劃歸到不同的群體。 • 建立由一組預測變數所形成之群體間的區別構面的數目和組合。
3. 區別分析和複迴歸有許多相似之處,二者都是利用數個計量的預測變數的線性結合來描述或預測單一準則變數的變化;二者不同之處在於區別分析的單一準則變數是非計量的(名目尺度),而複迴歸的單一準則變數是計量的。區別分析和變異數分析(ANOVA)不同之處在於區別分析的單一準則變數是名目的,而預測變數是計量的;ANOVA正好相反,它的單一準則變數是計量的,而預測變數是類別或名目的。
理論探討 1.費雪區別法 • 費雪法圖
區別函數 所謂區別函數(Discriminant Function),係指分類性反應變量(A)對分析性解釋變數(X1,X2,…,Xk)間之函數關係。 費雪法之區別函數與迴歸線方程式極為相似,如下所示: yni=a1xn1i+a2xn2i+…+akxnKi yni =反應變量第i組第n個個案之區別分數,係一 標準化分數; xnki=第i組第n個個案在第k個分析性解釋變數上 之數值,數值已標準化; ak=第k個解釋變數之區別係數(Discriminant Coefficient); n=1,2,…,NI;k=1,2,…,K;i=1,2;ΣN1=N。 2 i=1
y之組間變異 y之組內變異 Xa之組間變異 Xa之組內變異 • 區別效標 所謂區別效標(λ,Discriminant Criterion),係指區別分數之組間變異對組內變異的比值。 • 區別軸 區別函數若以圖形表示,則稱為區別軸(Y,Discriminant Axis)。區別函數之建構原則為區別效標(λ)極大化;若以圖形表示,則是使所有個案點(xn1i, xn2i,…, xnKi)投影至區別軸上之區別分數(yni),能夠錯得最開為原則。 λ= =
切斷值與歸類法則 歸類法則係由切斷值所構成,二者具有密切的關係。所謂切斷值,係指區別軸(Y)上之某一區別分數值,據此可將個案分成「0」組與「1」組。切斷值(c)之計算公式可列示如下: 其中, yi=第i組之區別分數均值; Ni=第i組之個案數,i=1,2。 N2y1+N1y2 N1+N2 c =
式中之切斷值,是歸類法則之比較標準,亦是組均值之加權平均,權數為組樣本數。所謂歸類法則(Discriminant Rule),係以切斷值為標準,與個案之區別分數(yni)進行比較,以判斷個案之預測歸類,即: 若yni≦c,則第i組第n個個案之預測歸類為「0」組;若yni>c,則第i組第n個個案之預測歸類為「1」組。 歸類矩陣: 區別函數之預測能力,可藉由擊中率評估之;而繫中率之計算,則來自於歸類矩陣。所謂歸類矩陣(Classification Matrix),係指由個案之實際歸類(A)與預測歸類(A*)所交叉構成之(I×I)矩陣。 ︿
擊中率 所謂擊中率(h,Hit Rate),係指正確歸類之個案數相對於總個案數之比率。換言之,擊中率是歸類矩陣中,對角線之個案數和除以總個案數之比率,計算公式如下所示: 歸類矩陣對角線之個案數和 總個案數 h = I J Σ Σ Nij N i=1 (i=j,I=J) j=1 =
2.正典區別法 • 所謂正典相關分析(CANCORR,CANonical CORRelation analysis),係指將兩組可觀察之顯現變數(X,Y),減縮為M對正典變量(W,V)之統計分析方法。正典相關分析之目的,在於以少數M對正典變量間之正典相關係數(ρm),探討顯現變數(X,Y)間之關係。 • 正典變數共有M對,M為X變數與Y變數個數之較小值,即M=min(P,K)。正典相關分析係以正典相關係數極大化(max ρ)為原則,逐次構建M對正典變量。相較之下,正典區別法即是以解釋變數所構成之正典變量,構成正典區別函數。
正典區別法結合正典相關分析及費雪法之概念,構建正典區別函數(Canonical Discriminant Function)。正典區別法係先將分類性反應變量予以數量化,即創造虛擬變數替代之。然後,要求解釋變數與反應變量間之正典相關極大化,以萃取出正典區別函數。其中,正典相關之平方(ρ2),即相當於費雪法之區別效標。
3.馬氏法 馬氏法主要是以機率密度函數之概念,判斷個案之預測歸類。在馬氏法下,必須先確定反應變量之分組資料,滿足常態性、恆常性、獨立性等三大假定。然後,再以分析性解釋變數,推導各組之機率密度函數,進而建立歸類法則,以產生預測歸類。
馬氏距離 馬氏距離(Mahalanobis Distance),係指以聯合組內共變數矩陣(Pooled Within-Group Covariance Matrix)為權數所計算而得之加權距離。當分析性解釋變數有多個(K>1)時,馬氏距離平方Di(x)之計算必須以矩陣型式表示,即: Dni(xn)=(xn-xi)'Σ (xn-xi) 式中,若解釋變數僅有一個,即K=1,則馬氏距離平方將簡化為: -1 w x-μi σ 2 Dni(x) =
如果第i個樣本點與a群體的重心a二者間的馬氏距離較該點到b群體之重心b的馬氏距離為小,則該樣本單位i即劃歸a群體;反之,則劃歸b群體。亦即:如果第i個樣本點與a群體的重心a二者間的馬氏距離較該點到b群體之重心b的馬氏距離為小,則該樣本單位i即劃歸a群體;反之,則劃歸b群體。亦即: Dia2<Dib2,劃歸a群體; Dia2>Dib2,劃歸b群體。