190 likes | 558 Views
STATISTICA 的多維尺度分析 (Multi-dimensional Scaling). 南台科技大學企管系 呂金河. 多維尺度分析 (Multi-dimensional Scaling). 目的 : MDS 是一種縮減資料的分析方法,可以將一個 P 維 度的資料表示在 R (R≦P) 維度的空間中;來建造這 N 個刺激體 ( 資料點 ) 的「結構圖形」 (configuration) , 使其點間在 P 維的距離 結構 與 R 維的距離 結構 相近。以便 由構面圖作個體的群集或現象之解釋。
E N D
STATISTICA的多維尺度分析(Multi-dimensional Scaling) 南台科技大學企管系 呂金河
多維尺度分析(Multi-dimensional Scaling) • 目的: MDS是一種縮減資料的分析方法,可以將一個P維度的資料表示在R (R≦P) 維度的空間中;來建造這N個刺激體(資料點)的「結構圖形」 (configuration),使其點間在P維的距離結構與R維的距離結構相近。以便由構面圖作個體的群集或現象之解釋。 • MDS有計量(metric)MDS和非計量(non-metric)MDS兩種,計量MDS以相對距離實際數值為投入資料,非計量的MDS則是以順序尺度的資料作為資料的投入 。
例如: • 利用人類的信仰語言日常用具,以MDS研究不同民族的文化差異或相似性 • 利用地理環境政治競技 財務等資料,以MDS研究不同城市的差異或相似 • 利用產品的特性,以MDS研究消費者對不同品牌認知的差異或相似性
方法 MDS 是嘗試在維度空間構面圖中,使點間距離或排 序與原距離越一致越好,而通常量測配合度的指標 我們稱為壓力係數(stress)。壓力係數是由Kruskal(1964)所提出,其計算公式如下: S = S:壓力係數 ; dij: 成對事物在構面中之距離 :dij 之估計值,通常是以單調迴歸 (monotone regression)之方法求得,壓力係數愈小代表dij與之差異不大,即代表模式之適合度很高。
方法 根據Kruskal (1964)的解釋,不同的壓力係數水準,有其代表的配適程度 。 壓力係數之計算,是以在知覺圖中成對事物之距離與其平均距離之差來計算。
方法 • 多元尺度法的分析步驟 1.將輸入資料轉換成距離的量度資料。 2.決定這n個資料在r次維度內的位置,亦即,對於各資料假設其在r次維度中的座標。 3.計算r次維度構形Xn×r中,點與點之間的距離dij。 4.利用最小平方單調迴歸 (the least squares montone regression) 方法,使得X的壓力係數 (Stress) 為最小 5.計算r次維度之壓力係數。 6.調整n個資料的座標,使得壓力係數縮小。 7.重覆步驟三至六,直到壓力係數達到預設的水準為止,此時決定最佳的維度並且畫出散布圖。 8.由構面圖作個體的群集或現象之解釋。
舉例 • 資料來源: statistica所提供的nations.sta • 資料是由對來自12個國家的18名學生的相似性評級平均得分構成的,這12個國家是巴西、剛果、古巴、埃及、法國、印度、以色列、日本、中國大陸、俄羅斯、美國和南斯拉夫。多維標度的目的是要知道哪些國家的學生比較相似,哪些國家的學生區別較大並試圖分析潛在的原因
STATISTICA操作 • 點選多變量探索技巧 多元尺度化在快速欄 按變數選取要分析的變數(或按選擇全部)確定在維度數目 輸入2 (或1,3) 確定確定在快速欄或在進階欄按 摘要:最終結構,最終結構圖,Shepard圖表
九、區別(判別)分析(Discriminant Analysis) • 目的: • (1)指出能最佳分辨出二群或多群的變數。 • (2)利用這些有分辨力的變數,導出一個方程式或函數,以形成一個新變數或指標,用來簡約的呈現群間的差別。 • (3)利用這些有分辨力的變數或新指標,導出一種規則,用來判別一個新觀察點應歸屬那一群。
例如: • (1)國稅局(IRS)想找出在查稅時,能分辨出逃稅與未逃稅的兩群人的重要變數,再將此類變數合成一個指標,以此簡約的方法,呈現二群間的差別。然後用此指標,預測某人報稅時是否逃稅。 • (2)醫藥研究員想對有心臟病的兩群人,找出二者顯著不同的決定性變數,然後用這些變數的值,來預測某一病人是否會得心臟病。 • (3)行銷經理想找出能成功顯示品牌購買者與未購買者二者不同的突出特質,再利用這些資訊,以預測潛在顧客購買的意向
方法 • 1.利用單因子因素分析指出哪些自變數,具有區別能力(i.e.各群的均值應不等),可用逐次區別分析 (常用Wilks法),指出具較佳分辨力的變數
2.利用Wilk’s Λ檢定各群的均值向量是否不等,(此表示自變數向量具有總體區別能力) 3.利用Box’s M檢定各群的變異數矩陣是否相等 4.計算典型區別函數 (Canonical discriminant functions) (求群間變異數矩陣B,與群內變異數矩陣W相除的 矩陣的特徵值λi所對應的特徵向量γi,即為第i個典型區別函數的係數向量) • 由特徵值的Wilks’ Lambda檢定,判定要選幾個區別函數 • 標準化係數常用來評估自變數在該區別函數的重要性 (但自變數間共線性強時, 應避用之) • 用loading(結構矩陣係數)來解釋區別函數的意義 (取值>0.3者)或命名。
方法 • 用區別函數的值 (區別計分) ,判定觀察值應歸屬哪一群 (分兩群時,切割點C常取兩群區別計分平均值 、 的加權平均 ) 5.計算分類函數 (classification functions) 第i群的分類函數 將觀察值x,帶入 ,其值最大時,x就歸屬該群 • 計算事後機率 ,其值最大時,x就歸屬該群 • 計算分類結果 (摘要表) 及誤判率 (或命中率) • 常與集群分析共同使用,即在集群分析後,用區別分析來鑑定分群之效度
舉例 • 資料來源:statistica所提供的Irisdat.sta • 為Iris(鳶尾花)類型,分setosa, versicol, virginic三類。 • 判別變數有4個,sepallen (花萼的長度) ,sepalwid (花萼的寬度) ,petallen (花瓣的長度) ,petalwid(花瓣的寬度),共150個案例
STATISTICA操作 • 點選多變量探索技巧 判別分析在快速欄 按變數分別選取要分析的分群變數與獨立變數表列確定 按分群變數之編碼值按全部確定(若要做逐步分析,則再勾選進階選項) 確定 • 在進階欄 按 變數於模型中,執行正準分析在進階欄 按 摘要:連續根之卡方檢定,正準變數之係數,因子結構,正準變數之平均數在正準得點欄 按每筆案例之正準得點 • 在分類欄勾選 事先分類機率(依分群大小計算佔比,所有分群相同,使用者定義三個選項之ㄧ),每筆案例儲存內容(選儲存案例分類) 按 分類函數,案例之分類,馬氏距離平方,事後機率
STATISTICA操作 • 若要做逐步判別分析,如前述,在快速欄再勾選進階選項 後 確定在快速欄的方法選 向前逐步 確定在進階欄 多按一個 逐步分析摘要, 其餘如上頁。