360 likes | 582 Views
Hồi quy PLS. Hervé Abdi Đại học Texas, Dallas herve@utdallas.edu. Ví dụ: Cảm giác trong miệng (Mouthfeel) là gì?. Theo Folkenberg D.M., Bredie W.L.P., Martend M., (1999).
E N D
Hồi quy PLS Hervé Abdi Đại học Texas, Dallas herve@utdallas.edu
Ví dụ: Cảm giác trong miệng (Mouthfeel) là gì? Theo Folkenberg D.M., Bredie W.L.P., Martend M., (1999). Cảm giác trong miệng (mouthfeel): mối quan hệ cảm quan –lưu biến trong thức uống ca cao nóng. Journal of Sensory Studies, 14, 181-195. (Data set courtoisie of Marten, H., Marten M. (2001) Multivariate Analysis of Quality: An introduction. London: Wiley. Tải về từ địa chỉ sau: www.wiley.co.uk/chemometrics Bảng số liệu: Cocoa-ii.mat Mục tiêu. Dự đoán Các thuộc tính cảm quan (mouthfeel): Các biến phụ thuộc (tập Y) từ Các tính chất lý/ hoá/ lưu biến: Các biến dự báo (predictors)/ biến độc lập (tập X)
Ví dụ: Cảm giác trong miệng (Mouthfeel) là gì? 6 Biến dự báo / độc lập (tập X) Các tính chất lý/ / hoá lưu biến %COCOA %SUGAR %MILK SEDIMENT COLOUR VISCOSITY (%ca cao % đường % sữa cặn màu sắc độ nhớt) 10 Biến phụ thuộc (Tập Y) colour cocoa-odour milk-odour thick-txtr mouthfeel Màu sắc mùi ca cao mùi sữa độ đặc cảm giác trong miệng smooth-txtr creamy-txtr cocoa-taste milk-taste sweet Trơn nhẵn mịn vị ca cao vị sữa ngọt 14 Mẫu(n-:không có chất ổn định, n+: có chất ổn định) 1- 2- 3- 4- 5- 6- 7- 1+ 2+ 3+ 4+ 5+ 6+ 7+
X 20.00 30.00 50.00 2.60 44.89 1.86 20.00 43.30 36.70 2.65 42.77 1.80 20.00 50.00 30.00 2.40 41.64 1.78 26.70 30.00 43.30 3.10 42.37 2.06 26.60 36.70 36.70 3.55 41.04 1.97 33.30 36.70 30.00 4.30 39.14 2.13 40.00 30.00 30.00 4.70 38.31 2.26 20.00 30.00 50.00 0.12 44.25 48.60 20.00 43.30 36.70 0.09 41.98 44.10 20.00 50.00 30.00 0.10 41.18 43.60 26.70 30.00 43.30 0.10 41.13 47.80 26.60 36.70 36.70 0.10 40.39 50.30 33.30 36.70 30.00 0.10 38.85 51.40 40.00 30.00 30.00 0.09 37.91 54.80
Y 1.67 6.06 7.37 5.94 7.80 8.59 6.51 6.24 6.89 8.48 3.22 6.30 5.10 6.34 8.40 9.09 7.14 7.04 5.17 9.76 4.82 7.09 4.11 6.68 8.29 8.61 6.76 7.26 4.62 10.50 4.90 7.57 3.86 6.79 8.58 5.96 5.46 8.77 3.26 6.69 7.03 7.96 2.99 6.92 8.71 6.42 5.59 8.93 2.76 7.05 10.60 10.24 1.57 6.51 9.70 4.55 4.62 11.44 1.51 5.48 11.11 11.31 1.25 7.04 9.72 3.42 4.11 12.43 0.86 3.91 3.06 6.97 5.40 9.84 9.99 10.67 9.11 7.66 5.71 8.24 6.02 8.61 3.75 10.01 9.92 10.86 8.64 7.66 4.86 8.71 7.94 8.40 2.95 9.61 9.92 10.84 8.26 8.32 4.09 9.67 9.17 9.30 2.86 10.68 11.05 10.48 8.20 10.40 2.22 6.43 10.46 10.14 1.90 10.71 10.64 9.60 7.84 11.05 2.01 7.02 12.40 11.30 1.18 10.64 11.09 7.24 7.23 11.78 1.65 5.59 13.46 11.49 1.56 11.31 11.36 7.22 6.86 12.60 1.06 4.34
Vì sao sử dụng PLS , PCA và MLR Giới thiệu ngắn
Vẻ đẹp của Euclide … J • Bảng số liệu có I hàng vàJ cột: PCA, CA, Biplots, v.v... I
J 1 I Vẻ đẹp của Euclide • I hàng, J cột các bảng số liệu có I hàng và 1 cột (với J << I): Hồi quy đa biến (Multiple Regression )
K J I Vẻ đẹp của Euclide • I hàng và J cột các bảng số liệu có I hàng và K cột: PLS, CANDIS, v.v…
Vì sao sử dụng PLS ? • Để giải thích sự tương tự nhau giữa các quan sát (ở đây là các mẫu ca cao) • Để phát hiện Cấu trúc trong mối quan hệ giữa các biến phụ thuộc và biến độc lập • Để có thể biểu diễn các số liệu dưới dạng biểu đồ • Để dự đoán giá trị của các quan sát mới
Hồi quy PLS là gì ? PLS kết hợp các điểm đặc trưng của Phân tích thành phần chính (Principal Component Analysis - PCA) và Hồi quy đa tuyến tính (Multiple Linear Regression - MLR). Giống PCA: PLS trích lấy các yếu tố (factor) từ X. Giống MLR: PLS dự đoánY từ X Kết hợp PCA & MLR. PLS trích lấy các yếu tố từ X để dự đoán Y
Sử dụng PLS khi nào? 1 … j … J 1 … k … K 1 . . . i . . . I 1 . . . i . . . I ……... ……... …... ............... xi,j yi,k Để phân tích hai bảng số liệu có cùng I sốquan sát với J biến dự đoán và K biến phụ thuộc Các biến phụ thuộc Các biến độc lập Số quan sát
Nguyên tắc chung của PLS: ℓ= tℓ cT 1 … k … K 1 . . . i . . . I ……... ............... yi,k Biến ẩn _ latent variables Biến dự đoán X 1 … j … J t1 … tℓ ... tL 1 . . . i . . . I 1 . . . i . . . I NIPALS ……... ……... Số quan sát …... …... xij ti,ℓ tℓ= Xwℓ Dự đoán Các biến phụ thuộc
PLS: Mặt phẳng các quan sát X Biến ẩn 1 … j … J t1 … tℓ ... tL 1 . . . i . . . I NIPALS ……... ……... …... …... xij ti,ℓ tℓ= Xwℓ ℓ= tℓ cT 1 … k … K ……... ............... yi,k Quan sát: tℓ lv2 1 2 4 I lv1 3 i
PLS: Mặt phẳng các quan sát X Biến ẩn 1 … j … J t1 … tℓ ... tL 1 . . . i . . . I NIPALS ……... ……... …... …... xij ti,ℓ tℓ= Xwℓ Vòng tròn tương quan ℓ= tℓ cT Mặt phẳng thông thườngwℓ& cℓ y y y y y lv2 lv2 1 … k … K x x y lv1 ……... lv1 x ............... yi,k
PLS: Dự đoán Y từ X X Biến ẩn 1 … j … J t1 … tℓ ... tL 1 . . . i . . . I NIPALS ……... ……... …... …... xij ti,ℓ tℓ= Xwℓ ℓ= tℓ cT 1 … k … K ……... ............... yi,k Vài biến hoá Ở đây! tℓ= Xwℓ & = tℓ cT = XBpls
PLS: Giải thíchY theo X như thế nào? 1 … k … K 1 … k … K 1 . . . i . . . I 1 . . . i . . . I Y ℓ= XBpls So sánh số quan sát (Y) với giá trị dự đoán (Ŷ) RESS (REsidual Sum of Squares) RESS = (Y – Ŷ)2
PLS: Dự đoánY từ X như thế nào? Với số liệu mới thì sự dự đoán này tốt như thế nào? Cross-validation. Here Jackknife 1 … k … K 1 … k … K 1 … k … K 1 . . . i . . . I 1 2 . . . i . . . I Y Y(-1) 2 . . . i . . . I (-1)= X(-1) Bpls Predict y1 from X(-1) Predict y2 from X(-2) …etc … Predict yIfrom X(-I)
PLS: Dự đoánY từ X như thế nào? Với số liệu mới thì sự dự đoán này tốt như thế nào? Cross-validation. Here Jackknife 1 … k … K 1 … k … K 1 . . . i . . . I 1 . . . i . . . I Y jack= XBpls So sánh số quan sát (Y) với giá trị dự đoán Jackknifed (Yjack) PRESS (Predicted REsidual Sum of Squares) PRESS = (Y – Ŷjack)2
Câu hỏi lớn trong PLS : Có bao nhiêu biến ẩn? So sánh RESS và PRESS, hoặc sử dụng PRESS. Phương pháp nhanh : Min(PRESS) => Số biến ẩn tối ưu
Trở lại ví dụ về Ca cao Mục tiêu: Giải thích và Dự đoán cảm giác (Y) từ tính chất Lý – Hóa (X)
X 20.00 30.00 50.00 2.60 44.89 1.86 20.00 43.30 36.70 2.65 42.77 1.80 20.00 50.00 30.00 2.40 41.64 1.78 26.70 30.00 43.30 3.10 42.37 2.06 26.60 36.70 36.70 3.55 41.04 1.97 33.30 36.70 30.00 4.30 39.14 2.13 40.00 30.00 30.00 4.70 38.31 2.26 20.00 30.00 50.00 0.12 44.25 48.60 20.00 43.30 36.70 0.09 41.98 44.10 20.00 50.00 30.00 0.10 41.18 43.60 26.70 30.00 43.30 0.10 41.13 47.80 26.60 36.70 36.70 0.10 40.39 50.30 33.30 36.70 30.00 0.10 38.85 51.40 40.00 30.00 30.00 0.09 37.91 54.80
Y 1.67 6.06 7.37 5.94 7.80 8.59 6.51 6.24 6.89 8.48 3.22 6.30 5.10 6.34 8.40 9.09 7.14 7.04 5.17 9.76 4.82 7.09 4.11 6.68 8.29 8.61 6.76 7.26 4.62 10.50 4.90 7.57 3.86 6.79 8.58 5.96 5.46 8.77 3.26 6.69 7.03 7.96 2.99 6.92 8.71 6.42 5.59 8.93 2.76 7.05 10.60 10.24 1.57 6.51 9.70 4.55 4.62 11.44 1.51 5.48 11.11 11.31 1.25 7.04 9.72 3.42 4.11 12.43 0.86 3.91 3.06 6.97 5.40 9.84 9.99 10.67 9.11 7.66 5.71 8.24 6.02 8.61 3.75 10.01 9.92 10.86 8.64 7.66 4.86 8.71 7.94 8.40 2.95 9.61 9.92 10.84 8.26 8.32 4.09 9.67 9.17 9.30 2.86 10.68 11.05 10.48 8.20 10.40 2.22 6.43 10.46 10.14 1.90 10.71 10.64 9.60 7.84 11.05 2.01 7.02 12.40 11.30 1.18 10.64 11.09 7.24 7.23 11.78 1.65 5.59 13.46 11.49 1.56 11.31 11.36 7.22 6.86 12.60 1.06 4.34
Các biến ẩn -The t (latent) variables • -0.42 -0.19 -0.34 -0.35 • -0.25 -0.17 0.22 -0.20 • -0.17 -0.14 0.50 -0.22 • -0.13 -0.25 -0.26 -0.11 • -0.03 -0.27 0.02 0.33 • 0.23 -0.36 0.10 0.30 • 0.41 -0.42 -0.11 0.06 • -0.32 0.27 -0.37 0.04 • -0.15 0.27 0.19 0.14 • -0.08 0.27 0.46 0.03 • 0.01 0.25 -0.29 0.38 • 0.07 0.27 -0.02 0.33 • 0.32 0.25 0.05 -0.22 • 0.51 0.23 -0.16 -0.50
w • 0.61 -0.15 -0.20 -0.46 • -0.22 0.09 0.77 0.08 • -0.39 0.06 -0.57 0.38 • 0.01 -0.70 -0.00 0.41 • -0.62 0.00 -0.15 -0.62 • 0.20 0.69 -0.10 0.28
c • 0.38 0.12 0.07 0.28 • 0.38 0.11 -0.07 0.25 • -0.37 -0.05 -0.30 -0.57 • 0.15 0.55 -0.18 0.18 • 0.27 0.41 -0.25 0.36 • -0.23 0.46 0.22 0.10 • -0.16 0.53 0.09 0.04 • 0.38 0.03 -0.28 0.30 • -0.37 0.03 0.07 -0.50 • -0.33 0.09 0.81 -0.16
Bpls: X to Y (in Z-scores) -0.11 -0.05 0.63 -0.21 -0.36 -0.48 -0.31 -0.09 0.45 -0.18 -0.03 -0.09 -0.13 -0.03 -0.07 0.24 0.15 -0.17 0.04 0.41 0.14 0.15 -0.50 0.24 0.43 0.25 0.16 0.26 -0.50 -0.24 0.32 0.29 -0.80 -0.19 0.19 -0.25 -0.40 0.43 -0.78 -0.33 -1.04 -0.97 1.70 -0.56 -1.10 -0.02 0.06 -1.07 1.54 0.68 0.52 0.5 -0.77 0.71 0.83 0.40 0.42 0.49 -0.65 -0.26
B*pls from X to Y (original units) 79.86 43.18 -52.77 29.23 32.63 6.91 4.32 52.51 -50.26 -19.07 -0.06 -0.01 0.15 -0.06 -0.06 -0.16 -0.06 -0.03 0.12 -0.05 -0.01 -0.02 -0.03 -0.01 -0.01 0.08 0.03 -0.05 0.01 0.11 0.07 0.04 -0.12 0.06 0.07 0.08 0.03 0.08 -0.13 -0.07 0.67 0.31 -0.82 -0.22 0.12 -0.33 -0.34 0.52 -0.84 -0.37 -1.85 -0.88 1.47 -0.54 -0.6 -0.02 0.04 -1.10 1.40 0.66 0.08 0.04 -0.06 0.06 0.04 0.04 0.03 0.04 -0.05 -0.02
RESS & PRESS < min PRESS for 4 1182.39 8505.47 2 50.86 8318.84 3 30.28 8292.23 4 15.69 8286.95 5 13.00 8299.23 6 11.91 8309.38 Keep 4 latent variables
Kết luận • Tài liệu tham khảo hữu ích (contain bibliography): Abdi (2007, 2003) see www.utd.edu/~herve