1 / 36

Hồi quy PLS

Hồi quy PLS. Hervé Abdi Đại học Texas, Dallas herve@utdallas.edu. Ví dụ: Cảm giác trong miệng (Mouthfeel) là gì?. Theo Folkenberg D.M., Bredie W.L.P., Martend M., (1999).

menefer
Download Presentation

Hồi quy PLS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Hồi quy PLS Hervé Abdi Đại học Texas, Dallas herve@utdallas.edu

  2. Ví dụ: Cảm giác trong miệng (Mouthfeel) là gì? Theo Folkenberg D.M., Bredie W.L.P., Martend M., (1999). Cảm giác trong miệng (mouthfeel): mối quan hệ cảm quan –lưu biến trong thức uống ca cao nóng. Journal of Sensory Studies, 14, 181-195. (Data set courtoisie of Marten, H., Marten M. (2001) Multivariate Analysis of Quality: An introduction. London: Wiley. Tải về từ địa chỉ sau: www.wiley.co.uk/chemometrics Bảng số liệu: Cocoa-ii.mat Mục tiêu. Dự đoán Các thuộc tính cảm quan (mouthfeel): Các biến phụ thuộc (tập Y) từ Các tính chất lý/ hoá/ lưu biến: Các biến dự báo (predictors)/ biến độc lập (tập X)

  3. Ví dụ: Cảm giác trong miệng (Mouthfeel) là gì? 6 Biến dự báo / độc lập (tập X) Các tính chất lý/ / hoá lưu biến %COCOA %SUGAR %MILK SEDIMENT COLOUR VISCOSITY (%ca cao % đường % sữa cặn màu sắc độ nhớt) 10 Biến phụ thuộc (Tập Y) colour cocoa-odour milk-odour thick-txtr mouthfeel Màu sắc mùi ca cao mùi sữa độ đặc cảm giác trong miệng smooth-txtr creamy-txtr cocoa-taste milk-taste sweet Trơn nhẵn mịn vị ca cao vị sữa ngọt 14 Mẫu(n-:không có chất ổn định, n+: có chất ổn định) 1- 2- 3- 4- 5- 6- 7- 1+ 2+ 3+ 4+ 5+ 6+ 7+

  4. X 20.00 30.00 50.00 2.60 44.89 1.86 20.00 43.30 36.70 2.65 42.77 1.80 20.00 50.00 30.00 2.40 41.64 1.78 26.70 30.00 43.30 3.10 42.37 2.06 26.60 36.70 36.70 3.55 41.04 1.97 33.30 36.70 30.00 4.30 39.14 2.13 40.00 30.00 30.00 4.70 38.31 2.26 20.00 30.00 50.00 0.12 44.25 48.60 20.00 43.30 36.70 0.09 41.98 44.10 20.00 50.00 30.00 0.10 41.18 43.60 26.70 30.00 43.30 0.10 41.13 47.80 26.60 36.70 36.70 0.10 40.39 50.30 33.30 36.70 30.00 0.10 38.85 51.40 40.00 30.00 30.00 0.09 37.91 54.80

  5. Y 1.67 6.06 7.37 5.94 7.80 8.59 6.51 6.24 6.89 8.48 3.22 6.30 5.10 6.34 8.40 9.09 7.14 7.04 5.17 9.76 4.82 7.09 4.11 6.68 8.29 8.61 6.76 7.26 4.62 10.50 4.90 7.57 3.86 6.79 8.58 5.96 5.46 8.77 3.26 6.69 7.03 7.96 2.99 6.92 8.71 6.42 5.59 8.93 2.76 7.05 10.60 10.24 1.57 6.51 9.70 4.55 4.62 11.44 1.51 5.48 11.11 11.31 1.25 7.04 9.72 3.42 4.11 12.43 0.86 3.91 3.06 6.97 5.40 9.84 9.99 10.67 9.11 7.66 5.71 8.24 6.02 8.61 3.75 10.01 9.92 10.86 8.64 7.66 4.86 8.71 7.94 8.40 2.95 9.61 9.92 10.84 8.26 8.32 4.09 9.67 9.17 9.30 2.86 10.68 11.05 10.48 8.20 10.40 2.22 6.43 10.46 10.14 1.90 10.71 10.64 9.60 7.84 11.05 2.01 7.02 12.40 11.30 1.18 10.64 11.09 7.24 7.23 11.78 1.65 5.59 13.46 11.49 1.56 11.31 11.36 7.22 6.86 12.60 1.06 4.34

  6. Vì sao sử dụng PLS , PCA và MLR Giới thiệu ngắn

  7. Vẻ đẹp của Euclide … J • Bảng số liệu có I hàng vàJ cột: PCA, CA, Biplots, v.v... I

  8. J 1 I Vẻ đẹp của Euclide • I hàng, J cột các bảng số liệu có I hàng và 1 cột (với J << I): Hồi quy đa biến (Multiple Regression )

  9. K J I Vẻ đẹp của Euclide • I hàng và J cột  các bảng số liệu có I hàng và K cột: PLS, CANDIS, v.v…

  10. Vì sao sử dụng PLS ? • Để giải thích sự tương tự nhau giữa các quan sát (ở đây là các mẫu ca cao) • Để phát hiện Cấu trúc trong mối quan hệ giữa các biến phụ thuộc và biến độc lập • Để có thể biểu diễn các số liệu dưới dạng biểu đồ • Để dự đoán giá trị của các quan sát mới

  11. Hồi quy PLS là gì ? PLS kết hợp các điểm đặc trưng của Phân tích thành phần chính (Principal Component Analysis - PCA) và Hồi quy đa tuyến tính (Multiple Linear Regression - MLR). Giống PCA: PLS trích lấy các yếu tố (factor) từ X. Giống MLR: PLS dự đoánY từ X Kết hợp PCA & MLR. PLS trích lấy các yếu tố từ X để dự đoán Y

  12. Sử dụng PLS khi nào? 1 … j … J 1 … k … K 1 . . . i . . . I 1 . . . i . . . I ……... ……... …... ............... xi,j yi,k Để phân tích hai bảng số liệu có cùng I sốquan sát với J biến dự đoán và K biến phụ thuộc Các biến phụ thuộc Các biến độc lập Số quan sát

  13. Nguyên tắc chung của PLS: ℓ= tℓ cT 1 … k … K 1 . . . i . . . I ……... ............... yi,k Biến ẩn _ latent variables Biến dự đoán X 1 … j … J t1 … tℓ ... tL 1 . . . i . . . I 1 . . . i . . . I NIPALS ……... ……... Số quan sát …... …... xij ti,ℓ tℓ= Xwℓ Dự đoán Các biến phụ thuộc

  14. PLS: Mặt phẳng các quan sát X Biến ẩn 1 … j … J t1 … tℓ ... tL 1 . . . i . . . I NIPALS ……... ……... …... …... xij ti,ℓ tℓ= Xwℓ ℓ= tℓ cT 1 … k … K ……... ............... yi,k Quan sát: tℓ lv2 1 2 4 I lv1 3 i

  15. PLS: Mặt phẳng các quan sát X Biến ẩn 1 … j … J t1 … tℓ ... tL 1 . . . i . . . I NIPALS ……... ……... …... …... xij ti,ℓ tℓ= Xwℓ Vòng tròn tương quan ℓ= tℓ cT Mặt phẳng thông thườngwℓ& cℓ y y y y y lv2 lv2 1 … k … K x x y lv1 ……... lv1 x ............... yi,k

  16. PLS: Dự đoán Y từ X X Biến ẩn 1 … j … J t1 … tℓ ... tL 1 . . . i . . . I NIPALS ……... ……... …... …... xij ti,ℓ tℓ= Xwℓ ℓ= tℓ cT 1 … k … K ……... ............... yi,k Vài biến hoá Ở đây! tℓ= Xwℓ & = tℓ cT = XBpls

  17. PLS: Giải thíchY theo X như thế nào? 1 … k … K 1 … k … K 1 . . . i . . . I 1 . . . i . . . I Y ℓ= XBpls So sánh số quan sát (Y) với giá trị dự đoán (Ŷ) RESS (REsidual Sum of Squares) RESS = (Y – Ŷ)2

  18. PLS: Dự đoánY từ X như thế nào? Với số liệu mới thì sự dự đoán này tốt như thế nào? Cross-validation. Here Jackknife 1 … k … K 1 … k … K 1 … k … K 1 . . . i . . . I 1 2 . . . i . . . I Y Y(-1) 2 . . . i . . . I (-1)= X(-1) Bpls Predict y1 from X(-1) Predict y2 from X(-2) …etc … Predict yIfrom X(-I)

  19. PLS: Dự đoánY từ X như thế nào? Với số liệu mới thì sự dự đoán này tốt như thế nào? Cross-validation. Here Jackknife 1 … k … K 1 … k … K 1 . . . i . . . I 1 . . . i . . . I Y jack= XBpls So sánh số quan sát (Y) với giá trị dự đoán Jackknifed (Yjack) PRESS (Predicted REsidual Sum of Squares) PRESS = (Y – Ŷjack)2

  20. Câu hỏi lớn trong PLS : Có bao nhiêu biến ẩn? So sánh RESS và PRESS, hoặc sử dụng PRESS. Phương pháp nhanh : Min(PRESS) => Số biến ẩn tối ưu

  21. Trở lại ví dụ về Ca cao Mục tiêu: Giải thích và Dự đoán cảm giác (Y) từ tính chất Lý – Hóa (X)

  22. X 20.00 30.00 50.00 2.60 44.89 1.86 20.00 43.30 36.70 2.65 42.77 1.80 20.00 50.00 30.00 2.40 41.64 1.78 26.70 30.00 43.30 3.10 42.37 2.06 26.60 36.70 36.70 3.55 41.04 1.97 33.30 36.70 30.00 4.30 39.14 2.13 40.00 30.00 30.00 4.70 38.31 2.26 20.00 30.00 50.00 0.12 44.25 48.60 20.00 43.30 36.70 0.09 41.98 44.10 20.00 50.00 30.00 0.10 41.18 43.60 26.70 30.00 43.30 0.10 41.13 47.80 26.60 36.70 36.70 0.10 40.39 50.30 33.30 36.70 30.00 0.10 38.85 51.40 40.00 30.00 30.00 0.09 37.91 54.80

  23. Y 1.67 6.06 7.37 5.94 7.80 8.59 6.51 6.24 6.89 8.48 3.22 6.30 5.10 6.34 8.40 9.09 7.14 7.04 5.17 9.76 4.82 7.09 4.11 6.68 8.29 8.61 6.76 7.26 4.62 10.50 4.90 7.57 3.86 6.79 8.58 5.96 5.46 8.77 3.26 6.69 7.03 7.96 2.99 6.92 8.71 6.42 5.59 8.93 2.76 7.05 10.60 10.24 1.57 6.51 9.70 4.55 4.62 11.44 1.51 5.48 11.11 11.31 1.25 7.04 9.72 3.42 4.11 12.43 0.86 3.91 3.06 6.97 5.40 9.84 9.99 10.67 9.11 7.66 5.71 8.24 6.02 8.61 3.75 10.01 9.92 10.86 8.64 7.66 4.86 8.71 7.94 8.40 2.95 9.61 9.92 10.84 8.26 8.32 4.09 9.67 9.17 9.30 2.86 10.68 11.05 10.48 8.20 10.40 2.22 6.43 10.46 10.14 1.90 10.71 10.64 9.60 7.84 11.05 2.01 7.02 12.40 11.30 1.18 10.64 11.09 7.24 7.23 11.78 1.65 5.59 13.46 11.49 1.56 11.31 11.36 7.22 6.86 12.60 1.06 4.34

  24. Tương quan trong tập X

  25. Tương quan trong tập Y

  26. Tương quan giữa X và Y

  27. Các biến ẩn -The t (latent) variables • -0.42 -0.19 -0.34 -0.35 • -0.25 -0.17 0.22 -0.20 • -0.17 -0.14 0.50 -0.22 • -0.13 -0.25 -0.26 -0.11 • -0.03 -0.27 0.02 0.33 • 0.23 -0.36 0.10 0.30 • 0.41 -0.42 -0.11 0.06 • -0.32 0.27 -0.37 0.04 • -0.15 0.27 0.19 0.14 • -0.08 0.27 0.46 0.03 • 0.01 0.25 -0.29 0.38 • 0.07 0.27 -0.02 0.33 • 0.32 0.25 0.05 -0.22 • 0.51 0.23 -0.16 -0.50

  28. w • 0.61 -0.15 -0.20 -0.46 • -0.22 0.09 0.77 0.08 • -0.39 0.06 -0.57 0.38 • 0.01 -0.70 -0.00 0.41 • -0.62 0.00 -0.15 -0.62 • 0.20 0.69 -0.10 0.28

  29. c • 0.38 0.12 0.07 0.28 • 0.38 0.11 -0.07 0.25 • -0.37 -0.05 -0.30 -0.57 • 0.15 0.55 -0.18 0.18 • 0.27 0.41 -0.25 0.36 • -0.23 0.46 0.22 0.10 • -0.16 0.53 0.09 0.04 • 0.38 0.03 -0.28 0.30 • -0.37 0.03 0.07 -0.50 • -0.33 0.09 0.81 -0.16

  30. Bpls: X to Y (in Z-scores) -0.11 -0.05 0.63 -0.21 -0.36 -0.48 -0.31 -0.09 0.45 -0.18 -0.03 -0.09 -0.13 -0.03 -0.07 0.24 0.15 -0.17 0.04 0.41 0.14 0.15 -0.50 0.24 0.43 0.25 0.16 0.26 -0.50 -0.24 0.32 0.29 -0.80 -0.19 0.19 -0.25 -0.40 0.43 -0.78 -0.33 -1.04 -0.97 1.70 -0.56 -1.10 -0.02 0.06 -1.07 1.54 0.68 0.52 0.5 -0.77 0.71 0.83 0.40 0.42 0.49 -0.65 -0.26

  31. B*pls from X to Y (original units) 79.86 43.18 -52.77 29.23 32.63 6.91 4.32 52.51 -50.26 -19.07 -0.06 -0.01 0.15 -0.06 -0.06 -0.16 -0.06 -0.03 0.12 -0.05 -0.01 -0.02 -0.03 -0.01 -0.01 0.08 0.03 -0.05 0.01 0.11 0.07 0.04 -0.12 0.06 0.07 0.08 0.03 0.08 -0.13 -0.07 0.67 0.31 -0.82 -0.22 0.12 -0.33 -0.34 0.52 -0.84 -0.37 -1.85 -0.88 1.47 -0.54 -0.6 -0.02 0.04 -1.10 1.40 0.66 0.08 0.04 -0.06 0.06 0.04 0.04 0.03 0.04 -0.05 -0.02

  32. RESS & PRESS < min PRESS for 4 1182.39 8505.47 2 50.86 8318.84 3 30.28 8292.23 4 15.69 8286.95 5 13.00 8299.23 6 11.91 8309.38 Keep 4 latent variables

  33. Plot w & t (1 vs 2)

  34. Plot w & c (1 vs 2)

  35. Vòng tròn tương quan

  36. Kết luận • Tài liệu tham khảo hữu ích (contain bibliography): Abdi (2007, 2003) see www.utd.edu/~herve

More Related