1 / 50

Giới thiệu Phân tích hồi quy tuyến tính

Giới thiệu Phân tích hồi quy tuyến tính. Dr. Tuan V. Nguyen Garvan Institute of Medical Research Sydney. Nếu cho một người ba loại vũ khí – tương quan, hồi quy và cây bút, hắn sẽ dùng cả ba (Anon, 1978). Ví d ụ. ID Age Chol (mg/ml) 1 46 3.5 2 20 1.9 3 52 4.0 4 30 2.6 5 57 4.5

shakira
Download Presentation

Giới thiệu Phân tích hồi quy tuyến tính

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Giới thiệu Phân tích hồi quy tuyến tính Dr. Tuan V. Nguyen Garvan Institute of Medical Research Sydney

  2. Nếu cho một người ba loại vũ khí – tương quan, hồi quy và cây bút, hắn sẽ dùng cả ba (Anon, 1978)

  3. Ví dụ ID Age Chol (mg/ml) 1 46 3.5 2 20 1.9 3 52 4.0 4 30 2.6 5 57 4.5 6 25 3.0 7 28 2.9 8 36 3.8 9 22 2.1 10 43 3.8 11 57 4.1 12 33 3.0 13 22 2.5 14 63 4.6 15 40 3.2 16 48 4.2 17 28 2.3 18 49 4.0 Tuổi và nồng độ cholesterol của 18 người đo được như sau

  4. Nhập số liệu vào R id <- seq(1:18) age <- c(46, 20, 52, 30, 57, 25, 28, 36, 22, 43, 57, 33, 22, 63, 40, 48, 28, 49) chol <- c(3.5, 1.9, 4.0, 2.6, 4.5, 3.0, 2.9, 3.8, 2.1, 3.8, 4.1, 3.0, 2.5, 4.6, 3.2, 4.2, 2.3, 4.0) plot(chol ~ age, pch=16) # Ve bieu do tan xa

  5. Tương quan giữa tuổi và nồng độ cholesterol

  6. Câu hỏi nghiên cứu • Mối tương quan giữa tuổi và nồng độ cholesterol • Mức độ tương quan • Tiên đoán nồng độ cholesterol ứng với mỗi lứa tuổi Phân tích tương quan và hồi quy

  7. Phương sai và hiệp phương sai: Đại số • Coi x và y là hai biến ngẫu nhiên rút ra từ một mẫu quan sát n đối tượng. • Đo lượng độ dao động giứa x và y: phương sai • Hiệp phương sai giữa x và y var(x + y) = var(x) + var(y) var(x + y) = var(x) + var(y) + 2cov(x,y) Trong đó:

  8. Phương sai và Hiệp phương sai: Hình học • Tính độc lập và phụ thuộc giữa x và y có thể biểu diễn bằng hình học: y h h y H x x h2 = x2 + y2 – 2xycos(H) h2 = x2 + y2

  9. Ý nghĩa của Phương sai và Hiệp phương sai • Phương sai luôn luôn là số dương • Nếu hiệp phương sai = 0, x và y độc lập với nhau. • Hiệp phương sai là một tổng của một tích chéo: do đó có thể âm và cũng có thể dương. • Hiệp phương sai âm = lệch pha giữa hai phân phối theo hướng ngược chiều nhau. • Hiệp phương sai dương = lệch pha giữa hai phân phối theo hướng cùng chiều nhau. • Hiệp phương sai = đo lường cường độ tương quan.

  10. Hiệp phương sai và tương quan • Hiệp phương sai là một đơn vị phụ thuộc. • Hệ số tương quan (r) giữa x và y là một hiệp phương sai được chuẩn hoá. • r được xác định bằng:

  11. Tương quan thuận và nghịch r = 0.9 r = -0.9

  12. Kiểm định giả thuyết tương quan • Giả thuyết: Ho: r = 0 ngược với Ho: r không bằng 0. • Sai số chuẩn (Standard error) của r : • The t-statistic: • Thống kê này có phân phối t với n – 2 bậc tự do. • Fisher’s z-transformation: • Standard error of z: • Do vậy 95% CI của z có thể tính bằng:

  13. Minh hoạ phân tích tương quan Cov(x, y) = 10.68 ID Age Cholesterol (x) (y; mg/100ml) • 46 3.5 • 20 1.9 • 52 4.0 • 30 2.6 • 57 4.5 • 25 3.0 • 28 2.9 • 36 3.8 • 22 2.1 • 43 3.8 • 57 4.1 • 33 3.0 • 22 2.5 • 63 4.6 • 40 3.2 • 48 4.2 • 28 2.3 • 49 4.0 Mean 38.83 3.33 SD 13.60 0.84 t-statistic = 0.56 / 0.26 = 2.17 Critical t-value with 17 df and alpha = 5% is 2.11 Kết luận: Giữa tuổi và nồng độ cholesterol có một mối tương quan có ý nghĩa thống kê..

  14. Phân tích hồi quy tuyến tính đơn • Chỉ khảo sát có hai biến: một là biến đáp ứng (response variable) và một là biến dự đoán (predictor variable) • Không có điều chỉnh cho yếu tố nhiễu hoặc các hiệp biến khác • Đánh giá: • Lượng hoá mối tương quan giữa hai biến. • Dự đoán • Xây dựng mô hình dự đoán và đánh giá • Kiểm soát • Điều chỉnh yếu tố nhiễu (trường hợp phân tích đa biến)

  15. Tương quan giữa tuổi và nồng độ cholesterol

  16. Mô hình hồi quy tuyến tính • Y : biến ngẫu nhiên, là một biến đáp ứng (response) • X : biến ngẫu nhiên, là biến dự đoán, hay yếu tố nguy cơ (predictor, risk factor) • Cả Y và X có thể là số liệu nhóm (e.g., yes / no) hoặc biến liên tục (e.g., age). • Nếu Y là biến phân nhóm thì sử dụng mô hình logistic regression; nếu Y là biến liên tục thì sử dụng mô hình hồi quy tuyến tính đơn. • Mô hình: Y = a + bX + e a : intercept b : slope / gradient • : random error (mức độ dao động giữa các đối tượng trong số y sự kiện nếu x không đổi (ví dụ biến đổi cholesterol trong một nhóm cùng lứa tuổi)

  17. Các giả định của mô hình tuyến tính • Các thông số có mối tương quan tuyến tính (đường thẳng) với nhau; • X đo lường không có sai số; • Các giá trị Y tương ứng là độc lập với nhau (ví dụ Y1 không có mối tương quan với Y2) ; • Sai số ngẫu nhiên (e) có phân phối chuẩn với trung bình =0 và phương sai cố định.

  18. Giá trị kỳ vọng và phương sai • Nếu các giả định thoả mãn: • Giá trị kỳ vọng của Y là: E(Y | x) = a + bx • Phương sai của Y là: var(Y) = var(e) = s2

  19. Ước lượng các thông số của mô hình hồi quy tuyến tính Cho hai điểm A(x1, y1) và B(x2, y2) trong một mặt phẳng 2 chiều, chúng ta có thể có một phương trình đường thẳng nối hai điểm này. Góc lệch: y B(x2,y2) dy Phương trình: y = mx + a Vậy nếu chúng ta có hơn 2 điểm thì sao? A(x1,y1) dx a 0 x

  20. Ước tính a và b • Có một loạt cặp đôi: (x1, y1), (x2, y2), (x3, y3), …, (xn, yn) • Cho a và b là các ước số của các thông sốa và b, • Chúng ta có phương trình của mẫu nghiên cứu: Y* = a + bx • Mục đích: tìm các giá trị của a và b sao cho (Y – Y*) là tối thiểu. • Cho SSE = tổng của (Yi – a – bxi)2. • Các giá trị a và b có thể làm SSE đạt giá trị nhỏ nhất gọi là các ước số bình phương tối thiểu (least square estimates).

  21. Tiêu chuẩn ước tính yi Chol Age Mục đích của ước số bình phương tối thiểu là để tìm được các giá trị a và b sao cho tổng của d2 có giá trị nhỏ nhất.

  22. Ước tính a và b • Sau một số bước tính toán, chúng ta có: • Trong đó: • Nếu các giả định của hồi quy là hợp lý, các ước số của  và  sẽ: • Không sai lệch • Phương sai tối thiểu (nghĩa là hiệu quả)

  23. Goodness-of-fit • Bây giờ chúng ta có phương trình: Y = a + bX + e • Câu hỏi: Phương trình này có thể mô tả dữ liệu tốt cỡ nào? • Trả lời: hệ số xác định (R2): mức độ biến thiên trong Y có thể giải thích bằng mức độ biến thiên trong nhóm X.

  24. Tách nhóm biến thiên: khái niệm • SST = tổng của các mức độ khác biệt bình phương giữa từng giá trị yi và trị số trung bình của y. • SSR = tổng của các mức độ khác biệt bình phương giữa giá trị dự đoán của y và trị số trung bình của y. • SSE = tổng của các mức độ khác biệt bình phương giữa các giá trị quan sát và giá trị dự đoán của y. SST = SSR + SSE Khi đó hệ số xác định là: R2 = SSR / SST

  25. Tách nhóm biến thiên: minh hoạ hình học SSE SST Chol (Y) SSR mean Age (X)

  26. Tách nhóm biến thiên: đại số • Some statistics: • Total variation: • Attributed to the model: • Residual sum of square: • SST = SSR + SSE • SSR = SST – SSE

  27. Phân tích phương sai • SS tăng lên theo tỷ lệ với cỡ mẫu (n) • Trung bình bình phương (Mean squares, MS): được chuẩn hoá cho bậc tự do (df) • MSR = SSR / p ( p = số bậc tự do) • MSE = SSE / (n – p – 1) • MST = SST / (n – 1) Bảng tóm tăt phân tích phương sai (Analysis of variance, ANOVA):

  28. Kiểm định giả thuyết trong các phân tích hồi quy • Bây giờ chúng ta có: Số liệu mẫu nghiên cứu: Y = a + bX + e Quần thể: Y = a + bX + e • Ho: b = 0. Không có mối tương quan tuyến tính nào giữa kết cục và biến dự đoán (yếu tố nguy cơ) cả. • Ngôn ngữ thông thường: “Với điều kiện mẫu nghiên cứu đã cho kết quả thu được đó, vậy xác suất để cho có được một mẫu quan sát mà không nhất quán với giả thuyết không, tức là không có mối tương quan nào, là bao nhiêu phần trăm?”

  29. Diễn dịch về độ dốc (thông số b) • Ghi nhớ rằng e được coi là một phân phối chuẩn với trung bình 0 và phương sai v = s2. • Ước tính s2 bằng MSE (or s2) • Cũng có thể cho thấy rằng • GIá trị kỳ vọng của b là b, i.e. E(b) = b, • Sai số chuẩn (standard errors) của b là: • Vậy kiểm định liêu b = 0 sẽ là: t = b / SE(b) sẽ tuân theo luật phân phối t với bậc tự do là n-1.

  30. Khoảng tin cậy xung quanh giá trị dự đoán • Giá trị quan sát là Yi. • Giá trị được dự đoán là: • Sai số chuẩn (standard error) của giá trị được dự đoán là: • Ước tính khoảng cho các giá trị Yi :

  31. Kiểm tra các giả định • Phương sai hằng định • Phân phối chuẩn • Mô hình đúng • Mô hình ổn định • Tất cả đều có thể biểu diễn bằng biểu đồ. Phần tồn dư (residuals) của mô hình luôn đóng vai trò quan trọng trong tất cả các bước tiến hành phân tích một mô hình chẩn đoán.

  32. Kiểm tra các giả định • Phương sai hằng định • Vẽ đường số liệu tồn dư chuẩn hoá theo phương pháp student (studentized residuals) tương ứng với các giá trị được dự đoán (predicted values). Kiểm tra xem sự biến thiên giữa các giá trị tồn dư liệu có tương đối hằng định qua suốt hết các dãy giá trị đã được xử lý không (fitted values). • Phân phối chuẩn • Vẽ đường số liệu tồn dư tương ứng với các giá trị kỳ vọng (expected valué), hay còn gọi là vẽ đường xác suất chuẩn (Normal probability plot). Nếu các giá trị tồn dư này tuân theo luật phân ohuẩn thì nó phải nằm trên con đường xiên 45o. • Xây dựng công thức đúng? • Vẽ đường giá trị tồn dư tương ứng với giá trị đã xử lý (fitted values). Kiểm tra xem liệu biểu đồ của các giá trị tồn dư có cho thấy xu hướng không tuyến tính của chúng qua các dãy số liệu đã xử lý không (fitted values). • Mô hình ổn định • Kiểm tra xem liệu có một hay nhiều giá trị quan sát bị tác động. Sử dụng khoảng cách Cook.

  33. Checking assumptions (tt) • Khoảng cách Cook (D) là môt đơn vị đo lường mức độ biến đổi của các giá trị đã xử lý trong mô hình hồi quy nếu loại bỏ một giá trị thứ ith ra khỏi bộ dữ liệu phân tích. • Leverage (tác động đòn bẩy) để đo mức độ giá trị cực trị xi tương quan với các giá trị x còn lại. • Giá trị tồn dư student hoá (Studentized residual) để đo mức độ giá trị cực trị yi tương quan với các giá trị y còn lại.

  34. Đo lường chỉnh lý • Phương sai không hằng định • Hoán chuyển giá trị đáp ứng (y) sang một thang đơn vị khác (ví dụ logarithm) thường hữu ích. • Nếu đã hoán chuyển rồi mà không giải quyết được tình trạng phương sai không hằng định, sử dụng một ước số khác mạnh hơn, như là bình phương tối thiểu có cân đối tương tác (iterative weighted least squares). • Không tuân theo phân phối chuẩn • Phân phối không chuẩn và phương sai không hằng định thường đi đôi với nhau. • Giá trị ngoại lệ (Outliers) • Kiểm tra xem số liệu có chính xác không • Sử dụng phương pháp ước tính phụ trợ

  35. Phân tích hồi quy sử dụng R id <- seq(1:18) age <- c(46, 20, 52, 30, 57, 25, 28, 36, 22, 43, 57, 33, 22, 63, 40, 48, 28, 49) chol <- c(3.5, 1.9, 4.0, 2.6, 4.5, 3.0, 2.9, 3.8, 2.1, 3.8, 4.1, 3.0, 2.5, 4.6, 3.2, 4.2, 2.3, 4.0) #Fit linear regression model reg <- lm(chol ~ age)

  36. Phân tích hồi quy summary(reg) Call: lm(formula = chol ~ age) Residuals: Min 1Q Median 3Q Max -0.40729 -0.24133 -0.04522 0.17939 0.63040 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.089218 0.221466 4.918 0.000154 *** age 0.057788 0.005399 10.704 1.06e-08 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.3027 on 16 degrees of freedom Multiple R-Squared: 0.8775, Adjusted R-squared: 0.8698 F-statistic: 114.6 on 1 and 16 DF, p-value: 1.058e-08

  37. ANOVA anova(reg) Analysis of Variance Table Response: chol Df Sum Sq Mean Sq F value Pr(>F) age 1 10.4944 10.4944 114.57 1.058e-08 *** Residuals 16 1.4656 0.0916 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

  38. Chẩn đoán: ảnh hưởng của số liệu p<- par(mfrow=c(2,2)) plot(reg) par(p)

  39. Nghiên cứu trên 44 sinh viên đại học Đo chỉ số trọng lượng cơ thể (BMI) Cho điểm hấp dẫn tính dục (SA) Một minh hoạ không tuyến tính: BMI và mức độ hấp dẫn tính dục id <- seq(1:44) bmi <- c(11.00, 12.00, 12.50, 14.00, 14.00, 14.00, 14.00, 14.00, 14.00, 14.80, 15.00, 15.00, 15.50, 16.00, 16.50, 17.00, 17.00, 18.00, 18.00, 19.00, 19.00, 20.00, 20.00, 20.00, 20.50, 22.00, 23.00, 23.00, 24.00, 24.50, 25.00, 25.00, 26.00, 26.00, 26.50, 28.00, 29.00, 31.00, 32.00, 33.00, 34.00, 35.50, 36.00, 36.00) sa <- c(2.0, 2.8, 1.8, 1.8, 2.0, 2.8, 3.2, 3.1, 4.0, 1.5, 3.2, 3.7, 5.5, 5.2, 5.1, 5.7, 5.6, 4.8, 5.4, 6.3, 6.5, 4.9, 5.0, 5.3, 5.0, 4.2, 4.1, 4.7, 3.5, 3.7, 3.5, 4.0, 3.7, 3.6, 3.4, 3.3, 2.9, 2.1, 2.0, 2.1, 2.1, 2.0, 1.8, 1.7)

  40. Phân tích hồi quy tuyến tính giữa BMI và SA reg <- lm (sa ~ bmi) summary(reg) Residuals: Min 1Q Median 3Q Max -2.54204 -0.97584 0.05082 1.16160 2.70856 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.92512 0.64489 7.637 1.81e-09 *** bmi -0.05967 0.02862 -2.084 0.0432 * --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 1.354 on 42 degrees of freedom Multiple R-Squared: 0.09376, Adjusted R-squared: 0.07218 F-statistic: 4.345 on 1 and 42 DF, p-value: 0.04323

  41. BMI và SA: phân tích các giá trị tồn dư plot(reg)

  42. BMI and SA: biểu đồ tán xạ reg <- lm(sa ~ bmi) plot(sa ~ bmi, pch=16) abline(reg)

  43. Phân tích lại số liệu này # Fit 3 regression models linear <- lm(sa ~ bmi) quad <- lm(sa ~ poly(bmi, 2)) cubic <- lm(sa ~ poly(bmi, 3)) # Make new BMI axis bmi.new <- 10:40 # Get predicted values quad.pred <- predict(quad,data.frame(bmi=bmi.new)) cubic.pred <- predict(cubic,data.frame(bmi=bmi.new)) # Plot predicted values abline(reg) lines(bmi.new, quad.pred, col="blue",lwd=3) lines(bmi.new, cubic.pred, col="red",lwd=3)

  44. Một số nhận xét: Diễn dịch mối tương quan • Giá trị tương quan nằm giữa khoảng –1 và +1. Một hệ số tương quan rất nhỏ không có nghĩa rằng không có mối tương quan giữa hai biến. Mối tương quan này có thể là phi tuyến tính. • Đối với các tương quan cong, sử dụng hệ số tương phân phân loại (rank correlation) tốt hơn tương quan Pearson (Pearson’s correlation). • Một hệ số tương quan thấp (vd: 0.1) có thể có ý nghĩa thống kê nhưng không có ý nghĩa lâm sàng. • R2 là một chỉ số đo lường mức độ tương quan. r = 0.7 trông có vẻ hấp dẫn nhưng thực chât R2 chỉ có 0.49! • Có tương quan không đồng nghĩa là có quan hệ nhân quả.

  45. Một số nhận xét: Diễn dịch mối tương quan • Cần cẩn thận với đa tương quan. Đối với số biến là p, sẽ có p(p – 1)/2 các cặp tương quan, và khi đó sẽ đối mặt với vấn đề dương tính giả (có tương quan giả). • Tương quan không thể suy diễn được từ các mối quan hệ. • r(age, weight) = 0.05; r(weight, fat) = 0.03; không có nghĩa rằng r(age, fat) là gần zero. • Nhưng trên thực tế r(age, fat) = 0.79.

  46. Một số nhận xét: Diễn dịch mối tương quan • Đường biểu diến tương quan (hồi quy) chỉ là một tương quan ước lượng giữa các biến này trong quần thể mà thôi. • Có một độ bất định liên quan với các thông số được ước tính. • Đường hồi quy không thể dùng để ước tính các giá trị x nằm ngoài vùng giá trị quan sát (ngoại suy). • Một mô hình thống kê là một mô hình xấp xỉ; tương quan thực có thể lại là phi tuyến tính, nhưng tương quan tuyến tính là một tương quan xấp xỉ tương đối phù hợp nhất.

  47. Một số nhận xét: Báo cáo kết quả • Kết quả phân tích tương quan hồi quy cần được mô tả đầy đủ: bản chất của biến đáp ứng (kết cục), các biến dự đoán (yếu tố nguy cơ); bất kỳ một cách hoán chuyển; kiểm tra các giả định... • Các hệ số hồi quy (a, b), cùng với các sai số chuẩn tương ứng, và R2 cũng cần thiết.

  48. Vài nhận xét cuối cùng • Phương trình là cột mốc để cho các ý tưởng khoa học bám trụ và thăng hoa. • Các phương trình đẹp như những bài thơ, nhưng cũng thậm chí là những củ hành. • Vì vậy mà phải hết sức cảnh giác và cẩn tắc khi xây dựng phương trình!

  49. Lời Cảm tạ • Chúng tôi xin chân thành cám ơn Công ty Dược phẩm Bridge Healthcare, Australia đã tài trợ cho chuyến đi.

More Related