340 likes | 610 Views
Bài giảng tin ứng dụng. Gv: Trần Trung Hiếu Bộ môn CNPM – Khoa CNTT – ĐH Nông Nghiệp Hà Nội Email: tthieu@hua.edu.vn Website: http://ccd.hua.edu.vn/tthieu. CHƯƠNG IV: PHÂN TÍCH PHƯƠNG SAI, SO SÁNH VÀ KIỂM ĐỊNH. Nội dung : Phân tích phương sai
E N D
Bài giảng tin ứng dụng Gv: Trần Trung Hiếu Bộ môn CNPM – Khoa CNTT – ĐH Nông Nghiệp Hà Nội Email: tthieu@hua.edu.vn Website: http://ccd.hua.edu.vn/tthieu
CHƯƠNG IV: PHÂN TÍCH PHƯƠNG SAI, SO SÁNH VÀ KIỂM ĐỊNH Nội dung: • Phân tích phương sai • Kiểm định sự bằng nhau của 2 phương sai • So sánh trung bình 2 mẫu
Phân tích phương sai Ví dụ Công cụ chủ yếu để phân tích số liệu khi theo dõi ảnh hưởng của các mức nhân tố khác nhau tới kết quả hay ảnh hưởng tương tác của các nhân tố tới kết quả 3
1.1 Phân tích phương sai một nhân tố Được sử dụng để phân tích số liệu khi theo dõi ảnh hưởng của các mức nhân tố tới kết quả Ví dụ: Nhân tố: Công thức cho lợn ăn Mức nhân tố là các công thức khác nhau Xem ảnh hưởng tới năng suất như thế nào Bài toán: Kiểm định giả thuyết về tác động giống nhau của các mức nhân tố H0: m1 = m2 =...=mn H1: tồn tại i, j mà mi khác mj Các bước thực hiện Chuẩn bị dữ liệu Dữ liệu có thể bố trí dưới dạng cột hay hàng Dữ liệu ứng với mỗi mức nhân tố có thể khác nhau Sử dụng công cụ Anova: Single Factor Phân tích kết quả Nếu F thực nghiệm > F lý thuyết (Fcrit) thì các mức nhân tố có tác động khác nhau tới kết quả (chấp nhận H1) Cần so sánh các công thức để rút ra công thức nào tốt nhất (sử dụng LSD) Ngược lại: các mức nhân tố không có khác biệt đáng kể trong tác động tới kết quả (chấp nhận H0) 4
So sánh các trung bình dùng chỉ số LSD • Sử dụng trong trường hợp kết luận các mức nhân tố có tác động khác nhau tới kết quả • Sử dụng để chỉ rõ tác động khác nhau của các mức nhân tố tới kết quả là ntn: xếp thứ tự về sự tác động của các mức nhân tố tới kết quả • Nếu cần so sánh trung bình CT Ti (với ri lần lặp) với trung bình CT Tj (với rj lần lặp) có thể tính thêm chỉ số LSD = tα,f * SQRT(s2(1/ ri + 1/ rj ) • tα,f = TINV(α, f) với α = 1 – p; f = df & within groups • s2= MS within groups: Phương sai chung • ri, rj: số lần lặp lại dữ liệu đối với các mức nhân tố i, j • Căn cứ kết luận • Nếu |mi-mj| > LSD(i,j) thì tác động của mức nhân tố i, j là khác nhau và ngược lại • Trong TH khác nhau, nếu mi > mj thì KLuan mức nhân tố i tốt hơn mức nhân tố j
Phân tích phương sai hai nhân tố Ví dụ: Điều tra về chiều dài của cây, hai nhân tố xét đến là phân bón và nhiệt độ Xảy ra hai trường hợp: Nhân tố A và B không tương tác, biến động gây nên bởi tác động đồng thời của A và B gần sát 0. Nhân tố A và B có tương tác. Bài toán 1: Xét riêng tác động của các mức nhân tố A H0: m1 = m2 =...=mn H1: tồn tại i, j mà mi khác mj Bài toán 2: Xét riêng tác động của các mức nhân tố B H0: m1 = m2 =...=mn H1: tồn tại i, j mà mi khác mj Bài toán 3: Xét riêng tác động đồng thời của (A,B) H0: Tác động đồng thời của 2 nhân tố không có tác động đáng kể tới kết quả H1: Tác động đồng thời của 2 nhân tố có tác động đáng kể tới kết quả 6
Phân tích phương sai hai nhân tố không tương tác Không xét đến tác động đồng thời của hai nhân tố A, B Cần giải quyết bài toán 1, bài toán 2 Các bước thực hiện Bố trí dữ liệu Sử dụng công cụ: Anova: Two-Factor Without Replication Phân tích kết quả: Xét giá trị F thực nghiệm và F lý thuyết tương ứng với các nhân tố, nếu F thực nghiệm > F lý thuyết thì kết luận các mức của nhân tố tương ứng có ảnh hưởng khác nhau tới kết quả và ngược lại 7
Phân tích phương sai hai nhân tố tương tác Xét đến cả tác động đồng thời của 2 nhân tố A, B Cần giải quyết 3 bài toán về phân tích phương sai Các bước thực hiện Bố trí dữ liệu Sử dụng công cụ Anova: Two Factor With Replication Phân tích kết quả Xét giá trị F thực nghiệm và F lý thuyết tương ứng với các nhân tố, nếu F thực nghiệm > F lý thuyết thì kết luận các mức của nhân tố tương ứng có ảnh hưởng khác nhau tới kết quả (chấp nhận H1) và ngược lại (chấp nhận H0) Xét giá trị F tn và F lt tương ứng với tác động đồng thời của hai nhân tố (interaction), nếu Ftn > Flt thì chấp nhận H1, tác động đồng thời là đáng kể tới kết quả, ngược lại chấp nhận H0 8
2. Kiểm định sự bằng nhau của hai phương sai Kiểm định hai phía H0: δ12 = δ22 (phương sai của biến X bằng phương sai của biến Y) Đối thuyết H1: δ12 ≠δ22 Kiểm định một phía H0: δ12 = δ22 (phương sai của biến X bằng phương sai của biến Y) Đối thuyết H1: δ12 >δ22 9
Phân tích kết quả Trong Excel, sử dụng công cụ F-Test Two Sample for Variances để kiểm định một phía Nếu F < 1 nếu F > F Critical one-tail thì chấp nhận H0 (δ12 = δ22 ) ngược lại bác bỏ H0, chấp nhận H1δ12 > δ22 Nếu F >= 1 nếu F < F Critical one-tail thì chấp nhận H0 (δ12 = δ22 ) ngược lại bác bỏ H0, chấp nhận H1δ12 > δ22 10
3. So sánh trung bình 2 mẫu • Với X, Y là 2 DLNN độc lập, có phân phối chuẩn N(mX; σ2X), N(mY; σ2Y) ta có thể gặp các bài toán về kiểm định giả thuyết giá trị trung bình của 2 mẫu như sau: • Kiểm định hai phía: Giả thuyết H0: mX = mY+d Đối thuyết H1: mX≠ mY+d • Kiểm định một phía: Giả thuyết H0: mX = mY+d Đối thuyết H1: mX> mY+d hoặc Giả thuyết H0: mX = mY+d Đối thuyết H1: mX< mY+d * Khi giá trị sai khác d=0 ta có bài toán kiểm định sự bằng nhau của 2 giá trị trung bình
3. So sánh trung bình 2 mẫu Các trường hợp: • Lấy mẫu độc lập • TH biết phương sai σ2X, σ2Y • TH không biết phương sai • Kích thước mẫu lớn (nX>=30; nY>=30) • Kích thước mẫu nhỏ • Hai phương sai bằng nhau • Hai phương sai khác nhau • Lấy mẫu theo cặp dữ liệu của 2 mẫu được lấy ngẫu nhiên, 2 mẫu là độc lập với nhau dữ liệu của 2 mẫu lấy theo từng cặp tương ứng
3. So sánh trung bình 2 mẫu • So sánh TB 2 mẫu độc lập khi biết phương sai σ2X, σ2Y • Qui tắc kiểm định trong xác suất • Xét đại lượng Z=(Xtb-Ytb-(mX-mY)-d)/sqrt(σ2X/nX+ σ2Y/nY) có phân phối chuẩn tắc • Nếu giả thuyết H0 đúng thì Z=(Xtb-Ytb-d)/sqrt(σ2X/nX+ σ2Y/nY) có phân phối chuẩn tắc khi đó ta có bảng quy tắc kiểm định sau: * Trường hợp này được trình bày chi tiết, các trường hợp khác tương tự Sử dụng khi trong một tình huống nào đó ta đã biết được phương sai (thường xảy ra khi điều tra lại một tổng thể sau một thời gian chưa lâu, nên phương sai chưa thay đổi, do đó lấy phương sai của lần điều tra trước để tính toán)
3. So sánh trung bình 2 mẫu • So sánh TB 2 mẫu độc lập khi biết phương sai σ2X, σ2Y • Ví dụ: • So sánh giá trị trung bình của số cừu mắc bệnh trong 8 nhóm tiêm phòng và 8 nhóm đối chứng. Mẫu được lấy độc lập, biết phương sai tương ứng là 22, 18. • Các bước thực hiện trong Excel:
Tool Data Analysis, chọn công cụ phân tích: z-Test: Two Sample for Means
Hiện cửa sổ Miền biến 1 Miền biến 2 Giả thiết về sự khác nhau của hai trung bình (d) Phương sai của biến 1 Phương sai của biến 2 Nếu có nhãn thì chọn Nơi để kết quả
Trung bình Phương sai Số quan sát Giả thiết sự khác nhau của hai trung bình (d) Z thực nghiệm P một phía và hai phía Z lý thuyết (tới hạn) một phía (Zα) và hai phía (Zα/2) Kết quả
1. So sánh TB 2 mẫu độc lập khi biết phương sai σ2X, σ2Y * Căn cứ để kết luận • Kiểm định 2 phía • Nếu |Ztn|> Zhai phía (z critical two-tail) thì bác bỏ giả thuyết H0, chấp nhận H1 (mX≠mY+d) • Nếu |Ztn|<= Zhai phía (z critical two-tail) thì chấp nhận giả thuyết H0 (mX=mY+d) • Kiểm định một phía • Nếu Ztn>0 ta có bài toán kiểm định H0: mX = mY+d H1: mX> mY+d • Nếu Ztn> Zmột phía (z critical one-tail) thì bác bỏ H0 và ngược lại • Nếu Ztn<0 ta có bài toán kiểm định H0: mX = mY+d H1: mX< mY+d • Nếu Ztn<-Zmột phía (z critical one-tail) thì bác bỏ H0 và ngược lại
Phân tích kết quả Kiểm định 2 phía: Ta có |z|=2.068>z2 phía nên bác bỏ giả thiết H0 (mX=mY) Kiểm định 1 phía: Vì z<0 nên ta xét bài toán kiểm định với đối thuyết H1: mX<mY Ta có z=-2.068<-zmột phía=-1.644 nên bác bỏ H0, chấp nhận H1 (mX<mY) Nhận xét về giá trị của Pmột phía và Phai phía so với mức xác suất α=0.05 ??
Thực hành • Sinh viên thực hành ví dụ vừa rồi với dữ liệu đảo ngược như sau (σ2X =22, σ2Y=18):
3. So sánh trung bình 2 mẫu 2. So sánh trung bình 2 mẫu độc lập trường hợp không biết phương sai và kích thước mẫu lớn lớn (nX>=30, nY>=30) • Xét đại lượng Z=(Xtb-Ytb-(mX-mY)-d)/sqrt(s2X/nX+ s2Y/nY) có phân phối xấp xỉ phân phối chuẩn tắc • (trong đó s2X, s2Ylà các giá trị xấp xỉ của phương sai σ2X, σ2Ycó thể tính được bằng hàm VAR) • Tương tự trường hợp đã biết phương sai, thay thế s2X bởi σ2X, s2Y bởi σ2Y và sử dụng công cụ z-Test: two sample for means ta có thể giải quyết bài toán này.
3. So sánh trung bình 2 mẫu 3. So sánh trung bình 2 mẫu độc lập trường hợp không biết phương sai và kích thước mẫu nhỏ (nX<30 và nY<30) • Để giải quyết bài toán này ta cần có giả thiết về sự bằng nhau hay khác nhau của 2 phương sai σ2X, σ2Y • Nếu đề bài chưa cho biết thông tin đó, cần kiểm định thêm một giả thuyết phụ về sự bằng nhau hay khác nhau của 2 phương sai σ2X, σ2Y đã học ở bài trước (sử dụng công cụ F-Test: Two-Sample for Variances) • Nếu σ2X = σ2Y ta giải quyết bài toán sử dụng công cụ phân tích t-Test: Two-Sample Assuming Equal Variances • Nếu σ2X ≠ σ2Y ta giải quyết bài toán sử dụng công cụ phân tích t-Test: Two-Sample Assuming Unequal Variances
Ví dụ 1: t-Test: Two-Sample Assuming Equal Variances (giả thiết đề bài cho hoặc sau khi kiểm định có kết quả 2 phương sai bằng nhau)
Ví dụ 1: Kết quả Trung bình Trung bình Phương sai Số quan sát Phương sai chung Giả thiết sự khác nhau của hai trung bình Bậc tự do = n1 + n2 -2 t thực nghiệm P một phía và hai phía t lý thuyết (tới hạn) một phía và hai phía
t-Test: Two-Sample Assuming Equal Variances • Căn cứ để kết luận • Kiểm định 2 phía • Nếu |ttn|> thai phía (t Critical two-tail) quyết định bác bỏ H0 và ngược lại • Trong ví dụ 1: |ttn|=1.5187<thai phía=2.009 nên chấp nhận H0 (mX=mY). Giá trị Phai phía> α là phù hợp với kết luận trên • Kiểm định một phía • Nếu ttn>0 ta có bài toán kiểm định H0: mX = mY+d H1: mX> mY+d • Nếu ttn> tmột phía (t critical one-tail) thì bác bỏ H0 và ngược lại • Nếu ttn<0 ta có bài toán kiểm định H0: mX = mY+d H1: mX< mY+d • Nếu ttn<-tmột phía (t critical one-tail) thì bác bỏ H0 và ngược lại
Ví dụ 2: t-Test: Two-Sample Assuming Unequal Variances(giả thiết đề bài cho hoặc sau khi kiểm định có kết quả 2 phương sai không bằng nhau)
t-Test: Two-Sample Assuming Unequal Variances • Căn cứ để kết luận (giống trường hợp 2 phương sai bằng nhau, chỉ khác ở giá trị ttn do khác về công thức tính) • Kiểm định 2 phía • Nếu |ttn|> thai phía (t Critical two-tail) quyết định bác bỏ H0 và ngược lại • Trong ví dụ 2: |ttn|=1.7133<thai phía=2.009 nên chấp nhận H0 (mX=mY). Giá trị Phai phía> α là phù hợp với kết luận trên • Kiểm định một phía • Nếu ttn>0 ta có bài toán kiểm định H0: mX = mY+d H1: mX> mY+d • Nếu ttn> tmột phía (t critical one-tail) thì bác bỏ H0 và ngược lại • Nếu ttn<0 ta có bài toán kiểm định H0: mX = mY+d H1: mX< mY+d • Nếu ttn<-tmột phía (t critical one-tail) thì bác bỏ H0 và ngược lại
3. So sánh trung bình 2 mẫu • So sánh trung bình 2 mẫu được lấy theo cặp • Ví dụ:
Hiện ra của sổ Miền của biến 1, kể cả hàng đầu của mẫu quan sát. Miền của biến 2 Giả thiết về hiệu hai trung bình của hai tổng thể. H0: m1 = m2 thì ghi 0. Nếu H0: m1 = m2 + d thì ghi d Nếu có nhãn thì chọn Chọn miền đặt kết quả
t-Test: Paired Two Sample for Means • Căn cứ để kết luận (giống trường hợp so sánh trung bình 2 mẫu độc lập có kích thước mẫu nhỏ) • Kiểm định 2 phía • Nếu |ttn|> thai phía (t Critical two-tail) quyết định bác bỏ H0 và ngược lại • Trong ví dụ trên: |ttn|=3.3105>thai phía=2.3646 nên chấp nhận H1 (mX≠mY). Giá trị Phai phía<α là phù hợp với kết luận trên • Kiểm định một phía • Nếu ttn>0 ta có bài toán kiểm định H0: mX = mY+d H1: mX> mY+d • Nếu ttn> tmột phía (t critical one-tail) thì bác bỏ H0 và ngược lại • Trong ví dụ trên: ttn>0 và ttn> tmột phía=1.8945 nên chấp nhận H1 (mX > mY). Giá trị Pmột phía<α là phù hợp với kết luận trên • Nếu ttn<0 ta có bài toán kiểm định H0: mX = mY+d H1: mX< mY+d • Nếu ttn<-tmột phía (t critical one-tail) thì bác bỏ H0 và ngược lại