330 likes | 742 Views
Spread vs. Level with Levene’s test. การใช้คำสั่งย่อยนี้ จะ plot กราฟให้ก็ต่อเมื่อมีการกำหนด Factor variable. สำหรับ Spread vs.. Level plot โปรแกรม SPSS จะคำนวณความชันของเส้นถดถอย พร้อมทั้งทดสอบความเท่ากันของค่าความแปรปรวนของประชากรในแต่ละกลุ่มด้วย Levene’s test.
E N D
Spread vs. Level with Levene’s test การใช้คำสั่งย่อยนี้ จะ plot กราฟให้ก็ต่อเมื่อมีการกำหนด Factor variable สำหรับ Spread vs.. Level plot โปรแกรม SPSS จะคำนวณความชันของเส้นถดถอย พร้อมทั้งทดสอบความเท่ากันของค่าความแปรปรวนของประชากรในแต่ละกลุ่มด้วย Levene’s test
ในการทดสอบว่าค่าความแปรปรวนของประชากรในแต่ละกลุ่มเท่ากันหรือไม่โดยใช้ Levene’s test โปรแกรม SPSS จะทำการคำนวณจากค่าข้อมูลใน data editor แต่ถ้ามีการแปลงข้อมูลต้องใช้คำสั่งย่อย โปรแกรมจะหาค่า Levene’s test จากข้อมูลที่แปลงแล้ว
สำหรับสูตรที่ใช้Levene’s test คือ • เมื่อ Vij = คือค่า mean หรือ median แต่ SPSS ให้ค่า meanของค่าสังเกตในกลุ่มที่ j k = จำนวนกลุ่ม , nj = จำนวนค่าสังเกตในแต่ละกลุ่ม n = ค่าสังเกตทั้งหมด
การพลอต Spread vs. Level การตรวจสอบว่าการกระจายในแต่ละกลุ่มว่ามีความแตกต่างกันหรือไม่ การพลอตนี้ทำให้เห็นว่าการกระจายของแต่ละกลุ่ม และเป็นแนวทางให้เลือกการแปลงข้อมูลที่เหมาะสมต่อไป การพลอต Spread vs. Level เป็นการพลอตค่าลอกการิธึมของค่าวัดการกระจายของแต่ละกลุ่มกับค่าลอกการิธึมของค่ากลางของกลุ่ม
ผลจากการพลอตจะช่วยให้มองเห็นความสัมพันธ์ระหว่างการกระจายของข้อมูลกับค่ากลางของข้อมูลแต่ละกลุ่ม ถ้าไม่มีความสัมพันธ์กันจุดควรเกาะกลุ่มอยู่รอบๆแกนนอน ถ้าไม่เป็นไปตามนี้อาจใช้รูปแบบที่ได้จากการพลอตเป็นแนวทางในการเลือกแปลงข้อมูลให้เหมาะสมต่อไป
คำสั่งย่อยมีดังนี้ (เลือกได้ 1 คำสั่ง) 1. None : ถ้าเลือกคำสั่งนี้โปรแกรมจะไม่ plot spread และคำนวณ Levene’s test ให้ 2. Power estimation : สำหรับแต่ละ level ของ factor โปรแกรมจะ plot กราฟระหว่าง ln(med.) กับ In(IQR) 3. Transformed : โปรแกรมจะแปลงข้อมูลให้โดยยกกำลังตามที่ต้องการ เมื่อเลือก Power แล้ว โปรแกรมจะ plot กราฟระหว่าง ln(med.) กับ In(IQR) สำหรับข้อมูลที่แปลงแล้ว 4. Untransformed : ไม่มีการแปลงข้อมูล กำลังในการแปลงเป็น 1 ใช้เมื่อไม่ต้องการแปลงข้อมูลใดๆ
การแปลงข้อมูล เมื่อทำการตรวจสอบแล้วพบว่าข้อมูลแต่ละกลุ่มมีค่าความแปรปรวนที่ไม่เท่ากัน อาจต้องทำการแปลงข้อมูลเพื่อให้ค่าความแปรปรวนในแต่ละกลุ่มมีค่าที่ใกล้เคียงกัน โดยปกตินิยมแปลงข้อมูลแบบยกกำลัง (Power Transformation) ให้ y = xl เมื่อ l มีค่าไม่เท่ากับ 0 และ y = ln x เมื่อ l มีค่าเท่ากับ 0
การตัดสินใจว่าควรใช้การแปลงข้อมูลแบบใดพิจารณาจากการพลอต ln(median)กับ ln(IQR) เพื่อดูการกระจายของข้อมูลและค่ากลางหรือที่ตั้งของแต่ละกลุ่มว่ามีความสัมพันธ์กันอย่างไร ความชันของเส้นที่พลอตได้ จะช่วยบอกว่าควรใช้กำลังในการแปลงเป็นเท่าไรจึงจะลดความสัมพันธ์ลงได้ l = 1- slope โปรแกรม SPSS มีการแปลงที่นิยมใช้กันไว้ให้เลือกดังนี้
Power ในการแปลงข้อมูลในคำสั่งย่อย Transformed 1. Natural log : (โดยปกติ) log ฐาน e 2. 1/square root : ส่วนกลับของรากที่ 2 3. Reciprocal : ส่วนกลับ (1/X) 4. Square root : รากที่ 2 (X1/2) 5. Square : ยกกำลัง 2 (X2) 6. Cube : ยกกำลัง 3 (X3)
การตรวจสอบข้อมูลว่ามีการแจกแจงแบบปกติหรือไม่การตรวจสอบข้อมูลว่ามีการแจกแจงแบบปกติหรือไม่ ในการวิเคราะห์ข้อมูลส่วนใหญ่มักมีข้อสมมติว่าการแจกแจงของตัวแปรที่สนใจนั้นมีการแจกแจงแบบปกติ ดังนั้นในการวิเคราะห์จึงมักใช้ สถิติ Z , t , Anova สถิติที่กล่าวมาต้องการข้อสมมติที่ว่าประชากรมีการแจกแจงแบบปกติทั้งสิ้น จึงมีความจำเป็นในการตรวจสอบข้อมูลว่ามีการแจกแจงแบบปกติจริงหรือไม่ เพื่อความมั่นใจว่าสามารถสรุปผลได้โดยไม่ผิดพลาด
ตัวสถิติที่ใช้ในการทดสอบว่าข้อมูลหรือตัวแปรที่เราสนใจนั้นมีการแจกแจงแบบปกติหรือไม่มีหลายตัว ด้วยกัน แต่โปรแกรม SPSS นำเสนอไว้ 2 ตัวคือ 1. Kolmogorov-Smirnov test 2. Shapiro Wilks test
Kolmogorov-Smirnov test ในการทดสอบตัวแปรว่ามีการแจกแจงแบบปกติหรือไม่ โปรแกรม SPSS จะแสดงค่าสถิติของ Kolmogorov-Smirnov ไม่ว่าตัวแปรนั้นจะถูกจำแนกตาม Factor Variable ที่อยู่ใน box ของ Factor list หรือไม่ก็ตาม ถ้าตัวแปรมีการแจกแจงแบบปกติ ค่า p-value จะมีค่ามากกว่าระดับนัยสำคัญที่กำหนด
Shapiro Wilks test ในกรณีที่ต้องการทดสอบว่า ข้อมูลมีการแจกแจงแบบปกติหรือไม่ โดยที่ตัวแปรที่สนใจถูกจำแนกตาม Factor ใน Factor list โปรแกรม SPSS จะคำนวณ ทั้ง Kolmogorov - Smirnov test และ Shapiro Wilks test ให้ แต่ถ้าตัวแปรที่ไม่ถูกจำแนกตาม Factor ค่าของ Shapiro Wilks test จะไม่คำนวณออกมา
การตรวจสอบข้อมูลว่ามีการแจกแจงแบบปกติหรือไม่ นอกจากการพิจารณาจากกราฟ Stem-and-leaf และ Histogram แล้ว ยังสามารถพิจารณาจาก Normal Probability plot ต่อไปนี้คือ 1. Q-Q Normal probability plot 2. P-P Normal probability plot
Q-Q probability plot Q-Q probability plot เป็นการ plot Quantile ของการแจกแจงหนึ่งกับ Quantile ของอีกการแจกแจงหนึ่ง ถ้าการแจกแจงทั้งสองเหมือนกันแล้ว กราฟที่ได้จากการ plot จะมีกราฟที่ใกล้เคียงกับเส้นตรง Q-Q probability plot เรียกย่อว่า Q-Q plot ย่อมาจาก Quantile-Quantile plot
Q-Q Normal Probability Plot เป็นการ plot Quantile ของค่าคาดหวังของการแจกแจงแบบปกติกับ Quantile ของข้อมูลที่ต้องการทดสอบว่ามีการแจกแจงแบบปกติหรือไม่ นิยาม Quantile Quantile ที่ q ของตัวแปร X คือ distribution function F ( xq ) = P [ X < xq ] = q
ตัวอย่าง ถ้าค่าสังเกตมี 8 ค่า ได้แก่ 40 58 50 45 55 59 61 48 นำค่าสังเกตมาเรียงลำดับ 40 45 48 50 55 58 59 61 X(1 ) = 40 X( 2 ) = 45 ….. X( 8 ) = 61 Quantile ที่ 1/8 ของค่าสังเกตคือ X(1 )P[X < 40 ] = 1/8 Quantile ที่ 2/8 ของค่าสังเกตคือ X( 2 )P[X < 45 ] = 2/8 Quantile ที่ i/8 ของค่าสังเกตคือ X( i )P[X < i ] = i/8
สัดส่วน i/n คือ Quantile ที่ i ของตัวแปรที่มีขนาดตัวอย่างเท่ากับ n โดยปกติจะทำการประมาณสัดส่วน i/n ด้วย ( i - 1/2)/n ซึ่งค่า 1/2 เป็นการปรับเพื่อความต่อเนื่องเพราะต้องการทดสอบว่ามีการแจกแจงแบบปกติหรือไม่นั่นเอง แต่การแจกแจงแบบปกติเป็นตัวแปรที่ต่อเนื่อง จึงต้องปรับเพื่อความต่อเนื่องก่อน
ในการปรับ i/n เพื่อความต่อเนื่องโดยใช้ ( i - 1/2)/n นั้นเป็นวิธีการของ Rankit แต่มีนักสถิติอีกหลายท่านที่ได้เสนอ ค่าที่ใช้ในการปรับเพื่อความต่อเนื่อง เช่น 1. Bloom ประมาณโดย ( i - 3/8 ) / ( n + 1/4 ) 2. Tukey ประมาณ โดย ( i - 1/3 ) / ( n + 1/3 ) 3. Van de Waerden ประมาณโดย ( i ) / ( n + 1 )
ทำการคำนวณค่า Quantile ที่ ( i - 1/2 )/n ของการแจกแจงแบบปกติมาตรฐาน N( 0 , 1 ) ทำการ plot กราฟระหว่าง Quantile ที่ ( i - 1/2 )/n ของตัวแปรที่สนใจ (แกน X ) กับ Quantile ที่ ( i - 1/2 )/n ของการแจกแจงแบบปกติมาตรฐาน ( แกน Y ) พิจารณารูปกราฟที่ได้ว่าใกล้เคียงเส้นตรงหรือไม่
ในกรณีที่รูปกราฟไม่ fit กับเส้นตรง แสดงว่าตัวแปรที่สนใจไม่ได้มีการแจกแจงแบบปกติ ดังนั้นจึงอาจใช้การแปลงข้อมูล แล้วลอง plot กราฟดูใหม่ ว่าตัวแปรใหม่ที่เกิดจากการแปลงข้อมูลเดิมนั้นมีการแจกแจงแบบปกติหรือไม่
P-P Normal Probability plot เรียกสั้นๆว่า P-P plot เป็นการ plot ค่าความน่าจะเป็นที่ข้อมูลมีค่าน้อยกว่าหรือเท่ากับค่าสังเกต (แกน X) กับ ค่าความน่าจะเป็นที่คาดหวังที่ว่าการแจกแจงมีการแจกแจงแบบปกติ (แกน Y) ผลของการ plot กราฟ ถ้าตัวแปรที่สนใจมีการแจกแจงแบบปกติ กราฟจะเป็นเส้นตรงเช่นเดียวกับ Q-Q plot
ประมาณค่าความน่าจะเป็นของข้อมูลที่มีค่าน้อยกว่าหรือเท่ากับ x(i)ด้วย ( i - 1/2)/n [สูตรของ Rankit] การ plot P-P plot คือการ plot ( i - 1/2)/n กับ F( x(i)) หรือ P[ Z < Z(i)] เมื่อ Z(i) = ( x(i) - x )/s ; x(i) คือสถิติลำดับที่ i
ตัวอย่าง พิจารณาข้อมูลต่อไปนี้ 50 45 48 52 61 55 60 64 ทำการเรียงค่าสังเกต 45 48 50 52 55 60 61 64 ค่า เฉลี่ยมีค่าเท่ากับ 54.375 ส่วนเบี่ยงเบนมาตรฐานมีค่าเท่ากับ 6.7810 แปลงค่าสังเกตให้เป็นค่ามาตรฐานได้ดังนี้ -1.38254 -0.94012 -0.64518 -0.35024 -0.09217 0.82952 0.97699 1.41940
หาค่า F(-1.38254) = 0.08 F(-0.94012) = 0.17 F(-0.64518) = 0.26 F(-0.35024) = 0.36 F(-0.09217) = 0.46 F(0.82952) = 0.80 F(0.97699) = 0.84 F(1.41940) = 0.92 ค่าที่หาได้เป็นค่าที่นำไป plot บนแกน Y ลำดับของค่าสังเกตที่เรียงแล้วคือ (1-0.5)/8 = 0.625 (2-0.5)/8 = 0.1875 …. (8-0.5)/8 = 0.9375 ค่าที่หาได้เป็นค่าที่นำไป plot บนแกน X
Rank assigned to ties ในกรณีที่มีค่าสังเกตซ้ำกัน (ties observation) การให้ค่าลำดับ i ทำได้ดังนี้ 1. Mean : ใช้ค่าเฉลี่ย rank ในการให้อันดับ 2. High : ใช้ค่าลำดับที่สูงที่สุด 3. Low : ใช้ค่าลำดับที่ต่ำที่สุด 4. Breaks ties arbitrarily : ใช้ค่าลำดับ i โดยไม่คำนึงว่าจะต้องให้อันดับเท่ากันแก่ค่าสังเกตที่ซ้ำ
พิจารณาข้อมูล 18 14 19 11 12 15 16 15 10 15 นำมาเรียงค่า 10 11 12 14 15 15 15 16 18 19 ลำดับของค่าสังเกตเมื่อใช้ rank assigned to ties ในลักษณะต่างๆกัน Mean : 1 2 3 4 6 6 6 8 9 10 [plot 7 ค่า ค่าที่ซ้ำนำไป plot เพียงค่าเดียว] High : 1 2 3 4 7 7 7 8 9 10 Low : 1 2 3 4 5 5 5 8 9 10 Breaks ties arbitrarily : 1 2 3 4 5 6 7 8 9 10 [plot 10 ค่า]
Options ใน Explore ในกรณี missing values (มีค่าสูญหายเกิดขึ้น)ทางเลือก 3 ทาง ได้แก่ 1. Exclude cases listwise 2. Exclude cases pairwise 3. Report values
Exclude cases listwise : ในกรณีที่หน่วยของค่าสังเกตที่ dependent variableหรือ Factor variable เกิดมีค่าสูญหาย จะไม่นำมาหน่วยนั้นมาวิเคราะห์ข้อมูล (default)
Exclude cases pairwise : ในกรณีที่หน่วยของค่าสังเกตที่ dependent variable หรือ Factor variable เกิดมีค่าสูญหาย จะนำหน่วยนั้นมาวิเคราะห์ข้อมูลด้วย
Report values : จะถือเสมือนว่า missing value เป็น level หนึ่งของ Factor variableดังนั้นจะรายงานผลของค่าสูญหายด้วย
Var1 Var 2 Factor 10.00 5.00 1.00 12.00 4.00 1.00 15.00 . 2.00 . 12.00 2.00 13.00 8.00 2.00 11.00 4.00 . 9.00 6.00 3.00 8.00 . 3.00 7.00 9.00 3.00 6.00 5.00 3.00