390 likes | 746 Views
บทที่ 6. สหสัมพันธ์ และการถดถอย. สหสัมพันธ์ และการถดถอย. ในบทนี้เราจะศึกษาวิธีอธิบายตัวแปร 2 ตัว ซึ่งเป็นข้อมูลนำเสนอเป็นคู่ลำดับ ตัวอย่าง เช่น
E N D
บทที่ 6 สหสัมพันธ์ และการถดถอย
สหสัมพันธ์ และการถดถอย • ในบทนี้เราจะศึกษาวิธีอธิบายตัวแปร 2 ตัว ซึ่งเป็นข้อมูลนำเสนอเป็นคู่ลำดับ ตัวอย่าง เช่น • ในแผนภาพกระจายระยะทางวิ่ง 100 เมตรปรากฏว่า แนวโน้ม เวลาความเร็วของผู้หญิงสอดคล้องกับเวลาความเร็วของผู้ชาย หรือ เวลาที่ช้าลงของผู้หญิงสอดคล้องกับเวลาที่ช้าลงของผู้ชาย • อธิบายความสัมพันธ์โดยกล่าวว่าเวลาของผู้หญิงมีความสัมพันธ์เชิงบวก(positive correlated)กับเวลาของผู้ชาย
กราฟแสดงความสัมพันธ์ ความสัมพันธ์สามารถอธิบายโดยการลากเส้น ถูกเรียกว่าเส้นถดถอย(regression line)
กราฟแสดงความสัมพันธ์ ความสัมพันธ์สามารถอธิบายโดยการลากเส้น ถูกเรียกว่าเส้นถดถอย(regression line)
สหสัมพันธ์ (Correlation) สหสัมพันธ์ (correlation) เป็นความสัมพันธ์ระหว่างตัวแปรคู่ ข้อมูลสามารถจะแทนโดยคู่ลำดับ (x,y) โดยที่ x เป็นตัวแปรอิสระ (independent) หรือตัวแปรอธิบาย (explanatory) และ y คือตัวแปรตาม(dependent) หรือตัวแปรตอบสนอง(response)
สหสัมพันธ์ (Correlation) วิธีหนึ่งที่จะพิจารณาว่าสหสัมพันธ์เชิงเส้น(เส้นตรง)เกิดขึ้นระหว่างสองตัวแปรหรือไม่ คือ การใช้แผนภาพกระจาย(scatter plot) ที่ซึ่งคู่ลำดับถูกพล็อกเป็นจุดในแนวระนาบ โคออดิเนด(coordinate plane) ตัวแปรอิสระ x เป็นมาตรวัดตามแกนนอน(horizontal axis) และตัวแปรตาม y เป็นมาตรวัดตามแกนตั้ง (vertical axis)
ตัวอย่าง ผู้จัดการฝ่ายการตลาดได้ดำเนินการศึกษาเพื่อพิจารณาว่ามีความสัมพันธ์เชิงเส้นระหว่างเงินที่ใช้ในการโฆษณาและยอดขายบริษัท ข้อมูลถูกแจกแจงในตารางข้างล่าง จงแสดงข้อมูลในแผนภาพกระจายและพิจารณาว่าปรากฏเป็นสาสัมพันธ์เชิงเส้นทางบวกหรือทางลบหรือไม่มีสหสัมพันธ์
แผนภาพการกระจาย มีสหสัมพันธ์เชิงทางบวกระหว่างตัวแปรการอ่านจากทางซ้ายไปขวา ขณะที่ค่าใช้จ่ายการโฆษณาเพิ่มขึ้นยอดขายมีแนวโน้มเพิ่มขึ้น
ตัวอย่าง นักศึกษาพยาบาลได้ดำเนินการศึกษาเพื่อพิจารณาว่ามีความสัมพันธ์เชิงเส้นระหว่างน้ำหนักของแต่ละบุคคล(ปอนด์) และน้ำที่ดื่มบริโภค(ออนซ์) ข้อมูลถูกแจกแจงในตารางต่อไปนี้จงดำเนินการกับข้อมูลในแผนภาพกระจายและอธิบายแบบของสหสัมพันธ์
แผนภาพการกระจาย จากแผนภาพกระจายปรากฏว่าไม่มีสหสัมพันธ์เชิงเส้นระหว่างตัวแปร น้ำหนักของบุคคลไม่ได้ปรากฏว่าสัมพันธ์กับปริมาณน้ำที่คนบริโภค
สหสัมพันธ์ (Correlation) การตีความหมายสหสัมพันธ์โดยใช้แผนภาพกระจายอยู่ในวิสัยที่สามารถทำได้ วิธีที่แม่นยำที่จะวัดรูปแบบและความแข็งแรงของสหสัมพันธ์เชิงเส้นระหว่างสองตัวแปร โดยคำนวณสัมประสิทธิ์สหสัมพันธ์
สหสัมพันธ์ (Correlation) สัมประสิทธิ์สหสัมพันธ์ (Correlation Coefficient) เป็นมาตรวัดของความแข็งแรงและทิศทางของความสัมพันธ์เชิงเส้นระหว่างสองตัวแปร ใช้สัญญาลักษณ์ r แทนสัมประสิทธิ์สหสัมพันธ์ตัวอย่าง สูตรของ r คือ โดยที่ n เป็นจำนวนคู่ของข้อมูล สัมประสิทธิ์สหสัมพันธ์ของประชากรแทนโดย
ค่าสัมประสิทธิ์สหสัมพันธ์ค่าสัมประสิทธิ์สหสัมพันธ์ -1 r 1 ถ้า x และy มีสหสัมพันธ์เชิงเส้นทางบวกอย่างสมบรูณ์ค่า r เข้าใกล้ 1 ถ้า x และy มีสหสัมพันธ์เชิงเส้นทางลบอย่างสมบรูณ์ค่า r เข้าใกล้ -1 ถ้าไม่มีสหสัมพันธ์เชิงเส้นหรือสหสัมพันธ์เชิงเส้นน้อย ค่า r เข้าใกล้ 0
สหสัมพันธ์ (Correlation) โดยที่ n เป็นจำนวนคู่ของข้อมูล สัมประสิทธิ์สหสัมพันธ์ของประชากรแทนโดย พิสัยของสัมประสิทธิ์สหสัมพันธ์คือ -1 ถึง 1 ถ้า x และy มีสหสัมพันธ์เชิงเส้นทางบวกอย่างสมบรูณ์,r เข้าใกล้ 1 ถ้า x และy มีสหสัมพันธ์เชิงเส้นทางลบอย่างสมบรูณ์,r เข้าใกล้ -1 ถ้าไม่มีสหสัมพันธ์เชิงเส้นหรือสหสัมพันธ์เชิงเส้นน้อย,r เข้าใกล้ 0 ตัวอย่างเช่นแสดงข้างล่าง ขั้นตอนการคำนวณ สัมประสิทธิ์สหสัมพันธ์
ตัวอย่างแผนภาพการกระจายตัวอย่างแผนภาพการกระจาย
ตัวอย่างแผนภาพการกระจายตัวอย่างแผนภาพการกระจาย
ตัวอย่างแผนภาพการกระจายตัวอย่างแผนภาพการกระจาย
ตัวอย่างแผนภาพการกระจายตัวอย่างแผนภาพการกระจาย
ตัวอย่าง จงหาสัมประสิทธิ์สหสัมพันธ์สำหรับค่าใช้จ่ายในการโฆษณาข้อมูลการขายของบริษัทกำหนดในตัวอย่างที่ 1 ท่านสามารถสรุปผลอะไร
ตัวอย่าง เพราะ ค่า r เข้าใกล้ 1 แสดงว่ามีสหสัมพันธิ์เชิงเส้นทางบวกอย่างสูง ดังนี้ ขณะที่ปริมาณที่ใช้จ่ายในการโฆษณาเพิ่มขึ้นการขายบริษัทเพิ่มขึ้นด้วย
การถดถอยเชิงเส้น (Linear Regression) • พิจารณาสมการของเส้นที่เป็นตัวแบบที่ดีที่สุดของข้อมูล เส้นนี้ถูกเรียกว่า เส้นถดถอย • สมการถดถอยสามารถใช้ทำนายค่าของ y เมื่อกำหนดค่าของ x
การถดถอยเชิงเส้น (Linear Regression) พิจารณาแผนภาพกระจาย • d แทน ความแตกต่างระหว่างค่า y ที่สังเกตได้และค่า y ที่ทำนายบนเส้นถดถอย ความแตกต่างเหล่านี้เรียกว่า residual • residual สามารถเป็นได้ทั้งบวกและลบหรือศูนย์ เมื่อจุดอยู่เหนือเส้น d > 0 เมื่อจุดอยู่ข้างล่างเส้น d < 0 ถ้าค่า y ที่สังเกตได้ เท่ากับค่า y ที่ทำนายได้ d = 0 เส้นที่เป็นไปได้ทุก ๆ เส้น สามารถลากผ่าน เซตของจุดกับจุดบนเส้นถดถอย และทำให้ผลรวมกำลังสองของความคลาดเคลื่อนน้อยที่สุด(all the residuals) ซึ่งก็คือ di2 มีค่าน้อยที่สุด
การถดถอยเชิงเส้น (Linear Regression) • พิจารณาสมการของเส้นที่เป็นตัวแบบที่ดีที่สุดของข้อมูล เส้นนี้ถูกเรียกว่า เส้นถดถอย • สมการถดถอยสามารถใช้ทำนายค่าของ y เมื่อกำหนดค่าของ x
การถดถอยเชิงเส้น (Linear Regression) • เส้นถดถอย (Regression Line ) หรือเรียกว่า line of best fit เป็นเส้นสำหรับที่ซึ่งผลรวมของกำลังสองของ the residuals มีค่าน้อยที่สุด • สามารถเขียนสมการเชิงเส้นโดยการหาความชันของเส้นตรง m และระยะตัดแกน y(y- intercept ), b โดยสมการอยู่ในรูป y = mx + b ความชันของเส้นเป็นอัตราส่วนขอการเปลี่ยนแปลงของ x เมื่อ เปลี่ยนไป 1 หน่วย และ y-intercept คือค่า y บนจุดบนเส้นตรงที่ตัดแกน y นั้นคือค่า y เมื่อ x = 0
สมการของเส้นถดถอย(The Equation of a Regression Line) • สมการของเส้นถดถอยสำหรับตัวแปรอิสระ x และตัวแปรตาม y คือ • โดยที่ คือ ค่าของ y ที่ได้ทำนายจากค่า ของ x ที่กำหนดให้ m คือ ความชัน b คือ y- intercept
การถดถอยเชิงเส้น (Linear Regression) โดยที่
ตัวอย่าง จงหาสัมประสิทธิ์สหสัมพันธ์สำหรับค่าใช้จ่ายในการโฆษณาข้อมูลการขายของบริษัทกำหนดในตัวอย่างที่ 1 ท่านสามารถสรุปผลอะไร
ตัวอย่าง ผู้จัดการฝ่ายการตลาดได้ดำเนินการศึกษาเพื่อพิจารณาว่ามีความสัมพันธ์เชิงเส้นระหว่างเงินที่ใช้ในการโฆษณาและยอดขายบริษัท ข้อมูลถูกแจกแจงในตารางข้างล่าง จงหาสมการของเส้นถดถอย สำหรับค่าใช้จ่ายในการโฆษณา และข้อมูลยอดขายบริษัท
ตัวอย่าง ดั้งนั้นสมการของเส้นถดถอยคือ ถ้าท่านพล็อกจุด ท่านสังเกตว่าเส้นตรงจะลากผ่านจุดนี้