640 likes | 1.17k Views
สถิติ ( Statistics ). ดร.ถาวร ทันใจ Ph.D., MA, MS, พบม. วทบ.,รปศบ. อ้างอิงตาม. ผศ . น . พ . นภดล สุชาติ. ภาควิชาสถิติ. หลักสถิติ 1. คณะวิทยาศาสตร์ มหาวิทยาลัยเกษตรศาสตร์. 2547. ภิรมย์ กมลรัตนกุล. การอบรมการพัฒนาศักยภาพคณะกรรมการสนับสนุนงานวิชาการในส่วนภูมิภาคที่โลตัสปางสวนแก้ว; 2 ก.ย.45
E N D
สถิติ(Statistics) ดร.ถาวร ทันใจ Ph.D., MA, MS,พบม. วทบ.,รปศบ.
อ้างอิงตาม • ผศ.น.พ.นภดลสุชาติ. • ภาควิชาสถิติ. หลักสถิติ 1.คณะวิทยาศาสตร์ มหาวิทยาลัยเกษตรศาสตร์. 2547. • ภิรมย์ กมลรัตนกุล. การอบรมการพัฒนาศักยภาพคณะกรรมการสนับสนุนงานวิชาการในส่วนภูมิภาคที่โลตัสปางสวนแก้ว; 2ก.ย.45 • สำนักงานสถิติแห่งชาติ. การเลือกใช้ตัวทดสอบสถิติ. กระทรวงเทคโนโลยีสารสนเทศและการสื่อสาร. • Campbell, MJ. Statistic at square Two, BMJ Books • Swinscow, TDV, Campbell, MJ. Statistic at square One, Tenth edition, BMJ Books
สติติคืออะไร • ตัวเลขที่รวบรวมไว้เพื่อความมุ่งหมายที่แน่นอนและเกี่ยวข้องกับเรื่องใดเรื่องหนึ่ง • ศาสตร์ที่ว่าด้วยการเก็บรวบรวมข้อมูล การนำเสนอข้อมูล การวิเคราะห์ตีความข้อมูล • เป็นเครื่องมือของการวิจัยที่อาศัยการวิเคราะห์ข้อมูลเป็นหลัก
Scale of Measurement • Nominal Scale เช่น เพศ, ปัจจุบันพักอาศัยกับใคร, ท่านเกิดที่จังหวัดไหน • Ordinal Scale เช่น ชั้นเรียน, ความเพียงพอของค่าใช้จ่าย, พฤติกรรมความรุนแรง • Interval Scalearbitrary zero เช่น องศาเซลเซียส, ฟาเรนไฮต์ • Ratio Scale true zero เช่นอายุ, น้ำหนัก, รายได้
ข้อมูลระดับ Norminal เพศ Cumulative Frequency Percent Valid Percent Percent Valid ชาย 140 50.0 50.0 50.0 หญิง 140 50.0 50.0 100.0 Total 280 100.0 100.0
ตารางแสดงข้อมูลระดับ Ordinal
ความเบ้ (Skewness) เบ้ขวา เบ้ซ้าย ถ้า Skewness = 0 แล้ว เส้นโค้งจะไม่มีความเบ้
แบบที่ 1 เบ้ซ้าย เบ้ซ้าย ข้อมูลส่วนใหญ่มีค่าสูง มัธยฐานชิดขอบบนของกล่อง 2 ภาพนี้มาจากข้อมูลชุดเดียวกัน (แจกแจงเหมือนกัน)
แบบที่ 2 สมมาตร สมมาตร ข้อมูลแจกแจงปกติ มัธยฐานอยู่ตรงกึ่งกลางของกล่อง 2 ภาพนี้มาจากข้อมูลชุดเดียวกัน (แจกแจงเหมือนกัน)
แบบที่ 3 เบ้ขวา เบ้ขวา ข้อมูลส่วนใหญ่มีค่าต่ำ มัธยฐานชิดขอบล่างของกล่อง 2 ภาพนี้มาจากข้อมูลชุดเดียวกัน (แจกแจงเหมือนกัน)
ความโด่ง(Kurtosis) โด่งมาก โด่งน้อย ถ้า Kurtosis = 0 แล้ว เส้นโค้งจะมีความเป็นปกติหรือโด่งปกติ
ฮิสโทแกรม (Histogram) ข้อมูลส่วนใหญ่ ในที่นี้อยู่ในชั้นที่ 5 โดยจุดกึ่งกลางคือ 24 ค่าต่ำสุดคือ 16 อยู่ในชั้นแรก ค่าสูงสุดคือ 32 อยู่ในชั้นสุดท้าย
Box Plot 1 เส้นหนวด แสดงค่าสูงสุดของข้อมูล ที่ยังไม่สูงผิดปกติ = Q3+1.5(IQR) Outlier ด้านบนคือ Q3 เส้น Median ด้านล่างคือ Q1 ภาพกล่องของตัวแปร satisf
ประเภทของสถิติ สถิติเชิงอนุมาน สถิติเชิงพรรณนา Mean Mode Variance SD Non Parametric Parametric t-test ANOVA ANCOVA Factor Analysis Pearson’s Correlation Nominal Ordinal Chi Square Median Test Sign Test Spearman Mann-Whitney Wilcoxon
สถิติเชิงพรรณนา, สถิติเชิงอนุมาน • สถิติเชิงพรรณา (Descriptive Statistics) ใช้กับกลุ่มประชากรได้แก่ Mean, Mode, Median, Variance,Standard Deviation เป็นต้น • สถิติเชิงอนุมาน (Inference Statistics) เป็นสถิติเชิงทดสอบสมมุติฐานว่าสมมติฐานที่ตั้งไว้เป็นจริงหรือไม่ได้แก่การประเมินค่าพารามิเตอร์ในประชากร (Estimation) และการทดสอบสมมุติฐาน (Hypothesis Testing) แบ่งออกเป็น Parametric และ Non parametric statistics
ประเภทของสถิติ Geometric Mean Coefficient of Variation RATIO INTERVAL ORDINAL NOMINAL Parametric Median, Percentile Spearman Kendall, Kendall W Non-Parametric Mode, Frequency Contingency Coefficient
Parametric Statistics • กลุ่มประชากรที่มีการแจกแจงแบบโค้งปกติ ข้อมูลทั้งหมดเรียกว่า Population ค่าที่คำนวณได้เรียก Parameter แต่ถ้าเก็บมาเพียงบางส่วนจากประชากรจะเรียก Sample ค่าที่ได้เรียกว่าค่าสถิติ (Statistics) มีระดับการวัดแบบ Ratio หรือ Interval scale เช่น t-test, ANOVA, Correlation, Multiple Regression เป็นต้น
Non Parametric Statistics • คือสถิติที่ใช้กับกลุ่มประชากรที่ไม่เข้าเงื่อนไขของ Parametric มีระดับการวัดแบบ Ordinal และ Nominal วิเคราะห์โดยการใช้วิธี Chi Square, Log Rank Test, Mann Whitney, Wilcoxon เป็นต้น
สมมติฐานการวิจัย Research Hypothesisสมมติฐานทางสถิติ Statistical Hypothesis • สมมติฐานการวิจัยคือการคาดการณ์ผลวิจัย • สมมติฐานทางสถิติคือ H0 และH1 • Null Hypothesis = H0มักเขียนในรูปปฏิเสธหรือไม่มีความแตกต่างไม่สัมพันธ์กัน • Alternative Hypothesis = H1 มักเขียนในรูปมีความแตกต่างมีความสัมพันธ์กันและเขียนให้สอดคล้องกับสมมติฐานการวิจัย
p value • ยิ่ง p value ยิ่งมีค่าน้อยก็จะเลื่อนไปทางด้านหางของ H0 จึงปฏิเสธ H0หรือก็คือเลื่อนเข้าไปใน H1 มากขึ้นจึงยอมรับ H1 ซึ่งสอดคล้องกับสมมติฐานการวิจัย
ตัวแปร • ข้อมูลได้จากการสังเกตวัดสอบถามหน่วยศึกษาอาจเป็นคนสัตว์สิ่งของ • ตัวแปรแตกต่างกันเพราะ • คุณลักษณะแตกต่างกัน • เวลาแตกต่างกัน • สถานที่แตกต่างกัน
ประเภทของข้อมูล • แบ่งตามที่มา • ข้อมูลปฐมภูมิ (Primary Data) • ข้อมูลทุติยภูมิ (Secondary Data)
ข้อมูลเชิงคุณภาพ อยู่รูปแบบของข้อความเช่นเชื้อชาติเพศสีผิว Qualitative Variables Categorical Variables Nominal Variables Ordered Variables Coded Variable ข้อมูลเชิงปริมาณ ได้จากการชั่งตวงวัดเช่นน้ำหนักความดันโลหิต Quantitative Variable 1. Discrete Data เช่นจำนวนสิ่งของจำนวนคน 2. Continuous Data เช่นน้ำหนักความกว้าง ข้อมูลเชิงคุณภาพและข้อมูลเชิงปริมาณ
ข้อมูลเชิงคุณภาพ • ชาย 30 คนหญิง 30 คน • เป็นข้อมูลได้จากการนับ • สูบบุหรี่ 15 คนไม่สูบบุหรี่ 45 คน • เป็นข้อมูลได้จากการนับ
ข้อมูลเชิงคุณภาพ • ความเห็นต่อการให้บริการของศูนย์คอมพิวเตอร์
ข้อมูลเชิงคุณภาพ-->ข้อมูลเชิงปริมาณข้อมูลเชิงคุณภาพ-->ข้อมูลเชิงปริมาณ • แต่ถ้ารวมกันเป็น 3 ตาราง • ความเห็นต่อการให้บริการของศูนย์คอมพิวเตอร์ • ความเห็นต่อการให้บริการของศูนย์ข้อมูล • ความเห็นต่อการให้บริการของศูนย์พิมพ์ • ต่ำสุด = 3 สูงสุด = 15อาจจัดเป็นข้อมูลเชิงปริมาณ
ข้อมูลเชิงปริมาณ-->ข้อมูลเชิงคุณภาพข้อมูลเชิงปริมาณ-->ข้อมูลเชิงคุณภาพ • วัดส่วนสูง = 149 155.5 160 167 169 170.5 172 • เป็นข้อมูลเชิงปริมาณ • แต่ถ้าจัดกลุ่มให้ <150 = เตี้ย • 150-170=ปานกลาง • >170=สูง • เตี้ยปานกลางสูงจำนวนอย่างละกี่คน ? เป็นข้อมูลเชิงคุณภาพ • รายละเอียดของข้อมูลจะสูญเสียไป • จาก Ratio Scale เปลี่ยนเป็น Ordinal Scale
เปรียบเทียบหรือหาความสัมพันธ์เปรียบเทียบหรือหาความสัมพันธ์ • เปรียบเทียบ2 ประชากร / ตัวแปร • ความสัมพันธ์2 ประชากร / ตัวแปร • ตัวแปรเชิงปริมาณใช้ค่าเฉลี่ย • ตัวแปรเชิงคุณภาพใช้ค่าสัดส่วน
Parametric • ข้อมูลเชิงปริมาณใช่หรือไม่ • แจกแจงแบบปกติหรือไม่ใช้ Explore Data • Mean, Mode, Median, • Box Plot, Histogram • Skewness, Kurtosis • ถ้าหลายประชากรทดสอบความเท่ากันของความแปรปรวน
Alpha and Beta errors THE TRUTH CONCLUSION drawn from analysis
Normal Distribution (Mean, SD) mean= 0, SD=1 +3 -3 -2 -1 0 +1 +2
Normal Distribution (Z score) Z -1.96 +1 -2.576 -1 +1.96 +2.576 0
95% Confidence Interval 95% C.I. = Mean + 2 SD
Z distribution • โค้งเริ่มที่ – Infinity ไปถึง + Infinity • Mean=0, SD=1
student’s distribution sample < 30 T distribution= A symmetric distribution with mean zero and a standard deviation larger than that for the normal distribution for small sample sizes. As n increase t distribution approaches the normal distribution. t distribution
F distribution • A continuous statistical distribution which arises in the testing of whether two observed samples have the same variance. • F distribution=The probability distribution used to test the the equality of two estimates of the variance. • It is the distribution use with the F-test in ANOVA
Chi Square • Tests the hypothesis that the row and column variables are independent, without indicating strength or direction of the relationship. • ตรวจสอบว่าต่างกันหรือไม่แต่ไม่บอกว่าต่างกันมากน้อยเท่าไรและไม่บอกว่ามากกว่าหรือน้อยกว่า (เงื่อนไขตัวแปรแนวนอนและแนวตั้งเป็นอิสระต่อกัน)
t-test • The statistical test for comparing a mean with a norm or for comparing two means with small sample size (n =<30). • สถิติเพื่อเปรียบเทียบค่าเฉลี่ยกับค่าที่กำหนดหรือเปรียบเทียบค่าเฉลี่ยของ 2 กลุ่ม • It is also use for testing whether a correlation coefficient or a regression coefficient is zero. • เพื่อเปรียบเทียบหาค่าสหสัมพันธ์ของการทดสอบความสัมพันธ์เชิงเส้นว่ามีค่าเป็น 0 หรือไม่
การเปรียบเทียบค่าเฉลี่ย 2 กลุ่มตัวอย่าง Mean1 = 5.6 Mean2 = 5.1 Variance = 10 Variance = 12 Sample Size = 30 Sample Size = 100 เช่น Mean1จะเท่ากับ Mean2หรือไม่ t-test (ตัวอย่าง)
ประเภทของ t-test Means t-test 1 กลุ่ม Population 2 กลุ่ม One Sample มีความสัมพันธ์กัน เป็นอิสระต่อกัน Paired t-test t-test Group
The One-Sample t Test • procedure tests whether the mean of a single variable differs from a specified constant. • ทดสอบว่าค่าเฉลี่ยของกลุ่มตัวอย่างมีค่าแตกต่างจากค่าคงที่ที่กำหนดหรือไม่
The Paired-Samples t Test • procedure compares the means of two variables for a single group. It computes the differences between values of the two variables for each case and tests whether the average differs from 0. • ทดสอบเปรียบเทียบค่าเฉลี่ย 2 สิ่งจากกลุ่มตัวอย่างเดียวโดยทดสอบว่าค่าแตกต่างเฉลี่ยแตกต่างจาก 0 หรือไม่
The Independent-Samples t Test • procedure compares means for two groups of cases. Ideally, for this test, the subjects should be randomly assigned to two groups, so that any difference in response is due to the treatment (or lack of treatment) and not to other factors. • ทดสอบค่าเฉลี่ยตัวแปรของ 2 กลุ่มตัวอย่างโดยการสุ่มซึ่งปัจจัยที่ส่งผลที่เกิดความแตกต่างต้องมาจากปัจจัยที่กำหนดเท่านั้น