1 / 32

BÀI 2: THU THẬP DỮ LIỆU

BÀI 2: THU THẬP DỮ LIỆU. Các khái niệm cơ bản trong chọn mẫu. Đám đông (population): là tập hợp tất cả các đối tượng nghiên cứu mà nhà nghiên cứu cần nghiên cứu để thỏa mãn mục đích và phạm vi nghiên cứu của mình

kim
Download Presentation

BÀI 2: THU THẬP DỮ LIỆU

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. BÀI 2: THU THẬP DỮ LIỆU

  2. Các khái niệm cơ bản trong chọn mẫu • Đám đông (population): là tập hợp tất cả các đối tượng nghiên cứu mà nhà nghiên cứu cần nghiên cứu để thỏa mãn mục đích và phạm vi nghiên cứu của mình • Đám đôngnghiên cứu (study population). Trong thực tiễn, thường ta không biết chính xác các phần tử của đám đông. Quy mô của đám đông mà ta có thể có được để thực hiện nghiên cứu gọi là đám đông nghiên cứu • Phần tử (element): là đối tượng cần thu thập dữ liệu, thường gọi là đối tượng nghiên cứu. Là đơn vị nhỏ nhất của đám đông và là đơn vị cuối cùng của quá trình chọn mẫu. Số lượng phần tử trong đám đông thường ký hiệu là N, và của mẫu là n • Đơn vị (sampling unit): Những nhóm có được sau quá trình chia nhỏ đám đông được gọi là các đơn vị mẫu. Đơn vị cuối cùng có thể chia nhỏ được của mẫu chính là phần tử mẫu. Ví dụ: chia tỉnh/tp, quận, huyện, phường/xã, hộ gia đình

  3. Các khái niệm cơ bản trong chọn mẫu • Khung mẫu (sampling frame): là danh sách liệt kê dữ liệu cần thiết của tất cả các đơn vị và phần tử của đám đông để thực hiện công việc chọn mẫu • Hiệu quả chọn mẫu (sampling efficiency) • Hiệu quả thống kê  sai số chuẩn nhỏ hơn (khi 2 mẫu cùng kích thước) • Hiệu quả kinh tế  chi phí thu thập dữ liệu của mẫu với một độ chính xác mong muốn nào đó

  4. Quy trình chọn mẫu • Xác định đám đông nghiên cứu • Xác định khung mẫu • Xác định kích thước mẫu • Chọn phương pháp chọn mẫu • Tiến hành chọn

  5. Xác định đám đông nghiên cứu • Là khâu đầu tiên trong quá trình • Việc xác định đã được tiến hành khi thiết kế nghiên cứu, vì họ đã xác định đối tượng cần thu thập dữ liệu, đối tượng có nguồn dữ liệu cần thiết

  6. Xác định khung mẫu • Ví dụ: xác định khung mẫu là danh sách liệt kê các người tiêu dùng bia tại TPHCM có độ tuổi từ 18-45 bao gồm: họ tên, địa chỉ, độ tuổi… • Để có thể xác định và tiếp cận được họ nhằm thu thập dữ liệu • Khi nguồn dữ liệu thứ cấp để xác định khung mẫu chưa có, xác định được khung mẫu cũng cũng khó khăn và tốn kém

  7. Xác định kích thước mẫu Làm thế nào để xác định cỡ mẫu? • Một cách đơn giản và dễ nhất là dựa vào các nghiên cứu có cùng nội dung đã được thực hiện trước đó để lấy mẫu. • Có thể hỏi ý kiến các chuyên gia, những người có kinh nghiệm thực hiện các dự án điều tra khảo sát. • Có thể tính toán theo công thức tính mẫu.

  8. Công thức tính cỡ mẫu Trường hợp tổng thể lớn và không biết tổng thể. • Trong đó: n = là cỡ mẫu z = giá trị phân vị chuẩn p = là ước tính tỷ lệ % của tổng thể q = 1-p (thường tỷ lệ p và q được ước tính 50% và 50% đó là khả năng lớn nhất có thể xảy ra của tổng thể) e = sai số cho phép (±3%, ±4%, ±5%...)

  9. Ví dụ Tính cỡ mẫu của một cuộc trưng cầu ý kiến trước một cuộc bầu cử với độ tin cậy là 95%. sai số cho phép là nằm trong khoảng +5%. Giả định p*q lớn nhất có thể xảy ra là 0.5*0.5. Cỡ mẫu sẽ được tính là:

  10. Trường hợp tổng thể lớn và biết tổng thể. Trong đó: • N = số lượng đơn vị trong tổng thể. • P = tỷ lệ tổng thể. • Q = 1-P, • k = sai số cho phép.

  11. Trường hợp tổng thể nhỏ và biết được tổng thể • Trong đó: n là cỡ mẫu, N là số lượng tổng thể, e là sai số chuẩn

  12. Ví dụ Tính cỡ mẫu của một cuộc điều tra với Tổng thể là N = 2000, độ chính xác là 95%, sai số tiêu chuân là +- 5%. -- cỡ mẫu sẽ được tính là:

  13. Bảng cỡ mẫu

  14. Bảng cỡ mẫu (tiếp)

  15. Bảng cỡ mẫu (tiếp)

  16. Theo xác suất (Probability sampling) Ngẫu nhiên đơn giản (simple random sampling) Hệ thống (systematic sampling) Phân tầng (theo tỷ lệ, không theo tỷ lệ) (stratified sampling) Theo nhóm (một bước, hai bước…) (cluster sampling) Phi xác suất (Non-probability sampling) Thuận tiện (convenience sampling) Phán đoán (judgment sampling) Phát triển mầm (snowball sampling) Định mức/Hạn ngạch (quota sampling) Các phương pháp chọn mẫu

  17. Điều quan tâm khi chọn phương pháp • Mục tiêu nghiên cứu • Tính tổng quát hóa của kết quả nghiên cứu • Thời gian và chi phí

  18. Theo xác suất (Probability sampling) Tính đại diện cao Tổng quát hóa cho đám đông Tốn kém thời gian và chi phí Thường dùng cho các nghiên cứu chính thức Phi xác suất (Non-probability sampling) Tiết kiệm được thời gian và chi phí Tính đại diện thấp Không tổng quát hóa cho đám đông Thường dùng cho các nghiên cứu sơ bộ, khám phá Các phương pháp chọn mẫu

  19. Thu thập dữ liệu sơ cấp bằng bảng câu hỏi

  20. Thu thập dữ liệu sơ cấp qua khảo sát bằng bảng câu hỏi chính • Xác định cụ thể dữ liệu cần thu thập • Xác định dạng phỏng vấn • Đánh giá nội dung câu hỏi • Xác định hình thức trả lời • Xác định cách dùng thuật ngữ • Xác định cấu trúc bảng câu hỏi • Thử lần 1 sửa chữabản nháp cuối cùng

  21. Bước 1. Xác định cụ thể dữ liệu cân thu thập • Liệt kê đầy đủ và chi tiết các dữ liệu cần thu thập • Dựa vào vấn đề nghiên cứu và nhu cầu thông tin để thiể kế các câu hỏi cho việc thu thập các thông tin này

  22. Bước 2. Xác định dạng phỏng vấn • Phỏng vấn trực diện (trực tiếp) • Phỏng vấn qua điện thoại • Phỏng vấn bằng cách gửi thư • Phỏng vấn qua mạng Internet • Phát ra cho người trả lời điền vào bảng hỏi rồi thu lại

  23. Đánh giá nội dung câu hỏi Nội dung câu hỏi có ảnh hưởng đến khả năng hợp tác của người trả lời  tạo điều kiện cho họ mong muốn tham gia và trả lời trung thực • Người trả lời có hiểu câu hỏi không? • Họ có thông tin không? • Họ có cung cấp thông tin không? • Thông tin họ cung cấp có đúng là dữ liệu cần thu thập không? Ví dụ: thay vì hỏi “bạn bao nhiêu tuổi”, hay “thu nhập của bạn là bao nhiêu”… thì có thể hỏi “trong các nhóm tuổi sau đây, bạn thuộc nhóm tuổi nào?...” nếu ta không cần biết chính xác tuổi của họ

  24. Xác định hình thức trả lời • Câu hỏi đóng • Chọn một lựa chọn • Xếp hạng • Câu hỏi nhiều lựa chọn • Câu hỏi mở - câu hỏi cho câu trả lời tự do “Lý do nào bạn thích sử dụng dầu gội 2 trong 1?” - câu hỏi đào sâu “và còn gì nữa”

  25. Xác định cách dùng thuật ngữ • Dùng từ đơn giản và quen thuộc • Tránh câu hỏi dài dòng. Từ ngữ càng chi tiết, cụ thể và rõ ràng càng tốt. Không nên lạm dụng câu hỏi quá dài, tối nghĩa. Khi dùng 1 từ cần xem xét nó có nghĩa nào khác có thể làm cho người trả lời hiểu nhầm. • Tránh câu hỏi cho hai hay nhiều trả lời cùng một lúc. Ví dụ “kem Kido’s có ngon và bổ dưỡng không?” • Tránh câu hỏi gợi ý kích thích người trả lời phản xạ theo hướng đã dẫn trong câu hỏi. Ví dụ “bạn có đồng ý rằng sữa đặc có đường thương hiệu Cô Gái Hà Lan là loại sữa có chất lượng cao nhất không?” • Tránh câu hỏi có thang trả lời không cân bằng • Tránh câu hỏi bắt người trả lời phải ước đoán. Vd “Bạn mua bao nhiêu cục xà bông tắm trong năm qua?”

  26. Xác định trình tự các câu hỏi Một bảng câu hỏi chia thành nhiều phần, thông thường: • Phần gạn lọc(screening): để chọn người trả lời trong đám đông nghiên cứu. Có khi là một phần riêng biệt được sử dụng để gạn lọc trước khi phỏng vấn thực thụ • Phần chính • Phần về dữ liệu cá nhân người trả lời (biodata)

  27. Xác định hình thức bảng câu hỏi • Hình thức đẹp dễ nhận được sự hợp tác của người trả lời • Các phần của bảng hỏi nên được trình bày riêng biệt, có thể thông qua giấy màu khác nhau…

  28. Thử lần thứ nhất chỉnh sửa bản nháp cuối cùng • Để có bảng hỏi tốt, khi thiết kế xong, cần thử nhiều lần (pilot study) • Lần thử đầu tiên (pretest, alpha test) được thực hiện thông qua phỏng vấn, tham khảo ý kiên một số thành viên nghiên cứu khác trong công ty và điều chỉnh lại  bản nháp cuối cùng • Bản nháp này lại được qua lần thử thứ hai (beta test) qua phỏng vấn thử đối tượng nghiên cứu thực sự trong đám đông nghiên cứu. Tuy nhiên, mục đích không phải là để thu thập dữ liệu mà là để đánh giá bảng hỏi. • Họ hiểu có đúng câu hỏi không? • Họ có thông tin không? • Hỏi như vậy họ có chịu cung cấp thông tin không? • Thông tin họ cung cấp có đúng là thông tin cần thiết không? • Sau khi hiệu chỉnh bảng hỏi ở lần thứ 2 này  bảng hỏi hoàn chỉnh

  29. Sau khi phỏng vấn • Hiệu chỉnh dữ liệu -Hiệu chỉnh tại hiện trường: phỏng vấn viên phải hiệu chỉnh ngay khi kết thúc phỏng vấn (câu bị bỏ sót, cần hỏi lại ngay; hoàn chỉnh các ký hiệu viết tắt, những gì chưa điền kịp) -Giám sát viên kiểm tra (tính hoàn tất, tính hợp lý giữa các câu hỏi, tính rõ ràng của các câu trả lời, tính nghiêm túc trong quá trình phỏng vấn của PV viên) & hiệu chỉnh lại - Hiệu chỉnh tại trung tâm: do bộ phận xử lý dữ liệu thực hiện trước khi nhập liệu cho việc xử lý.

  30. Nguyên nhân gây sai sót trong thu thập dữ liệu • Thiết kế bảng hỏi không đạt yêu cầu. Đặc biệt là sử dụng thuật ngữ gây nhầm lẫn, câu hỏi không rõ ràng, hình thức trình bày không thống nhất, dễ gây nhầm lẫn cho PVV sai lệch khi PV. Vì vậy cần kiểm tra kỹ lưỡng trong hai lần thử để điều chỉnh giúp giảm sai sót trong thiết kế. • Hướng dẫn PVV không kỹ lưỡng, đặc biệt là do chủ quan, không kiểm tra PVV để xác định họ đã hiểu tất cả các câu hỏi, đã nắm vững kỹ thuật, trợ vấn cụ hay chưa… • Kỹ thuật phỏng vấn kém do PVV thiếu kinh nghiệm, chủ quan, không chịu rèn luyện.

  31. Gợi ý • Huấn luyện, hướng dẫn PVV thực tập trước khi phỏng vấn thực thụ. • Sau khi được hướng dẫn xong, PVV thử phỏng vấn giám sát viên. Nếu có sai sót trong việc hiểu câu hỏi, kỹ thuật phỏng vấn … cần điều chỉnh, hướng dẫn lại ngay • Sau khi được hướng dẫn lại, PVV thử phỏng vấn đối tượng nghiên cứu. Lần PV này cũng nhằm kiểm tra kỹ năng PV của PVV. Trong lần này các giám sát viên cần theo dõi chặt chẽ quá trình PV nhằm phát hiện các sai sót, kỹ năng PV để có những biện pháp điều chỉnh kịp thời.

  32. Chuẩn bị dữ liệu • Mã hóa dữ liệu (tên biến, mã giá trị) • Nhập dữ liệu vào máy tính • Làm sạch dữ liệu • Các ô trống (có thể sai sót do trong quá trình thu thập – người trả lời không trả lời, hay có PV nhưng quên ghi kết quả; hoặc sai sót do nhập liệu-quên nhập) • Trả lời không hợp lý (có thể sai sót trong quá trình nhập) bảng tần số, min max

More Related