500 likes | 978 Views
IT4853 Tìm kiếm và trình diễn thông tin. Chương 3: Đánh giá hiệu quả tìm kiếm Nguyễn Bá Ngọc. Nội dung chính. Đánh giá chất lượng của công cụ tìm kiếm Bốn đặc trưng chất lượng Đánh giá dựa trên tập kết quả mẫu Những bộ dữ liệu chuẩn phổ biến Trình diễn kết quả tìm kiếm. Nội dung chính.
E N D
IT4853 Tìm kiếm và trình diễn thông tin Chương 3: Đánh giá hiệu quả tìm kiếm Nguyễn Bá Ngọc
Nội dung chính • Đánh giá chất lượng của công cụ tìm kiếm • Bốn đặc trưng chất lượng • Đánh giá dựa trên tập kết quả mẫu • Những bộ dữ liệu chuẩn phổ biến • Trình diễn kết quả tìm kiếm
Nội dung chính • Đánh giá chất lượng của công cụ tìm kiếm • Bốn đặc trưng chất lượng • Đánh giá dựa trên tập kết quả mẫu • Những bộ dữ liệu chuẩn phổ biến • Trình diễn kết quả tìm kiếm
Giả thuyết Mục đích hoạt động của công cụ tìm kiếm là đáp ứng nhu cầu thông tin của người dùng
Hệ quả • 1. Nếu hệ thống có càng nhiều dữ liệu sát với nhu cầu thông tin của người dùng thì càng có nhiều cơ hội làm việc hiệu quả hơn • 2. Khả năng đáp ứng nhu cầu thông tin càng cao thì chất lượng của hệ thống càng cao
Nhiệm vụ thực hiện truy vấn • Hiểu nhu cầu thông tin của người dùng • Vấn đề: Đa nghĩa và hoàn cảnh • Xác định kết quả phù hợp • Vấn đề: Quy mô và độ chính xác • Trình diễn thông tin hữu ích • Vấn đề: Sắp xếp và trình diễn kết quả
Bốn đặc trưng chất lượng của công cụ tìm kiếm • Xếp hạng • Tính chính xác của phương pháp đánh giá sự phù hợp • Tính toàn diện • Kích thước chỉ mục và độ phủ • Tính cập nhật • Tính mới của dữ liệu được đánh chỉ mục • Trình diễn • Tiêu đề và tóm tắt
Thông tin cấu trúc Phục vụ truy vấn Siêu dữ liệu Chỉ mục Kiến trúc hệ thống Không gian dữ liệu Quét bản sao Đánh chỉ mục Tính toàn diện và cập nhật Xếp hạng và trình diễn kết quả
Tính toàn diện • Bài toán: • Hỗ trợ truy cập tới tất cả tài liệu hữu ích • Khó khăn: • Quy mô dữ liệu có thể vượt xa giới hạn của hệ thống • Vấn đề lựa chọn: • Dữ liệu cần thiết • Chính sách quét • Nội dung đưa vào chỉ mục
Tính cập nhật • Bài toán: • Đảm bảo nội dung chỉ mục phản ánh đúng trạng thái hiện tại của không gian dữ liệu • Phân chia và kiểm soát • Một vài tài liệu thay đổi thường xuyên • Một vài tài liệu là tĩnh (tương đối)
Xếp hạng • Bài toán: • Với một truy vấn được thiết lập chuẩn xác hãy trả về những tài liệu phù hợp nhất ở những vị trí đầu tiên • Khó khăn: • Quy mô: Nhiều ứng viên cho tập kết quả • Thời gian xử lý nhỏ (thường < 100 ms) • Đánh giá: • Dựa trên kết quả mẫu • Hành vi người dùng
Vấn đề đa nghĩa • Kết quả tìm kiếm hình ảnh cho từ khóa Cobra
Trình diễn kết quả • Sửa lỗi phiên âm • Gợi ý truy vấn (Also try) • Biểu tượng • Tiêu đề và tóm tắt • v.v.
Nội dung chính • Đánh giá chất lượng của công cụ tìm kiếm • Bốn đặc trưng chất lượng • Đánh giá dựa trên tập kết quả mẫu • Những bộ dữ liệu chuẩn phổ biến • Trình diễn kết quả tìm kiếm
Giả thuyết (2) Sự hài lòng của người dùng là biểu hiện quan trọng nhất phản ánh chất lượng của công cụ tìm kiếm
Người dùng là ai? • Công cụ tìm kiếm Web • Người dùng. Hài lòng: Người dùng tìm thấy thông tin mà họ đang kiếm tìm. Đo: Tỉ lệ quay trở lại công cụ tìm kiếm • Nhà quảng cáo. Hài lòng: Người tìm kiếm mở quảng cáo. Đo: Tỉ lệ mở quảng cáo • Thương mại điện tử • Khách hàng. Hài lòng: Khách hàng mua một thứ gì đó. Đo: Thời gian thực hiện giao dịch, tỉ lệ người tìm kiếm trở thành người mua hàng • Người bán. Hài lòng: Người bán bán được sản phẩm. Đo: Lợi nhuận trên sản phẩm bán được • Công ty • CEO. Hài lòng: Nhân viên làm việc năng suất hơn (nhờ hiệu quả tìm kiếm). Đo: Mức tăng lợi nhuận của công ty
Giải pháp thay thế • Cách tốt nhất để làm người dùng hài lòng là trả về những văn bản phù hợp với truy vấn • Có thể sử dụng sự phù hợp của kết quả đối với truy vấn thay cho sự hài lòng của người dùng • Chúng ta sẽ đánh giá chất lượng thực hiện truy vấn thông qua độ phù hợp của kết quả trả về
Sự phù hợp: truy vấn vs. nhu cầu thông tin • Phù hợp với truy vấn chưa chắc đã đáp ứng được nhu cầu thông tin • Ví dụ, nhu cầu thông tin i : “Tôi đang tìm kiếm thông tin khẳng định liệu uống rượu vang đỏ có hiệu quả hơn vang trắng trong việc giảm nguy cơ đau tim hay không.” • Truy vấn q: [vang đỏ vang trắng tim] • Xét văn bản d: Bài diễn thuyết từ trái tim của anh ấy là một đòn tấn công trực diện vào nền công nghiệp rượu vang nhằm làm giảm ảnh hưởng của vang trắng và đỏ đến vấn nạn lái xe trong tình trạng say xỉn. • d rất khớp với truy vấn q . . . • d không phù hợp với nhu cầu thông tin i .
Sự phù hợp: truy vấn vs. nhu cầu thông tin • Sự hài lòng của người dùng chỉ có thể được đo bởi sự phù hợp với một nhu cầu thông tin, không phải sự phù hợp với truy vấn. • Thuật ngữ mà chúng ta sử dụng trong bài giảng này và trong một số tài liệu khác không chính xác hoàn toàn: Chúng ta nói về đánh giá sự phù hợp giữa truy vấn và văn bản nhưng chúng ta lại đang nghĩ về sự phù hợp giữa văn bản và nhu cầu thông tin.
Đo mức độ phù hợp như thế nào? • Phương pháp đánh giá dựa trên kết quả mẫu (phương pháp chuẩn trong tìm kiếm thông tin) đòi hỏi những dữ liệu sau: • Một bộ dữ liệu văn bản chuẩn • Tập truy vấn mẫu • Đánh giá phù hợp cho mỗi cặp truy vấn – văn bản
Độ chính xác và độ đầy đủ • Độ chính xác (P) là tỉ lệ văn bản phù hợp trong số văn bản được trả về Precision = #(văn bản phù hợp trả về)/#(văn bản trả về) = P(phù hợp|trả về) • Độ đầy đủ (R) là tỉ lệ văn bản phù hợp được trả về trong tổng số văn bản phù hợp Recall = #(văn bản phù hợp trả về)/#(văn bản phù hợp) = P(trả về|phù hợp)
Bảng phân bố sự kiện • Dựa trên truy vấn đã cho, bộ dữ liệu văn bản có thể được chia thành bốn tập con • (Phù hợp, không phù hợp) x (Trả về, không trả về) • Người dùng xác nhận có/không phù hợp, hệ thống quyết định có/không trả về
Ví dụ P/R • Rel = {3, 9, 10, 11, 14, 15, 20, 35} • P = ? • R = ?
Sự cân bằng giữa độ chính xác và độ đầy đủ • Bạn có thể tăng độ đầy đủ bằng cách trả về nhiều văn bản hơn. • Độ đầy đủ là hàm không giảm của số văn bản trả về. • Một hệ thống trả về tất cả văn bản có độ đầy đủ 100%! • Đối với độ chính xác: (thông thường) dễ dàng đạt được độ chính xác cao khi chấp nhận độ đầy đủ thấp. • Xét đến những mô hình người dùng khác nhau • Một người tìm kiếm trên Web thường chỉ xem khoảng 20 văn bản đầu tiền (tính chính xác quan trọng hơn) • Một nhà nghiên cứu lại muốn nhận được tất cả văn bản liên quan đến chủ để được quan tâm (tính đầy đủ quan trọng hơn)
Độ đo F • Độ đo F phản ánh sự cân bằng của độ chính xác và độ đầy đủ Trong đó • α ϵ[0, 1] và như vậy β2ϵ [0,∞] • Miền giá trị nào của β đề cao độ đầy đủ hơn độ chính xác?
Độ đo F: giá trị tham số • Độ đo F: giá trị nhỏ hơn phản ánh hiệu quả thấp hơn • Nếu β = 1 hoặc α = 0.5, thì F là trung bình điều hòa củaP và R: • Nếu β = 0, F là độ chính xác • Nếu β = Inf, F là độ đầy đủ
Độ đo F: Ví dụ • P = 20/(20 + 40) = 1/3 • R = 20/(20 + 60) = 1/4
Độ chính xác khái quát (Accuracy) • Bài toán tìm kiếm thông tin cũng có thể được xem như bài toán phân lớp • Gán nhãn phù hợp và không phù hợp cho mỗi văn bản • Trả về tập văn bản phù hợp • Độ chính xác khái quát là tỉ lệ số lần phân loại đúng (phù hợp/không phù hợp). • Sử dụng bảng phân bố sự kiện như trên, • Accuracy = (TP + TN)/(TP + FP + FN + TN). • Vì sao độ chính xác khái quát không phải là độ đo hữu ích đối với tìm kiếm thông tin?
Bài tập • Tính độ chính xác, độ đầy đủ và F1 cho tập kết quả sau: • Công cụ tìm kiếm Snoogle luôn trả lời “tìm thấy 0 kết quả thỏa mãn”, cho truy vấn bất kỳ. Vì sao snoogle thể hiện rằng độ chính xác khái quát không hữu ích trong đánh giá kết quả tìm kiếm?
Lý do không sử dụng độ chính xác khái quát trong đánh giá kết quả • Một thủ thuật đơn giản để thu được độ chính xác khái quát cao là: luôn nói không và không trả về bất kỳ văn bản nào • Như vậy độ chính xác khái quát có thể đạt khoảng 99.99% với hầu hết truy vấn trên bộ dữ liệu lớn • Người dùng trong tìm kiếm thông tin thường có đủ kiên nhẫn rà soát cả thông tin không phù hợp để tìm thông tin cần thiết • Trả về một vài kết quả dù độ phù hợp không cao nhưng vẫn hiệu quả hơn là không trả về kết quả nào • → Chúng ta sử dụng độ chính xác, độ đầy đủ và độ đo F cho đánh giá chứ không phải độ chính xác khái quát.
Độ đo F: lý do lựa chọn trung bình điều hòa là gì? • Vì sao chúng ta không sử dụng một cách tính trung bình khác của P và R? • ví dụ, trung bình đại số • Giá trị trung bình đại số bằng 50% đối với công cụ tìm kiếm trả về tất cả, đây vẫn là con số quá cao. • Mong muốn: Phạt những kết quả quá tệ trên độ chính xác hoặc độ đầy đủ. • Lấy giá trị cực tiểu giúp ta đạt được mục đích này. • Nhưng giá trị cực tiểu không mịn và khó đánh giá.
Lấy trung bình F (trung bình điều hòa) là một dạng của cực tiểu mịn.
Khó khăn trong việc sử dụng độ chính xác, độ đầy đủ và độ đo F • Chúng ta cần cung cấp đánh giá phù hợp cho mọi cặp nhu cầu thông tin – văn bản: đây là công việc thủ công và không khả thi với những bộ dữ liệu lớn.
Đường cong độ chính xác/độ đầy đủ • Độ chính xác/đầy đủ/F là những độ đo được thiết kế cho tìm kiếm không xếp hạng. • Tuy nhiên chúng ta có thể mở rộng những độ đo này cho danh sách có xếp hạng. • Đo những thông số này cho phần đầu của danh sách: top 1, top 2, top 3, top 4 v.v. • Làm như vậy với độ chính xác và độ đầy đủ chúng ta thu được đường cong độ chính xác/độ đầy đủ
Ví dụ, vẽ đồ thị độ chính xác/độ đầy đủ Tập kết quả phù hợp: 10 văn bản Tập kết quả
Mỗi điểm trên đồ thị ứng với độ chính xác/đầy đủ cho k văn bản đầu tiên (k = 1, 2, 3, 4, . . .).
Độ chính xác nội suy/độ đầy đủ • Lý do sử dụng nội suy: Hầu hết người dùng đều sẵn sàng xem thêm một vài kết quả nếu chúng làm tăng độ chính xác của tìm kiếm.
Những giá trị chuẩn của độ đầy đủ trung bình ≈ 0.425
Đường cong ROC và PR • ROC: TPR/FPR • PR: Precision/Recall • TPR = Recall = TP/(TP+FN) = p(trả về|phù hợp) • FPR = Fall-out = FP/(FP+TN) = p(trả về|không phù hợp) • Precision = TP/(TP+FP) = p(phù hợp|trả về) • Fall-out = FP/(FP+TN) = p(trả về|không phù hợp) • Specificity = TN/(FP+TN) = p(không trả về|không phù hợp) • Sensitivity = TP/(TP+FN) = p(trả về|phù hợp) • FPR = Fall-out = 1 – specificity • TPR = Recall = Sensitivity
Đường cong ROC • Tương đương đồ thị độ chính xác/độ đầy đủ trong so sánh các thuật toán • Thường chỉ quan tâm tới một khoảng nhỏ ở góc thấp bên trái ứng với độ nhạy (sensitivity) < 0.4.
Lấy trung bình • Chúng ta đã xem xét cách đo hiệu quả tìm kiếm trong trường hợp thực hiện một truy vấn • Chúng ta muốn tìm mức độ hiệu quả mong đợi cho một truy vấn bất kỳ • Khác biệt về nhu cầu thông tin, độ dài truy vấn, chủ đề, thuật ngữ được sử dụng • Lấy trung bình độ đo trên nhiều truy vấn để tìm mức độ hiệu quả trung bình
Đồ thị 11-điểm độ chính xác trung bình/độ đầy đủ • Tính độ chính xác nội suy tại các điểm độ đầy đủ 0.0, 0.1, 0.2, . . . • Thực hiện thao tác này cho mỗi truy vấn mẫu • Lấy trung bình trên tất cả truy vấn • Đường cong trên là điển hình ở hội thảo TREC.[IIR] 44
Bình quân độ chính xác trung bìnhMean Average Precision - MAP • Tính độ chính xác trung bình (AP) cho mỗi truy vấn • Lấy trung bình độ chính xác trung bình (MAP) trên tất cả truy vấn • Đây là giá trị trung bình vĩ mô – coi tất cả truy vấn là bình đẳng • Đối với đồ thị độ chính xác – độ đầy đủ, lấy trung bình ở các điểm độ đầy đủ chuẩn • Giá trị trung bình vi mô
Sự giao động của các độ đo như độ chính xác/độ đầy đủ • Trên một bộ dữ liệu kiểm tra, thường quan sát thấy đôi khi hệ thống làm việc rất tệ với một số truy vấn (ví dụ, P = 0.2 tại R = 0.1) nhưng lại rất tốt với những truy vấn khác (ví dụ, P = 0.95 tại R = 0.1). • Sự giao động của cùng một hệ thống trên những truy vấn khác nhau là lớn hơn nhiều so với những hệ thống khác nhau trên cùng truy vấn. • Nghĩa là có những nhu cầu thông tin đơn giản và cũng có những nhu cầu thông tin phức tạp.
Tính ổn định của độ đo • Lấy trung bình trên tất cả truy vấn làm tăng tính ổn định của độ đo • Cần nhiều truy vấn hơn cho các độ đo kém ổn định • AP: 25 (đủ), 50 (tốt) • Độ chính xác ở 10: 150 – 200 (tốt) [Modern Information Retrieval]