750 likes | 1.07k Views
IT4853 Tìm kiếm và trình diễn thông tin. Chương 7: Trình diễn thông tin Nguyễn Bá Ngọc. Nội dung chính của bài giảng này. Những nguyên tắc cơ bản trong thiết kế giao diện tìm kiếm
E N D
IT4853 Tìm kiếm và trình diễn thông tin Chương 7: Trình diễn thông tin Nguyễn Bá Ngọc
Nội dung chính của bài giảng này • Những nguyên tắc cơ bản trong thiết kế giao diện tìm kiếm • Phù hợp phản hồi tương tác: người dùng tương tác với hệ thống để cải thiện tập kết quả được trả về bằng cách chỉ ra những văn bản nào phù hợp / không phù hợp • Phương pháp phù hợp phản hồi phổ biến nhất: Phản hồi Rocchio • Mở rộng truy vấn: cải thiện kết quả tìm kiếm bằng cách thêm vào từ đồng nghĩa / từ liên quan với từ truy vấn • Dữ liệu cơ sở để xác định từ liên quan: Từ điển đồng nghĩa biên soạn thủ công hoặc tự động, lịch sử truy vấn
Nội dung chính • Những nguyên tắc cơ bản trong thiết kế giao diện tìm kiếm • Phù hợp phản hồi • Tính cấp thiết • Căn bản • Chi tiết • Mở rộng truy vấn
Nội dung chính • Những nguyên tắc cơ bản trong thiết kế giao diện tìm kiếm • Phù hợp phản hồi • Tính cấp thiết • Căn bản • Chi tiết • Mở rộng truy vấn
Mô hình “Berry-picking” • Người dùng học trong quá trình tìm kiếm • kéo theo những thay đổi truy vấn cần thiết • kéo theo sự thay đổi nhu cầu thông tin • từ nhu cầu này kéo theo nhu cầu khác • Nhu cầu thông tin không được thỏa mãn bởi một tập hợp văn bản đơn lẻ • thực tế là bởi những mảnh thông tin tìm thấy trong quá trình tìm kiếm
Những thao tác tìm kiếm thông tin • Dò tìm • đọc lướt ở mức khái quát cao • lựa chọn thông tin để xem hoặc sử dụng như truy vấn • Viết truy vấn • cung cấp những dữ liệu mới • Di chuyển • Đi theo một chuỗi liên kết • là một dãy các thao tác đọc lướt và lựa chọn • Duyệt • Di chuyển một cách ngẫu nhiên, không định hướng
Hành trình của người dùng ... “Di chuyển qua nhiều thao tác và hướng tới một đích chung là thỏa mãn nhu cầu thông tin” (sau Bates 89)
Điểm bắt đầu tìm kiếm • Người dùng bắt đầu tìm kiếm như thế nào? • không phải với truy vấn dài, cụ thể • thường với truy vấn ngắn, nối tiếp bởi đọc lướt kết quả và thay đổi truy vấn • trở nên quen thuộc với bộ dữ liệu, ngôn ngữ truy vấn, v.v. • Hệ thống cần hướng người dùng đến điểm khởi đầu đúng
Danh sách những bộ dữ liệu • Những hệ thống lưu trữ truyền thống bắt đầu với lựa chọn từ một danh sách bộ dữ liệu • người dùng phải học kỹ năng nhận biết những bộ dữ liệu cần thiết • Trên web, một cổng thông tin có thể gợi ý một danh sách những công cụ tìm kiếm • Cần thông tin tổng quan
Cây thư mục tổng quan D.4 OPERATING SYSTEM (C) • D.4.0 General • D.4.2 Storage Management • Allocation/deallocation strategies • Distributed memory • Garbage collection (NEW) • Main memory • Secondary storage • Segmentiation** • Storage hierarchies • Swapping • Virtual memory • Cung cấp một cấu trúc phân cấp cho bộ dữ liệu • Rất phổ biến trên web • Khi duyệt các thư mục có thể bị mất phương hướng
Giao diện tìm kiếm • Nhu cầu thông tin của người dùng là không chính xác • Người dùng có thể không biết làm sao để tìm được thông tin họ cần • Giao diện người-máy có vai trò trợ giúp người dùng hiểu và diễn đạt nhu cầu thông tin • thiết lập truy vấn • lựa chọn tài liệu phù hợp • phân tích kết quả trả về • theo dõi tiến trình tìm kiếm • v.v.
Những nguyên tắc thiết kế • Gợi ý phản hồi giầu thông tin • Hỗ trợ khả năng kiểm soát quá trình tương tác • Người dùng có khả năng kiểm soát phương thức và tình huống đưa ra phản hồi • Dễ dàng hủy bỏ những thao tác đã thực hiện • Không yêu cầu người dùng ghi nhớ nhiều • Cung cấp những giao diện chuyên biệt cho người dùng mới và người dùng có kinh nghiệm
Gợi ý phản hồi giầu thông tin • Hệ thống tìm kiếm cần cho phép phản hồi về • Mối liên quan giữa truy vấn và kết quả trả về • Quan hệ giữa những văn bản được trả về • Giữa văn bản và siêu dữ liệu mô tả bộ dữ liệu • Người dùng cần có khả năng điều chỉnh mức độ phản hồi
Khả năng kiểm soát • Người dùng muốn kiểm soát hành vi của hệ thống • Người dùng cần phải là người bắt đầu tương tác thay vì người phản ứng • Hệ thống cần chánh • những hành vi gây bất ngờ • những tình huống tẻ nhạt không thể chánh • mất khả năng đưa ra hành động • Ví dụ: so sanh những giao diện modal và non-modal
Dễ dàng hủy bỏ những thao tác • Bất kỳ thao tác nào cũng cần có khả năng hủy bỏ • Khả năng “quay lại” giúp người dùng đưa ra quyết định nhanh hơn • Khuyến khích người dùng khám phá các chức năng mới • Định nghĩa rõ đơn vị quay lui • từng thao tác đơn lẻ, hoặc một nhóm thao tác
Không nên yêu cầu người dùng ghi nhớ nhiều • Không nên làm quá tải khả năng ghi nhớ của người dùng • người bình thường có thể ghi nhớ “7 ± 2” thông tin. • Trợ giúp người dùng theo dõi những lựa chọn tìm kiếm • cho phép người dùng thay đổi giải pháp tìm kiếm • lưu lại ngữ cảnh và thông tin liên quan đến các phiên tìm kiếm • Cung cấp những ngữ cảnh có thể duyệt • gợi ý những thuật ngữ/siêu dữ liệu tìm kiếm có liên quan • những điểm bắt đầu bao gồm danh sách tài nguyên, chủ đề
Những giao diện chuyên biệt • Sự cân bằng giữa tính đơn giản và khả năng • Giao diện đơn giản: dễ sử dụng, nhưng khó mô tả nhu cầu thông tin • Giao diện phức tạp: khó sử dụng, nhưng cho phép mô tả nhu cầu thông tin chi tiết hơn và tìm nhanh hơn • Các giao diện chuyên biệt • Đối với người dùng mới: giao diện đơn giản, dễ học với những chức năng cơ bản • Chuyên gia có thể đi sâu hơn và có nhiều kiểm soát, chức năng, nhiều tùy chọn hơn.
Nội dung chính • Những nguyên tắc cơ bản trong thiết kế giao diện tìm kiếm • Phù hợp phản hồi • Tính cấp thiết • Căn bản • Chi tiết • Mở rộng truy vấn
Tăng độ đầy đủ tìm kiếm bằng cách nào? • Hai phương pháp cải thiện độ đầy đủ: phù hợp phản hồi và mở rộng truy vấn • Ví dụ, xét truy vấn q: [ô tô] . . . • . . . và văn bản d chứa “xế hộp”, nhưng không chứa từ “ô tô” • Một hệ thống tìm kiếm đơn giản sẽ không trả về d cho truy vấn q. • Kể cả nếu d là phù hợp nhất với truy vấn q • Chúng ta muốn giải quyết tình huống này: • Trả về văn bản phù hợp dù không có thuật ngữ nào trong truy vấn (gốc)
Độ đầy đủ • Trong bài giảng này, mục đích chính là: “tăng số văn bản phù hợp trả về cho người dùng” • Có thể dẫn tới giảm độ đầy đủ, ví dụ, khi mở rộng “ô tô” với “xăng dầu” • . . . có thể sẽ loại bỏ một vài văn bản phù hợp, nhưng tăng số văn bản phù hợp được trả về ở những trang đầu
Những lựa chọn để cải thiện độ đầy đủ • Cục bộ: Thực hiện phân tích cục bộ truy vấn người dùng theo nhu cầu • Phương pháp cục bộ chủ yếu: phù hợp phản hồi • Nội dung thứ nhất • Toàn cục: Thực hiện phân tích toàn cục một lần (v.d., toàn bộ dữ liệu) để xác định từ điển đồng nghĩa • Sử dụng từ điển đồng nghữ phục vụ mở rộng truy vấn • Nội dung thứ hai
Phù hợp phản hồi: Ý tưởng cơ bản • Người dùng cung cấp một truy vấn (ngắn, đơn giản). • Công cụ tìm kiếm trả về một tập văn bản. • Người dùng đánh dấu một vài văn bản là phù hợp hoặc không phù hợp. • Công cụ tìm kiếm tính toán một biểu diễn mới của nhu cầu thông tin. Mong đợi: sẽ tốt hơn truy vấn hiện tại. • Công cụ tìm kiếm chạy truy vấn mới và trả về những kết quả mới. • Những kết quả mới được mong đợi sẽ có độ đầy đủ cao hơn.
Phù hợp phản hồi • Chúng ta có thể lặp quy trình này: một vài chu kỳ phản hồi. • Chúng ta sẽ sử dụng thuật ngữ tìm kiếm tự do (ad hoc retrieval) với nghĩa là tìm kiếm thông thường không có phù hợp phản hồi. • Chúng ta sẽ xem xét ba ví dụ phù hợp phản hồi để nhấn mạnh vào những khía cạnh khác nhau của quá trình phản hồi thông tin phù hợp.
Nội dung chính • Những nguyên tắc cơ bản trong thiết kế giao diện tìm kiếm • Phù hợp phản hồi • Tính cấp thiết • Căn bản • Chi tiết • Mở rộng truy vấn
Phù hợp phản hồi: Ví dụ 1 Kết quả trả về cho truy vấn: bike
Phản hồi từ người dùng: Lựa chọn những thông tin phù hợp
Ví dụ không gian vec-tơ: truy vấn “canine” (1) • Tài liệu gốc: • Fernando Díaz
Sự phù hợp của văn bản với truy vấn “canine” • Tài liệu gốc: • Fernando Díaz
Phản hồi: người dùng lựa chọn những văn bản phù hợp • Tài liệu gốc: • Fernando Díaz
Kết quả sau khi áp dụng thông tin phản hồi • Tài liệu gốc: • Fernando Díaz
Ví dụ 3: Một ví dụ tìm kiếm văn bản Truy vấn ban đầu: [new space satellite applications] kết quả tìm kiếm truy vấn đầu: (r = hạng) r + 1 0.539 NASA Hasn’t Scrapped Imaging Spectrometer + 2 0.533 NASA Scratches Environment Gear From Satellite Plan 3 0.528 Science Panel Backs NASA Satellite Plan, But Urges Launches of Smaller Probes 4 0.526 A NASA Satellite Project Accomplishes Incredible Feat: Staying Within Budget 5 0.525 Scientist Who Exposed Global Warming Proposes Satellites for Climate Research 6 0.524 Report Provides Support for the Critics Of Using Big Satellites to Study Climate 7 0.516 Arianespace Receives Satellite Launch Pact From Telesat Canada + 8 0.509 Telecommunications Tale of Two Companies Sau đó người dùng đánh dấu văn bản phù hợp bằng dấu “+”.
Mở rộng truy vấn sau phản hồi So sánh với nguyên mẫu Truy vấn: [new space satellite applications]
Kết quả cho truy vấn đã mở rộng r 2* 1 0.513 NASA Scratches Environment Gear From Satellite Plan 1* 2 0.500 NASA Hasn’t Scrapped Imaging Spectrometer 3 0.493 When the Pentagon Launches a Secret Satellite, Space Sleuths Do Some Spy Work of Their Own 4 0.493 NASA Uses ‘Warm’ Superconductors For Fast Circuit 8* 5 0.492 Telecommunications Tale of Two Companies 6 0.491 Soviets May Adapt Parts of SS-20 Missile For Commercial Use 7 0.490 Gaping Gap: Pentagon Lags in Race To Match the Soviets In Rocket Launchers 8 0.490 Rescue of Satellite By Space Agency To Cost $90 Million
Nội dung chính • Những nguyên tắc cơ bản trong thiết kế giao diện tìm kiếm • Phù hợp phản hồi • Tính cấp thiết • Căn bản • Chi tiết • Mở rộng truy vấn
Khái niệm trọng tâm (centroid) cho phù hợp phản hồi • Trọng tâm của một tập điểm được xác định tương tự khối tâm (trọng tâm) của vật rắn. • Nhắc lại: Chúng ta biểu diễn văn bản như những điểm trong một không gian đa chiều. • Như vậy có thể tính trọng tâm của một tập văn bản. • Định nghĩa: • Trong đó D là tập văn bản, là biểu diễn vec-tơ của văn bản d.
Thuật toán Rocchio • Thuật toán Rocchio cho phù hợp phản hồi trong mô hình không gian vec-tơ. • Rocchio lựa chọn truy vấn để cực đại hóa hàm • Dr : tập văn bản phù hợp; Dnr : tập văn bản không phù hợp • xu hướng: ~qopt là vec-tơ tách biệt tối đa văn bản phù hợp và không phù hợp. • Sử dụng một vài giả thuyết chúng ta có thể viết lại như sau:
Thuật toán Rocchio • Vec-tơ truy vấn tối ưu là: • Chúng ta dịch chuyển trọng tâm của những văn bản phù hợp theo sự khác biệt giữa hai trọng tâm.
Bài tập: Tính vec-tơ Rocchio Các vòng tròn: những văn bản phù hợp, Xs: những văn bản không phù hợp
Minh họa thuật toán Rocchio : Trọng tâm của những văn bản phù hợp
Minh họa Rocchio không tách biệt những văn bản phù hợp / không phù hợp.
Minh họa Rocchio trọng tâm của những văn bản không phù hợp.
Minh họa Rocchio - hiệu vec-tơ
Minh họa Rocchio cộng vec-tơ khác biệt vào …
Minh họa Rocchio … để lấy
Minh họa Rocchio phân biệt văn bản phù hợp / không phù hợp rất hiệu quả.