IT4853 Tìm kiếm và trình diễn thông tin

IT4853 Tìm kiếm và trình diễn thông tin Phần 2: Các mô hình tìm kiếm Nguyễn Bá Ngọc

Nội dung chính • 1. Mô hình Boolean • 2. Tìm kiếm có xếp hạng, mô hình không gian vec-tơ • 3. Tìm kiếm dựa trên xác suất, mô hình nhị phân độc lập • 4. Mô hình (Okapi) BM25 • 5. Mô hình ngôn ngữ

3. Tìm kiếm dựa trên xác suất, mô hình nhị phân độc lập • Đôi chút căn bản lý thuyết xác suất • Nguyên lý xếp hạng xác suất • Mô hình nhị phân độc lập

Vì sao sử dụng xác suất trong tìm kiếm thông tin? Nắm bắt về nhu cầu thông tin là không chắc chắn Nhu cầu thông tin người dùng Biểu diễn logic truy vấn So khớp bằng cách nào? Kết luận văn bản phù hợp hay không là không chắc chắn Văn bản Biểu diễn logic văn bản Trong hệ thống tìm kiếm thông tin truyền thống, so khớp văn bản và truy vấn được cố gắng thực hiện trong không gian thuật ngữ với ngữ nghĩa không rõ ràng. Xác suất đóng vai trò nền tảng cho suy diễn không chắc chắn. Chúng ta hoàn toàn có thể sử dụng xác suất cho mục đích định lượng sự không chắc chắn trong tìm kiếm thông tin.

Chủ đề chính trong tìm kiếm dựa trên xác suất Mô hình xác suất cổ điển Nguyên tắc xếp hạng xác suất Mô hình nhị phân độc lập BIM (Okapi) BM25 Mạng Bayes cho tìm kiếm văn bản Cách tiếp cận bằng mô hình hóa ngôn ngữ Với những bước tiến quan trọng trong thời gian gần đây Phương pháp xác suất là một trong những phương pháp ra đời sớm nhất nhưng vẫn nóng hổi nhất trong tìm kiếm thông tin. Truyền thống: ý tưởng tốt, nhưng không đủ hiệu quả Điều này có thể thay đổi trong tương lai gần.

Vấn đề xếp hạng văn bản Chúng ta có bộ dữ liệu văn bản Người dùng cung cấp một truy vấn Hệ thống phải trả về một danh sách văn bản Phương pháp xếp hạng là trọng tâm của hệ thống tìm kiếm thông tin: Chúng ta đưa văn bản tới người dùng theo thứ tự nào? Văn bản “tốt nhất” đầu tiên, tiếp theo là thứ hai, v.v. Ý tưởng: Xếp hạng theo xác suất văn bản phù hợp với nhu cầu thông tin P(R=1|văn bảni, truy vấn)

Với sự kiện A và B , quy tắc nhân xác suất (luật chuỗi): Đôi chút căn bản lý thuyết xác suất • Quy tắc phân tích xác suất (luật phân tích): • Luật Bayes • Cơ hội (Odds):

“Nếu phản hồi của một hệ thống tìm kiếm ứng với mỗi truy vấn là danh sách văn bản từ bộ dữ liệu theo thứ tự giảm dần xác suất phù hợp với nhu cầu thông tin người dùng, trong đó xác suất được tính chính xác nhất có thể trên những dữ liệu có trong hệ thống, thì chất lượng tổng thể của hệ thống đối với người dùng sẽ ở mức cao nhất có thể trên cơ sở những dữ liệu đó.” [1960s/1970s] S. Robertson, W.S. Cooper, M.E. Maron; vanRijsbergen(1979:113); Manning & Schütze (1999:538) Nguyên lý xếp hạng xác suất

Nguyên lý xếp hạng xác suất (1) Đặt xlà biểu diễn của một văn bản trong bộ dữ liệu. Đặt R là sự kiện một văn bản phù hợp với truy vấn đã cho, trong đó R=1 là phù hợp và R=0 là không phù hợp. Cần tìm p(R=1|x)– xác suất văn bản xphù hợp. p(R=1),p(R=0) – xác suất tiền nghiệm trả về văn bản phù hợp hoặc không phù hợp p(x|R=1), p(x|R=0) – xác suất nếu một văn bản phù hợp (không phù hợp) được trả về, nó là x.

Nguyên lý xếp hạng xác suất (PRP) (2) Trường hợp đơn giản: không có chi phí lựa chọn hoặc mối quan tâm lợi ích khác có thể ảnh hưởng tới trọng số lỗi Ứng dụng PRP: xếp hạng văn bản theo p(R=1|x) Định lý: Sử dụng PRP là tối ưu theo nghĩa giảm tối đa hao tổn (rủi ro Bayes) xuống dưới hao tổn nhị phân Chứng minh định lý được trình bày trong [Ripley 1996]

Nguyên lý xếp hạng xác suất (3) Trường hợp phức tạp hơn với chi phí tìm kiếm: Đặt d là một văn bản C1 – chi phí không trả về một văn bản phù hợp C0 – chi phí trả về một văn bản không phù hợp Nguyên lý xếp hạng xác suất: nếu với tất cả d’ chưa được trả về, thì d là văn bản tiếp theo sẽ được trả về Chúng ta sẽ không xem xét thêm về chi phí/hữu ích trong bài giảng này

Nguyên lý xếp hạng xác suất (4) Chúng ta tính tất cả những xác suất đó bằng cách nào? Không tính được xác suất chính xác, cần phải ước lượng Mô hình nhị phân độc lập (BIM) (sẽ xem xét sau đây) là mô hình đơn giản nhất Những giả thuyết còn nhiều tranh cãi “Sự phù hợp” của mỗi văn bản là độc lập với sự phù hợp của những văn bản khác. Sẽ không tốt nếu trả về những văn bản trùng lặp Mô hình phù hợp nhị phân

Phương pháp tìm kiếm theo xác suất 1) Ước lượng mức độ đóng góp của thuật ngữ vào sự phù hợp Những đại lượng như tf, df, và độ dài văn bản ảnh hưởng đến đánh giá phù hợp của bạn như thế nào? Công thức Okapi (phức tạp hơn so với BIM) Spärck Jones / Robertson 2) Kết hợp ảnh hưởng của từng từ đơn lẻ để tìm xác suất phù hợp văn bản 3) Sắp xếp văn bản theo thứ tự giảm dần xác suất

Xếp hạng theo xác suất (5) • Nguyên tắc cơ bản đánh giá ảnh hưởng của từ: • “Với một truy vấn đã cho, nếu chúng ta biết trước một vài văn bản phù hợp, thì từ xuất hiện trong những văn bản đó phải có trọng số lớn hơn khi tìm kiếm những văn bản phù hợp khác. • Dựa trên giả thuyết phân bố từ và định lý Bayes, có thể suy diễn trọng số bằng lý thuyết” Van Rijsbergen

Mô hình nhị phân độc lập • Thường được sử dụng kết hợp với PRP • “Nhị phân” = Boolean: Văn bản được biểu diễn như vec-tơ nhị phân đánh dấu sự xuất hiện của từ • xi = 1 nếu thuật ngữ thứ i xuất hiện trong x • Độc lập: Thuật ngữ xuất hiện trong văn bản độc lập với nhau • Những văn bản khác nhau có thể được mô hình hóa bởi cùng một vec-tơ

Mô hình nhị phân độc lập (1) • Truy vấn: vec-tơ nhị phân xuất hiện thuật ngữ • Cho truy vấn q • Với mỗi văn bản d cần tính p(R|q, d) • Thay bằng p(R|q, x) trong đó x là biểu diễn vec-tơ của d. • Chỉ quan tâm tới thứ hạng • Sử dụng cơ hội (Odds) và luật Bayes

Hằng số với một truy vấn Cần xác định Mô hình nhị phân độc lập (2) • Sử dụng giả thuyết độc lập

Vì xi chỉ bằng 1 hoặc 0 • Đặt • Giả sử với tất cả thuật ngữ không có trong truy vấn (qi=0) Mô hình nhị phân độc lập (3)

Từ truy vấn có trong văn bản Từ truy vấn có trong văn bản Từ truy vấn không có trong văn bản Tất cả từ truy vấn Mô hình nhị phân độc lập (4)

Hằng số với một truy vấn Đại lượng duy nhất cần xác định cho mục đích xếp hạng Giá trị trạng thái tìm kiếm Mô hình nhị phân độc lập (5)

Mô hình nhị phân độc lập (6) • Tất cả quy về tính RSV ci – log tỉ số odds có vai trò như trọng số thuật ngữ trong mô hình này Chúng ta tính ci như thế nào từ dữ liệu sẵn có ?

Xác định: Những số liệu thống kê cơ bản Đại lượng thống kê ứng với từ thứ i:

Trọng số của thuật ngữ • Có thể thêm 0.5 vào mỗi đại lượng để giữ các trọng số không trở thành vô cùng khi S, s nhỏ: • Có thể thực hiện xếp hạng lại khi người dùng đưa ra nhiều phản hồi hơn

Tính toán xác suất/từ • Khi bắt đầu thực hiện truy vấn • Hoàn toàn không biết về R Giá trị này có thể được sử dụng để tính hạng ban đầu, sử dụng IDF như trọng số thuật ngữ.

Ví dụ mô hình xác suất

Cải thiện xếp hạng • Giả sử • Chúng ta đã đưa danh sách kết quả ban đầu tới người dùng • Người dùng đã đánh dấu một vài văn bản phù hợp (“phù hợp phản hồi”) • Chúng ta có • N văn bản trong bộ dữ liệu, S văn bản đã được xác định là phù hợp • ni văn bản chứa ti, trong đó có si văn bản phù hợp

Cải thiện xếp hạng • Xác định lại pi và ri dựa trên thông tin này • Hoặc có thể kết hợp với thông tin mới • Lặp lại để xác định những văn bản phù hợp một cách chính xác hơn κlà trọng số đã biết

Ví dụ trọng số phù hợp Văn bản số 2 là văn bản phù hợp

Xác định pi và ri nhờ vòng lặp (=phù hợp phản hồi giả lập) • 1. Giả sử pi là hằng số với mọi xi trong truy vấn và ri không đổi. Ví dụ, pi = 0.5 với văn bản bất kỳ • 2. Xác định tập văn bản phù hợp: Vlà tập hợp văn bản được xếp hạng cao nhất theo mô hình này • 3.Chúng ta cần cải thiện dự đoán pi và ri, sử dụng phân bố từ (xi ) trong V. Đặt Vi là tập văn bản có chứa xi , chúng ta có pi = |Vi| / |V| • 4. Giả sử không được trả về đồng nghĩa với không phù hợp, ri = (ni – |Vi|) / (N – |V|) • 5. Lặp bước 2 cho tới khi hội tụ và trả về kết quả xếp hạng 30

PRP và BIM Có thể đạt được ước lượng xác suất tương đối hiệu quả Cần áp đặt một vài giả thuyết giới hạn: Sự độc lập thuật ngữ Thuật ngữ không có trong truy vấn không ảnh hưởng tới kết quả Biểu diễn nhị phân của văn bản/truy vấn/sự phù hợp Sự phù hợp văn bản là độc lập Một vài giả thuyết này có thể được bỏ qua Vấn đề: đòi hỏi một phần thông tin về sự phù hợp hoặc chỉ có thể suy diễn trọng số thuật ngữ

Loại bỏ sự độc lập từ Nhìn chung, thuật ngữ chỉ mục là không độc lập Sự phụ thuộc có thể phức tạp Van Rijsbergen (1979) đề xuất mô hình phụ thuộc dạng cây Friedman and Goldszmidt’s Tree Augmented Naive Bayes (AAAI 13, 1996) Mỗi thuật ngữ phụ thuộc lẫn nhau Trong những năm 1970s, vấn đề ước lượng xác suất đạt được những thành công đáng kể trên mô hình này

Tổng kết mô hình BIM • Mô hình xác suất dựa trên lý thuyết xác suất để mô hình hóa sự không chắc chắn trong quá trình tìm kiếm • Sử dụng các giả thuyết về sự độc lập trong quá trình ước lượng giá trị xác suất • Trọng số ban đầu của thuật ngữ khi không có thông tin về văn bản phù hợp là nghịch đảo tần suất văn bản (IDF) • Phù hợp phản hồi có thể giúp cải thiện xếp hạng bằng cách xác định lại xác suất thuật ngữ • Không sử dụng các tần suất thuật ngữ nội văn bản hoặc độ dài văn bản

Giới hạn chủ yếu của BIM BIM kế thừa nhiều điểm chung từ tìm kiếm thông tin cổ điển – được thiết kế cho tiêu đề và tóm tắt, nhưng không phù hợp với tìm kiếm hiện đại trên toàn bộ nội dung văn bản Chúng tôi muốn hướng sự chú ý đến tần suất từ và độ dài văn bản, giống như trong mô hình không gian vec-tơ mà chúng ta đã thảo luận

Okapi BM25 • BM25 “Best Match 25” (đã có nhiều thử nghiệm) • Được phát triển trong hệ thống Okapi (City University London) • Bắt đầu được chấp nhận ngày càng rộng rãi bởi nhiều nhóm khác nhau trong hội thảo TREC • Hiệu quả đã được xác nhận trong thực nghiệm • Mục đích: Nhạy cảm với tần suất từ và độ dài văn bản, nhưng không bổ xung quá nhiều tham số • (Robertson and Zaragoza 2009; Spärck Jones et al. 2000)

Trọng số Okapi VRt – tập văn bản phù hợp có chứa t VNRt – không chứa t

Khi từ xuất hiện trong quá nửa số văn bản và S = s = 0, thành phần: có thể nhận giá trị âm Trọng số Okapi BM25 • Trong trường hợp không có thông tin về văn bản phù hợp, có thể sử dụng công thức:

Trọng số Okapi • Trọng số Okapi sử dụng • thành phần “tf” tương tự như VSM • chuẩn hóa độ dài văn bản và độ dài truy vấn độc lập • một vài hằng số điều chỉnh, phụ thuộc vào bộ dữ liệu

Ví dụ tính trọng số Okapi BM25 k1 = 1.2 k3 = 7 b = 0.75 avdl = 3.66

Trọng số Okapi với thông tin về văn bản phù hợp k1 = 1.2 k3 = 7 b = 0.75 (Lave) avdl = 3.66

Sử dụng mô hình ngôn ngữ (LMs) trong IR • Coi văn bản như mô hình sinh sinh truy vấn. • Chúng ta cần phải làm gì? • Xác định mô hình sinh sẽ sử dụng • Ước lượng tham số (những bộ tham số khác nhau cho mỗi văn bản) • Làm mịn để tránh giá trị bằng không • Áp dụng cho truy vấn và tìm những văn bản có xác suất sinh truy vấn cao nhất • Cung cấp những văn bản có xác suất cao nhất tới người dùng

Mô hình ngôn ngữ là gì? • Chúng ta có thể coi máy trạng thái hữu hạn như một dạng mô hình ngôn ngữ • Iwish I wish I wish I wish . . . Không thể sinh: “wish I wish” hoặc “I wish I”. • Mô hình cơ bản của chúng ta: mỗi văn bản được sinh bởi một máy tự động khác nhau theo cách này, ngoại trừ những máy này dựa trên xác suất.

Mô hình ngôn ngữ xác suất • Đây là một máy trạng thái hữu hạn một trạng thái dựa trên xác suất– một mô hình ngôn ngữ đơn từ – và phân bố xác suất cho trạng thái q1 của nó. STOP không phải một từ, nhưng là một ký hiệu đặc biệt thể hiện máy trạng thái dừng lại. frog said that toad likes frog STOP • P(string) = 0.01 · 0.03 · 0.04 · 0.01 · 0.02 · 0.01 · 0.02 = 0.0000000000048

Những mô hình ngôn ngữ khác nhau cho mỗi văn bản • frog said that toad likes frog STOP P(string|Md1) = 0.01 · 0.03 · 0.04 · 0.01 · 0.02 · 0.01 · 0.02 = 0.0000000000048 = 4.8 · 10-12 • P(string|Md2) = 0.01 · 0.03 · 0.05 · 0.02 · 0.02 · 0.01 · 0.2 = 0.0000000000120 = 12 · 10-12 P(string|Md1) < P(string|Md2) • Như vậy, văn bản d2 phù hợp với chuỗi “frog said that toad likes frog STOP” hơn d1.

Sử dụng mô hình ngôn ngữ trong tìm kiếm thông tin • Mỗi văn bản được coi như (nền tảng của) một mô hình ngôn ngữ. • Cho một truy vấn q • Xếp hạng văn bản dựa trên P(d|q) • P(q) là bất biến với mọi văn bản, vì vậy có thể bỏ qua • P(d) là xác suất tiền nghiệm – thường là hằng số đối với d • Tuy nhiên chúng ta có thể gán một giá trị lớn hơn cho những văn bản chất lượng cao hơn, ví dụ với PageRank cao. • P(q|d) là xác suất q được sinh bởi d. • Như vậy để xếp hạng văn bản theo mức độ phù hợp với q thì thứ tự theo P(q|d) và P(d|q) là tương đương.

Bước tiếp theo... • Theo cách tiếp cận mô hình ngôn ngữ, chúng ta đang tìm cách mô hình hóa quá trình sinh truy vấn. • Sau đó chúng ta xếp hạng văn bản theo xác suất mà một truy vấn có thể được quan sát như một mẫu ngẫu nhiên từ mô hình văn bản tương ứng. • Như vậy, chúng ta xếp hạng theo P(q|d). • Bước tiếp theo: chúng ta tính P(q|d) như thế nào?

Tính P(q|d)như thế nào? • Chúng ta sẽ sử dụng giả thuyết điều kiện độc lập như với Naive Bayes. • (|q|: độ dài của q; tk : từ xuất hiện ở vị trí k trong q) • Đẳng thức tương đương với: • tft,q: tần suất (# lần xuất hiện) của t trong q • Mô hình đa thức (Bỏ qua tham số)

IT4853 Tìm kiếm và trình diễn thông tin

IT4853 Tìm kiếm và trình diễn thông tin

Presentation Transcript

IT4853 Tìm kiếm và trình diễn thông tin