220 likes | 409 Views
1. Đồ thị khoảng cách của văn bản và một số ứng dụng. Hà Quang Thụy Phòng Thí nghiệm Công nghệ Tri thức - KTLab Trường ĐHCN, Đại học Quốc gia Hà Nội , Ngày 31/5/2014. KTLab. Nội dung. Đồ thị khoảng cách và ứng dụng Độ đo Google chuẩn và ứng dụng Tin học xã hội. 2.
E N D
1 Đồ thị khoảng cách của văn bản và một số ứng dụng HàQuangThụy PhòngThínghiệmCôngnghệ Tri thức - KTLab Trường ĐHCN, ĐạihọcQuốcgiaHàNội, Ngày 31/5/2014 KTLab
Nội dung • Đồ thị khoảng cách và ứng dụng • Độ đo Google chuẩn và ứng dụng • Tin học xã hội 2
Đồthịkhoảngcách: giớithiệu • Charu C. Aggarwal, Peixiang Zhao (2013). Towards graphical models for text processing. Knowl. Inf. Syst.36(1): 1-21. • Charu C. Aggarwal • Research Scientist, IBM T. J. Watson Research Center in Yorktown Heights, BSc. IIT Kanpur (1993). PhD. MIT (1996). • Awards: IBM Corporate (2003), IBM Outstanding Innovation (2008), IBM Research Division (2008), IBM Outstanding Technical Achievement (2009). • Associate editor of Journals : ACM TKDD, Data Mining and Knowledge Discovery, ACM SIGKDD Explorations, and the Knowledge and Information Systems. • http://www.informatik.uni-trier.de/~ley/pers/hd/a/Aggarwal:Charu_C=: 60 bàitạpchí, 135 bàihộinghị, 2 sách, … • Peixiang Zhao • Assistant Professor, Florida State Univ. at Tallahassee • Bsc (2001), MSc (2004), PhD (2007) HK, PhD (2012) UIUC • http://www.informatik.uni-trier.de/~ley/pers/hd/z/Zhao:Peixiang.html”: 4 bàitạpchí, 16 bàihộinghị
Đồthịkhoảngcách: địnhnghĩa • Phátbiểu ở đâykhácđôichút so vớibàibáo • Cho ngữliệu C = {tàiliệumiềnứngdụng} và V ={từcónghĩatrong C}. Vídụ, V = {từtrong C} \ {từdừng} • Vớimộttàiliệu D: “đồthịkhoảngcáchbậc k” của D trên C làđồthị G(C, D, k) = (N(C), A(D, k)) với N(C) làtậpđỉnh, A(D,k) làtậpcung • N(C) = {nút v: vV và v xuấthiệntrong D}. vV: xuấthiện ≤ 01lần ở N(C). Trong N(C): gọi “nút i” hoặc “từ i”. • D’ nhậnđượctừ D saukhiloạibỏmọitừV, giữnguyênthứtựcáctừ. • TậpcungA(D,k) chứacung (i ,j) cóhướngtừnút i tớinút j nếunhưtừ i đitrướctừ j vớikhoảngcách≤ k từtrong D’. Cung (i, j) cótrọngsố m nếucó nhiều nhất m lầntừ i xuấthiệntrướctừ j vớikhoảngcách≤k ở trongD’.
Đồthịkhoảngcách: vídụtừbàibáo • V = {từ tiếng Anh} \ {từ dừng} • D lấy từ bài đồng dao “Mary had a little lamb” là “Mary had a little lamb, little lamb, little lamb, Mary had a little lamb, its fleece was white as snow”. D’=“Marylittlelamb, littlelamb, littlelamb, Marylittlelamb, fleecewhitesnow”. Các đồ thị khoảng cách bậc 0,1,2: • Bậc 0: các từ đơn tự kết nối. Bâc k+1: thêm cung và thêm trọng số
Đồthịkhoảngcách: tínhchất • Tínhchất “thưa”: • f(D): sốlượngtừcónghĩatrong D’ kếcảbội • n(D): sốlượngtừphânbiệttrong D’ chínhlàsốnútcủađồthị |N(C)| • n(D)*(k+1) – k*(k-1)/2 ≤ |A(D,k)| ≤ f(D)*(k+1) Chứng minh trongbàibáo. • Tínhphẳngcủatàiliệuchỉchứatừphânbiệt • Đồthịkhoảngcáchbậckhôngquá 2 tươngứngvớicáctàiliệuchỉchứacáctừphânbiệtlàcácđồthịphẳng (planar). • Tínhđơnđiệu • D1 làđoạn con của D2 G(C, D1, k) làđồthị con của G(C, D2, k). • Chứng minh trongbàibáo. • Lưu ý: Ngược lại không luôn đúng “G(C, D1, k) đồ thị con G(C, D2, k) không D1 là đoạn con của D2”: phức tạp cấu trúc nắm bắt từ của đồ thị khoảng cách! • Cực kỳ hữu ích cho truy hồi theo đoạn text chính xác: Truy hồi thông tin dựa trên đồ thị: xác định bao đóng của tập văn bản cần tìm: hiệu quả hơn trình diễn không gian vector đánh chỉ số theo từ khóa.
Đồthịkhoảngcách: tínhchất • Tính bảo tồn đoạn giao • D1, D2 có xâu chung F G(C, D1, k) và G(C, D1, k) chia sẻ đồ thị con G(C, F, k). Suy diễn trực tiếp từ tính đơn điệu. • Tìm kiếm tài liệu có đoạn về một chủ đề • Giả thiết: Một chủ đề được đặc trưng bởi tập S gồm m từ khóa liên thông • xây dựng clique_có hướng_hai chiều chứa các nút (từ) này. • clique_có hướng_hai chiều: mọi cặp nút đều tồn tại cung hai hướng (đồ thị đầy đủ) và một chu trình đơn nối mọi đỉnh clique. • Tần số kết hợp giao theo cung của clique với đồ thị G(C, D, k) cho biết số lần các từ khóa tương ứng xuất hiện trong D hành vi cục bộ của chủ đề. • Tính chất xuất hiện clique hai chiều • Cho F1 là clique hai chiều chứa m nút và D là tài liệu thuộc C. Cho E là giao theo cung của tập các cung của G(C, D, k) được chứa trong F1. Gọi q là tổng các tần số của các cung trong E thì q chính là số lần các từ khóa trong các nút tương ứng với F1 xuất hiện với khoảng cách k trong tài liệu.
ĐTKC: Xác định chủ đề khác nhau • Xác định các đoạn liên quan các chủ đề khác nhau • S1, S2 : tập từ khóa tương ứng với các chủ đề khác nhau. • F1, F2: hai clique tương ứng với S1 và S2 • Gọi F12 là clique chứa các nút của S1+S2 • Xét E1 (D), E2 (D), E12 (D) là giao theo cung của G(C, D, k) với F1, F2, F12. E12 (D) là bao đóng các cung của E1 (D) E2 (D) • Tính cục bộ các chủ đề khi tần số các cung trong E1(D), E2(D) lớn nhưng tần số các cung E12(D)-(E1(D) E2(D)) là nhỏ. • Bài toán xác định tính cục bộ các chủ đề • Tím các tài liệu D mà tần số theo cung của (E1(D) E2(D)) là lớn hơn s1 và tần số theo cung trong E12(D)-(E1(D) E2(D)) là nhỏ hơn s2.
ĐTKC: phương án vô hướng • Định nghĩa • Đồ thị khoảng cách vô hướng bậc k của tài liệu D theo C là đồ thị G(C, D, k) = (N(D), A(D, k)): • N(D) như trường hợp có hướng • A(D,k) là tập cung tương tự như trường hợp có hướng song được tính cả hai chiều (về trước và về sau). • Ví dụ, đồ thị khoảng cách vô hướng bậc 2 của tài liệu trong ví dụ trước: Đồ thị KC vô hướng nhận được bằng cách đổi cung có hướng thành vô hướng. • Đồ thị vô hướng giữ thông tin khoảng cách và bỏ qua thông tin thứ tự . • Chưa đề cập ứng dụng đồ thị KC vô hướng song (i) dễ thi hành thuận lợi cho KPDL; (ii)
Đồthịkhoảngcách: ứng dụng KPDL • Hai phương án áp dụng • kỹ thuật cũ với thay biểu diễn túi từ bằng biểu diễn đồ thị khoảng cách: dề dàng thi hành. • Dùng cho khai phá DL và quản lý cấu trúc: tương tác dễ dàng hơn các phương pháp khai phá cấu trúc • Độ phức tạp tính toán • Số thẻ khoảng 4-5 lần so với biểu diễn sẵn có • Có thể làm chậm song không quá nặng nề.
Đồthịkhoảngcách: các ứng dụng KPDL • Phân cụm • Các thuật toán phân cụm lặp hoặc phân cấp.dựa trên “hạt giống”. • Thuật toán EM. • Phân lớp • .Phân lớp Bayes thơ ngây • Phân lớp k-láng giềng gần nhất hoặc phân lớp trọng tâm • Phân lớp dựa trên luật. • Đánh chỉ số và truy hồi • entire structural fragments • Tìm kiếm chính xác: đã đề cập • Tìm kiếm gần đúng • Tìm kiếm đồ thị con thường xuyên • Phát hiện đạo văn (Plagiarism detection) • GA, GB đồ thị khoảng cách hai tài liệu • MCG (GA, GB) là đồ thị con chung lớn nhất giữa hai tài liệu • ..
Đồthịkhoảngcách: Một số bàn luận • Khoảng cách • Tính sau khi loại bỏ từ dừng ? • Lý do ? • Nên chăng tính khoảng cách giữ nguyên từ dừng. • Áp dụng tìm kiếm mẫu trong nhật ký sự kiện • Các hành động là “từ khóa”. • Xây dựng đồ thị khoảng cách • Mẫu tuần tự: Phân cụm • Mẫu có thứ tự: Phát hiện đồ thị con thường xuyên. • Áp dụng cho các bài toán xử lý văn bản • Tóm tắt văn bản: Biểu diễn câu, biểu diễn văn bản theo đồ thị khoảng cách, tính độ quan trọng, tương tự hai cầu … • Thay nút được chỉ số bằng chủ đề.. • Áp dụng cho phân lớp đa nhãn, đa thể hiện văn bản • Biểu diễn văn bản qua đồ thị khoảng cách • Áp dụng tính chất cục bộ của chủ đề
Áp dụng khai phá mẫu từ nhật ký sự kiện • Hai thách thức của KPQT • C2. Đối phó với nhật ký sự kiện phức tạp với đặc trưng đa dạng • C4. Đối phó với sai lệch khái niệm • ~ đối phó với nhật ký sự kiện quá lớn • Một số tài liệu nghiên cứu • [Aalst13] Wil M. P. van der Aalst (2013). A General Divide and Conquer Approach for Process Mining. FedCSIS 2013: 1-10. • [BA12a] R. P. Jagadeesh Chandra Bose, Wil M. P. van der Aalst (2012). Process diagnostics using trace alignment: Opportunities, issues, and challenges. Inf. Syst. 37(2): 117-141. • [BAZP11]c R. P. Jagadeesh Chandra Bose, Wil M.P. van der Aalst, Indre Zliobaite and Mykola Pechenizkiy (2011). Handling Concept Drift in Process Mining. CAiSE 2011: 391-405. • [Bose12] R. P. Jagadeesh Chandra Bose (2012). Process Mining in the Large: Preprocessing, Discovery, and Diagnostics. PhD Thesis, Eindhoven University of Technology, The Netherlands. [Manifesto12] Wil van der Aalst et al. (2012). Process Mining Manifesto, BPM 2011 Workshops (Part I, LNBIP 99), pp. 169–194.
Khai phá mẫu: Trừu tượng hóa sự kiện • Trừu tượng hóa sự kiện • Abstractions of Events • dữ liệu sự kiện nội tại vết quy trình quá cụ thể hoặc/và có nhiều mức trừu tượng • Xâu hành động cụ thể hành động gắn với quy trình hơn [Bose12] R. P. Jagadeesh Chandra Bose (2012). Process Mining in the Large: Preprocessing, Discovery, and Diagnostics. PhD Thesis, Eindhoven University of Technology, The Netherlands
Khai phá mẫu: Phân cụm vết • Phân cụm vết • Trace Clustering • Các vết có tính tương đồng [Bose12] R. P. Jagadeesh Chandra Bose (2012). Process Mining in the Large: Preprocessing, Discovery, and Diagnostics. PhD Thesis, Eindhoven University of Technology, The Netherlands
Khai phá mẫu: Tiến hóa quy trình • Tiến hóa quy trình • Concept Drift • Quy trình thay đổi theo thời gian • Các vòng đời quá trình kinh doanh khác nhau [Bose12] R. P. Jagadeesh Chandra Bose (2012). Process Mining in the Large: Preprocessing, Discovery, and Diagnostics. PhD Thesis, Eindhoven University of Technology, The Netherlands
Trừu tượng hóa quá trình kinh doanh [Smir11] Sergey Smirnov (2011). Business Process Model Abstraction.PhD Thesis, The University of Potsdam.
2. Khoảng cách Google chuẩn và ứng dụng • Các tài liệu liên quan • Rudi Cilibrasi, Paul M. B. Vitányi (2004). The Google Similarity Distance “Automatic Meaning Discovery Using Google”. CoRR abs/cs/0412098. • Rudi Cilibrasi, Paul M. B. Vitányi (2007). The Google Similarity Distance. IEEE Trans. Knowl. Data Eng. 19(3): 370-383. Có 1036 citation trong Google Scholar. • Paul M. B. Vitányi (2012). Information Distance: New Developments. CoRR abs/1201.1221. • Andrew R. Cohen, Paul M. B. Vitányi (2013). Normalized Google Distance of Multisets with Applications. CoRR abs/1308.3177. • Các tác giả • Paul M. B. Vitányi: DBLP có 76 bài tạp chí, 69 bài hội nghị, 69 bài thông báo, … http://www.informatik.uni-trier.de/~ley/pers/hd/v/Vit=aacute=nyi:Paul_M=_B=.html • Rudi Cilibrasi: 4 bài hội nghị, 6 bài hội nghị, 9 bài thông báo, . http://www.informatik.uni-trier.de/~ley/pers/hd/c/Cilibrasi:Rudi.html
Khoảng cách Google chuẩn • Lập luận • Đối tượng nhận được theo nghĩa đen các từ: tổ chức gene ACGT của chuột hoặc văn bản nội dung của truyện Chiến tranh và Hòa bình của Lev Tolxtoi. • Đối tượng nhận được theo tên gọi của nó: “cấu tạo gene ACGT của chuột” hoặc “văn bản CT&HB của Lev Tolxtoi”. đối tượng chỉ nhận biết bằng tên như “home” hoặc “red” khi mà chữ cái chưa nói điều gì. • Sử dụng tri thức miền để đo tương tự “gián tiếp”. Thường gặp, ví dụ như TAC: Hai thành phần (Track) của TAC 2014 (http://www.nist.gov/tac/) là Knowledge Base Population (KBP)vàBiomedical Summarization (BiomedSumm). • Khoảng cách thông tin chuẩn • Cho hai xâu x và y: với K(x), K(y), K(x,y) độ phức tạp Kolmogorov, độ dài bit của CT tính ngắn nhất sản ra xâu x, y., xy.. • E(x,y) thực sự là một khoảng cách: ba tính chất
Khoảng cách Google chuẩn • Lập luận • Đối tượng nhận được theo nghĩa đen các từ: tổ chức gene ACGT của chuột hoặc văn bản nội dung của truyện Chiến tranh và Hòa bình của Lev Tolxtoi. • Đối tượng nhận được theo tên gọi của nó: “cấu tạo gene ACGT của chuột” hoặc “văn bản CT&HB của Lev Tolxtoi”. đối tượng chỉ nhận biết bằng tên như “home” hoặc “red” khi mà chữ cái chưa nói điều gì. • Sử dụng tri thức miền để đo tương tự “gián tiếp”. Thường gặp, ví dụ như TAC: Hai thành phần (Track) của TAC 2014 (http://www.nist.gov/tac/) là Knowledge Base Population (KBP)vàBiomedical Summarization (BiomedSumm). • Khoảng cách thông tin chuẩn • Khoảng cách thông tin hai xâu x và y: với K(x), K(y), K(x,y) độ phức tạp Kolmogorov, độ dài bit của CT tính ngắn nhất sản ra xâu x, y., xy.. • E(x,y) thực sự là một khoảng cách: ba tính chất • Khoảng cách thông tin chuẩn:
Khoảng cách Google chuẩn • Khoảng cách nén chuẩn • Khoảng cách thông tin chuẩn là chưa tính toán được (uncomputable) . • Dùng chương trình nén dữ liệu có sẵn để “thay thế K”. • Cho bộ nén C: C(x) là độ dài nén của x • Khoảng cách nén chuẩn • Khoảng cách Google chuẩn • G(x), G(x,y) là “mã hóa Google” của x và (x,y) • x= {trang web chứa xâu x}; xy={trang web chứa cả 2 xâu} • Mã hóa Google
22 CÁM ƠN KT-SISLAB