310 likes | 497 Views
So sánh lược đồ và khai phá tri thức Namecard. H ướng tiếp cận dựa trên kho dữ liệu tri thức và so sánh ngữ nghĩa lược đồ Hướng dẫn: ThS Lê Đức Trung. Schema Matching và khai phá tri thức bài toán Namecard. I Giới thiệu bài toán so sánh lược đồ, ứng dụng
E N D
So sánh lược đồvà khai phá tri thức Namecard Hướng tiếp cận dựa trên kho dữ liệu tri thức và so sánh ngữ nghĩa lược đồ Hướng dẫn: ThS Lê Đức Trung
Schema Matchingvà khai phá tri thức bài toán Namecard • I Giới thiệu bài toán so sánh lược đồ, ứng dụng • II Các hệ thống, hướng tiếp cận hiện tại • III So sánh lược đồ dựa vào kho dữ liệu tri thức • IV So sánh lược đồ dựa vào ngữ nghĩa • V Bài toán khai phá, quản lý Namecard
So sánh lược đồvà khai phá tri thức Namecard • Bái toán so sánh lược đồ • Vai trò • Ứng dụng
So sánh lược đồvà khai phá tri thức NamecardCác hướng tiếp cận, hệ thống hiện tại • Các kỹ thuật so sánh lược đồ • Kiến trúc của giải pháp so sánh lược đồ • Các thể loại so sánh ngữ nghĩa • Các hướng nghiên cứu mở • Wordnet
So sánh lược đồvà khai phá tri thức NamecardCác kỹ thuật so sánh lược đồ • Giải pháp hướng tập luật : dựa trên tên phần tử, kiểu dữ liệu, cấu trúc. • Lợi thế: nhanh, đơn giản • Nhược điểm: ngữ nghĩa, so sánh thể hiện dữ liệu • VD: DIKE, MOMIS, CUPID • Kỹ thuật học máy: tận dụng kết quả so sánh trước đó, huấn luyện dữ liệu • LSD, iMAP
So sánh lược đồvà khai phá tri thức NamecardKiến trúc của giải pháp • Hệ thống khai thác nhiều module matcher. Sử dụng cho từng loại dữ liệu • Kho dữ liệu ngoài • Các ràng buộc lĩnh vực
So sánh lược đồvà khai phá tri thức NamecardDựa trên kho dữ liệu tri thức
So sánh lược đồvà khai phá tri thức NamecardDựa trên kho dữ liệu tri thức • Tổ chức kho dữ liệu tri thức • Phương pháp làm tăng • So sánh lược đồ dựa trên kho dữ liệu tri thức • Kết quả thử nghiệm
So sánh lược đồvà khai phá tri thức NamecardDựa trên kho dữ liệu tri thức • Mô hình corpus • Corpus: tập các lược đồ và các mappings giữa các cặp lược đồ • Learning schema statistic: lượng giá các phép thống kê, xác suất của các elements và các mối quan hệ trong 1 lĩnh vực.
So sánh lược đồvà khai phá tri thức NamecardDựa trên kho dữ liệu tri thức • Phưong pháp làm tăng lên • Mô hình hoá các element trong corpus. Is = • Huấn luyện dữ liệu: huấn luyện 1 learner bởi các ví dụ khẳng định & ví dụ phủ định. • Các leanrner: Base learner (Name Learner, Text Learner, Data Instance Learner, Context Learner, Meta Learner) • Mô hình làm tăng các thành phần • So sánh dựa trên mô hình làm tăng lên
So sánh lược đồvà khai phá tri thức NamecardDựa trên kho dữ liệu tri thức • Lợi thế của mô hình corpus và cluster • Tính toán xác suất xuất hiện của từng element trong corpus và nhóm (cluster) các element có cùng concept. • Thuật toán clustering: với mỗi element s, kết hợp 2 element có conceptgiống với s nhất, sử dụng các leanrner. • Constraint-based Match generations
So sánh lược đồvà khai phá tri thức NamecardSo sánh lược đồ dựa trên ngữ nghĩa
So sánh lược đồvà khai phá tri thức NamecardSo sánh lược đồ dựa trên ngữ nghĩa • So sánh ngữ nghĩa • Thuật toán so sánh cây • Thuật toán so sánh các node • Thuật toán so sánh ngữ nghĩa cải tiến • So sánh ngữ nghĩa với các thuộc tính • Đánh giá
So sánh lược đồvà khai phá tri thức NamecardSo sánh lược đồ dựa trên ngữ nghĩa • Hướng tiếp cận: với mỗi cặp element của 2 lược đồ, đưa ra kết quả match là một quan hệ logic hơn là một hệ số [0,1] • Các loại quan hệ: equivalence (tương đương), more-general (tổng quát hơn), less-general (chi tiết hơn), không liên quan (disjoint) • Mỗi thành phẩn mapping là một bộ gồm 4 phần tử:
So sánh lược đồvà khai phá tri thức NamecardSo sánh lược đồ dựa trên ngữ nghĩa • Thuật toán so sánh cây • Khái niệm: Concept of label, concept of node • Bước 1: Tính toán concept của các nhãn • Bước 2: Tính toán concept của các node • Bước 3: Với mỗi cặp nhãn của 2 schema, tính toán mối quan hệ ngữ nghĩa giữa chúng • Bước 4: Với mỗi cặp node, tính toán mỗi quan hệ ngữ nghĩa giữa chúng. Thuật toán node matching
So sánh lược đồvà khai phá tri thức NamecardSo sánh lược đồ dựa trên ngữ nghĩa • Bước 1: • Bước 2
So sánh lược đồvà khai phá tri thức NamecardSo sánh lược đồ dựa trên ngữ nghĩa • Bước 3: Tính toán mối quan hệ giữa concept các nhãn (sử dụng các matchers)
So sánh lược đồvà khai phá tri thức NamecardSo sánh lược đồ dựa trên ngữ nghĩa • So sánh node • Công thức axioms: • Thuật giải Robinson • Ví dụ
So sánh lược đồvà khai phá tri thức Namecard • Bài toán Namecard, yêu cầu, ràng buộc • Các vấn đề nhập nhằng, thách thức • Hướng tiếp cận: so sánh lược đồ, khai phá tri thức • Mô hình tổng thể • Mô hình so sánh • Mô hình machine learning • Mô hình semantic schema matching • Kết quả
So sánh lược đồvà khai phá tri thức Namecard • Bài toán Namecard • Yêu cầu • Ràng buộc
So sánh lược đồvà khai phá tri thức Namecard • Các vấn đề nhập nhằng • Sự không thống nhất tên. semantic trong các namecard khác nhau: Computer of division, Division of computer • Xác định tự động phòng ban cha, phòng ban con • Xây dựng sơ đồ tổ chức 1 cách tự động
So sánh lược đồvà khai phá tri thức Namecard • Hướng tiếp cận: OWL, so sánh lược đồ • OWL: mềm dẻo, tính mở rộng, biểu diễn quan hệ linh hoạt • So sánh lược đồ : 2 phase chính • Phase học máy • Phase so sánh: so sánh ngữ nghĩa
So sánh lược đồvà khai phá tri thức Namecard • Mô hình tổng thể
So sánh lược đồvà khai phá tri thức Namecard • Mô hình Pha làm tăng Pha so sánh
So sánh lược đồvà khai phá tri thức NamecardPha học máy và kho dữ liệu tri thức • Lưu trữ corpus theo cấu trúc riêng: OWL • Các base learner: Name learner, text learner • Wordnet và thư viện JWNL • Dựa trên sự can thiệp của người dùng qua đó ghi nhớ các concept có ý nghĩa tương đương • Các corpus: domain, company • Kết hợp phương pháp không gian vector, xác suất
So sánh lược đồvà khai phá tri thức NamecardSo sánh lược đồ dựa trên ngữ nghĩa • Dữ liệu wordnet, OWL • Thuật giải semantic matching, kết hợp với việc tính xác suất theo từng loại matching: từ đồng nghĩa, từ gốc-từ con… • Kết hợp mô hình không gian vector • Các giải thuật tree matching, node matching để tìm ra phòng ban cha-con, nhập nhằng tên phòng
So sánh lược đồvà khai phá tri thức NamecardSo sánh lược đồ dựa trên ngữ nghĩa