130 likes | 284 Views
BÀI GIẢNG KHAI PHÁ QUAN ĐIỂM VÀ KHAI PHÁ PHƯƠNG TIỆN XÃ HỘI CHƯƠNG 3. PHÂN LỚP TÀI LiỆU VÀ CÂU QUAN ĐiỂM. PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI. Nội dung. Phân lớp tài liệu quan điểm Phân lớp câu quan điểm. 1. Phân lớp tài liệu quan điểm.
E N D
BÀI GIẢNG KHAI PHÁ QUAN ĐIỂM VÀ KHAI PHÁ PHƯƠNG TIỆN XÃ HỘICHƯƠNG 3. PHÂN LỚP TÀI LiỆU VÀ CÂU QUAN ĐiỂM PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI
Nội dung Phân lớp tài liệu quan điểm Phân lớp câu quan điểm
1. Phân lớp tài liệu quan điểm • Bài toán • Cho d tài liệu đánh giá e, hãy xác định đánh giá chung của h đối với e: (_, CHUNG, s, _, _): ngầm định thực thể e, chủ quan điểm h và thời gian t đã biết hoặc không liên quan. • CHUNG hoàn toàn xác định: d s, s {tích cực, tiêu cực} hoặc s [i1..i2], chẳng hạn, s [1..5] • phân lớp chủ đề: từ quan điểm rất quan trọng (hơn từ chủ đề trong phân lớp chủ đề). • Giả định • Tài liệu d (ví dụ, một đánh giá một sản phẩm) thể hiện quan điểm về e duy nhất và chứa đánh giá e của một h duy nhất. • Giả định này có tính thực tế khi đánh giá sản phẩm thường của 1 người đối với 1 SP/ DV. Có thể có quan điểm so sánh • Tách tài liệu cho từng SP/DV: đánh giá khác nhau với các SP/DV khác nhau.
1.1. Học máy giám sát • Đặt vấn đề • Phổ biến: d s, s {tích cực, tiêu cực}/{tích cực, tiêu cực, trung tính}/s [1..5] • Từ quan điểm là rất quan trọng • Giải pháp • Trích chọn đặc trưng: (i) từ và tần số xuất hiện; (ii) phân loại từ (POS: The part-of-speech): Xem bảng sau; (iii) từ quan điểm (có thể có phủ định); (iv) cụm phụ thuộc cú pháp • Mọi phương pháp phân lớp đều có thể áp dụng: Phân lớp Bayes, SVM… và kết hợp giữa chúng • Nhắc qua về học máy giám sát
Penn TreeBank cho tiếng Anh • Penn Treebank POS tags
Một mô hình dự báo chứng khoán • Đặt vấn đề • Trạng thái cảm xúc trên mạng XH chứng khoán • Kết hợp thông tin từ Yahoo! Finance. • Từ t-3..t-1 dự báo t cho 4 mã chứng khoán công nghệ • Giải pháp • Mô hình hai giai đoạn: Tiền xử lý + Học máy Tien Thanh Vu, Shu Chang, Quang Thuy Ha and Nigel Collier (2012). An Experiment in Integrating Sentiment Features for Tech Stock Prediction in Twitter, IEEASMD 2012: 23-38, Mumbai, India, December 9, 2012 http://wing.comp.nus.edu.sg/~antho/W/W12/W12-5503.pdf
Nội dung mô hình • Tiền xử lý • Tập dữ liệu mẫu: khoảng 3 triệu Twests (tương ứng 41 ngày) • Lựa chọn dữ liệu: từ khóa mỗi mã chứng khoán • Chuẩn hóa dữ liệu • Xóa bỏ nhiễu • AAPL (18,317), GOOG (28,435), AMZN (35,324), MSFT (4,023). • Học máy • Cụm cảm xúc • Trích xuất đặc trưng cảm xúc tích cực/tiêu cực: biến đổi ngày • Trích xuất các đặc trưng Bullish (tăng) so với Bearish (giảm) • Mô hình dự báo t từ t-3 tới t-1 • Đánh giá thực nghiệm
1.2. Học máy không giám sát • Đặt vấn đề • Từ quan điểm có vai trò cốt lõi trong đánh giá • Các mẫu cú pháp cố định biểu diễn quan điểm • Phát hiện các mẫu đó • Một thuật toán • Cho: 1 tài liệu d và 1 bảng mẫu cú pháp T • Hãy: Xác định quan điểm s trong d dựa vào bảng T • Nội dung: B1. Hai từ liên tiếp được chiết xuất nếu thẻ POS của chúng phù hợp với mẫu bất kỳ trong bảng T. Ví dụ, mẫu 2 trong bảng T nói rằng “hai từ được trích xuất nếu (i) từ 1: trạng từ, (ii) từ 2: tính từ; (iii) từ kế tiếp: không là danh từ. Ví dụ, “This piano produces beautiful sounds” (Đàn piano này phát ra âm thanh đẹp) thì “beautiful sounds” đáp ứng mấu 1 <JJ> <RB>|<RBR>|<RBS> • Ví dụ, “unpredictable”(không thể đoán trước) <JJ> trong “tai lái không thể đoán trước” cho một quan điểm tiêu cực.
Bảng mẫu và thuật toán • Một thuật toán • B2. Tính định hướng quan điểm của các cụm được chiết xuất dựa trên độ đo thông tin tương quan (PMI): • Xác suất xuất hiện đồng thời, xác suất xuất hiện 1 từ • Tính giá trị quan điểm của một cụm từ phrase: • B3. s= SO trung bình của mọi cụm cú pháp. Kết luận theo s. Turney, Peter D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews. in Proceedings of Annual Meeting of the Association for Computational Linguistics (ACL-2002).
2. Phân lớp câu quan điểm • Định nghĩa bài toán • Input: Cho một câu x • Output: Xác định x biểu diễn một quan điểm tích cực, tiêu cực hoặc trung tính • x {tích cực, tiêu cực, trung tính} ({1, -1, 0} • Không sử dụng bộ 5 quan điểm (chương 2) • Phân lớp ba nhãn hoặc phân lớp hai nhãn: x {quan điểm, không quan điểm} hoặc x {chủ quan, khách quan}
2.1. Phân lớp câu chủ quan • Bài toán • Input: Cho câu x • Output: Xác định x là chủ quan/khách quan • x {chủ quan, khách quan} • Câu khách quan: hiện tượng thực tiễn, câu chủ quan: quan điểm • Sơ bộ phương pháp • Hầu hết là học giám sát, có thể bán gám sát • Khó khăn là xây dựng các mẫu cú pháp. Tồn tại một số mấu tiếng Anh.
2.2. Phân lớp quan điểm mức câu • Bài toán • Input: Câu chủ quan x • Output: quan điểm tích cực/tiêu cực từ x • Giả thiết • Một câu biểu diễn một quan điểm đơn từ một người chủ quan điểm duy nhất • Phương pháp • Tồn tại nhiều phương pháp • Tương tự như Turney, Peter D. (2002). • Dựa trên từ vị • Dựa trên thuật toán mincut..
2.3. Câu điều kiện và câu châm biếm • Câu điều kiện • Thường gồm hai thành phần: Điều kiện và kết quả • Câu không có tình cảm. “Nếu Nokia của bạn không tốt thì hãy mua Samsung” không phải là đánh giá Nokia không tốt • Xác định câu điều kiện chứa quan điểm • Vấn đề tương tự với câu nghi vấn • Câu châm biếm • Câu châm biếm: ít đánh giá sản phẩm, nhiều trong thảo luận. • Phân biệt câu châm biếm với tích cực, tiêu cực: rất khó khăn