350 likes | 517 Views
XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN. Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271. Giáo viên hướng dẫn: GVC. Cao Đăng Tân ThS. Đào Anh Tuấn. Nội dung. Tổng quan về luận văn . Tổng quan về thư rác .
E N D
XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn: GVC.Cao Đăng Tân ThS. Đào Anh Tuấn
Nội dung • Tổngquanvềluậnvăn. • Tổngquanvềthưrác. • Cáckỹthuậtquétthưrácsửdụngtronghệthốngxâydựng. • Hệthốngthửnghiệm. • Cácvấnđềđạtđược. • Hướngpháttriển.
Tổngquanvềluậnvăn • Mục đích chọn luận văn • Thư rác là một trong những thách thức lớn nhất hiện nay mà mỗi cá nhân, cơ quan, tổ chức, doanh nghiệp phải đối phó. • Đa số các phần mềm chống thư rác là dựa trên header của thư hoặc địa chỉ từ người gửi. • Khi dùng những kỹ thuật phức tạp để tăng độ chính xác thì tốc độ quét thư rác sẽ chậm, do đó luận văn sẽ sử dụng môi trường phân tán để tăng hiệu năng.
Tổngquanvềluậnvăn • Các kết quả đạt được • Áp dụng và cải tiến kỹ thuật thống kê và so khớp sử dụng trong luận văn. • Xây dựng bộ lọc thư rác với độ chính xác trong thử nghiệm xấp xỉ 94%. • Xây dựng thử nghiệm thành công hệ thống quét thư rác trên môi trường phân tán.
Tổngquanvềthưrác • Địnhnghĩathưrác: thư rác là thư điện tử không theo mong muốn của người nhận và trong số đó các thư điện tử quảng cáo, thương mại chiếm đa số
Tổngquanvềthưrác • Các đặc tính của thư rác: • Thư rác mang tính tương đối. • Tính bất biến trong một thư rác. • Header của thư rác có một số đặc điểm đặc biệt. • Giấu các địa chỉ nhận vào “Bcc:” thay vì để ở “To:” hoặc “Cc:”. • Tồn tại các dòng mã HTML không đúng quy tắc hoặc khoảng trắng tuần tự. ... • Nội dung của thư chứa các từ thường xuất hiện phổ biến trong thư rác (kiếm tiền, giàu nhanh, chọn nhanh,...). • Sự giống nhau ở kích thước/ loại tập tin/ tên tập tin attach thư rác ở các lần spam.
Cáckỹthuậtlọcthưrác • Blacklisting • Whitelisting • Heuristic filtering • Challenge/ Response • Throttling • Address obfuscation • Collaborative filtering
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê • Kỹ thuật so khớp
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê • Tổng quan • Là phương pháp sử dụng các thống kê và xác xuất để xác định một thông điệp có giống với thư rác hay không. • Chức năng cơ bản của bộ lọc thống kê: phân tích, học các đặc trưng • Khái niệm máy học trong phân loại thư điện tử (spam và nonspam). • Có 2 cách huấn luyện cho bộ lọc: • Huấn luyện từ kho có sẵn, sau đó việc huấn luyện tiếp tục theo thời gian hệ thống hoạt động. • Hệ thống chưa có dữ liệu, việc huấn luyện phải theo thời gian hệ thống hoạt động sau này. • Cho phép học lại các thư đã phân loại sai.
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê • Các thành phần
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê • Cơ sở toán học • Công thức tính xác xuất của một từ (token) - công thức Graham Với: • Ptoken: Xác xuất của một từ • SH (Spam hit): Số lần token xuất hiện trong thư rác • NSH (Nonspam hit): Số lần token xuất hiện trong thư hợp lệ • TS (Total Spam): Tổng số thư rác đã được học • TNS (Total Nonspam): Tổng số thư hợp lệ đã được học.
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê • Cơ sở toán học • Công thức chọn các token quan trọng nhất Dtoken = |0.5 - P| • Ưu tiên chọn token có D lớn hơn.
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê • Cơ sở toán học • Công thức tính xác xuất của một thông điệp - Công thức Paul Graham Dtoken = |0.5 - P| (0.0 <= P <= 1.0) Với: • P: Xác xuất chung của thông điệp • A,B,C,..N là xác xuất của các token • Xác định kết quả: • P = 0.5 : Giá trị trung lập • P > 0.5: Thông điệp là thư rác • P < 0.5: Thông điệp là thư hợp lệ.
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê • Đánh giá • Ưu điểm • Khả năng thích nghi (học) cao với sự tiến hóa của thư rác rất nhanh. • Thể hiện tính cá nhân hóa mạnh mẽ do mỗi người dùng có thể có một tập dữ liệu riêng. Chính điều này làm cho độ chính xác đối với từng người dùng tăng lên đáng kể. • Khuyết điểm • Phảimấtmộtkhoảngthờigianđầuhuấnluyệnchobộlọc.
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê • Cải tiến • Bỏ các tag HTML. • Bỏ các dấu chấm câu, các ký hiệu không có nghĩa. • Đối với tiếng Việt nên bỏ các hư từ (thì, là, mà..) để giảm nhiễu. • Bộ tách token có khả năng tách được các từ ghép trong tiếng Việt (Ví dụ: Tách thành từ “hợp tác” thay vì thành 2 từ “hợp” và “tác”. • Quét các tập tin đính kèm để trích văn bản nội dung cho bộ tách từ (word, excel, power point và một số tập tin pdf).
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê • Mô hình huấn luyện • Training Everything • Huấn luyện mọi thư điện tử khi nó đến • Tốn thời gian, tài nguyên quá mức cần thiết. • Training On Error • Huấn luyện bộ lọc chỉ khi xảy ra lỗi. • Tiết kiệm thời gian, tài nguyên. • Hệ thống thử nghiệm chọn chế độ “Training On Error”.
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật so khớp • Ý tưởng • Gọi PiPi+1…Pi+t-1 là một khối độ dài t của mẫu P và ký hiệu khối này là (t,i) • Lần lượt xét tất cả các khối độ dài t, t = 1,2,…,m và kiểm tra xem khối đó có xuất hiện trong S hay không
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật so khớp • Ý tưởng giải quyết • Gọi giá trị H tính theo công thức: với k là số khối độ dài t có xuất hiện trong chuỗi S • H sẽ đạt giá trị cực đại khi S = P, gọi giá trị cực đại này là M: • độ tương tự ngữ nghĩa của S so với P là tỷ số H và M: F = H/M
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật so khớp • Nhận xét • Nếu chuỗi so sánh S có sự khác biệt càng nhiều so với chuỗi mẫu P thì độ tương tự sẽ giảm rất nhiều (tiến nhiều về 0) • Ý tưởng cải tiến thuật toán đo độ tương tự gốc • Táchtừ ở cảchuỗimẫu P vàchuỗi so sánh S • T_P = {T1, T2,…,Tk} với k là số lượng từ được tách ra tự chuỗi P. • T_S = {T1, T2,…,Tl} với l là số lượng từ được tách ra tự chuỗi S. • Tính độ tương tự lớn nhất của từng từ trong P so với cả mảng từ của S, đặt độ tương tự này là fi (1 ≤ i ≤ k) • Tính trung bình cộng các fi ta được độ tương tự cần tính là F
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật so khớp • Thực nghiệm so sánh độ tương tự của thuật toán gốc và cải tiến • Thực nghiệm trên văn bản
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật so khớp • Thực nghiệm so sánh độ tương tự của thuật toán gốc và cải tiến
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật so khớp • Đánh giá việc cải tiến với thuật toán gốc • Ưu điểm • Tốc độ thực thi tăng. • Độ chính xác tăng. • Khuyết điểm • Vì thuật toán so khớp dùng trong hệ thống chú trọng vào hình thức nên về mặt ngữ nghĩa sẽ không được đảm bảo giữa hai văn bản so sánh.
Hệ thống thử nghiệm • Mô hình hệ thống
Hệ thống thử nghiệm • Mô hình tínhcánhânhóa
Hệ thống thử nghiệm • Quá trình kếthợpquétthưrác
Hệ thống thử nghiệm • Quá trình huấnluyệnchotrain@gfit.hcmuns.edu.vn
Hệ thống thử nghiệm • Quá trình huấnluyệnlạichoretrain@gfit.hcmuns.edu.vn
Hệ thống thử nghiệm • Kết quả thử nghiệm trên phân tán
Cácvấnđềđạtđược • Lý thuyết • Tìm hiểu được khá chi tiết về đặc điểm của thư rác và các kỹ thuật phát hiện thư rác đã có. • Mô tả khá đầy đủ về cơ sở lý thuyết của kỹ thuật quét thư rác thống kê và so khớp dùng trong hệ thống thử nghiệm.
Cácvấnđềđạtđược • Ứng dụng • Nhóm đã xây dựng thử nghiệm thành công hệ thống quét thư rác trên môi trường phân tán, ứng dụng kỹ thuật so khớp và kỹ thuật thống kê. • Kỹ thuật thống kê: bỏ đi các từ không quan trọng, quét thư rác bao gồm cả tập tin đính kèm. • Kỹ thuật so khớp: cải tiến thuật toán gốc giúp tăng thời gian so khớp văn bản. • Đưa ra các thực nghiệm minh họa độ chính xác trong từng kỹ thuật trên một máy. • Với hệ thống thực nghiệm mà nhóm xây dựng đã đạt được tính chính xác xấp xỉ 94% sau khi thực nghiệm.
Hướngpháttriển • Kết hợp hệ thống thực nghiệm mà nhóm xây dựng với các hệ thống quét thư rác khác (như Spam Assassin, Spam Fighter, …). • Cài đặt kho dữ liệu chung kết hợp với kho dữ liệu cá nhân. • Nâng khả năng lọc thư rác loại nội dung là hình ảnh, ký tự lạ, …. • Xây dựng hoặc cải tiến “front mail server” để tăng tốc độ chuyển tiếp mail vào hệ thống quét.
Cảm ơn đã lắng nghe! Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn: GVC. Cao Đăng Tân ThS. Đào Anh Tuấn