250 likes | 724 Views
BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG Đồ án tốt nghiệp Ngành Công nghệ thông tin Đề tài:. Giáo viên hướng dẫn: Th.S Nguyễn Thị Xuân Hương. Sinh viên thực hiện: Phạm Thị Thu Mã số SV: 10364 Lớp: CT 702.
E N D
BỘ GIÁO DỤC ĐÀO TẠOTRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNGĐồ án tốt nghiệp Ngành Công nghệ thông tinĐề tài: Giáo viên hướng dẫn: Th.S Nguyễn Thị Xuân Hương.Sinh viên thực hiện: Phạm Thị Thu Mã số SV: 10364 Lớp: CT 702 THUẬT TOÁN PHÂN CỤM DỮ LIỆU MỜ Hải Phòng, 8/2007
NỘI DUNG 1. Phân cụm dữ liệu1.1. Khái niệm chung1.2. Các kiểu dữ liệu và độ đo tương tự2. Lý thuyết tập mờ3. Một số thuật toán phân cụm -Phân cụm mờ3.1. Thuật toán k-means3.2. Thuật toán k-tâm3.3. Thuật toán FCM4. Chương trình ứng dụng
1. TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU1.1. Khái niệm chungPhân cụm dữ liệu (PCDL) là một kỹ thuật trong DATA MINING, nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong tập dữ liệu lớn, từ đó cung cấp thông tin, tri thức hữu ích cho việc ra quyết định.Ứng dụng: Phân cụm dữ liệu được ứng dụng vào rất nhiều lĩnh vực: kinh doanh, ngân hàng, hợp đồng bảo hiểm, y học, địa lý...
1.2. Các kiểu dữ liệu và độ đo tương tự Thuộc tính khoảng : Là thuộc tính có thể xác định thuộc tính trước cách thuộc tính sau một khoảng bao nhiêu.Thuộc tính định danh :Có miền giá trị là rời rạc không phân biệt thứ tự Với m là số thuộc tính đối sánh tương ứng trùng nhau, và p là tổng số các thuộc tính.
Thuộc tính có thứ tự : Là thuộc tính định danh, có thêm tính thứ tự Mi là số các giá trị của thuộc tính thứ tự ri. Chuyển chúng về miền giá trị [0,1] :Sau đó sử dụng công thức tính độ phi tương tự của thuộc tính khoảng đối với các giá trịThuộc tính tỉ lệ :là thuộc tính khoảng, được xác định một cách tương đối so với một điểm mốc nào đó. wi là trọng số tương ứng của thuộc tính i, khoảng cách giữa x,y là:
2. LÝ THUYẾT TẬP MỜ2.1. Tập mờĐịnh nghĩa A là tập mờ trên không gian nền X nếu A được xác định bởi hàm: µA : X →[ 0, 1 ] µAlà hàm thuộc và µA(x) là độ thuộc của x vào tập mờ A Ký hiệu A = { ( µA(x), x ): x Є X }.
2.2. Số mờ Tập mờ M trên tập số thực R là một số thực mờ nếu : a. M chuẩn hóa tức có điểm x’ sao cho µM (x’)=1 b. Ứng với mỗi α Є R1 tập mức { x: µM (x) ≥ α } là đoạn đóng trên R12.3. Quan hệ mờ Không gian nền : X,Y. R là một quan hệ mờ trên X x Y nếu R là một tập mờ trên X x Y tức là có một hàm thuộc: µR :X x Y [0,1] ở đây µR(x,y)= R(x,y) là độ thuộc (membership degree) của x, y vào quan hệ R
3. MỘT SỐ THUẬT TOÁN PHÂN CỤM - PHÂN CỤM MỜ3.1. Thuật toán k-meansTính chất:* Chỉ áp dụng cho dữ liệu số.* Phân cụm với dữ liệu lớn.* Chỉ có thể phát hiện ra cụm có dạng lồi. Tối thiểu hàm tiêu chuẩn: D là khoảng cách giữa 2 đối tượng. mi là trọng tâm của các cụm ci
Các bước thực hiện:InPut :Số cụm k, các trọng tâm cụm {mj} kj=1 ;OutPut : Các cụm Ci ( ) B1: Khởi tạo :Chọn k trọng tâm {mj} kj=1 ban đầu trong không gian RdB2 : Tính toán khoảng cách :Với mọi Xi (1 ≤ i ≤ n), tính toán khoảng cách của nó tới mỗi trọng tâm mj (j =1, k). Sau đó tìm trọng tâm gần nhất đối với mỗi điểm.B3 : Cập nhật lại trọng tâm : Với mỗi j=1, k , cập nhật trọng tâm cụm mj bằng cách xác định trung bình cộng của các vectơ đối tượng dữ liệu.B4 : Điều kiện dừngLặp B2 và B3 cho đến khi các trọng tâm của cụm không thay đổi.
3.2. Thuật toán k-tâmx = (x1,..., xn) và y = (y1,..., yn) là hai đối tương dữ liệu hỗn hợp trên D, khoảng cách d(x, y) được tính bởi công thức: • Nếu Aj là thuộc tính số thì dj(x,y)= (1) • ii) Nếu Aj là thuộc tính thứ tự và DOM(Aj) = với Khi đó: dj(x,y)= │fj(x)- fj(y) │. (2) với f (xi)= (i -1)/(k -1) • iii) Nếu Aj là dữ liệu định danh thì dj(x,y) = (3)
Proceduce k-tâmBegin Chọn các trọng số , các hàm fj, xác định k. Chọn k phần tử ban đầu của D làm tâm các cụm Xếp mỗi x Є D vào cụm Cj mà nó gần tâm nhất; For j =1,...,k do ;Repeat Phân bố lại cụm theo tâm mới// như k-mean; Cập nhật lại tâm cho các cụm // nhờ tính modeUntil các cụm không đổi; Xác định các cụmEnd
3.2.Thuật toán FCM(Fuzzy c-means)FCM chia phân tập dữ liệu ban đầu thành c cụm mờ, trong đó mỗi đối tượng dữ liệu thuộc về các cụm được xác định bởi một hệ số là độ phụ thuộc U ikЄ [0, 1]. Hệ số U ik này để chỉ quan hệ giữa các đối tượng với cụm dữ liệu, hay còn gọi là mức độ phụ thuộc của đối tượng dữ liệu thứ i vào trung tâm của cụm thứ k.
Tổng tất cả các phân hoạch mờ có c cụm dữ liệu của N đối tượng trong không gian D chiều :Tối thiểu hóa hàm tiêu chuẩn : V= [v1, v2, …, vc] là ma trận mẫu biểu diễn các giá trị đối tượng tâm của cụm. A là ma trận hữu hạn dương. m là trọng số mũ trong [1,∞).
Định lý Hàm tiêu chuẩn đạt giá trị tối thiểu khi và chỉ khi : (1) (2)
Input : Số cụm c và tham số mũ m cho hàm tiêu chuẩn JOutPut: c cụm dữ liệu sao cho hàm tiêu chuẩn đạt giá trị tối thiểu.1. Nhập giá trị cho hai tham số c (1<c<N), m và khởi tạo ma trận mẫu 2.Repeat2.1 j=j+1;2.2 Tính ma trận phân hoạch mờ Uj theo công thức (1) 2.3 Cập nhật các trọng tâm V(j) = [v1(j), v2(j), …, vc(j) ] dựa vào (2) và ma trận Uj;3. Untill (|| U(j+1) – U (j) ||F ≤ );4. Trình diễn các cụm kết quả.End.Trong đó:
Đánh giá: * Thuật toán c-means mờ FCM đã được áp dụng thành công trong giải quyết một số lớn các bài toán PCDL như trong nhận dạng mẫu, xử lý ảnh, y học, … * Nhược điểm : Nhạy cảm với các nhiễu và phần tử ngoại lai trong dữ liệu .
4. BÀI TOÁN ỨNG DỤNGInput: - Tập dữ liệu các hồ sơ bệnh án của một loại bệnh. - Các triệu chứng của bệnh án là tập các dữ liệu hỗn hợp. - C cụm, trọng số các triệu chứng Output: - Đưa ra k nhóm bệnh án để hỗ trợ việc điều trị. - Áp dụng thuật toán phân cụm mờ FCM, mở rộng cho dữ liệu hỗn hợp để đưa ra kết quả
KẾT LUẬN - Em đã tìm hiểu và trình bày những vấn đề cơ bản về phân cụm dữ liệu - Một số thuật toán phân cụm dữ liệu điển hình - Tìm hiểu về tập mờ và thuật toán PCDL mờ - Do thời gian và trình độ có hạn, đồ án không tránh khỏi hạn chế và thiếu sót. Mong nhận được sự chỉ bảo của thầy cô, và những ý kiến đóng góp của quý vị, những ai quan tâm đến lĩnh vực này.EM XIN CHÂN THÀNH CẢM ƠN !