1 / 36

Khai Thác Dữ Liệu

Khai Thác Dữ Liệu. GV: Nguyễn Kim Long. Giới thiệu môn học. Kết quả đạt được. Trình bày được các khái niệm cơ bản trong khai thác dữ liệu. Các kỹ thuật, công nghệ, phương pháp áp dụng trong khai thác dữ liệu. Triển khai phương pháp khai thác dữ liệu đối với một lĩnh vực cụ thể .

nicola
Download Presentation

Khai Thác Dữ Liệu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Khai Thác Dữ Liệu GV: Nguyễn Kim Long

  2. Giới thiệu môn học

  3. Kết quả đạt được • Trình bày được các khái niệm cơ bản trong khai thác dữ liệu. • Các kỹ thuật, công nghệ, phương pháp áp dụng trong khai thác dữ liệu. • Triển khai phương pháp khai thác dữ liệu đối với một lĩnh vực cụ thể. • Nâng cao kỹ năng tham khảo tài liệu về lĩnh vực khai thác dữ liệu.

  4. Đánh giá kết quả • Điểm tích cực(30%) • Thuyết trình lý thuyết (1/2) • Bài tập hàng tuần (1/2) • Đồ án(30%) • Báo cáo tuần 9 (40%), tuần 13-14 (60%) • Thi cuối kỳ(40%) • Thi vấn đáp theo lịch phòng đào tạo

  5. Tài liệu • Sách principle of DataMining • Sách DataMining Concepts and Techniques • Slides • DataMiningMSSQL2008 • google

  6. Môi trường học và thực hành • Lý thuyết: trên lớp CS2 • Thực hành: phòng máy CS2 • Bài tập: tùy chọn

  7. Nội dung môn học (Lý thuyết) • 1-2. Tổng quan • 3. Xác xuất và entropy • 4. Tiền xử lý dữ liệu • 5. Kho dữ liệu và OLAP • 6-7. Luật kết hợp • 8-9. Phân nhóm • 10-11. Phân cụm. • 12-13. Web Mining, Text Mining • 14. Ôn tập

  8. Nội dung môn học (Thực hành) • 1-3. Làm quen công cụ mining • 4-8. MSSQL 2008 • 9-13. Text Mining • 14. Ôn tập

  9. Bài giảng 1. Giới thiệu

  10. Nội dung 1. Lịch sử KTDL. 2. Tại sao khai thác dữ liệu? 3. Khái thác dữ liệu là gì? 4. Các bước KTDL. 5. Khai thác trên kiểu dữ liệu gì? 6. Chức năng KTDL 7. Các kỹ thuật (thuật tóan) KTDL 8. Phân lọai hệ thống KTDL 9. Tóm tắt

  11. Lịch Sử • 1960s: HT xử lý tập tin đơn giản -> HT CSDL • 1970s: CSDL quan hệ, mô hình hóa, câu truy vấn,... • 1980s: lý thuyết mô hình hướng đối tượng, CSDL phân tán, ... => sự bùng nổ kho dữ liệu khổng lồ => „giàu dữ liệu, nghèo thông tin”

  12. Tại sao KTDL?

  13. KTDL là gì?

  14. Các khái niệm tương đương • khai thác tri thức • Knowledge Discovery form Data (KDD) • knowledge mining from data • knowledge extraction • data/pattern analysis • data archaeology (khai quật dữ liệu) • data dredging (nạo vét dữ liệu)

  15. Phân biệt KTDL • Tra cứu số điện thoại trong danh bạ. • Tìm xem trong 1 khu vực nhất định, cái tên nào phổ biến nhất. • Sử dụng Google để tìm kiếm thông tin về “Amazon” • Gom nhóm những tài liệu do Google trả về dựa trên ngữ cảnh (Rừng Amazon, trang web Amazon,...)

  16. Quá trình khám phá tri thức

  17. Các bước KTDL 1. Làm sạch dữ liệu – Data cleaning 2. Tích hợp dữ liệu Data integration 3. Lựa chọn dữ liệu Data selection 4. Chuyển hóa dữ liệu Data transformation 5. Khai thác dữ liệu Data mining 6. Đánh giá mẫu Pattern evaluation 7. Biểu diễn tri thức Knowledge representation

  18. Kiểu dữ liệu • relational database (cơ sở dữ liệu quan hệ) • data warehouse (Kho dữ liệu) • Cơ sở dữ liệu giao dịch • Dữ liệu cao cấp, hệ thống thông tin và ứng dụng cao cấp • Cơ sở dữ liệu quan hệ đối tượng • Cơ sở dữ liệu thời gian, Cơ sở dữ liệu khoảng thời gian, và Cơ sở dữ liệu chuỗi thời gian • Cơ sở dữ liệu không gian và cơ sở dữ liệu không gian thời gian • Cơ sở dữ liệu văn bản và cơ sở dữ liệu đa truyền thông • Cơ sở dữ liệu hỗn tạp và Cơ sở dữ liệu kế thừa

  19. relational database Table Attribute(column/field) Record (row/tuple) ER SQL (select, join, sum, min, max, avg) => nơi lưu trữ nhiều thông tin nhất hiện nay.

  20. Data warehouse • Kho dữ liệu: • Def: Là nơi lưu trữ thông tin tập hợp từ nhiều nguồn khác nhau • Dạng lưu trữ: Schema (giản đồ), khối đa chiều • Các bước xây dựng kho dữ liệu: • Làm sạch dữ liệu • Tích hợp dữ liệu • Chuyển hóa dữ liệu • Nạp dữ liệu • Làm tươi dữ liệu (refresh)

  21. Text database • Các dạng thường gặp: • Word, excel, pp, txt • Website, HTML/XML • Từ điển, thư viện • ... • Mục đích: • Mô tả chung • Từ khóa • Phân lọai • ...

  22. Chức năng KTDL • Nhiệm vụ • Mô tả (descriptive) • Dự đoán (predictive) • Phân loại (Classification) - P • Phân nhóm (Clustering) - D • Kết hợp (Association) - D • Hồi quy (Regression) - P • Phân tích trình tự (Sequence Analysis) - D • Phân tích độ lệch (Deviation Analysis) - P

  23. Classification (P)1/6 Sử dụng 1 tập các records có sẵn, mỗi record có chứa nhiều thuộc tính, trong đó có 1 thuộc tính là class.

  24. Clustering (D)2/6 • Cho 1 tập các điểm dữ liệu (data points) với các thuộc tính và 1 đơn vị tương đương (similarity measure), tìm các nhóm sao cho: • Dữ liệu trong cùng 1 nhóm (cluster) thì giống nhau hơn nhóm khác. • Dữ liệu trong các nhóm khác nhau thì ít giống nhau hơn.

  25. Association (D)3/6 Cho trước 1 nhóm records có chứa một số các items từ 1 bộ nhất định. Thiết lập các luật phụ thuộc để dự đoán sự xuất hiện của 1 số item dựa trên những item khác.

  26. Regression (P)4/6 • Dự đoán giá trị của 1 thông số được cho liên tục, dựa trên giá trị của những thông số khác. • (Giả sử cho trước 1 mô hình phụ thuộc tuyến tính hay phi tuyến tính) • Áp dụng nhiều trong lĩnh vực thống kê, mạng lưới thần kinh.

  27. Sequence Analysis (D)5/6 • Cho trước 1 tập các đối tượng, trong đó mỗi đối tượng có riêng 1 chuỗi các sự kiện. Cần tìm các quy luật dự đoán sự phụ thuộc tuần tự giữa các sự kiện. • Các quy luật được lập nên bằng cách đầu tiên tìm ra các kiểu mẫu. Các sự kiện xảy ra trong các mẫu này bị giới hạn về mặt thời gian.

  28. Deviation Analysis (P)6/6 • Nhận ra những thay đổi khác biệt so với hành vi bình thường. • Ứng dụng: • Phát hiện gian lận credeit card. • Phát hiện xâm nhập network.

  29. Các kỹ thuật (thuật tóan)KTDL • Lựa chọn thuộc tính: • Thuật tóan RELIEF, FOCUS, LVF, EBR, SCRAP, LVW, Neuralnet, Genetic, ... • Luật kết hợp: • Thuật tóan Apriori, AprioriTid, AprioriHybrid, FP-tree, PHP, PCY, PCY nhiều chặng, cây quyết định (ID3, các mở rộng của C4.5) • Phân lớp: • Cây quyết định, mạng bayes, mạng neural, SVM,...

  30. Phân lọai hệ thống KTDL • Phân lọai theo cơ sở dữ liệu được khai thác • Phân lọai theo tri thức khai thác • Phân lọai theo kỹ thuật KTDL • Phân lọai theo môi trường ứng dụng

  31. Theo CSDL(1/4) Hệ thống khai thác CSDL quan hệ Hệ thống khai thác CSDL giao dịch Hệ thống khai thác CSDL quan hệ đối tượng Hệ thống khai thác kho dữ liệu Hệ thống khai thác CSDL không gian, thời gian Hệ thống khai thác dữ liệu văn bản, đa truyền thông Hệ thống khai thác dữ liệu mạng tòan cần

  32. Theo tri thức (2/4) Hệ thống mô tả và phân biệt dữ liệu Hệ thồng khai thác kết hợp và tương quan dữ liệu Hệ thống phân lớp và dự đóan dữ liệu Hệ thống gom nhóm dữ liệu HT phân tích dữ liệu ngọai lệ và tiến hóa HT khai thác tri thức phổ biến HT khai thác tri thức thô HT khai thác tri thức đa cấp độ

  33. Theo kỹ thuật (3/4) HT khai thác dữ liệu tự động HT khai thác dữ liệu có tương tác HT khai thác dữ liệu theo truy vấn HT sử dụng kỹ thuật máy học, thống kê, mô phỏng, nhận dạng mẫu.

  34. Theo môi trường ứng dụng (4/4) HT khai thác dữ liệu tài chính kế tóan HT khai thác dự liệu viễn thông HT khai thác dự liệudi truyền học HT khai thác dự liệu chứng khóan HT khai thác dự liệu giáo dục

  35. Tổng kết • Các bước khai thác dữ liệu? Các bước thực hiện một bài tóan khai thác dữ liệu? • Nội dung thuyết trình. • Chủ đề 1 thi cuối kỳ: - tổng quan khai thác dữ liệu.

  36. Q&A?

More Related