140 likes | 341 Views
Sự cần thiết khai phá dữ liệu. Sự cần thiết khai phá dữ liệu. Dữ liệu chứa rất nhiều thông tin giá trị, có lợi cho quá trình ra quyết định. Không thể phân tích dữ liệu bằng tay Con người cần tuần lễ để khám phá thông tin có ít. Phần lớn dữ liệu chưa được phân tích.
E N D
Sự cần thiết khai phá dữ liệu • Dữ liệu chứa rất nhiều thông tin giá trị, có lợi cho quá trình ra quyết định. • Không thể phân tích dữ liệu bằng tay • Con người cần tuần lễ để khám phá thông tin có ít. • Phần lớn dữ liệu chưa được phân tích. • Khai thác dữ liệu ra đời “Giàu thông tin- nghèo tri thức”
Giớithiệu • Khai thác dữ liệu là quá trình không tầm thường của việc xác định các mẫu tiềm ản có tính hợp lệ, mới lạ, có ích và cóthể hiểu được tối đa trong CSDL” – U.Fayyad, …(1996) • Mẫu tiềm ẩn: Là mối quan hệ trong dữ liệu • Những người mua quần tây thì mua thêm áo sơmi • Đàn ông mua tã lót cho em bé thường mua thêm bia
Knowledge Discovery in Database • KDD là quá trình rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong khối dữ liệu lớn • Dữ liệu lớn -> Giải thuật khai thác dữ liệu -> Rút ra tri thức và sử dụng tri thức
Qui trìnhkhái phá tri thức-KDD DM là 1 bướcquantrongtrong qui trình KDD Knowledge 5 Pattern Evaluation 4 Data mining Task relevant data 3 selection Data warehouse 2 Data cleaning 1 Data integration
Mụcđích KTDL Data Mining Descriptive Predictive Classification Regression Sumarization Clustering Prediction Time series analysis Association Rules Sequence Discovery
Luật kết hợp • Khai thác luật kết hợp là một tiến trình quan trọng trong khai thác dữ liệu, mục đích của nó là tìm ra các luật tiềm ẩn trong CSDL. • Luật kết hợp dựa trên hình thức X => Y. • LKH có dạng : X ⇒ Y, với X, Y ⊂ I, và X ∩Y ={} • Ý nghĩa : khi X có mặt thì Y cũng có mặt ( với xác suất nào đó)
Luật kết hợp ( Association rule) X là tậpphổbiến • Độ Support: supp(X) = count(X)/|D| • Nếu supp(X) >= minsupp • LKH thường được đánh giá dựa trên 2 độ đo: • Độ phổ biến (support) : supp (X ⇒ Y ) =P (X ∪ Y) • supp (X ⇒ Y ) = supp(X∪Y) • Độ tin cậy (confidence) : conf (X ⇒ Y ) = P(Y | X) • conf (X ⇒ Y ) = supp(X∪Y) / supp(X) • Bài toán khai thác LKH là bài toán tìm tấtcảcác luật dạng: X ⇒ Y (X, Y ⊂ I và X ∩Y = {}) • thỏa mãn độ phổ biến và độ tin cậy tối thiểu supp (X ⇒ Y ) ≥ minsupp conf (X ⇒ Y ) ≥ minconf
Ví dụ: • Xem xét 2 luật milk=> juice và bread =>juice. • Độ phổ biến {milk, juice} is 50% • Độ phổ biến {bread, juice} is 25% • Độ tin cậy của milk juice is 66.7% • Độ tin cậy của Bread juice is 50%
Qui trìnhtìm LKH Input: S (tậpphổbiến), minsup,minconf Output: X (tập LKH) B1 Vớimọi Si Kiểmtranếu sup(Si) < minsupthìloại Si rakhỏi S B2 • Vớimọi Si • Vớimọi A làtập con của Si & A khácrỗng • if(conf (A ⇒ (Si - A)) >= minconf) • thêm A vào X • return X
Một số vấn đề liên quan • Các thuật toán cơ bản dựa trên luật kết hợp. • Thuật toán Apriori. • Thuật toán Sampling. • Thuật toán cây Frequent-pattern. • Thuật toán Phân vùng.
Luật kết hợp trong Hệ phân cấp. • Đólànhữngloạikếthợpđặcbiệtđượcchú ý vìnhữnglí do đặcbiệt. • Nhữngmốikếthợpxảyratronghệthốngcấpbậccủanhữngmẫu tin. Điểnhình, nócóthểchiacácmẫu tin trongđóhệphâncấpđộclậpdựatrêntínhchấttựnhiêncủamiềngiátrị. • Vídụ: thứcăntrongsiêuthịnhữnghạngmụctrongcùngmộttầng hay quầnáotrongmộttiệmđồthểthaođềucóthểđượcphânloạitheolớphoặcphânlớp.
Mối kết hợp phủ định. • Vấnđềđâylàkhaithácmốikếthợpphủđịnhthìkhóhơn so vớikhaithácmốikếthợpngẫunhiên. • Mộtphủđịnhmốikếthợpđượchiểu :”60% kháchhàngmuakhoaitâychiênmàkhôngmuanướcuống” .(Ở đây, 60% tươngứngvớiđộ tin cậydànhcholuậtphủđịnhmốikếthợp.)