1 / 14

Sự cần thiết khai phá dữ liệu

Sự cần thiết khai phá dữ liệu. Sự cần thiết khai phá dữ liệu. Dữ liệu chứa rất nhiều thông tin giá trị, có lợi cho quá trình ra quyết định. Không thể phân tích dữ liệu bằng tay Con người cần tuần lễ để khám phá thông tin có ít. Phần lớn dữ liệu chưa được phân tích.

oki
Download Presentation

Sự cần thiết khai phá dữ liệu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sự cần thiết khai phá dữ liệu

  2. Sự cần thiết khai phá dữ liệu • Dữ liệu chứa rất nhiều thông tin giá trị, có lợi cho quá trình ra quyết định. • Không thể phân tích dữ liệu bằng tay • Con người cần tuần lễ để khám phá thông tin có ít. • Phần lớn dữ liệu chưa được phân tích. • Khai thác dữ liệu ra đời “Giàu thông tin- nghèo tri thức”

  3. Giớithiệu • Khai thác dữ liệu là quá trình không tầm thường của việc xác định các mẫu tiềm ản có tính hợp lệ, mới lạ, có ích và cóthể hiểu được tối đa trong CSDL” – U.Fayyad, …(1996) • Mẫu tiềm ẩn: Là mối quan hệ trong dữ liệu • Những người mua quần tây thì mua thêm áo sơmi • Đàn ông mua tã lót cho em bé thường mua thêm bia

  4. Knowledge Discovery in Database • KDD là quá trình rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong khối dữ liệu lớn • Dữ liệu lớn -> Giải thuật khai thác dữ liệu -> Rút ra tri thức và sử dụng tri thức

  5. Qui trìnhkhái phá tri thức-KDD DM là 1 bướcquantrongtrong qui trình KDD Knowledge 5 Pattern Evaluation 4 Data mining Task relevant data 3 selection Data warehouse 2 Data cleaning 1 Data integration

  6. Mụcđích KTDL Data Mining Descriptive Predictive Classification Regression Sumarization Clustering Prediction Time series analysis Association Rules Sequence Discovery

  7. Luật kết hợp • Khai thác luật kết hợp là một tiến trình quan trọng trong khai thác dữ liệu, mục đích của nó là tìm ra các luật tiềm ẩn trong CSDL. • Luật kết hợp dựa trên hình thức X => Y. • LKH có dạng : X ⇒ Y, với X, Y ⊂ I, và X ∩Y ={} • Ý nghĩa : khi X có mặt thì Y cũng có mặt ( với xác suất nào đó)

  8. Luật kết hợp ( Association rule) X là tậpphổbiến • Độ Support: supp(X) = count(X)/|D| • Nếu supp(X) >= minsupp • LKH thường được đánh giá dựa trên 2 độ đo: • Độ phổ biến (support) : supp (X ⇒ Y ) =P (X ∪ Y) • supp (X ⇒ Y ) = supp(X∪Y) • Độ tin cậy (confidence) : conf (X ⇒ Y ) = P(Y | X) • conf (X ⇒ Y ) = supp(X∪Y) / supp(X) • Bài toán khai thác LKH là bài toán tìm tấtcảcác luật dạng: X ⇒ Y (X, Y ⊂ I và X ∩Y = {}) • thỏa mãn độ phổ biến và độ tin cậy tối thiểu supp (X ⇒ Y ) ≥ minsupp conf (X ⇒ Y ) ≥ minconf

  9. Ví dụ: • Xem xét 2 luật milk=> juice và bread =>juice. • Độ phổ biến {milk, juice} is 50% • Độ phổ biến {bread, juice} is 25% • Độ tin cậy của milk juice is 66.7% • Độ tin cậy của Bread  juice is 50%

  10. Qui trìnhtìm LKH Input: S (tậpphổbiến), minsup,minconf Output: X (tập LKH) B1 Vớimọi Si Kiểmtranếu sup(Si) < minsupthìloại Si rakhỏi S B2 • Vớimọi Si • Vớimọi A làtập con của Si & A khácrỗng • if(conf (A ⇒ (Si - A)) >= minconf) • thêm A vào X • return X

  11. Một số vấn đề liên quan • Các thuật toán cơ bản dựa trên luật kết hợp. • Thuật toán Apriori. • Thuật toán Sampling. • Thuật toán cây Frequent-pattern. • Thuật toán Phân vùng.

  12. Luật kết hợp trong Hệ phân cấp. • Đólànhữngloạikếthợpđặcbiệtđượcchú ý vìnhữnglí do đặcbiệt. • Nhữngmốikếthợpxảyratronghệthốngcấpbậccủanhữngmẫu tin. Điểnhình, nócóthểchiacácmẫu tin trongđóhệphâncấpđộclậpdựatrêntínhchấttựnhiêncủamiềngiátrị. • Vídụ: thứcăntrongsiêuthịnhữnghạngmụctrongcùngmộttầng hay quầnáotrongmộttiệmđồthểthaođềucóthểđượcphânloạitheolớphoặcphânlớp.

  13. Mối kết hợp phủ định. • Vấnđềđâylàkhaithácmốikếthợpphủđịnhthìkhóhơn so vớikhaithácmốikếthợpngẫunhiên. • Mộtphủđịnhmốikếthợpđượchiểu :”60% kháchhàngmuakhoaitâychiênmàkhôngmuanướcuống” .(Ở đây, 60% tươngứngvớiđộ tin cậydànhcholuậtphủđịnhmốikếthợp.)

More Related