440 likes | 680 Views
VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO DỮ LIỆU: KHẢO SÁT LÍ THUYẾT VÀ XÂY DỰNG ỨNG DỤNG. Thực hiện : Nguyễn Minh Hùng – 0712012 Lê Văn Huy – 0712192 GVHD: PGS.TS Đồng Thi ̣ Bích Thủy. 1. Giới thiệu. Nhu cầu tích hợp dư ̃ liệu. 1. Giới thiệu. Mục tiêu của đê ̀ tài :
E N D
VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO DỮ LIỆU: KHẢO SÁT LÍ THUYẾT VÀ XÂY DỰNG ỨNG DỤNG Thựchiện: Nguyễn Minh Hùng – 0712012 LêVănHuy – 0712192 GVHD: PGS.TS ĐồngThị BíchThủy
1. Giớithiệu • Nhucầutíchhợpdữ liệu
1. Giớithiệu • Mụctiêucủađề tài: • Xâydựngkhodữ liệu • Xâydựngquytrìnhtíchhợpdữ liệu • Sử dụngcông cụ mã nguồnmở miễn phí • Dễ triểnkhai • Dễ sử dụng
1.Giới thiệu • Đốitượngvà phạm vi nghiêncứu: • Cáckiếntrúckhodữ liệuđiểnhình • Quytrìnhtíchhợpdữ liệu (ETL) • Công cụ mã nguồnmở PDI • Xâydựngkhodữ liệutừ CSDL củamoodle, file điểmđịnhdạng excel • Xâydựngphầnmềmđónggóiquytrìnhtíchhợpdữ liệutrên HĐH Windows.
2. Cáckiếntrúckhodữ liệu • Kiếntrúc DDS đơn
2. Cáckiếntrúckhodữ liệu • Kiếntrúc NDS + DDS
2. Cáckiếntrúckhodữ liệu • Kiếntrúc ODS + DDS
3. Môhìnhhóađachiều • So sánh CSDL tácnghiệpvà CSDL phục vụ khodữ liệu • Địnhnghĩa: Đâylàkĩthuậtthiếtkếcơsởdữliệuchokhodữliệuđặcbiệtđểhỗtrợtruyvấnđầucuốimộtcáchhiệuquả. [6]
3. Môhìnhhóađachiều • Lượcđồ hìnhsao
3. Môhìnhhóađachiều • Chiều: Cácđốitượngthamgiavàomộtsựkiện hay làngữcảnhcủasựkiệnđó [5] • Dữ kiện: Con sốthểhiệnđộđocủamộtsựkiệngọilàdữkiện[5]
3. Môhìnhhóađachiều • Giảmdạngchuẩnvà phâncấptrênchiều • Mụcđích • Phươngpháp
4. Tíchhợpdữ liệu • Mụcđích • Kếthợpdữ liệutừ nhiềunguồnkhácnhau • Tậptrungdữ liệuđã kếthợpvàomộtkhungnhìnchung
4. Tíchhợpdữ liệu • Quytrìnhtíchhợpdữ liệu
4.1. Rúttríchdữ liệu • Nắmbắtthayđổitrêndữ liệunguồn • Kháiniệm: • Là quá trìnhtheodõicácthayđổitrêndữ liệunguồn • Cậpnhậtdữ liệutươngứngvàohệ thốngđích • Tácdụng: • Giảmảnhhưởnglênhệ thốngnguồn • Giảmthờigianxử lý • Cácphươngpháp: 4 phươngpháp
4.1. Rúttríchdữ liệu • Xử lý dữ liệuđầuvào • Vùngxử lý
4.2. Biếnđổidữ liệu • Kiểmtratínhhợplệ • Làmsạchdữ liệu • Giảinghĩavà ánhxạ dữ liệu • Tạovà quảnlý khóa • Tổnghợpdữ liệu
4.3. Nạpdữ liệu • Nạpvà duy trì cácchiều • Chiềuthayđổichậm • Bảngcầunối • Chiềuthờigian • Nạpdữ kiện • Dữ liệulớn • Thamchiếuđếncácbảngchiều
5. Công cụ Pentaho Data Integration • Cácloạiđốitượngcủa Kettle: • Biếnđổi (transformation)
5. Công cụ Pentaho Data Integration • Cácloạiđốitượngcủa Kettle: • Côngviệc (job)
5. Công cụ Pentaho Data Integration • Cácthànhphầnchính: • Giaodiệnpháttriểnđồ họa
5. Công cụ Pentaho Data Integration • Cácthànhphầnchính: • Bộ lậplịch
5. Công cụ Pentaho Data Integration • Cácthànhphầnchính: • Công cụ dònglệnh (Pan/Kitchen)
6. Xâydựngứngdụngthử nghiệm • Yêucầucủaứngdụng: • Yêucầuphântíchtrêndữ liệu • Yêucầuhệ thống
6. Xâydựngứngdụngthử nghiệm • Danhsáchcácnghiệp vụ
6. Xâydựngứngdụngthử nghiệm • Môhìnhkiếntrúccủaứngdụng
6. Xâydựngứngdụngthử nghiệm • Cấutrúcdữ liệunguồn: cácbảngcầnlấythông tin
6. Xâydựngứngdụngthử nghiệm • Thiếtkế vùngxử lý: • Vùngxử lý dữ liệulấytừ CSDL
6. Xâydựngứngdụngthử nghiệm • Thiếtkế vùngxử lý: • Vùngxử lý dữ liệulấytừ file Cấu trúc tập tin Excel chứa kết quả học tập Cấutrúctập tin Excel chứathông tin vềhọckì, nămhọc
6. Xâydựngứngdụngthử nghiệm • Thiếtkế CSDL chuẩnhóa:
6. Xâydựngứngdụngthử nghiệm • Thiếtkế CSDL củakhodữ liệu
6. Xâydựngứngdụngthử nghiệm • Thiếtkế CSDL củakhodữ liệu • Thiếtkế cácchiềuliênquanđếnthờigian
6. Xâydựngứngdụngthử nghiệm • Thiếtkế CSDL củakhodữ liệu • Lựachọnloạithayđổichậmchocácchiều
6. Xâydựngứngdụngthử nghiệm • Thiếtkế CSDL củakhodữ liệu • Sử dụngbảngcầunốiđốivớichiềuđa trị và đệ quy
6. Xâydựngứngdụngthử nghiệm • Xâydựngquytrìnhtíchhợpdữ liệu
6. Xâydựngứngdụngthử nghiệm • Nắmbắtcácthayđổitrêndữ liệu Lấydữliệumới/thayđổidựatrênthờigian Lấydữliệumới/thayđổibằngcách so sánhkhácbiệtvềgiátrịthuộctính
6. Xâydựngứngdụngthử nghiệm • Xửlíxungđộtvớicácnguồndữliệucùngcấutrúc: • Tạokhóatự nhiênvà khóađạidiện
6. Xâydựngứngdụngthử nghiệm • Xâydựngứngdụngđónggói • Môhìnhcủaứngdụng
6. Xâydựngứngdụngthử nghiệm • Xâydựngứngdụngđónggói • Cácchứcnăng: • Tạo tài khoản người dùng • Cấu hình các nguồn dữ liệu • Cấu hình kho dữ liệu • Cấu hình ngày tháng hệ thống • Cấu hình đường dẫn thư mục chứa Kettle và các tập tin công việc (file job)
6. Xâydựngứngdụngthử nghiệm • Lậplịch: • (hìnhảnhcông cụ lậplịch)
7. Kếtluận • Cáckết quả đạtđược • Thiếtkếhoànchỉnhkhodữliệuphụcvụchomôitrườnghọctậptrựctuyến • Càiđặthoànchỉnhquytrìnhtíchhợpdữliệutừnhiềunguồncóthểloạivàcấutrúckhácnhau • Ứngdụngthửnghiệm
7. Kếtluận • Nhữngvấnđề còntồntại: • Quytrìnhtíchhợpdữliệuchưacókhảnăngtựgiámsát (audit) bằngsiêudữliệu (metadata) • Phầnmềmđónggóichưacóbộlậplịchtíchhợpmàphảisửdụngbộlậplịchcủabênthứ 3
7. Kếtluận • Hướngpháttriển: • Mởrộngkhodữliệuchonhiềuyêucầuphântíchkhác. • Mởrộnghỗtrợtíchhợpdữliệuchonhiềunguồnhệthốnghọctậptrựctuyếnkhác (Sakai, APS…) • Tíchhợpbộlậplịchvàophầnmềmđónggói.